マスク氏の人工知能企業 xAI は、同社初のマルチモーダル AI モデル Grok-1.5V の発売を発表した。 Grok は、強力なテキスト処理機能に加えて、ドキュメント、グラフ、スクリーンショット、写真などを含むさまざまな視覚情報も処理できます。複数の分野でのベンチマーク テストにおいて、Grok-1.5V のパフォーマンスは既存の最先端のマルチモーダル モデルに匹敵します。特に、xAI によって開始された新しい RealWorldQA ベンチマーク テストでは、Grok は現実世界の空間理解能力において同様のモデルを上回りました。 RealWorldQA データセットには 700 を超える画像が含まれており、マルチモーダル モデルによる物理世界の基本的な理解を評価するように設計されています。 Grok-1.5 は、早期テスターと既存ユーザーが間もなく利用できるようになります。
全てのコメント