x.AIがマルチモーダル言語モデル「Grok-1.5Vision」を発表

x.AIは言語モデル「Grok」の新しいアップグレード版「Grok-1.5Vision」を発表しました。このバージョンはテキストだけでなく、図表やドキュメント、チャートなど様々なタイプの視覚データを理解し処理する「マルチモーダル」機能を備えています。

Grok-1.5Vはデジタル世界と物理世界をつなぐことを目指し、数学、図表の理解、テキストベースの画像解析、チャート分析、ドキュメント解釈など多岐にわたる情報の処理能力を持っています。特に「RealWorldQA」というx.AIが設計した新しいベンチマークで、現実世界の画像理解と空間推論において、GPT-4VやClaude 3、Sonnet、Gemini Pro 1.5など他のモデルを超える成果を上げています。

x.AIはAIアシスタントが現実の物理世界を理解することの重要性を強調しており、Grokのマルチモーダル機能を画像、音声、動画にわたってさらに改善する計画です。現在プロジェクトチームを拡大して取り組みを進めています。

Grokはオープンソースモデルであり、今回の「Vision」アップグレードにより、業界での競争力を示しています。イーロン・マスク氏が率いるXとTeslaが持つ豊富なデータと業界への強い意欲を考えると、Grokには今後さらに注目が集まるでしょう。