「Alibaba、視覚的推論に特化したオープンソースAIモデル「QVQ-72B」を発表」

Alibaba Cloudは、視覚的推論能力を強化した新しい実験的オープンソースAIモデル「QVQ-72B-Preview」を発表しました。同モデルは、Alibaba AI研究チーム「Qwen」によって開発され、画像とテキストの両方を統合的に処理する能力を持っています。

QVQ-72Bの特徴的な機能は、視覚とテキストの統合推論能力です。従来の画像認識やテキスト解析に特化したモデルとは異なり、両者を組み合わせて複雑なタスクに対応することができます。特に数学や物理学などの科学的問題において、画像情報を基に段階的な推論を行い、人間のような思考プロセスで解を導き出すことが可能です。

ベンチマークテストでは、大学レベルのマルチモーダル理解を測定するMMUで70.3%、視覚を用いた数学的推論を評価するMathVista (mini)で71.4%のスコアを達成。これらの結果は、GPT-4oに迫る性能であり、一部の指標ではOpenAIのモデルを上回っています。

QVQ-72Bは、Qwenライセンスの下でオープンソースとして公開され、Hugging Faceなどのプラットフォームに掲載されています。これにより、研究者や開発者が最新のAI技術に自由にアクセスし、共同で開発を進めることが可能となっています。

応用分野としては、複雑な図表の解釈や学術的な分析を支援するツールとしての教育分野での活用や、ビジネスインテリジェンスから医療診断まで、多様なデータ形式を統合して洞察を得るマルチモーダル分析への活用が期待されています。