中国の大手テクノロジー企業 Alibaba が、視覚と言語を統合した先進的なマルチモーダル AI モデル「 Qwen2.5-VL 」を発表しました。このモデルは、テキスト、画像、動画など複数のデータ形式を高度に処理し、さまざまな分野での応用が期待されています。
Qwen2.5-VL の主な特徴は、高いマルチモーダル処理能力にあります。画像内のオブジェクト認識や長時間動画の分析、文書解析など幅広いタスクに対応可能で、例えば 1 時間以上の動画から関連する質問に答えたり、特定のシーンを秒単位で特定したりすることができます。
また、このモデルは PC やスマートフォンのユーザーインターフェースを認識し、アプリケーションの操作を自動化する機能も備えています。
技術面では、動的な解像度とフレームレートトレーニングを採用した「ダイナミックな視覚エンコーダー」により、動画理解能力と処理速度が向上。30 億 ( 3B ) から 720 億 ( 72B ) パラメータまでの大規模モデルが用意され、用途に応じて選択が可能です。
Qwen2.5-VL は内部ベンチマークで OpenAI の GPT-4o や Anthropic の Claude 3.5 Sonnet 、Google の Gemini 2.0 Flash など主要な競合を上回る性能を示しており、特に数学的問題解決や文書解析、動画理解の分野で優れた結果を出しています。
このモデルは Alibaba Cloud の「 Qwen Chat 」やオープンソースで利用可能です。