Alibaba、マルチモーダルLLM「Qwen2-VL」を開発 – 一部指標でGPT-4oやClaude 3.5 Sonnetを上回る

投稿者:

中国のテクノロジー大手Alibabaが、Qwen2-VLという、画像や動画も理解できる最新のマルチモーダルAIモデルを開発しました。このモデルは、高度な画像認識、長時間の動画分析、AIエージェント機能、多言語サポートなどの特徴を持ち、一部の指標ではOpenAIのGPT-4やAnthropicのClaude 3.5 Sonnetをも凌駕しています。

Qwen2-VLは、AlibabaのDAMO Academyが開発した、以前のQwen-VLモデルを大幅にアップグレードしたものです。様々な画像や20分以上の動画も理解でき、高品質な質問応答や対話を実現しています。

また、複雑な推論や意思決定も可能で、モバイルデバイスやロボットなどと連携して、視覚情報に基づいた自動操作を行うAIエージェントとしても機能します。英語と中国語に加え、日本語を含む多くの言語をサポートしています。

Qwen2-VLは、3つのパラメータサイズのモデルで提供され、7Bと2Bモデルはオープンソースで商用利用も可能です。72Bモデルは、視覚理解ベンチマークで最先端の性能を達成しています。

Alibabaは、さらに強力なモデルの構築と、より多くの種類の情報を扱えるAI、いわゆる「オムニモデル」の開発を目指しています。

今回の発表は、中国のAIモデルがアメリカに追いついてきていることを示しており、視覚言語モデル技術における重要な進歩と言えるでしょう。