Alibaba Cloud は、新たなマルチモーダル AI モデル「 Qwen2.5-Omni-7B 」を発表しました。このモデルは、テキスト・画像・音声・動画といったさまざまな情報を同時に処理でき、リアルタイムで自然なテキストや音声による応答を生成する能力を備えています。
Qwen2.5-Omni-7B の大きな特徴は、パラメータ数が 70 億( 7B )と比較的コンパクトである点です。これにより、スマートフォンやノートパソコンなどのエッジデバイス上でも動作可能で、クラウドに依存せずに高性能な処理を実現します。その結果、通信遅延の低減やプライバシー保護といった利点が得られます。
技術面では、テキスト生成と言語合成を分離する「 Thinker-Talker アーキテクチャ」を採用し、よりスムーズな応答を可能にしています。また、音声と映像のタイミングを揃える新しい技術「 TMRoPE( Time-aligned Multimodal Rotary Position Embedding )」によって、会話の流れにズレがなく、より自然なやりとりが可能になっています。
性能評価では、マルチモーダル理解と推論力を測るベンチマーク「 OmniBench 」で、Google の Gemini-1.5-Pro(スコア 42.9 )を上回る 56.1 を記録。音声・画像・動画といった各種処理タスクでも、他の競合モデルを上回る結果を示しています。
このモデルは、Hugging Face や GitHub 、そして Alibaba 独自の ModelScope プラットフォームを通じてオープンソースで提供されており、開発者や研究者が自由に利用・カスタマイズ・改良することができます。