Alibaba、マルチモーダル AI モデル「Qwen3.5-Omni」を公開

投稿者:

中国 IT 大手 Alibaba の AI 開発チームは 2026 年 3 月 30 日、文字・画像・音声・動画をまとめて扱える AI モデル「Qwen3.5-Omni」を公開しました。同社にとって 6 週間で 2 度目となる大型 AI リリースです。

モデルは用途に応じて Plus・Flash・Light の 3 種類が用意されています。上位の Plus は非常に長い文章や会話の文脈を一度に保持できる設計で、 10 時間を超える音声や 400 秒以上の動画を処理する能力を持ちます。音声や動画の理解は後から機能を追加したものではなく、 1 億時間超の音声・映像データを使って最初から学習させた点が特徴です。

モデルの内部は「考える役割」と「話す役割」の 2 つの部分に分かれており、それぞれが連携しながら動作します。この構造により、動画を見ながら音声でやり取りするような複雑な処理でも、応答が途切れにくい設計になっています。

注目すべき点として、学習を通じて予期せず生まれた「見て・聞いてコードを書く」という能力があります。たとえばカメラに向けた手書きのスケッチを、動作するウェブページに変換したり、口頭の説明と動画だけを手がかりにゲームを作成したりといったデモが公開されており、開発チームも当初は想定していなかった能力だったとしています。

音声認識は 113 の言語・方言に対応し、音声での返答は 36 言語で可能です。聞き取り精度を測る評価では、競合サービスである GPT-Audio や ElevenLabs を上回る結果を出しています。会話中に相手が本当に話しかけているのか、それとも相槌を打っているだけなのかを判断する機能も備えており、より自然な対話が可能です。

ただし、今回のリリースは API 経由での有料提供のみとなっており、これまで Alibaba が続けてきたソースコード公開の方針を転換した形です。同社の AI モデルを活用して独自サービスを開発してきた世界中の 29 万人以上の開発者への影響が懸念されます。加えて、 AI 部門では 2026 年に入りモデル開発の責任者を含む幹部 3 名が相次いで退社しており、今後の開発体制にも関心が集まっています。