中国の IT 大手 Alibaba は 2025 年 6 月 27 日、 OpenAI の ChatGPT-4o に対抗する新しいマルチモーダル AI モデル「 Qwen-VLo 」を発表しました。このモデルは、文章や画像から高品質な画像を作り出したり編集したりできるクリエイティブ AI として開発され、世界市場での競争力強化を目指しています。
Qwen-VLo の大きな魅力は、文章から画像を作ることと画像の編集の両方ができることです。ユーザーは「ロボット犬の画像を作って」「この写真に木を追加して」といった普通の言葉で指示するだけで、新しい画像を作ったり既存の画像を思い通りに変更したりできます。
特に画期的なのが「プログレッシブ生成」という機能です。従来の AI は画像を一気に作り上げていましたが、 Qwen-VLo は左から右、上から下へと段階的に画像を構築していきます。そのため、ユーザーは画像ができあがっていく過程をリアルタイムで見ることができ、途中で「ここはもう少し明るくして」などの調整も可能です。
画像編集では、元の画像の雰囲気や構造を壊すことなく、必要な部分だけを自然に変更できます。これまでの AI では「一部を変えたら関係ない場所まで変わってしまった」という問題がよくありましたが、 Qwen-VLo ではそうした心配が大幅に減りました。
使える画像サイズも豊富で、正方形( 1:1 )から横長( 16:9 )、縦長( 3:4 )、さらには極端に細い横長( 4:1 )や縦長( 1:3 )まで、用途に応じて様々な形の画像を作ることができます。
多言語対応にも優れており、英語や中国語など複数の言語で指示を理解できるため、世界中のユーザーが利用できます。また、画像の輪郭検出や領域分割といった技術的な分析機能も備えているため、単なるクリエイティブ用途だけでなく、データ分析や研究分野でも活用が期待されています。
他社の AI との違いも明確です。 ChatGPT-4o は何度もやり取りを重ねて画像を改善していく方式ですが、 Qwen-VLo は生成している最中にリアルタイムで調整できるため、クリエイティブ作業での使い勝手が格段に良くなっています。処理速度も Google の Imagen 2 や ChatGPT-4o より速く、一度により多くの処理ができるようになっています。
誰でも手軽に試せるのも大きな特徴で、 Alibaba の Qwen Chat プラットフォームでアカウント登録なしに無料で利用できます。ポスターやイラスト、ウェブサイトのバナー、 SNS 用の画像など、様々な用途で活用でき、デザイナーやマーケティング担当者、教育関係者、コンテンツ制作者にとって強力なツールとなりそうです。
Alibaba はこのモデルをオープンソースとして公開することで、世界中の開発者が独自のクリエイティブツールやアシスタントアプリを作れるようにし、 AI を使ったサービスの裾野を広げようとしています。
ただし、同社も認めているように、 Qwen-VLo はまだプレビュー段階で、時々指示通りにならなかったり、画像に不自然な部分が生じたりすることがあります。複数の画像を組み合わせるような高度な機能は、今後のアップデートで改善される予定です。