中国の AI スタートアップ DeepSeek が、新たにオープンソースの画像生成 AI モデル「 Janus-Pro 」を発表しました。このモデルは、OpenAI の DALL-E 3 や Stable Diffusion XL といった主要な競合を上回る性能を持つと評価されています。
Janus-Pro は、テキストから画像を生成するだけでなく、画像入力も処理可能なモデルです。画像理解と生成のプロセスを分離する「デカップリングアーキテクチャ」を採用しており、効率性と柔軟性を向上させることに成功しています。
ベンチマークテスト( GenEval や DPG-Bench )において、DALL-E 3 や Stable Diffusion よりも高いスコアを記録しており、単一オブジェクトの生成では 99% の精度を達成しました。Janus-Pro は MIT ライセンスで公開されており、商業利用も含めて誰でも自由に利用・改良が可能です。この点が特に注目されており、研究者や開発者に新たな選択肢を提供しています。
現時点では生成できる画像の解像度が 384×384 ピクセルに制限されており、人物画像の生成にも改善の余地があることが課題として挙げられています。しかし、その性能とオープンソース性によって、業界に大きな影響を与えています。
筆者の視点:中国 DeepSeek の勢いが止まりません。
年末には GPT-4o に匹敵する V3 を発表し、先々週には o1 に対抗する R1 を公開、さらに今回は画像生成モデルを発表しました。今回のモデルは解像度の低さや、画像生成分野は評価がどうしても主観的になることなどから衝撃度はやや控えめですが、それでも推定される開発費の驚異的な低コストに対し、十分に高精度な画像生成 AI を実現していることは確かです。
これまで「中国がアメリカに追いつくには数年かかる」などと豪語していたアメリカのアナリストたちは、状況の急変に青ざめています。