中国の大手テック企業 Tencent は 9 月 28 日、テキストから画像を生成する AI モデル「 HunyuanImage 3.0 」をオープンソース化しました。同社によると、このモデルは DALL·E 3 や Midjourney などの業界トップレベルのクローズドソースモデルと同等以上の性能を持つとされています。
HunyuanImage 3.0 は総パラメータ数 800 億(80B)を持ち、世界最大規模のオープンソース画像生成モデルとなりました。自己回帰フレームワークを採用し、テキストと画像の理解・生成を一つのシステムで処理できる点が特徴です。さらに、64 のエキスパートを持つ大規模 MoE(Mixture of Experts)構造により、トークンあたり 130 億(13B)パラメータを活性化し、高い性能を実現しています。
性能面では、データセットの精選と強化学習( RLHF )の活用により、意味の正確性と視覚的な品質のバランスに優れています。ユーザーが簡潔なプロンプトを入力しても、モデルがその意図を深く解釈して視覚的に豊かな画像を生成します。また、中国語だけでなく英語にも対応しており、多言語での利用が可能です。
ベンチマーク評価では高いスコアを記録しています。機械評価の SSAE では、12 のカテゴリ、3500 のキーポイントで画像とテキストの整合性を測定し、優れた結果を示しました。人間評価の GSB でも、100 人以上の専門家による評価で、主要なクローズドソースモデルを上回る評価を得ています。
モデルは Hugging Face と GitHub で公開されており、誰でもダウンロードできます。ただし、利用には Linux OS、NVIDIA GPU( CUDA 対応)、170GB 以上のディスク容量、3×80GB 以上の GPU メモリが必要です。