OpenAI、GPT-4o に高精度な画像生成機能を実装

OpenAI が GPT-4o モデルを利用した画像生成機能を発表しました。この新機能により、ChatGPT はテキストと画像を統合して、より正確で文脈に応じた画像を生成できるようになります。このアップデートは 2025 年 3 月 25 日に発表され、翌 26 日に広く話題となりました。

これまで OpenAI の ChatGPT では、テキスト生成は GPT モデルが担当し、画像生成は DALL-E という別のモデルに依存していました。今回のアップデートで GPT-4o にネイティブな画像生成機能が統合され、ChatGPT 内でテキストと画像をシームレスに扱えるようになりました。また、OpenAI のビデオ生成ツールである Sora にもこの機能が拡張されています。

GPT-4o の画像生成機能の主な特徴として、高い精度とコンテキスト理解力が挙げられます。正確なテキストを画像内に埋め込んだり、会話の文脈を反映した一貫性のあるビジュアルを生成したりできます。特にメニューやダイアグラム、インフォグラフィックなどの実用的なビジュアル生成に優れています。

また、ユーザーがアップロードした画像を基に、テキストプロンプトで編集を指示することも可能です。写真に特定のオブジェクトを追加したり、スタイルを変更したりするなど、柔軟なカスタマイズができます。さらに、GPT-4o は 10～20 の異なるオブジェクトを含む複雑なシーンを生成する能力があり、他の AI モデルが 5～8 オブジェクトで限界を迎えるのに対し、優れたパフォーマンスを発揮します。

この機能は、ChatGPT の Plus、Pro、Team、無料の全ユーザーに順次段階的に展開されており、Sora でも利用可能です。企業や教育機関向けのプランにも近日中に対応予定で、幅広い層がアクセスできる点が特徴です。ただし、無料ユーザーへの完全なロールアウトは需要の急増により遅れる可能性があると、CEO のサム・アルトマン氏が述べています。

なお、OpenAI は不適切なコンテンツの生成を防ぐための制限を強化しており、生成画像には AI 識別用のメタデータ（C2PA）が埋め込まれ、セキュリティと透明性が確保されています。

筆者の視点：2 週間ほど前には、Gemini 2.0 も画像生成と大規模言語モデル（ LLM ）を統合したモデルを発表しており、プロンプトの理解力や画像の一部を編集する機能の優秀さが話題となっています。そして今回、OpenAI も同様に、基盤モデルに画像生成と画像処理の機能をネイティブに統合する方向性を示しました。

これまでは、テキスト処理用のモデルと画像処理用のモデルが分かれており、用途に応じてそれぞれを切り替えるような作りになっていました。しかし今後は、こうした複数のモーダルを統合したモデルが主流になっていくと見られます。