Google は 2025 年 3 月 12 日、大規模言語モデル「 Gemini 2.0 Flash 」に画像生成機能を実験的に追加したことを発表しました。この新機能では、テキストと画像を単一の AI モデル内で統合し、テキストプロンプトだけで画像の生成や編集が可能になりました。
これまでの AI 画像生成では、言語モデルと画像生成モデルを別々に連携させる必要がありましたが、Gemini 2.0 Flash では単一のフレームワーク内で完結します。米国の主要テクノロジー企業として初めて、単一モデル内でマルチモーダル画像生成機能を消費者に直接提供する画期的なケースとなっています。
特筆すべき機能として、会話を通じた対話的な画像編集があります。ユーザーは自然言語で指示するだけで、画像内の物体の削除・追加、カラーリングの変更、背景の入れ替えなどが可能です。さらに、カメラアングルの変更機能もあり、正面を向いている人物を横から映すといった視点の移動も実現しています。
また、他の AI 画像生成モデルが苦手とする長いテキストのレンダリングや、ストーリーテリング時のキャラクターと設定の一貫性維持にも優れています。例えば、「チョコレートチップクッキーのレシピを教えて、各ステップの画像も付けて」と頼むと、テキストと画像が統合された応答が得られます。
現在、この機能は Google AI Studio と Gemini API を通じて「 gemini-2.0-flash-exp 」として実験的に提供されています。デスクトップ版の Google AI Studio では、モデル選択画面の「 preview 」セクションから選択し、出力形式を「 Images + text 」に設定することで利用可能です。