Google Labsは、最新のAIモデル「Imagen 3」と「Gemini」を組み合わせた新しい実験的AIツール「Whisk」を発表しました。このツールは、画像を使った直感的なビジュアル生成とリミックスを可能にします。
Whiskの特徴は、従来のテキストプロンプトを中心とした画像生成ツールとは異なり、画像をプロンプトとして使用できることです。ユーザーは、生成する画像の主題となる要素(Subject)、背景や環境(Scene)、デザインやアートスタイル(Style)の3つの要素を画像で指定することで、新しいビジュアルを生成できます。これらの要素をドラッグ&ドロップで指定するだけで、Whiskがそれらを組み合わせて新しい画像を生成します。
Whiskの仕組みは以下のようになっています。まず、Geminiモデルが入力された画像を解析し、詳細なキャプション(テキスト説明)を自動生成します。そのキャプションがImagen 3モデルに入力され、最終的な画像が生成されます。このプロセスでは、入力画像の「本質」を捉えることを重視しており、元の画像をそのまま再現するのではなく、独自の解釈を加えた新しいビジュアルを作り出します。
Whiskは、テキスト入力が不要で画像をドラッグ&ドロップするだけで簡単に操作可能であり、被写体、シーン、スタイルを自由に組み合わせることでユニークな画像を生成できます。生成された画像が期待と異なる場合は、基となるテキストプロンプトを編集する機能も提供されており、ユーザーが結果を微調整できます。
現在、WhiskはGoogle Labsを通じてアメリカ国内のユーザー向けに提供されています。
先日のNotebookLMの時にもご紹介しましたが、Googleは研究者の週に2割の時間を使って自分の好きな研究を進めていい、という「20% Time」制度があります。創業当初からこの制度は設定されており、Gmailも当初はこの制度の産物でした。近年は研究者の業務が多忙になり、形骸化した制度となっているようでしたが、AIが登場してからは積極的に奨励されているようで、GoogleのAI Labsにはそうしたプロジェクトが多数紹介されています。今回のWhiskも(正式に発表はありませんが)そうした時間を使って作られた物ではないかと思います。