GoogleはGemini2.0の発表に合わせて、ブラウザベースのAIエージェント「Project Mariner」を発表しました。これは、Chromeを通じてユーザーに代わってウェブ上のタスクを実行することを目的とした研究プロトタイプです。これは、先日発表されたAnthropicの「Computer Use」に類似した機能、となっています。
Project MarinerはGemini 2.0を基盤とし、実際のウェブナビゲーションタスクにおいて83.5%という高い精度を達成しています。このAIエージェントは、ブラウザ上の、テキスト、画像、ボタンなどのインタラクティブな構成要素を理解し、操作する能力を持っており、ユーザーの指示に基づいてウェブページを操作し、リンクをクリックしたり、情報を収集したりすることができます。
現在のところ、ユーザーはAIエージェントが作業を行う様子をブラウザのアクティブタブで監視する必要がありますが、将来的には完全な自動化が期待されています。また、クレジットカード情報の入力や決済処理、Cookieの承認やサービス利用規約への同意などは自動では実行できないなど、セキュリティと安全性にも配慮がなされています。
Project Marinerはまだ初期の研究プロトタイプであり、現在は限られたテスターによって試験運用されています。Googleはこのプロジェクトを通じて、例えば、オンラインショッピングや旅行予約、レシピ検索などの日常的なタスクを自動化することを目指しています。
AGI(Artificial General Intelligence)をどのように定義するかは議論の分かれるところですが、最初期のものとして、人間に変わってブラウザ上の情報をもとに自動で判断し、操作する、というものが志向されていて、AnthropicやMicrosoftも同様の方向を目指し、それぞれプロトタイプを発表しています。
今回のGoogleのProject Marinerも、同様に、AIが単に依頼されたことに答えるだけでなく、ある程度自分で判断をしながら作業をしてくれる「AIエージェント」に進化できるかどうか、の試金石となりそうです。
楽しみにして、正式なリリースを待ちたいと思います。