Google DeepMind が Gemini Robotics を発表、AI が事前トレーニングなしで実世界タスクを遂行

Google DeepMind は 2025 年 3 月 12 日、ロボットが特別なトレーニングなしで現実世界のタスクを実行できる新しい AI モデル「 Gemini Robotics 」と「 Gemini Robotics-ER 」を発表しました。これらは Gemini 2.0 を基盤とした革新的なモデルで、AI のデジタル世界から物理世界への拡張を実現します。

Gemini Robotics は「視覚 – 言語 – 動作（ VLA ）」モデルとして、Gemini 2.0 に「物理的行動」という出力機能を追加したもので、3 つの重要な特性を備えています。第一に「汎用性」で、事前トレーニングなしでも新しい状況や環境に適応し、未知のタスクを遂行できます。第二に「対話性」で、自然言語での指示を理解し、環境の変化に応じて動作を調整します。第三に「器用さ」で、折り紙を折るなど精密な操作が可能です。

一方、Gemini Robotics-ER は「身体的推論（ Embodied Reasoning ）」に特化したモデルで、空間認識と論理的推論能力に優れています。3D 空間での物体の位置や動きを正確に把握し、それに基づいて計画を立てられます。例えば、コーヒーマグを見たとき、取っ手を適切につかむ方法を即座に判断し、安全な軌道で近づくことができます。

Google DeepMind のデモでは、これらのモデルを搭載したロボットが「テーブルの黄色いバスケットにバナナを入れる」といった自然言語指示を受け、即座に実行する様子が紹介されました。バスケットが移動しても適応して動作を続ける柔軟性も示されています。

これらのモデルは複数のロボットプラットフォームでテストされており、特にヒューマノイドロボット「 Apollo 」を開発する Apptronik との提携が進行中です。また、Boston Dynamics や Agility Robotics などの企業もテストに参加しています。

安全性についても、「 ASIMOV 」というデータセットを活用し、ロボット行動の安全性評価を行っています。Isaac Asimov のロボット工学三原則に着想を得たモデルにより、ロボットが人間の利益を優先する設計となっています。

現在はまだ「初期探査段階」とされており、実用化に向けてさらなる開発が進められています。将来は家庭での日常的なサポートから産業用途まで、幅広い分野での活用が期待されています。