GoogleのDeepMindが開発したビデオゲームをプレーするAIエージェント「SIMA」が注目を集めています。SIMAの最大の特徴は、新しい環境に入った際の適応力の高さです。事前の説明がなくても、3Dビデオゲームの世界で優れた動きを見せることができます。
SIMAは、ゲームに映し出される画面の映像と指示だけで、その内容を理解し適切な行動を取ります。これは、様々なビデオゲームを観察し、人間のプレイヤーの行動とその説明を記録したデータを学習した成果です。
SIMAの開発目的は、ゲームで高得点を取ることではありません。むしろ、多様な環境で指示を理解し、実際の世界で役立つAIシステムを作ることが目標とされています。
SIMAは、「No Man’s Sky」や「Teardown」など、様々なゲームを使ってトレーニングを積んでいます。視覚情報と言葉の理解を組み合わせて、ゲーム内の指示を実行します。現在は単純なタスクをこなせる程度ですが、学習をしていない未知のゲームに突然放り込まれても、他のゲームで学習した内容を応用してプレーを進めることができるようになった、とのことです。
今後は、高度な計画に基づいた複雑なタスクへの挑戦を目指し、大規模言語モデル(LLM)の計画立案能力をリアル世界での行動実行能力に融合することを目指しています。こうしたトレーニングを積み重ね、モデルが習熟度を増すことで、実世界においてAIとロボティクスの融合が進むと期待されています。
DeepMindの親会社であるGoogleは、OpenAIと同じくロボティクスの分野に進出しようとしていると見られており、SIMAはその準備の一環と捉えることができます。ロボットが変化し続ける現実の環境の中で的確な行動を取るには、SIMAが見せているような高い適応力が欠かせないからです。
SIMAの技術が、将来、現実世界でどのように活用されていくのか、大きな期待が寄せられています。