ヒューマノイドロボットを手掛けるFigure社は、ロボット向けの最新AIモデル「Helix(ヘリックス)」を発表しました。このモデルは、視覚と言語、さらに行動を統合する「Vision-Language-Action(VLA)」システムとして設計され、ロボットを家庭内に導入する実用化に向けて、着実に前進しています。
Helixの大きな特徴は、人間の認知プロセスを模したデュアルシステムアーキテクチャです。7億パラメータを使用した「視覚‐言語モデル」(システム2)が高度な理解や計画(ゆっくり考える)を担当し、より少ない8000万パラメータを使用した「視覚‐運動ポリシー」(システム1)が具体的な動作を実行します。この両システムの連携により、「ゆっくり考える」戦略的判断と「素早く動く」実践的動作が同時に可能となっています。
実際のデモでは、2台のロボットが協力して未知の食料品を整理する様子が披露され、初めて見る物体にも適切に対応できる「ゼロショット汎化能力」が実証されました。また、ロボットの上半身全体(35の可動域)を連続的かつ高頻度に制御できる点も革新的な特徴です。
Figure社のCEO、ブレット・アドコック氏は、大規模言語モデル(LLM)がコモディティ化する中で、ロボティクスの本質的な課題はそれを超える統合技術にあると指摘。2025年を転換点と位置づけ、BMWなどとの工場でのパイロット運用を進めながら、最終的には一般消費者市場(家庭内)への展開を目指しています。
現在のところ、想定価格が高くなってしまうなど課題は残るものの、Helixの登場により家庭での実用的なロボット活用が一層現実味を帯び、今後の技術革新と市場展開への期待が高まっています。