OpenAI、日常タスクを自動化するAIエージェント「Operator」を発表 – ウェブブラウザを自律操作し複雑なタスクを実行

投稿者:

OpenAIが、新しいAIエージェント「Operator」を発表しました。「Operator」は、AIエージェントとして、ウェブブラウザを介して日常的なタスクを自動的に実行する能力を持つ新しいツールです。OpenAIは人工汎用知能(AGI)に向けたステップを5段階としていますが、今回のOperatorはその第3段階の初期のものとして位置づけています。Operatorは多段階のタスクを自律的に処理し、ユーザーの代わりに予約や購入などを行うことができます。

Operatorは新しいモデル「Computer-Using Agent(CUA)」を基盤としており、GPT-4oの視覚機能と強化学習による高度な推論能力を組み合わせています。

このモデルは、グラフィカルユーザーインターフェース(GUI)上のボタンやメニュー、テキストフィールドといった要素を認識してインタラクションできるように訓練されています。Operatorは各段階でスクリーンショットを撮り、それを「見て認識する」ことができ、仮想的にマウスやキーボードを使用してクリックや入力などの操作を行います。

専用ブラウザウィンドウ内で動作し、そのプロセスがサイドバーで視覚的に確認できるため、ユーザーは進行状況やエラー箇所を容易に把握できます。

現在は米国のChatGPT Proサブスクリプション(月額200ドル)のユーザー向けに「リサーチプレビュー」として提供されています。今後、Plusプラン(月額20ドル)や他国のユーザーにも展開予定です。


筆者の視点:兼ねてから予告されていたOpenAIのAIエージェント第1弾が発表されました。昨年11月に米メディア The Information報じたブラウザ開発は、このプロジェクトの準備だったことが明らかになりました。また、機能面では、昨年10月にAnthropicが発表した「Computer Use」とほぼ同じですが、ChatGPT内で仮想ブラウザが動作するため、Operatorの方が設定が簡単で使いやすいのが特徴です。

実際に試したユーザーのレビューを見ると、「確かにすごいが、自分でやれば1分で済む作業が5〜10分かかる」といった声が多く、現時点では実用性に欠けるとの評価が目立ちます。ただし、この辺の動きのスムーズさや速度は改善しやすい部分であり、今後のアップデートに期待できそうです。

また、Operatorの強みは、並列処理が可能な点にあります。単純作業に5分かかるとしても、それを10個同時に進められれば、手間のかかる作業を自動化できるため、忙しい人にとっては現時点でも十分に有用と言えるでしょう。

いずれにせよ、期待されていたOpenAIのAIエージェントがついに形になりました。2025年は、各社が競争しながら「WebをAIが自律的に操作する」エージェント技術が進化していく年になりそうです。