Google DeepMind は 2026 年 6 月 24 日、AI モデル「Gemini 3.5 Flash」に PC やスマートフォンを自律的に操作する機能「Computer Use」を組み込んだと発表しました。現在はテスト段階の公開となっており、一般提供には至っていません。
Computer Use とは、AI が画面を見ながらボタンのクリックや文字入力、フォームへの入力といった操作を自動で行う技術です。これまでは専用の別モデルが必要で、開発者が複数のシステム間でデータを手動で受け渡す手間がかかっていました。今回の統合により、一つのモデルが考えて動くまでをまとめて担えるようになっています。
処理できる情報量も大幅に増え、一度に扱えるデータ量は従来の約 8 倍にあたる 100 万トークンになりました。長時間にわたる業務の自動化や、複数のアプリをまたいだ作業への対応が現実的になっています。また、AI が操作のたびに「なぜその行動をとったのか」を説明するようになったため、動作の透明性も向上しています。
性能を測る標準的なテスト( OSWorld-Verified )では 78.4 点を記録しており、前世代(65.1 点)から大きく改善しています。競合の GPT-5.5 が 78.7 点でほぼ同水準です。1 位の Claude Fable 5(85.0 点)、2 位の Claude Opus 4.8(83.4 点)には差があります。
コスト面では、入力 100 万トークンあたり $1.50(約 225 円)、出力 100 万トークンあたり $9(約 1,350 円)と、GPT-5.5 の約 3 分の 1 の水準です。これまでは大企業向けとされていた自動化ツールが、中小規模の企業や個人開発者でも導入しやすい価格帯になってきています。
さらに、Web 検索や Google マップといった機能も同じ操作のなかで呼び出せるため、画面を確認しながら情報を調べ、場所を特定するといった複合的な処理を一貫して行えます。
セキュリティの観点では、外部からの不正な指示を紛れ込ませる攻撃(プロンプトインジェクション)への対策として、重要な操作の前に人間が確認するステップを設けたり、不審な指示を検知したら自動で停止したりする仕組みが用意されています。ただし、こうした攻撃手法は業界全体で完全な解決策がまだ存在しておらず、Google 自身も重要な判断や機密情報を扱う場面では人間が関与することを推奨しています。
企業向けの業務自動化プラットフォームを手がける UiPath などが早期の導入パートナーとして名を連ねており、日常的な業務の効率化に向けた活用が期待されています。
