Microsoft は、同社の AI アシスタント「 Copilot 」の新機能「 Copilot Vision 」を米国の Copilot Pro ユーザー向けに Windows 上で展開し始めました。この機能は、ユーザーが Microsoft Edge ブラウザで閲覧しているウェブページを AI が「見る」ことができ、リアルタイムでユーザーと対話することを可能にします。
Copilot Vision は、Web ページ上のテキストや画像を読み取り、ユーザーの質問に答えたりタスクを支援したりします。例えば、オンラインショッピング中に製品のレコメンドをしたり、旅行計画の際に関連情報を提案したりすることができます。ユーザーが自然言語で話しかけることで、AI が即座に応答し、必要な情報やアクションを提供します。
この機能は完全にオプトインで提供されており、ユーザーが明示的に許可しない限り、Copilot Vision はウェブページを読み取ることはできません。また、セッション終了後にはすべてのデータが削除され、AI のトレーニングに使用されることはありません。
現在、Copilot Vision は一部の人気サイトでのみ機能し、支払い や「センシティブ」なコンテンツには対応していませんが、Microsoft は徐々にサポートされるサイトのリストを拡大していく予定です。
画面に表示されている情報を元にユーザーとインタラクションをする方向は、AI エージェントの一つの方向性となっていて、OpenAI、Google DeepMind、Anthropic などがそうした機能を提供しています。いずれもまだ動作は不安定で、安定的に動くものはないのですが、2025 年中にはそうしたエージェントが機能してくるものと思われます。