FlowithOS、AI エージェントの性能比較で OpenAI・Google を上回る

投稿者:

新しい AI オペレーティングシステム「FlowithOS」が、AI エージェントによるウェブ操作の性能ベンチマークにおいて、OpenAI の Operator や ChatGPT Atlas、Google の Gemini 2.5 Computer Use といった主要モデルを上回る結果を出し、注目されています。開発元の Flowith は、このプラットフォームを単なる AI チャットツールではなく、ユーザーのデジタル作業全体を統合する OS レベルのシステムとして開発しています。

FlowithOS は「世界で初めて AI エージェント専用に設計されたオペレーティングシステム」と位置づけられています。その最大の特徴は、タスク管理、カレンダー、ファイルストレージ、コミュニケーションといった日常的なツールを一つのデスクトップ環境に統合している点です。これにより、複数のアプリケーションを切り替える際に生じる作業の中断や効率の低下を大幅に防ぎます。また、内蔵の AI エージェント「Flowith Assistant」が自然言語の指示を理解し、タスクの自動生成や関連ファイルの紐付けなどを自律的に行います。

その高い性能は、ベンチマークスコアにも明確に表れています。FlowithOS は、主要なテストで平均精度 95.4% を達成しました。特に、最も難易度の高いタスク群においては、ChatGPT Atlas の 75.7% に対して 92.8% という高い精度を記録しています。ウェブ上の情報やサービスを横断してタスクを遂行する際の成功率も 97.7% に達すると報告されており、自然言語によるブラウザ制御を目指す Google の Gemini 2.5 Computer Use さえも上回る結果です。

さらに、実際の使用感に近い報告も挙がっています。例えば、ChatGPT Atlas がログイン画面で止まってしまうような状況でも、FlowithOS は ID やワンタイムパスワード (OTP) を適切に処理し、自律的に作業を継続できるとされています。これは、より実践的な場面でのタスク遂行能力が高いことを示しています。

現在、FlowithOS のベータ版が公開されており、主に Mac ユーザー向けに提供されている模様です。このシステムの登場は、AI エージェントが人間の指示をより深く解釈し、複雑なウェブタスクを自律的にこなす能力の新たな基準となるかもしれません。個人の生産性向上から企業の業務自動化まで、幅広い分野での活用が期待されます。