カンファレンス・調査報告 ベンチマーク

フリーランス作業の自動化を測るRLI ベンチマーク:8か月で AI による自動化率が6倍に上昇

フリーランス作業の自動化を測るRLI ベンチマーク:8か月で AI による自動化率が6倍に上昇
文字サイズ

AI 研究機関の Scale AI と Center for AI Safety(CAIS)が共同で開発したベンチマーク「Remote Labor Index(RLI)」において、Anthropic の最新モデル「Fable 5」が自動化率 16.1% を達成し、これまでの最高記録を大きく更新しました。

RLI は、実際のフリーランス市場で発注されるような仕事を AI にそのまま実行させ、その成果物がどれだけ実務で使える水準に達しているかを測る評価指標です。対象には、3D ジュエリーデザイン、動画広告の制作、間取り図の作成など 240 件の案件が含まれています。

これらの案件を合計すると、作業時間は 6,000 時間超、報酬総額は 14 万ドル以上(約 2,100 万円)に相当します。1 件あたりの平均作業時間は約 11.5 時間、単価の中央値は 200 ドル(約 3 万円)で、いずれも人間のプロが実際に受注するような水準の仕事です。採点は、AI が生成した成果物を人間の評価者がプロの作品と比較する形で行われます。

RLI が公開された 2025 年 10 月時点では、トップモデルでも自動化率は 2.5% にとどまっていました。しかし、その後 8 か月足らずで Fable 5 は 16.1% を記録し、スコアはおよそ 6 倍に上昇しています。

2 位の Opus 4.8 は 8.3%、3 位の GPT-5.5 は 6.3% であり、Fable 5 は後続モデルを大きく引き離す結果となりました。AI による実務タスクの自動化能力が、短期間で大きく進展していることを示しています。

一方で、現時点ではプロ水準に達した成果物は約 6 件に 1 件にとどまっている点にも注意が必要です。失敗の内訳を見ると、品質不足が 45.6%、作業が途中で止まってしまうケースが 35.7%、ファイル破損や形式の誤りといった技術的な問題が 17.6% を占めています。

特に、複数のツールを使い分けながら細かな指示を処理するような複雑なタスクでは、失敗率が高くなる傾向があります。AI が一定の成果を出せる領域は広がっているものの、安定してプロ品質の成果物を出すには、まだ課題が残っています。

こうした結果を踏まえると、AI が今すぐ人間の仕事を丸ごと置き換えるというよりも、人間の作業を補助し、生産性を高める段階にあると見るのが現実的です。

CAIS は今後も主要モデルのリリースに合わせて RLI を更新し、AI による労働自動化の進捗を継続的に公表していく予定です。今回の結果は、AI の実務活用が着実に前進している一方で、完全自動化にはなお距離があることを示す重要な指標といえます。