AI 研究機関である METR が発表した最新研究で、 AI アシスタントを使用することで熟練したソフトウェア開発者がリアルなコーディングタスクの完了に、逆に時間がかかってしまうという驚きの結果が明らかになりました。
この研究では、 16 人の経験豊富なオープンソース開発者(平均 5 年以上のプロジェクト経験)が参加し、合計 246 の実際のタスク(バグ修正、機能追加、リファクタリングなど)に取り組みました。タスクごとに AI ツールの使用が許可されるか否かをランダムに割り振り、主に Cursor Pro と Claude 3.5/3.7 を使用して作業時間を比較しました。
参加者は AI 使用により「約 24% 早くなる」と予測し、タスク終了後も「約 20% 速くなった」と感じていました。しかし実際には、 AI 使用時のタスク完了にかかる時間は非使用時よりも 19% 長くなるという結果となりました。この認識と現実のギャップは非常に興味深い発見です。
なぜ遅くなるのか、複数の要因が考えられます。まず、 AI ツールの使いこなしが不十分であり、開発者が自分で迅速に処理できるタスクにも過剰に AI を使用していました。また、対象となったオープンソースプロジェクトは平均 10 年以上の歴史を持つ複雑なコードベースで、 AI がコンテキストを十分に理解できず適切でない提案を行ったことも影響しています。
そのため、 AI 生成コードの 44% 未満しか修正なしで受け入れられず、開発者は 9% の時間をコード修正に費やす必要がありました。厳格なスタイルガイドラインを持つオープンソースプロジェクトでは、 AI の出力が品質基準に適合せず、追加の修正作業が必要となったのです。(テストに使用したプロジェクトの特殊性から考えて、例えば、もっと小規模な、新規の開発案件などの場合には逆の結果になることも予想されています)
この研究は、 AI が必ずしもすべての開発者や状況で生産性を上げるわけではないことを示唆しています。生産性向上はツールとタスクの適合性、ユーザーの熟練度、プロジェクトの特性に強く依存します。 AI ツールの使用には学習曲線があり、効率化には時間がかかる可能性があることも明らかになりました。
一方で、参加者の 69% が実験後も Cursor の使用を継続しており、 AI により作業が楽になったと感じています。これは認知バイアスの影響もありますが、 AI ツールが開発体験を向上させている側面もあることを示しています。
この研究は現実のコーディングシナリオに焦点を当てた数少ないランダム化比較試験であり、 AI 開発支援ツールの実際の効果を客観的に検証した点で意義深いものです。 AI モデルの進化に合わせて同じような評価を色々なパターンで続けていくことで、 AI 利用時の真の効果を正確に把握できるようになるでしょう。