2022 年末に ChatGPT がリリースされてからこの年末で 2 年が経過しました。この 2 年間の AI の進化は目覚ましく、特に今年は様々な分野で印象的なニュースが数々発表されました。この傾向が 2025 年にはどうなるのか、今までに発表された様々なニュースをもとに、筆者の私見を加えて展望してみたいと思います。
当初 5 点ほどにまとめようと書き出してみたら、予想外に長くなりましたので、今回は前編として 3 点です。最終的には全部で 8 つのテーマにまとまりそうです。
1)基盤モデルの進歩は鈍化
テキスト・動画・画像などを扱う「基盤モデル( Foundation Model )」そのものの性能向上は、 2025 年には減速する見通しとなっています。これまでは半導体の供給不足が開発のボトルネックとなっていましたが、今後は「学習用データの確保」が主な課題となってきているようです。このことは年末に、 Google をはじめ複数の AI 関係者がコメントしています。
背景には、大量のデータを保有する出版社や映像コンテンツホルダー、各種プラットフォーム企業が自社コンテンツの保護を強化する動きがあります。 AI トレーニングにおけるそうしたコンテンツの利用は、著作権法上のフェアユースの観点から合法、との見方もありますが、コンテンツホルダーと AI 企業との間で進行中の複数の訴訟の行方が不透明なこともあり、 AI 企業各社は著作権リスクをできるだけ回避する傾向を強めています。
この状況を打開すべく注目されているのが「合成データ」の活用です。合成データ、つまり、 AI が生成したデータを用いて AI をトレーニングすればいいのではないか、という方向性です。
これまでのところ、大規模モデルが生成したデータをより小規模なモデルの学習に使用する試みでは、一定の成果が報告されています。しかし、最先端の大規模モデルのトレーニングに合成データを用いると性能向上が頭打ちになってしまう課題が報告されており、現時点では決定的な解決策とはなっていません。(*合成データを活用する方法はいろいろな試みが行われていて、もしかすると近い将来、問題点をクリアできるかもしれません・・・)
Google のスンドラ ピチャイ CEO は、この状況を「 AI の進化が壁に当たったのではなく、これからは急坂を登るようになる」と表現しています。
ただし、現在の基盤モデルはすでに高い性能水準に達しており、データの問題の有無に関わらず、遅かれ早かれ性能向上は緩やかになる時期に差し掛かっていたのだと思います。
2)前後処理による性能向上とハルシネーションの減少
では、今後、基盤モデルの性能向上はどのように発展していくのでしょうか?
一つは、OpenAI の o1 や Google の Gemini Thinking / DeepResearch などに代表されるように、基盤モデル自体の性能向上ではなく、前後処理の工夫によってモデルの持つ潜在能力を最大限引き出す取り組みが注目を集めています。
この傾向は、テキスト生成に限らず、画像・動画・音楽生成の分野でも同様の動きが見られ、この分野では 2025 年は基盤モデルそのものの進化よりも、よりクリエーターの実務に寄り添った使いやすさの向上や、生成スピードの改善、周辺サービスの充実など、より実務的な進化が起こってくるものと思われます。
また、性能向上とともに注目すべき進展の一つが、ハルシネーション(誤った情報の生成)の抑制です。例えば Google の「 Gemini 1.5 Pro DeepResearch 」モデルや「 Grounding 」という機能では、事前事後に十分な検証プロセスを導入することで、この課題に一定の成果を上げています。これまでは、ハルシネーションは起こるという前提で、 AI が生成する回答の中に「参照情報へのリンクを提示するので、ユーザー自身で情報の真偽を確認してください」という対応が一般的でした。ただ、ハルシネーションが頻発してしまうと、いくら自分で確認できます、と言われても、だったら従来の検索で十分、となり、特にビジネス領域で AI 活用を躊躇させる要因となっていました。
前後処理の高度化によるハルシネーションの減少は、 AI の信頼性向上につながり、ビジネスでの活用シーンを大きく広げる可能性を秘めています。 2025 年は、こうした実用性と信頼性の向上に焦点を当てた発展が、 AI 技術の新たなトレンドとなりそうです。
3)エージェント化の進展により、AIは自律的なタスク遂行が可能に
2025 年の AI のもう一つの大きな進化の方向性は、エージェント化です。ここでのエージェントとは、「周囲の環境を認識」し、「自律的に判断して目的の実現に向けてタスクを遂行する」 AI を指します。
エージェント化の第一歩は、「周辺環境の認識」です。カメラやマイクからの入力を理解したり、PC の画面上のアプリの状態を把握したりすることで、AI はユーザーが置かれている状況を的確に認識できるようになります。
そして、その認識に基づいて、AI が「自律的に意思決定を行い、タスクを完了」させる。それが現在 AI 企業が目指している(第一段階としての)エージェントの姿、と言えます。
例えば、ユーザーが「3 日間の沖縄旅行を手配して」と指示すると、AI エージェントは PC の画面を認識しながら、目的に合わせて航空券やホテル、現地での交通手段などを検索し、(必要に応じてユーザーの確認をとりながら)自動的に手配し、旅行プランを完成させる。こうした一連のタスクを、ユーザーが細かく指示することなく、AI が自律的に遂行できるようになるはずです。
そのほか、カスタマーサポートや秘書業務など、一定の業務については、2025 年には AI エージェントによる自動化が進むと考えられます。当初は単純なタスクから徐々にできることが増えていき、人間の作業負荷を大幅に下げることが期待されます。
AI エージェントの実現に向けては、すでに必要な要素技術は揃いつつあります。2024 年末には、Anthropic の「Computer Use」のように、PC の画面情報を読み取り、単純作業を自動化するツールも登場しています。
ただし、現時点ではまだ実用化には程遠く、上記の Anthropic の機能をはじめ、すでに発表されているエージェント機能は、エラーが頻発して「とても使える状態とは言えない」と報告されています。既存のツールを含め、AI エージェントが安定して複雑なタスクをこなせるようになるには、もう少し時間がかかるでしょう。
今の進行具合を見ていると、2025 年の年末くらいまでには、AI エージェントの基礎技術が確立され、実用レベルでの活用が徐々に始まっていくようになると予想されます。
4)新しいベンチマークの必要性が高まる
AI モデルの進化に伴い、今後の AI モデルをどう性能を評価していくのか、新たな課題が浮上しています。現在、多くの基盤モデルが既存の有名なベンチマークで 90% を超えるスコアを記録するようになってきて、モデル間の性能差を正確に測定することが困難になってきています。
また、既存のベンチマークが飽和(サチュレーション)状態に達する一方で、上述したような前後処理を工夫したモデルや、AI エージェントなど、従来の評価基準では測定が難しい新しいタイプの AI が次々と登場してくるわけです。そうしたモデルの挙動を正確に評価することができなければ、エンジニアは今後何を目指して開発を進めていけばいいか悩むことになりますし、開発したモデルが本当に優れているのか、わからなくなってしまいます。
そのため、これは単なる評価の問題にとどまりません。過去にもそうでしたが、優れたベンチマークの存在は、AI 開発の方向性を決定づける重要な指針となります。特に、実用的なタスク遂行能力を正確に測定できるベンチマークの存在は、今後、より実践的な AI の開発を促進していく役割も担うのです。
年末の OpenAI の新しいモデル、o3 発表時に登場した「 ARC-AGI 」というベンチマークや Google が発表した「 FACTS Grounding 」というベンチマークなど、いくつかの試みはすでに出てきています。2025 年に向けては、こうした新しいベンチマークの研究開発が進み、AI 開発企業の技術革新をリードする評価基準として確立されていくことが期待されています。
(後編に続く)