OpenAI は、長かった新サービス発表イベント「 12 Days of OpenAI 」の最終日に、同社が開発している最新の大規模言語モデル( LLM )「 o3 」を発表しました。このモデルは、推論タスクに特化しており、従来のモデルを大幅に上回る驚異的なベンチマークスコアを記録しています。
o3 は、前身である「 o1 」モデルの後継モデルであり、特に高度な推論能力と安全性の向上を目指して設計されています。このモデルは、複雑なタスクに対応する能力を大幅に向上させており、数学、コーディング、科学的推論などの分野で顕著な進歩を遂げています。
o3 の主な特徴は、「チェーン・オブ・ソート( Chain-of-Thought )」技術による推論能力の向上です。このアプローチにより、複雑な問題を分解し、より正確な回答を生成する能力が向上しました。また、「熟考的整合性( Deliberative Alignment )」という新しい安全性パラダイムを導入し、ユーザーのプロンプトを反映しつつ、不適切な回答を減らし、より安全で有益な回答を提供できるようになっています。
結果として o3 は各種ベンチマークで驚異的なスコアを記録しています。ARC-AGI テストでは 87.5%、数学分野では 96.7%、コーディング分野では 71.7% のスコアを達成し、従来のモデルや人間の平均スコアを大きく上回りました。
フルスケールの o3 モデルはまだ具体的なリリースは予定されていませんが、o3-mini は 2025 年 1 月に一般公開が予定されています。
o1 と同様に、o3 も AI が回答を表示する前に「考える」時間を長めに設ける設計となっています。この仕様により、1 つの問いに対する計算能力の必要量が従来のモデルより大幅に増加しているようです。今後、こうした高性能なモデルの普及が進むにつれ、半導体の需要がさらに高まり、それに伴う電力消費も増加すると予想されます。この影響で、現在の半導体不足や電力不足の状況は 2025 年以降もしばらく続きそうです。
また、今回の発表をもって、長期間にわたった「 12 Days of OpenAI 」のイベントは幕を下ろしました。途中、発表内容にやや疑問符がつくようなテーマも見受けられ、「ネタ切れでは?」と思わせる場面もありましたが、話題性という点では十分に成功したと筆者は思います。しかし、期間中に Google が続々と発表した内容のほうがより有益で深みがあったとの声も多く、AI 業界やウォール街では年末の発表ラッシュは Google に軍配が上がったという見方が大勢を占めています。