OpenAI、「Reinforcement Fine-Tuning」を発表 – AIモデルのカスタマイズを容易にする新技術

投稿者:

OpenAIは「Reinforcement Fine-Tuning(強化学習型ファインチューニング、以下RFT)」を発表しました。これは、AIモデルを特定の専門分野やタスクに適応させるための新しいカスタマイズ手法です。この技術は、わずか数十個程度の高品質なタスクデータで、特定の専門分野に特化したAIモデルを作成することを可能にします。

RFTは、従来の教師あり学習と異なり、強化学習の手法を活用してモデルの推論能力を向上させます。開発者はデータセットと評価基準を提供するだけで、OpenAIのプラットフォームが強化学習とトレーニングプロセスを自動的に処理します。これにより、強化学習の専門知識がなくても高度なモデルを構築できるようになります。

RFTの応用分野は、法律、保険、医療、金融、エンジニアリングなど多岐にわたります。バークレー研究所との共同研究では、希少遺伝病の原因遺伝子の特定において、RFTを使用して調整されたGPT-4 miniモデルが、ベースモデルの25%に対して31%の精度を達成しました。

OpenAIはRFTを2025年初頭に一般公開を予定しており、現在は研究プログラムの参加者を募集しています。RFTにより、より少ないデータで効率的に専門的なAIモデルを開発することが可能となり、各産業分野に特化したAIアプリケーションの登場が期待されています。トムソン・ロイターとの協力による法律分野でのAIアシスタント開発など、すでに実践的な応用が始まっています。

この発表は、OpenAIの「12 Days of OpenAI」イベントの2日目に発表されたものです。初日のo1やo1 Proモデルの発表の陰に隠れて注目度は低めでしたが、改めて考えると、地味ながらも実用性の高い機能だと感じましたので、取り上げることにしました。

先日、GoogleのCEOであるスンダー・ピチャイ氏が2025年にはAI開発がスローダウンするとの予測を発表し話題となりました。筆者も、主にトレーニングデータの不足が要因となり、基盤モデルの進化は鈍化する可能性が高いと考えています。その一方で、すでに高度な進化を遂げた基盤モデルを、どのように実社会や日常生活に応用していくかが、今後の主な課題になるでしょう。このような流れを踏まえると、今回発表されたRFT技術は非常に重要な役割を果たすと考えられます。