NVIDIAが新しい大規模言語モデル(LLM)「Llama-3.1-Nemotron-70B-Instruct」を静かにリリースしたことが明らかになりました。このモデルは、MetaのLlama 3.1をベースに、NVIDIAが独自に調整を加えた700億パラメータのLLMです。
Llama-3.1-Nemotron-70B-Instructの大きな特徴の一つが、Reinforcement Learning from Human Feedback(RLHF)を用いていることです。RLHFは、人間からのフィードバックを活用して学習効率を高め、より短時間で高性能なモデルを作成することができる手法です。また、人間の嗜好や価値観との整合性を高め、様々な状況や文脈に適切に対応できるようモデルを調整します。
このRLHFの採用により、Llama-3.1-Nemotron-70B-Instructは主要なベンチマークテストで優れた成績を収めています。Arena Hardでは85.0、AlpacaEval 2 LCでは57.6、GPT-4-Turbo MT-Benchでは8.98のスコアを記録し、OpenAIのGPT-4oやAnthropicのClaude 3.5 Sonnetなどの競合モデルを上回る性能を示しました。
NVIDIAはモデル、報酬モデル、トレーニングデータセットをHugging Faceにオープンソースで公開しています。
NVIDIAがGPU製造だけでなく、AI言語モデル開発でも強力な能力を示したことは、業界に大きな影響を与えると考えられます。ただし、NVIDIAは、今回のモデルを数学や法律など特定の分野で使用するには(トレーニングデータが十分ではないため)注意が必要であると警告しています。