NVIDIAが新LLM「Llama-3.1-Nemotron-70B-Instruct」をリリースー RLHFで性能向上を果たす

NVIDIAが新しい大規模言語モデル（LLM）「Llama-3.1-Nemotron-70B-Instruct」を静かにリリースしたことが明らかになりました。このモデルは、MetaのLlama 3.1をベースに、NVIDIAが独自に調整を加えた700億パラメータのLLMです。

Llama-3.1-Nemotron-70B-Instructの大きな特徴の一つが、Reinforcement Learning from Human Feedback（RLHF）を用いていることです。RLHFは、人間からのフィードバックを活用して学習効率を高め、より短時間で高性能なモデルを作成することができる手法です。また、人間の嗜好や価値観との整合性を高め、様々な状況や文脈に適切に対応できるようモデルを調整します。

このRLHFの採用により、Llama-3.1-Nemotron-70B-Instructは主要なベンチマークテストで優れた成績を収めています。Arena Hardでは85.0、AlpacaEval 2 LCでは57.6、GPT-4-Turbo MT-Benchでは8.98のスコアを記録し、OpenAIのGPT-4oやAnthropicのClaude 3.5 Sonnetなどの競合モデルを上回る性能を示しました。

NVIDIAはモデル、報酬モデル、トレーニングデータセットをHugging Faceにオープンソースで公開しています。

NVIDIAがGPU製造だけでなく、AI言語モデル開発でも強力な能力を示したことは、業界に大きな影響を与えると考えられます。ただし、NVIDIAは、今回のモデルを数学や法律など特定の分野で使用するには（トレーニングデータが十分ではないため）注意が必要であると警告しています。