NVIDIA、合成データ生成システム「Nemotron-4 340B」をオープンソースで公開 カスタムLLM開発を支援

投稿者:

NVIDIAが、大規模言語モデル(LLM)向けの合成データ生成システム「Nemotron-4 340B」をオープンソースで公開しました。このシステムを使うことで、開発者は無料で高品質な訓練データを生成し、医療、金融、製造業など様々な業界でカスタムLLMを構築することが可能になります。

LLMの性能向上には高品質な訓練データが重要ですが、そのようなデータは入手が困難で、コストも高くつくのが課題でした。各社は独自のトレーニングデータを使用してカスタムLLMを作ろうとしますが、そのためのトレーニングデータの確保に相当な苦労を強いられています。

Nemotron-4 340Bは、この課題を解決するために開発されました。このシステムは、3種類のモデルが連携して機能します。基礎モデルのNemotron-4 340B Baseは、NVIDIAのNeMoツールでカスタマイズが可能。合成データ生成モデルのNemotron-4 340B Instructは、実世界のデータを模倣した高品質な訓練データを生成します。さらに、合成データの品質評価モデルであるNemotron-4 340B Rewardは、生成されたデータの品質を5つの観点から評価します。

Nemotron-4 340Bは、NVIDIA NGCカタログとHugging Faceからダウンロードが可能で、今後はai.nvidia.comからNVIDIA NIMマイクロサービスとしても提供される予定です。利用者は、自らのユースケースに適合しているかを確認する必要がありますが、モデルのセキュリティ評価は実施済みとのことです。

このシステムの公開は、研究者や小規模な会社にとって、カスタムLLMの開発を大きく後押しするものと言えるでしょう。また、大企業で自社独自のLLMを持とうとしている会社にとっても、訓練データの確保が容易になるため、大きなメリットがあります。

一方で、合成トレーニングデータを作成する会社、例えばScale AIなどは、かなりの評価額で資金調達を行っていますが、Nemotron-4 340Bの登場によって、その立場が脅かされる可能性があります。今後、こうした企業がどのように対応していくのか、注目が集まります。