中国のAIスタートアップ DeepSeek が、新たな大規模言語モデル「 DeepSeek-V3 」をオープンソースで公開しました。このモデルは6,710億( 671B )という大規模なパラメータ数を持ちながら、アーキテクチャの工夫で高い効率性を実現しています。
DeepSeek-V3 の特徴的な技術の一つが、Mixture-of-Experts(MoE)アーキテクチャです。このアーキテクチャでは、6,710 億という全パラメータのうち、各処理において 370 億のパラメータのみを活性化させることで、計算効率を大幅に向上させています。また、複数のトークンを同時に生成する「マルチトークン予測」技術により、従来の 3倍となる毎秒 60トークンという高速な処理を実現しました。
性能面では、Metaの Llama 3.1 や OpenAIのGPT-4o 、AlibabaのQwen 2.5 などの既存モデルを上回る結果を示しています。特に数学的推論能力を測る Math-500 ベンチマークでは 90.2% のスコアを達成し、次点のQwen の 80 %を大きく引き離しました。
興味深いことに、DeepSeek-V3 の開発コストはわずか 557万ドル( 約8.8億円 )と、従来の大規模言語モデル開発費用の 10分の1 以下に抑えられています。また開発時間も 2ヶ月と非常に短い時間で開発されているようです。学習は、14.8 兆トークンという大規模なデータセットでの学習を経て、コスト効率の高いモデル開発に成功しています。この学習データに関しては(開発元の正式な確認はできていませんが)ChatGPT などの既存のモデルが作り出した合成データを使っていると言われています。
モデルはオープンソースとして公開されており、個人や企業での商用利用が可能です。Hugging Face でホスティングされ、DeepSeek のWebサイトや API を通じて利用できます。
筆者の視点:最近中国のLLMに関連する発表が相次いでいます。今回の DeepSeek は、NVIDIA の輸出規制があるため、中国向けに輸出されている GPU である H800(*H100 の代替製品で性能を制限されている)を使用しているようです。非常に少ない資金と短い開発時間、制限された GPU と合成データを用いて、最新の競合モデルと変わらない精度を叩き出したということで、アメリカでは非常な驚きを持って受け入れられています。
使える GPU の性能が制限されていて、予算も極端に少ない中でもアーキテクチャの工夫と効率の高い学習を行い、高い精度を出しているところは日本の企業も参考にできるのではないかと思います。