Tencentは最近、Hunyuan-Largeという新しいオープンソースの言語モデルを発表しました。このモデルは、Mixture of Experts (MoE)アーキテクチャを採用しており、総パラメータ数3890億(389B)、アクティブパラメータ520億(52B)を持つ大規模言語モデルです。業界で最大のオープンソースのMoEモデルとされており、特に長文処理能力に優れています。
Hunyuan-Largeは、高品質な合成データを活用し、7兆トークンを用いた事前学習が行われている点が大きな特徴です。また、長い文章を扱うための「KVキャッシュ圧縮技術」や、専門家別の学習率調整といった技術的な工夫も取り入れられています。処理能力においては、最大256Kトークンの長文を処理可能であり、中国語と英語の両方で高いパフォーマンスを発揮します。
ベンチマーク性能においても、Hunyuan-LargeはMMMLUやMATHなどの主要なベンチマークで競合モデルを上回る成績を達成しています。例えば、MMLUでは88.4%の正解率を記録し、Llama3.1-405Bの85.2%を上回っています。また、CommonsenseQAでは92.9%、MATHでは77.4%の正解率を達成し、いずれもLlama3.1-405Bを上回る結果となっています。
Tencentは既にこのモデルをテンセントクラウド、テンセントゲーム、WeChatなどのサービスに統合しており、20以上のメディアや広告企業にもツールへのアクセスを提供しています。さらに、業界内での応用研究を支援するために、PenguinScrollsという新しいオープンソースの評価セットを近日中にリリースする予定です。