テンセントが「 Hunyuan T1 」を発表、ハイブリッドアーキテクチャを採用し注目を集める

投稿者:

中国のテンセントが新たに発表した推論モデル「 Hunyuan T1 」が、業界初のアーキテクチャを採用し、注目を集めています。このモデルは、DeepSeek の R1 と性能および価格面で同等の性能を出しています。また「ハイブリッド Transformer-Mamba アーキテクチャ」によって効率性を大幅に向上させています。

Hunyuan T1 の最大の特徴は、Google の Transformer と、カーネギーメロン大学およびプリンストン大学で開発された Mamba を組み合わせた設計です。この組み合わせにより、Transformer の優れた文脈理解能力と Mamba の長いシーケンスの処理効率を両立させ、計算負荷とメモリ使用量を削減しています。テンセントによれば、このアーキテクチャによりデコーディング速度が同規模のモデルと比べて 2 倍に向上し、最大で秒間 60~80 トークンの生成速度を実現。トレーニングと推論にかかるリソース消費も大幅に減少し、運用コストの低下につながっています。

性能面では、Hunyuan T1 は DeepSeek R1 と同等の結果を示しています。MATH-500 で 96.2% の精度(R1 は 97.3%)、MMLU-PRO では 87.2 点を記録し、OpenAI の o1 に次ぐ 2 位となりました。AIME 2024 では 78.2 点を獲得(R1 は 79.8%)。ライブデモでは複雑な数学問題に対して T1 が R1 より高速に結果を返したと報告されており、特に「最初の文章を生成するまでの応答時間」が短縮され、即時性が向上しています。

価格設定も競争力があり、入力トークンは 100 万トークンあたり 1 元(約 0.14 ドル)、出力トークンは 100 万トークンあたり 4 元(約 0.55 ドル)となっています。

Hunyuan T1 の開発には、カリキュラム学習や自己報酬システムなどの大規模な強化学習が活用され、特に数学、論理推論、科学、コーディングなどの分野での性能向上に注力。訓練後の計算リソースの 96.7% は論理的推論と人間の好みへの適合性向上に費やされたとされています。

中国では、テンセント、アリババ、ByteDance といった大手企業が AI 開発で激しく競い合っており、Hunyuan T1 のリリースはテンセントの競争力を一層高めるものとなりました。DeepSeek R1 がシリコンバレーで注目を集めた直後に、テンセントが対抗するモデルを素早く投入したことは、中国の AI 技術が国際的な水準に近づきつつあることを示しています。