Tencent が AI 翻訳モデル「 Hunyuan-MT 」をオープンソース公開

投稿者:

中国の IT 大手 Tencent は 2025 年 9 月 1 日、 33 言語に対応した AI 翻訳モデル「 Hunyuan-MT-7B 」と「 Hunyuan-MT-Chimera 」をオープンソースで公開しました。これらのモデルは WMT25 国際翻訳大会で 31 部門中 30 部門で 1 位を獲得し、 Google Translate や OpenAI の GPT-4o 、 Google の Gemini 2.5 Pro といった主要サービスを上回る性能を示しています。

従来の AI 翻訳では、高い精度を求めると巨大なモデルが必要で、コストや処理速度の面で課題がありました。 Hunyuan-MT-7B は 70 億パラメータという比較的小型のモデルでありながら、大規模モデルに匹敵する翻訳精度を実現しています。これにより、一般的なゲーム用パソコンでも動作可能な軽量設計を保ちながら、プロレベルの翻訳品質を提供できるようになりました。

特に注目されるのは「 Hunyuan-MT-Chimera 」です。これは複数の AI が同じ文章を翻訳した結果を比較し、最も適切な部分を組み合わせて最終的な翻訳を作成する仕組みです。例えば、ある文章を 3 つの異なる AI が翻訳した場合、 A の AI が得意な部分、 B の AI が正確な部分、 C の AI が自然な部分をそれぞれ採用して、一つの優れた翻訳に仕上げます。この手法により、従来モデルより 2 ~ 5% の精度向上を実現し、専門分野や複雑な文脈での翻訳において特に優れた性能を発揮します。オープンソースでこうした技術が公開されるのは初めてのことです。

対応言語の幅広さも大きな特徴です。英語、中国語、日本語はもちろん、タイ語、チェコ語、マラーティー語、エストニア語、アイスランド語など 33 言語をサポートしています。さらに、カザフ語、ウイグル語、モンゴル語、チベット語といった中国の少数民族言語にも対応し、これまで翻訳技術が十分に届いていなかった言語での高精度翻訳を可能にしています。

技術的には 5 段階の学習プロセスを採用しており、一般的なテキストによる事前学習から始まり、翻訳特化データでの継続学習、教師あり微調整、強化学習を段階的に行います。最終段階では、性能の低いモデルの翻訳結果を性能の高いモデルが評価・改善する手法により、翻訳品質をさらに向上させています。特に少数言語だけで 1.3 兆トークンという大規模データセットを使用し、データの品質管理には知識価値、信頼性、文章スタイルを評価する独自システムを導入しています。

実用面では、既に同社内のサービス、「 Tencent Meeting 」や「 Enterprise WeChat 」、「 QQ Browser 」などに実装されており、実際のユーザー体験向上に貢献しています。従来の翻訳システムが苦手としていたスラングや古詩、ソーシャル会話の略語などの翻訳にも対応できます。

モデルとソースコードは Hugging Face と GitHub で完全公開されており、開発者はライセンス費用なしで自由に利用・カスタマイズできます。数千の文ペアがあれば独自データでモデルを微調整することも可能で、特定の分野や用途に特化した翻訳システムを構築できます。