Alibaba、最新のオープンソースLLM「Qwen 2.5シリーズ」を発表 – 多くのベンチマークでオープンソース最高性能を記録

投稿者:

中国のAlibabaが、最新の大規模言語モデル(LLM)シリーズである「Qwen 2.5」を発表しました。このシリーズには、汎用モデル、コーディング専用モデル、数学専用モデルなど、13の異なるモデルが含まれています。

Qwen 2.5シリーズのモデルは、パラメータ数が15億から720億まで様々なサイズが用意されており、18兆トークンのデータで学習されています。また、29以上の言語をサポートし、最大128,000トークンのコンテキストウィンドウを備えています。

特に72Bモデルは、Meta社のLlama 3.1 405Bモデルを上回る性能を達成し、多くのベンチマークでGPT-4に匹敵する結果を示しています。コーディング、数学、共感的・倫理的推論、創造的ライティングなどの分野で高い能力を発揮しており、具体的なベンチマーク結果としては、MMLU-rudex(一般知識)で86.8点、MBPP(コーディングスキル)で88.2点、MATH(数学スキル)で88.2点を獲得しています。

前のバージョン(Qwen 2)と比較して、Qwen 2.5シリーズは全体的なパフォーマンスが18%以上向上し、指示に従う能力、長文生成能力(8,000トークン以上)、構造化データの理解と生成能力が改善されています。

また、Qwen 2.5シリーズには、特定の分野に特化した専門モデルも含まれています。「Qwen2.5-Coder」はコーディング専用モデルで、5.5兆トークンのコード関連データで学習されており、「Qwen2.5-Math」は数学専用モデルで、中国語と英語をサポートし、Chain-of-Thought(CoT)、Program-of-Thought(PoT)、Tool-Integrated Reasoning(TIR)などの推論手法を組み込んでいます。

米国が先行しているように見えるAIの開発において、中国発のLLMも着実な進化を遂げています。