Alibaba は、最新の AI モデル「 Qwen3-235B-A22B-Thinking-2507 」を発表し、 Qwen3-Thinking シリーズを大幅にアップデートしました。この新モデルは、推論力の大幅な強化により、論理的推論、数学、科学、コーディング分野で Google の Gemini 2.5 Pro や OpenAI の o4-mini 、 DeepSeek R1 といった最先端モデルと同等、または一部項目で上回る性能を実現しています。
新しい Qwen3-235B-A22B-Thinking-2507 は、 2350 億のパラメータを持つ Mixture of Experts ( MoE )モデルで、推論時に 220 億のアクティブパラメータを使用します。従来のハイブリッドアプローチ(「思考モード」と「非思考モード」の切り替え)を廃止し、一般的な指示への応答と高度な推論処理を別々のモデルとして整理することで、それぞれの性能を向上させました。コンテキスト長も最大 262,144 トークンまで対応し、従来の 32,768 トークンから大幅に拡張されています。
ベンチマーク結果では、 LiveCodeBench (コーディング)で 74.1% を記録し、 Gemini 2.5 Pro ( 72.5% )や o4-mini ( 71.8% )を上回りました。また、 Arena-Hard v2 (総合推論)では 79.7% で全競合モデルをリードし、 GPQA (大学院レベルの QA )では 81.1% を記録しています。 MMLU-Pro (一般知識)のスコアも 75.2 から 83.0 に向上し、知識の正確性が大幅に改善されました。
注目すべきは、 MoE アーキテクチャにより DeepSeek R1 ( 370 億アクティブパラメータ)より少ない 220 億アクティブパラメータで高い性能を実現していることです。 API 価格は、入力トークン 100 万あたり 0.22 ドル(約 33 円)、出力トークン 100 万あたり 0.88 ドル(約 130 円)と、コストパフォーマンスにも優れています。
Qwen3-235B-A22B-Thinking-2507 は Apache 2.0 ライセンスの下で Hugging Face や ModelScope から無料ダウンロードが可能で、商用利用もサポートされています。 119 言語への対応や、 OpenAI 互換 API 、 vLLM 、 SGLang を介したローカルまたはクラウド展開にも対応しており、企業の導入障壁を大きく下げています。