Alibaba が小型軽量ながら高性能の LLM「 QwQ-32B 」をリリース

投稿者:

Alibaba の技術チームが新しい AI モデル「 QwQ-32B 」をリリースしました。 2025 年 3 月 6 日に発表されたこのモデルは、強化学習( Reinforcement Learning, RL )を活用した設計により、パラメータ数が大幅に少ないにもかかわらず、大型 AI モデルに匹敵する性能を発揮し、注目を集めています。

QwQ-32B の最大の特徴は、 320 億パラメータという比較的小規模なサイズながら、 6,710 億パラメータを持つ DeepSeek-R1 と同等またはそれ以上の性能を実現している点です。特に数学やコーディング、一般的な問題解決のベンチマークで優れた成績を収め、LiveBench や IFEval などの評価では DeepSeek-R1 を上回る結果も記録しています。また、OpenAI の o1-mini も上回る性能を示しました。

このモデルは Alibaba の既存モデル「 Qwen2.5-32B 」を基盤として構築され、特に推論能力の強化に焦点を当てています。従来の教師ありファインチューニング( SFT )に依存せず、強化学習を用いて試行錯誤を通じて能力を磨き上げる点が特徴です。名前の「 QwQ 」は「 quill (羽ペン)」のように発音され、「考える時間を与えることで数学やプログラミングの理解が花開く」という開発チームの思想を表しています。

トレーニングは 2 段階で行われました。第 1 段階では数学的推論やコーディングスキルの学習に集中し、生成したコードを実行してエラーをチェックするサーバーを活用した自己修正学習を実施。第 2 段階では指示に従う能力や人間の好みに合わせた応答、外部環境からのフィードバックに基づく適応的推論といった一般的な能力を強化しました。

実用面では、 131K トークンの長いコンテキストウィンドウをサポートし、 24GB の VRAM 上で動作可能という高い効率性が特筆されます。これは、DeepSeek-R1 が要求する 1500GB 以上の VRAM と比べて、圧倒的に少ないリソースで運用できる点で優れています。

QwQ-32B は Apache 2.0 ライセンスでオープンソース(オープンウェイト)として公開され、Hugging Face や ModelScope 、Qwen Chat を通じて誰でもアクセス可能です。また、Alibaba Cloud の DashScope API を通じたホスティング版も提供されており、入出力トークン 100 万あたり 0.20 ドルという圧倒的な低価格も魅力の一つとなっています。

このリリースを受けて Alibaba の香港上場株式は 8% 急騰し、 2021 年 11 月以来の高値を記録しました。同社は今後 3 年間で AI 、クラウドコンピューティング、先端データインフラに 524 億ドルを投資する計画を発表しており、QwQ-32B はその戦略の重要な一環と位置付けられています。