Alibaba の Qwen チームが、新たな視覚的推論モデル「 QVQ-Max 」をリリースしました。このモデルは 72 億パラメータを持ち、単なる画像認識を超えて、画像や動画に含まれる視覚情報を分析し、論理的に推論する能力を備えています。
QVQ-Max は、Alibaba Cloud の Qwen シリーズにおける最新の AI モデルで、視覚データから意味を抽出し、複雑な問題解決や状況理解を行うことが可能です。例えば、数学の問題が描かれた画像から解法を導き出したり、複数の画像を比較して分析したり、動画の内容を要約したりする能力を持っています。
QVQ-Max は「推論プロセスの透明性」を重視しており、ユーザーが「 Thinking 」ボタンを押すことで、モデルがどのように結論に至ったかをステップごとに確認できます。これにより、信頼性と教育的な価値が向上します。
QVQ-Max は現在、Alibaba の「 Qwen Chat 」(chat.qwen.ai)を通じて試用可能です。ユーザーは画像や動画をアップロードし、関連する質問を入力することで、モデルの視覚的推論能力を体験できます。