中国の AI 企業 Z.ai (旧 Zhipu AI )が、オープンソースの視覚推論モデル「 GLM-4.5V 」を公開しました。このモデルは、画像・動画・ GUI ・長文書の理解などで同規模のオープンソースモデルの中でトップレベルの性能を実現し、 41 〜 42 の公開ベンチマークで最高水準を記録しています。
GLM-4.5V は、 Z.ai の主力テキストモデル GLM-4.5-Air をベースに開発されました。総パラメータ数は 1060 億(106B)、実際に動作する有効パラメータは 120 億(12B)の Mixture-of-Experts 設計となっています。最大 64K トークンの長い入力に対応し、画像と動画の両方を処理できます。オープンソースながら商用利用も可能で、 GitHub 、 Hugging Face 、 ModelScope から無料で利用できます。
技術面では、画像を理解する部分と文章を生成する部分を組み合わせた仕組みを採用しています。動画をスムーズに処理するための技術や、様々なサイズ・形状の画像に対応する機能、そして画像内の位置関係をより正確に把握する仕組みなど、複数の先進技術を組み込んでいます。また、「思考モード」のオン・オフを切り替えることで、素早い応答か深い推論かをタスクに応じて選択できる仕組みも備えています。
GLM-4.5V ができることは多岐にわたります。写真 1 枚から複数枚まで、その場面や状況を理解し、長い動画の内容を分析できます。また、パソコン画面のボタンやアイコンを認識して操作を手助けしたり、グラフや長い資料の内容を読み取って分析することも可能です。さらに、画像の中の特定の場所を正確に指し示すこともできます。実際のテストでは、写真に写った小さな手がかりからその場所がどこなのかを当てたり、人間と一緒に画像を使ったクイズゲームで高得点を取るなど、実用的な性能を発揮しています。
開発者にとっても使いやすい設計となっており、 Hugging Face のモデルページには詳しい使用方法が掲載されています。思考モードの活用法やボックス出力の扱い方も解説されており、 Z.ai の GitHub からは関連ツールも入手できます。さらに、スクリーンショットや画面録画からリアルタイムで視覚タスクを処理するデスクトップ支援アプリも提供される予定です。