Baidu の新 AI モデル ERNIE-4.5-VL-28B、GPT-4V を上回る性能でオープンソース公開

投稿者:

中国の検索大手 Baidu が11月11日、新しいオープンソースのビジョン言語モデル「ERNIE-4.5-VL-28B-A3B-Thinking」を発表しました。

本モデルは MoE(Mixture of Experts)アーキテクチャを採用し、総パラメータ数280億(28B)のうち推論時には30億(3B)パラメータのみを活性化する効率的な設計となっています。この A3B ルーティング方式により、大幅な計算コスト削減を実現しながら、主要なベンチマークで競合他社を上回る結果を達成しています。

ベンチマーク結果では、MathVista で82.5点(Gemini の82.3点、GPT の81.3点を上回る)、ChartQA で87.1点(Gemini の76.3点、GPT の78.2点を大きく上回る)を記録しました。軽量モデルでありながら、業界最高峰の性能に匹敵する結果となっています。

技術的特徴として「Thinking with Images」機能を搭載し、人間のように画像を詳細に分析できる能力を持ちます。視覚的推論、STEM 推論、動画理解などを包括的にサポートし、外部ツールとの連携も可能です。

ハードウェア要件は単一カード展開時で 80GB の GPU メモリが必要ですが、FastDeploy による wint8 量子化により約60GB まで削減可能です。Apache License 2.0 の下でリリースされ、商用利用が可能となっています。

専門家からは「ERNIE が Gemini 2.5 Pro を上回っているのは印象的」との声が上がる一方、実際の展開での性能検証が必要との慎重論も存在します。