Cohere For AIが「 Aya Vision 」を公開、23言語対応のマルチモーダルAIが登場

カナダの AI 企業 Cohere の非営利研究部門である Cohere For AI が、 2025 年 3 月 4 日に新たなマルチモーダル AI モデル「 Aya Vision 」を発表しました。このモデルは、テキストと画像の両方を処理できる「マルチモーダル」な能力を持ち、特に 23 の言語で動作することが特徴です。これらの言語は世界人口の半分以上をカバーしており、 AI の多言語対応とアクセシビリティを大きく前進させるものとなっています。

Aya Vision は 2 つのサイズで提供されています。 8B （ 80 億パラメータ）モデルは小型ながら高い性能を発揮し、同規模の他モデル（ Qwen2.5-VL 7B や Gemini Flash 1.5 8B など）を上回る結果を示しています。一方、 32B （ 320 億パラメータ）モデルはさらに高性能で、 Meta 社の Llama-3.2 90B Vision など 2 倍以上のサイズを持つモデルをも凌駕する性能を達成しています。

Cohere によれば、 Aya Vision は新しく公開された「 AyaVisionBench 」や「 m-WildVision 」といったベンチマークで優れた成績を収めています。 8B モデルは、 AyaVisionBench で最大 70 % 、 m-WildVision で 79 % の勝利率を記録。これらのベンチマークは、 23 言語にわたる 135 の画像と質問のペアで構成され、画像キャプション作成、チャート理解、 OCR など 9 つのタスクを評価します。

この高い性能は、合成アノテーション、多言語データのスケーリング、マルチモーダルモデルの段階的統合といった技術革新によるものです。特に効率的な学習手法により、少ない計算リソースで競争力のある性能を実現している点は注目に値します。

Aya Vision は「オープンウェイト」として公開されており、研究者や開発者が Hugging Face や Kaggle などのプラットフォームから自由にアクセス可能です。ただし、ライセンスは非商用利用に限定されています。また、 Cohere は一般ユーザー向けに WhatsApp を通じて無料で Aya Vision を試せるサービスも提供しています。

このモデルは、 Cohere For AI が推進する「 Aya プロジェクト」の一環であり、 119 か国から 3,000 人以上の研究者が参加する多言語 AI 開発プロジェクトの成果です。 Cohere は、このモデルを「 AI 研究の透明性と包括性を高める一歩」と位置づけており、商用のクローズモデルに依存せず、オープンな代替手段を提供することを目指しています。