フランスMistral AI、初のマルチモーダルモデル「Pixtral 12B」公開

投稿者:

フランスのAIスタートアップMistralが、同社にとって初のマルチモーダルAIモデル「Pixtral 12B」をリリースしました。このモデルは、テキストと画像の両方を同時に処理できる能力を持ち、120億(12B)のパラメーターを持つ軽量なモデルです。

Pixtral 12Bは、約24GBという比較的小さなサイズで、Apache 2.0ライセンスで公開されており、無料でダウンロードして使用可能です。主な機能として、画像の説明生成、オブジェクトの識別、画像に関連する質問への回答などがあり、OCRと情報抽出にも適しています。

技術的には、1024×1024ピクセルの画像を処理可能で、コンテキスト長は128,000トークンです。また、2D RoPE(Rotary Position Embeddings)を使用して画像の空間関係を理解します。

性能面では、MMMU、Mathvista、ChartQA、DocVQAなどのベンチマークで、他の有名なマルチモーダルモデルを上回る結果を示しています。MMULベンチマークでは5-shotで81.2のスコアを、HellaSwagベンチマークでは10-shotで89.2のスコアを記録しています。

現時点ではWebデモは公開されていませんが、近々MistralのチャットボットLe ChatやAPIプラットフォームLe Plateformeでテストが可能になる予定です。