Mistral AIがオープンソースLLM「Mixtral 8x22B」を公開

投稿者:

フランスのAIスタートアップ企業であるMistral AIが、大規模言語モデル(LLM)「Mixtral 8x22B」を静かにリリースしました。このモデルは、同社のこれまでの発表の仕方と同様、X(旧Twitter)上で詳細の情報なく、モデルへのリンクのみが公開されました。Mixtral 8x22Bは、65Kの広大なコンテキストウィンドウと176Bのパラメータを備えており、以前のMixtralシリーズを上回る性能が期待されています。

Mistral AIは、2023年4月にフランスで設立されたAI企業です。フランスはもともと自然言語処理の分野で進んでいる国の1つでしたが、同社はMeta PlatformsとGoogle DeepMindの元従業員らによって創業され、本社はパリに置かれています。Mistralは、オープンソースのLLMを開発することに力を入れており、プロプライエタリモデル(商用モデル)に対抗するために、オープンソースソフトウェアの重要性を訴えています。

Mistral AIは、「Mistral」と「Mixtral」の2つのタイプのモデルがあり、それぞれ異なる手法で開発をしています。Mistralシリーズがより一般的な用途に適した効率的で汎用のモデルを提供するのに対し、Mixtralシリーズは特定の専門知識を持つ複数のモデルを組み合わせる(*)ことで、特定のタスクや問題にターゲットを絞った高度な解決策を低コストで提供することを目指しています。

今回のMixtral 8x22Bのリリースは、OpenAI、Google、Metaなどの大手企業が次々とモデルのアップデートを発表する中で行われました。まだベンチマークテストなどはあまり行われていませんが、先日発表されたCohereのCommand R+を凌ぐ性能を持っているとの報告もあります。今後、オープンソースコミュニティが行うベンチマークテストやLMSYSのChatbot ARENAの結果を待ちたいと思います。

*Sparse Mixture of Experts(SMoE)