Microsoft、Phi-3.5ファミリーにMoE技術を採用したPhi-3.5-MoEを発表

投稿者:

Microsoftは2024年8月21日、大規模言語モデル(LLM)「Phi 3.5」ファミリーの一部として、「Mixture of Experts(MoE)」技術を採用したPhi-3.5-MoEを発表しました。これはMicrosoftにとって初めてMoE技術を採用したモデルとなります。

MoEは複数の専門家モデル(エキスパート)を組み合わせる機械学習手法です。各エキスパートは特定のタスクに特化しており、ゲーティングネットワークと呼ばれる仕組みが入力に応じて適切なエキスパートを選択して振り分けます。この手法を用いることで、パラメータ数の少ない小型のモデルであっても、従来手法(Dense Model)と比べて高い性能が出せると言われています。

Phi-3.5-MoEは、16の専門家モデル(各3.8億パラメータ)で構成され、総計で6B(60.8億)パラメータを保有しています。ただし、使用時には2つの専門家モデル(7.6億パラメータ)のみをアクティブ化するため、リソースを効率的に使用することができます。

このモデルは、特に高度な推論能力と多言語サポートに優れており、言語理解や数学タスクにおいて大規模モデルと同等の性能を示し、一部の推論タスクではそれらを上回るパフォーマンスを見せています。また、RULERベンチマークやRepoQAベンチマークでも、他の小型モデルあるいはパラメータ数の大きなモデルと同等か優れた性能を示しています。

Phi-3.5-MoEを含むPhi 3.5ファミリーは、オープンソースとして公開されており、MITライセンスの下で提供されています。これにより、商用利用、改変、配布、特許使用、私的使用などが可能となっています。

Phi-3.5-MoEは、効率的なリソース利用と高い性能を両立させた革新的なAIモデルとして注目を集めています。