Meta(メタ)が最新の大規模言語モデル(LLM)シリーズ「 Llama 4 ファミリー」を発表しました。この新しいモデル群は、テキスト、画像、ビデオなどの複数データ形式を処理するマルチモーダル機能と業界をリードするコンテキスト長を備えており、「 Scout 」「 Maverick 」という 2 つのオープンウェイトモデルがすでにリリースされています。さらに、トレーニング中の「 Behemoth 」という 2 兆パラメータの巨大モデルも今後のリリースが予定されています。
Llama 4 Scout は、アクティブなパラメータ数が 170 億(17B)、16 のエキスパート(専門サブネットワーク)で構成されています。最大の特徴は 1500 万トークンという業界最高水準の長文処理能力で、膨大な文書やプログラムコードを一度に分析できます。また、リソース効率に優れているため、単一の Nvidia H100 GPU の上で動作可能です。チャットボットや要約タスクなど、早い応答速度が求められる用途に最適です。
一方、Llama 4 Maverick も同様に 170 億のアクティブパラメータを持ちますが、128 のエキスパートで構成され、合計で 4000 億(400B)パラメータに相当するより大規模なモデルです。こちらは 1000 万トークンのコンテキスト長を持ち、画像理解や多言語推論(12 言語対応)に優れ、応答スピードは Scout に比べて落ちるものの、コーディングや複雑な質問応答など、より複雑で幅広いタスクに対応できます。メタはこれをLlama 4 ファミリーの中の「主力のマルチモーダルモデル」と位置づけています。
また、現在開発中の Llama 4 Behemoth は、アクティブパラメータ数が 2880 億(288B)、合計 2 兆(2T)パラメータという巨大モデルで、16 のエキスパートで構成されています。メタはこのモデルを「最も強力なモデル」と呼び、Scout と Maverick の「教師モデル」として活用しています。
技術的には「 Mixture of Experts(MoE)」アーキテクチャを採用しています。これは、モデル内に複数の「専門家」がいるようなもので、この仕組みにより、入力されたタスクに対して、全体を常に稼働させる必要がないため、電力消費を抑えながらも、高い処理能力を発揮できます。
今回、モデルの学習には、ラベルなし(分類や説明がついていない)の大量のテキスト、画像、動画データが使用されています。また、モデルの性能を最適化するための設定値(ハイパーパラメータ)を効率よく調整する「MetaP」という新しい手法も取り入れています。
Scout と Maverick はすでに公開済みで、メタの公式サイト(llama.com)や Hugging Face からダウンロード可能です。また、WhatsApp、Messenger、Instagram などのメタのサービスにも統合されています。Behemoth はトレーニング中であり、リリース日は未定ですが、メタは近日中に「Llama 4 Reasoning」というモデルも発表する予定です。