Meta社のChameleon、マルチモーダルタスクで高い性能を達成

投稿者:

OpenAIやGoogleに続き、Meta社が新たなマルチモーダルAIモデル「Chameleon」を発表しました。生成AI分野の競争が、テキストだけでなく画像や音声、動画を一元的に扱うマルチモーダルモデルへと移行する中、Chameleonは従来とは一線を画すアプローチを採用しています。

Chameleonの最大の特徴は、「アーリーフュージョン(早期融合)」と呼ばれる手法にあります。他のモデルが画像とテキストを別々に処理した後に統合するのとは異なり、Chameleonは最初からそれらを連結したシーケンスとして扱います。つまり、画像をテキストと同様にトークンに変換し、テキスト、コード、画像トークンで構成される統一された語彙を使用するのです。これにより、画像とテキストの両方が含まれるシーケンスに、Transformerアーキテクチャを適用することが可能になりました。

この革新的なアプローチにより、Chameleonは画像キャプション生成や視覚質問応答(VQA)などのマルチモーダルタスクにおいて、他のモデルを凌駕する性能を発揮しました。さらに、テキストのみのタスクでも同等の性能を維持しています。340億のパラメータを持つChameleonは、Gemini ProやGPT-4Vといったトップモデルに匹敵する、あるいはそれらを上回る結果を、長文の混合モーダル生成テストで達成しました。

一方で、アーリーフュージョン方式にはモデルのトレーニングとスケーリングにおいて課題も指摘されています。Meta社は、今回アーキテクチャの変更やトレーニング技術の工夫によってこれらの課題を克服したとのことですが、これらの成果は今後の研究の方向性を示す上でも重要なポイントとなるでしょう。

もしMeta社がこれまでのオープンソース化推進の流れに乗って、Chameleonの重み付けを公開すれば、OpenAIなどの商用モデルに対抗する各種オープンソースモデルの今後の性能向上が期待できます。これにより、マルチモーダルAIの研究がさらに加速することが予想されますので、どうなるか、今後のMeta社の動向に注目したいと思います。