MetaのFundamental AI Research(FAIR)が、新たに複数のオープンソースモデルを発表しました。この発表には、マルチモーダルな言語タスクや、テキストから音楽・音声への生成、AI生成音声の検出など、幅広い分野での研究成果が含まれています。
特に注目すべきは、テキストと画像を組み合わせた入出力に対応する「Meta Chameleon」や、コードやビートなどの条件付き入力によるテキストから音楽への生成モデル「Meta JASCO」、AI生成音声の検出のための音声透かし技術「AudioSeal」などです。これらの研究成果は、AIの可能性を大きく広げるものであり、様々な分野での応用が期待されます。
また、FAIRは「PRISM dataset」という、大規模言語モデルに対する多様なフィードバックを収集したデータセットも公開しました。このデータセットは、主観的で多文化的な視点に焦点を当てた会話を含んでおり、外部パートナーとの協力により作成されたものです。
さらに、画像生成システムのプロンプトにおける地域格差の測定と改善に関する研究も発表されました。この研究では、ユーザーが入力するプロンプトの表現方法(表現の仕方)に関して、地域的な特性を評価するための自動指標「DIG In」を開発し、大規模なアノテーション調査を実施することで、表現に関する地域差を分析しています。
こうした研究成果をオープンソースで公開することで、世界中の研究者コミュニティがAI研究の発展に引き続き関わっていけることになり、非常に重要な動きだと評価できます。一方で、MetaはAIに対する投資が本業の売り上げにどう貢献するのか不透明という理由から、直近の決算発表後は、株価が少し停滞気味です。
ただ、こうしたAIコミュニティに対する貢献は貴重であり、今後、そうした貢献から得られる知見を本業に活かして、さらに投資を加速させていくという上手いサイクルを作っていくことが期待されます。今後のMetaの動きに注目していきたいと思います。