GoogleのDataGemma: 回答の信頼性向上を目指すLLM

投稿者:

Googleが新たに発表した「DataGemma」は、AIが事実とは異なる情報を自信満々に答えてしまう「ハルシネーション」問題に対処するために開発された、オープンソースの大規模言語モデル(LLM)シリーズです。

DataGemmaの最大の特徴は、GoogleのData Commonsと連携している点です。Data Commonsは、信頼できる機関から集められた2400億以上のデータポイントを含むナレッジグラフで、これによりDataGemmaは事実に基づいた回答を生成できます。

また、DataGemmaには2つの検索手法、RIGとRAGがあります。RIGは数値データの検索で約58%の精度を達成し、RAGは80%〜94%の高い精度を実現しています。

DataGemmaのソースコードはHugging Faceで公開されており、研究目的で利用可能です。270億のパラメータを持つGemma 2 27Bをベースにしたこのプロジェクトは、事実に基づいた回答を生成することでAIの信頼性向上を目指しています。

研究、意思決定、一般的な質問応答など、様々な用途での活用が期待されるDataGemma。オープンソースとして公開することで、LLMの信頼性向上に向けた研究を促進する役割も担っています。

Googleは、DataGemmaの機能をさらに改善し、最終的にはGemmaとGeminiの両モデルに統合していく計画です。また、回答可能な質問の数を数百から数百万に増やすことも目指しています。