Google DeepMindが新たなベンチマーク「FACTS Grounding」を発表、LLMの事実に基づく応答能力を評価

Google DeepMindは、大規模言語モデル（LLM）が提供された文書をもとに、「正確で包括的な回答を生成する能力」を評価する新たなベンチマーク「FACTS Grounding」を発表しました。このベンチマークは、LLMが事実に基づかない誤情報（「幻覚」またはhallucinations）を生成するリスクを軽減し、信頼性の高い情報を提供することを目指しています。

FACTS Groundingは、1,719の事実確認タスクから構成されており、各タスクには文書、システム指示、ユーザーリクエストが含まれています。LLMの応答は、提供された文書に基づいて評価され、ユーザーリクエストを満たすかどうかが判断されます。評価は、Gemini 1.5 Pro、GPT-4o、Claude 3.5 Sonnetなどの最先端LLMを使用して自動的に行われ、モデルの応答がどれだけ事実に基づいているかを客観的に測定します。

評価プロセスは、まず回答がユーザーのリクエストに十分に応えているかを確認する「適格性チェック」、次にその回答が提供された文書に完全に基づいているかを評価する「ファクト性評価」の2段階で行われます。文書は、ファイナンス、テクノロジー、小売、医療、法律など、さまざまな分野をカバーしており、最大32,000トークン（約20,000語）まで対応しています。

FACTS Groundingは、860のタスクを一般公開しており、誰でも利用できるデータセットとして提供されています。これにより、研究者や開発者がこのベンチマークを活用し、AIシステムの信頼性を向上させるための基盤が提供されます。

Google DeepMindは、このベンチマークを「生きたベンチマーク」として位置づけ、AIの進化に合わせて更新し、より多様な評価テンプレートや新しいドメインを含むように拡張していく計画です。

AI開発において、ベンチマークの存在は極めて重要です。あるタスクに対する回答の優越を正確に測ることができる優秀なベンチマークがあれば、開発者はそれで高得点が出せるように開発・調整を進めることができるようになるため、です。現在のAIモデルの大きな課題の一つは、あたかも事実であるかのように「平然と嘘をつく」（ハルシネーション）ことです。これをどのように抑制するかが、AIの回答に対する信頼性を向上させる上で欠かせない要素となっています。今回、DeepMindがハルシネーションを評価する新たなベンチマークを発表したことで、この指標が広く活用され、AIの回答がより正確かつ信頼性の高いものへと進化していくことを強く期待します。