OpenAI が AI の安全性テスト結果を定期公開、新サイト「 Safety Evaluations Hub 」開設

投稿者:

OpenAI は 2025 年 5 月 14 日、AI モデルの安全性テスト結果を定期的に公開する新しいウェブサイト「 Safety Evaluations Hub 」を開設しました。ここでは、AI が危険なコンテンツを作る頻度や、デタラメな情報を生成する「ハルシネーション」の発生率、セキュリティ攻撃への耐性などが公開されています。

この取り組みの背景には、OpenAI の透明性不足への厳しい批判があります。これまで同社は、十分な安全テストを行わずに新モデルを急いでリリースしたり、CEO のサム・アルトマン氏が安全性について十分な説明をしていないと指摘されてきました。最近も ChatGPT の主力モデル GPT-4o をアップデートした際、「何でも肯定的に答えすぎる」問題が発生し、アップデートを取り消す事態となりました。

新サイトでは、これまでの「リリース時に一度だけ情報公開」する方式から、モデル改良のたびに最新データを更新する方式に変わります。また、異なるモデル同士の性能比較も可能になり、ユーザーがより詳しい情報を得られるようになります。

実際の公開データを見ると、現在の OpenAI モデルの性能にはかなりバラつきがあります。危険コンテンツの生成拒否では、ほとんどのモデルが 0.99 という高得点を取っていますが、普通の質問への適切な回答能力は 0.65 から 0.80 とモデルによって差があります。

特に深刻なのがハルシネーションの問題です。事実確認テストでは、正答率が 0.09 から 0.59 と低く、間違った情報を作り出す率が 0.41 から 0.86 という高い数値を示しています。さらに困ったことに、最新の高性能モデル o3 や o4-mini では、プログラミングや数学は得意になったものの、ハルシネーション率が悪化しています。人物に関する質問テストでは、o3 が 33% 、o4-mini が 48% の確率でデタラメな答えを作り出し、従来の o1 の 16% を大幅に上回っています。

セキュリティ面では、人間による手動攻撃にはそれなりに対応できるものの、自動化された攻撃手法に対してはまだ弱点があることが判明しました。標準テストでは 0.23 から 0.85 という幅広いスコアとなっており、改善が必要です。

OpenAI 自身も、なぜハルシネーションが増えているのか原因を特定できておらず、「もっと研究が必要」と認めています。また、今回公開されているのは OpenAI が選んだ一部の情報だけで、内部テストの全貌が公開されているわけではない点も課題として残ります。