6人の研究者とエンジニアで構成されるスタートアップ Poetiq AI が、2025年12月5日に ARC-AGI-2 Semi-Private Evaluation Set で54%の精度を達成し、新たな最高記録を樹立しました。これまでの記録である Google の Gemini 3 Deep Think の45.1%を大幅に上回る成果となっています。
ARC-AGI-2は2025年に発表された抽象的推論能力を測定するベンチマークです。このテストでは、パズルを利用し、いくつかの入力と出力の例を見せて、そこに隠されたルールを見つけ出し、未知の入力に対して正しい出力を予測する能力をテストします。人間のテスターは平均60%の精度を達成する一方で、GPT-4 や Claude などの主要 AI モデルは従来0-5%しか取れない困難な課題でした。
Poetiq の技術的特徴は、独自の大規模モデルを構築せず、既存モデルを活用している点にあります。同社は Gemini 3 と GPT-5.1 の両方を使用する Mix 構成を採用し、生成・批評・改良・検証の最適化ループを実装したメタシステムアーキテクチャを開発しました。平均して 2回未満のモデル呼び出しで問題を解決できており、1問あたりのコストは30.57ドル(約4,586円)に抑えられています。
これは Google のモデルでは1問あたり77.16ドル(約11,574円)かかる のと比べて、大幅に効率が高い水準です。
同社は、Google DeepMindで長年研究に携わってきたメンバーによるチームが率いており、2025年11月20日にこの成果を正式に発表しました。結果は ARC Prize 財団によって検証済みです。
また、12種類の異なるモデルファミリーでのテストでも一貫した性能向上が確認され、研究者が自由に試し・改良できるようオープンソースとして公開しています。
