イーロン・マスク率いる xAI は 2025 年 7 月、次世代 AI モデル「 Grok 4 」と、その強化版「 Grok 4 Heavy 」を発表しました。同社は「全ての分野で PhD レベルを超える」知能を持つと謳っており、最先端のベンチマークスコアを記録しています。
Grok 4 は単一エージェントによる標準モデルで、学術分野において PhD レベル以上の知能を持つとされています。一方、 Grok 4 Heavy は複数エージェントによるマルチエージェント・システムを搭載し、複数の AI が独立して問題を解き、結果を比較・統合することで、複雑な推論や長期的な計画に強みがあります。
ベンチマーク性能では、特に「 Humanity’s Last Exam 」で Grok 4 Heavy が 44.4 %というスコアを記録し、 OpenAI の o3 ( 21 %)や Gemini 2.5 Pro ( 26.9 %)を大きく上回りました。この試験は Scale AI と Center for AI Safety が作成した 2500 問以上の高度なマルチモーダル問題集で、非常に難易度が高いことで知られています。
また、抽象的な推論力を問う ARC-AGI-2 では、 Grok 4 が 16.2 %のスコアを記録し、 Claude Opus 4 の約 8 %、 Gemini 2.5 Pro の約 6 %を大きく上回っています。これは商用モデルの中でトップの成績となっています。
利用料金は高額で、 Grok 4 は月額 30 ドル(約 4350 円)の「 SuperGrok 」、 Grok 4 Heavy は月額 300 ドル(約 4 万 3500 円)の「 SuperGrok Heavy 」という設定になっています。これらは主に研究者・開発者・企業向けのサブスクリプションとして位置付けられています。
両モデルはマルチモーダル対応(画像・音声・テキスト入力)に対応し、 256k トークンのコンテキストウィンドウを持ちます。 API 経由での利用も可能で、ボイスモードでは感情表現や歌唱も可能とされています。
今後のロードマップとして、 8 月に AI コーディングモデル、 9 月にマルチモーダルエージェント、 10 月にビデオ生成機能のリリースが予定されています。企業向けプラットフォームやクラウド連携も拡大中です。
一方で課題も指摘されています。圧倒的な推論力とベンチマークスコアが注目される一方、日常的な応答速度や使い勝手は Grok 3 など既存モデルの方が優れている面もあります。また、論文執筆などの長編テキスト生成は苦手とされており、実用面での課題が残っているように見受けられます。
xAI は Grok 3 の公開からわずか数か月で Grok 4 をリリースし、急速な技術進化を遂げています。同社は Grok 4 の知能を「比類ない」と表現し、真の汎用人工知能( AGI )への大きな前進と位置づけており、科学的発見や問題解決における革新的なツールとなる可能性を強調しています。