Anthropic が Claude Opus 4.1 をリリース、コーディング性能で業界最高水準を達成

投稿者:

Anthropic は 2025 年 8 月 5 日、Claude Opus 4 のインクリメンタルアップグレード版となる「 Claude Opus 4.1 」をリリースしました。今回のアップデートでは、コーディング、エージェント的なタスク、リサーチ・データ分析の各分野で性能向上を実現しています。

最も注目すべきは、実際のソフトウェアエンジニアリング課題を評価する SWE-bench Verified で 74.5% の正確度を達成した点です。これは、前版の Opus 4 の 72.5% 、Sonnet 3.7 の 62.3% から向上し、OpenAI の最新 o3 モデル( 69.1% )を上回る業界最高水準の結果となりました。特に複数ファイルにまたがるコードのリファクタリングやデバッグにおいて、精密な修正能力を発揮します。

エージェント的なタスクにおいても進化が見られます。複雑なマルチステップ処理や長期的なワークフロー制御で優れた性能を示し、自動化や独立した情報収集、戦略的な意思決定サポートに活用できます。また、最大 32,000 トークンまでの出力が可能となり、一度に大規模なコードや詳細な分析レポートを生成できるようになりました。

新機能として「ハイブリッド推論モデル」が導入され、即座の応答と最大 64,000 トークンまでのステップごとの詳細思考とを自動で切り替えることができます。API ユーザーは思考時間を細かく制御でき、コストとパフォーマンスの最適化が可能です。

安全性についても配慮が強化され、Anthropic 独自の AI Safety Level 3 ( ASL-3 )基準に基づく包括的な評価を実施しています。具体的には、有害な要求に対して適切に拒否する能力、特定の属性に対する偏見や先入観を排除したより公平な回答生成、そして悪意のあるユーザーが安全制約を回避しようとするプロンプトインジェクション攻撃への耐性が大幅に向上しています。

価格設定は Opus 4 と同じく、入力トークン 100 万あたり 15 ドル(約 2,205 円)、出力トークン 100 万あたり 75 ドル(約 11,025 円)を維持しています。有料 Claude ユーザー、API 、Amazon Bedrock 、Google Cloud Vertex AI 、GitHub Copilot を通じて利用可能です。

実際の利用現場でも高い評価を得ており、Rakuten Group は「大規模なコード修正でピンポイントな修正が可能」、Windsurf は「ジュニアエンジニア向けベンチマークで 1 標準偏差以上の向上」と報告しています。

Anthropic は今後数週間でさらなる大幅改良をリリースする予定と発表しており、AI 開発競争における同社の地位をさらに強固なものにしていく構えです。