Google が「思考予算」機能を持つ Gemini 2.5 Flash を発表

投稿者:

Google は 2025 年 4 月 17 日、ハイブリッド推論 AI モデル「 Gemini 2.5 Flash 」をプレビュー公開しました。このモデルは、推論プロセスを ON/OFF 切り替え可能な「完全ハイブリッド推論モデル」として、コストとパフォーマンスのバランスを開発者が柔軟に設定できる点が特徴です。

最も注目すべき機能は「思考予算( thinking budget )」と呼ばれる新しいパラメータで、開発者はモデルの推論に使用する最大トークン数を 0 から 24,576 トークンまで設定できます。これにより、タスクの複雑さに応じて推論の深さを調整し、コストを最適化することが可能になりました。

価格設定は非常に柔軟で、入力は 100 万トークンあたり 0.15 ドル(約 23 円)、出力は推論機能をオフにした場合 0.60 ドル(約 90 円)、オンにした場合は 3.50 ドル(約 525 円)に設定されています。これにより、推論を必要としないタスクでは最大で 600% のコスト削減が可能です。価格面では、発表当初に圧倒的低価格で話題となった DeepSeek の推論モデル「 R1 」とほぼ同水準にまで引き下げられており、コストパフォーマンスの高さが際立っています。

性能面では、数学や科学などの難問を含む「 Humanity’s Last Exam 」というベンチマークで 12.1%のスコアを記録。これは前モデルの Gemini 2.0 Flash( 5.1% )を大きく上回り、競合する Claude 3.5 Sonnet( 8.9% )も上回る結果です。ただし、OpenAI の o4-mini( 14.3% )には若干及びません。

Gemini 2.5 Flash は Google AI Studio や Vertex AI を通じて開発者が利用でき、思考予算はスライダー操作で直感的に設定可能です。また、Gemini アプリのドロップダウンメニューからも一般ユーザーがプレビュー版を試すことができます。

Google は現在プレビュー期間中で開発者からのフィードバックを収集し、モデルの「過剰に考える」あるいは「考えが不足する」部分を改善した上で、一般公開に向けて品質チューニングを進める予定です。特に使用頻度と量が多い企業向けに、コストパフォーマンスの高いソリューションとして期待されています。