Google Research が AI メモリ圧縮アルゴリズム「TurboQuant」を発表

投稿者:

Google Research は 2026 年 3 月 24 日、AI モデルの動作に必要なメモリを大幅に減らす新技術「TurboQuant」を公式ブログで発表しました。学術カンファレンス ICLR 2026 での正式発表を予定しており、Google の研究者である Amir Zandieh 氏や Vahab Mirrokni 氏らのチームが開発しました。

この技術が狙うのは、AI モデルが長い会話や文書を処理する際に膨らむ「メモリコスト」の問題です。AI は過去のやり取りを記憶しながら処理を行うため、文脈が長くなるほどメモリの消費量が急増します。TurboQuant はこのデータの記録方式を工夫することで、必要なメモリ量を最大 6 分の 1 に抑えます。また、NVIDIA の高性能 GPU「H100」上では処理速度が最大 8 倍向上するとされており、企業が実際に導入した場合、AI 推論にかかるコストを 50% 以上削減できる可能性があります。

ビジネス上の魅力は、導入のしやすさにもあります。既存の AI モデルを作り直す必要がなく、追加の学習データも不要で、現在稼働中のモデルにそのまま組み込めます。質問応答・コード生成・文書要約といった実用的なタスクで精度の低下は確認されておらず、5 種類の性能評価でも同等の結果が報告されています。

投資家への影響も見逃せません。発表から 48 時間以内に、AI 向けメモリを手がける Micron の時価総額は約 250 億ドル(約 3 兆 7,500 億円)が失われ、SK Hynix が 12%、Samsung が 7% それぞれ下落しました。Cloudflare の CEO Matthew Prince 氏は「Google の DeepSeek モーメント」と評しており、2025 年初頭に中国の AI スタートアップが推論コストを劇的に引き下げた出来事と重ねる見方が広がっています。

一方で、数字の読み方には注意が必要です。6 倍という削減率は理論上の最大値との比較であり、商用環境ではすでに一定の圧縮が行われているため、実際の効果はより小さくなる場合があります。また、現時点では主要な AI 実行環境への組み込みが済んでおらず、本番導入にはエンジニアリングの工数が伴います。AI モデルの「学習」ではなく「推論」のみを対象とした技術であるため、データセンター向けメモリ需要全体への影響は限定的との見方もあります。一部の研究者からは既存手法との類似性を指摘する声も上がっており、独立した検証が続いています。