Cerebras Systems、Llama 3.1 405Bの推論速度で新記録を達成

Cerebras Systemsは、Metaの最大規模の言語モデルであるLlama 3.1 405Bの推論サービス（実行環境）をアップグレードし、1秒あたり969トークンという記録的な処理速度を達成しました。これはNVIDIA GPU（H100）搭載のクラウドサービスと比較して約20倍高速であるとしています。

さらに、テキスト検索の待ち時間は従来のGPUシステムの5秒から0.07秒に、音声アプリケーションは700ミリ秒から10ミリ秒未満に改善されました。価格面でも、AWS、Google、Microsoft Azureと比較して約25%安価であるとのことです。

Cerebrasの技術的優位性は、メモリー帯域幅にあります。NVIDIA H100の3テラバイト/秒に対し、Cerebrasは21ペタバイト/秒と、7,000倍の性能を実現しています。ただし、NVIDIAはH200システムとBlackwellを展開予定であり、同一条件下での比較は行われていないことから、単純な性能比較は難しいと言えます。

Cerebrasのサービスは、現在トライアル版が利用可能であり、2025年第1四半期には正式サービスが開始される予定です。製薬企業のGlaxoSmithKlineや、動画生成AIのTavus Inc.などが主要クライアントとして名を連ねています。