AmazonとAnthropicが、大規模なAIトレーニング施設に関するプロジェクト「Project Rainer」を発表しました。今回発表されたAIトレーニング用のスーパーコンピュータは、数十万個のAmazonの最新AI訓練用チップ「Trainium2」を搭載し、Anthropicの現在の最上位モデルトレーニング施設の5倍以上の処理能力を実現する予定です。
Trainium2チップは、1チップあたり96ギビバイトのHBMメモリを搭載し、2.8テラビット/秒のデータ転送速度、FP8演算で最大1,287テラフロップスの性能を発揮します。また、64個のTrainium2チップを搭載したTrn2 UltraServerは、83.2ペタフロップスの演算性能、6テラバイトのHBM3メモリ、185テラバイト/秒のメモリ帯域幅を実現する、と発表されています。
単純な性能比較は難しいところですが、現在の主流のNVIDIAのトレーニング用GPU、H100と比較すると約2倍の能力があるとされていますが、最新のBlackwellよりは劣る性能、ということのようです。
Project Rainerの特徴として、単一のデータセンターではなく複数の施設に分散して設置される分散型アーキテクチャと、高速データ転送技術の採用が挙げられます。また、NVIDIAのGPUベースのシステムと比較してコストは30-40%削減でき、電力効率の大幅な改善が可能とされています。
Project Rainerは2025年の完成を予定しています。また、すでに次世代チップ「Trainium3」の開発も進行中で、現行版の4倍の性能向上を目指しています。このプロジェクトは先日発表されたAmazonとAnthropicの戦略的パートナーシップの一部で、Amazonのチップを使ってAnthropicのAIモデル開発を加速させることが期待されています。
この施設でのAIモデルのトレーニングが成功すると、AIモデルトレーニングの分野におけるNVIDIA一強の状況が少し変化する可能性があります。本当にうまくいくのか、それともやはりNVIDIAでないとダメなのか、をはかる試金石として注目されています。また、AmazonのAWSクラウドサービスにとってもこの成否は今後の売上に直結する重要なプロジェクトとなります。