Reka AI 、「 Reka Flash 3.1 」と量子化技術をオープンソース化

Reka AI は、210 億（ 21B ）パラメータの推論モデル「 Reka Flash 3.1 」と、最先端の量子化ライブラリ「 Reka Quant 」をオープンソースとして公開しました。コンパクトながら高性能を実現したこのモデルは、コーディングタスクで大きな飛躍を見せ、リソースに制約のある環境でも効率的に動作します。

Reka Flash 3.1 で特に目立つのは、コーディング性能の大幅な改善です。強化学習の仕組みを刷新した結果、 LiveCodeBench v5 で前バージョンから 10 ポイントも向上し、 Qwen3-32B や o3-mini といった大型モデルに匹敵する結果を出しています。

推論能力全般も優秀です。日常的な会話から指示追従、関数呼び出しまで幅広いタスクをこなし、 OpenAI の o1-mini と張り合える実力を持っています。128k トークンのコンテキスト処理が可能で、必要十分な長さの文書や作業に対応できます。

面白いのが、独自の予算強制メカニズムです。<reasoning> タグを使って、モデルの思考過程を決まったステップ数で区切れるため、応答速度を重視するアプリケーションでも安定した性能を保てます。

同時リリースされた「 Reka Quant 」は、データ圧縮技術で新境地を開いています。「量子化」とは、 AI モデルの数値データをより少ないビット数で表現してファイルサイズを小さくする技術のことです。ただし、ファイルサイズを小さくし過ぎると性能が低下するというトレードオフがありました。 Reka の 3.5 ビット量子化では、性能をほとんど落とすことなくモデルサイズを劇的に圧縮できます。従来の llama.cpp の標準手法では 6.8 ポイントの性能低下があったのに対し、 Reka の手法ならわずか 1.6 ポイントに抑えられています。

この圧縮効果は驚異的です。元々 39GB （ fp16 ）だったモデルが 11GB （ 4 ビット量子化）まで小さくなり、 VRAM が限られた環境でも楽に動かせます。これは、連続的な数値を段階的な値に変換することで実現される技術で、エラー低減と自己蒸留という手法を組み合わせることで、他のデータ圧縮手法と比べてパフォーマンス低下を最大 75% も削減しています。

使い勝手の面でも配慮が行き届いています。 Llama 互換フォーマットでリリースされているので、 Hugging Face の transformers や vLLM など、おなじみのライブラリですぐに動かせます。 Apache 2.0 ライセンスで商用利用も自由なのは、開発者にはありがたいところです。

現在は GitHub や Hugging Face からダウンロードでき、オンラインのプレイグラウンドで試すこともできます。企業向けのカスタマイズや技術サポートも用意されています。

ただし、いくつかの制約もあります。基本的に英語向けの設計なので、他の言語で質問すると英語で考える癖があります。また、210 億パラメータというコンパクトさゆえに、深い専門知識が必要なタスクではウェブ検索と組み合わせて使うのがおすすめです。

Reka AI は、たった 22 人の小さなチームながら、 DeepMind や Meta FAIR 出身の研究者たちが短期間で革新的なモデルを次々と生み出しているスタートアップで注目されています。