米カリフォルニア州サンマテオに本社を置くRubik’s AIは2025年の幕開けとともに、その年の最初のモデルファミリーとなる「Sonus-1」を発表しました。Sonus-1ファミリーは、4つのバージョンで構成されており、主要なベンチマークにおいて競合他社と肩を並べる高い性能を示しています。
Sonus-1 Miniは高速処理とコスト効率に優れ、リソースが限られた環境やスピードが求められるシナリオに最適化されています。Sonus-1 Airは汎用性とパフォーマンスのバランスが取れた多機能モデルで、日常的な用途に適しています。Sonus-1 Proは複雑なタスクに特化した高性能モデルであり、専門的な用途での使用が想定されています。そしてフラッグシップモデルのSonus-1 Reasoning(別名Pro w/ Reasoning)は、思考の連鎖(chain of thought reasoning)を活用した高度な問題解決能力を備えているのが特徴です。
ベンチマークの結果を見ると、Sonus-1 Reasoningは数学問題解決においてGSM-8kで97%、高度な数学テストで91.8%という高得点を記録しました。一般知識テストでは、Sonus-1 Pro(w/ Reasoning)がMMLUで90.15%、MMLU-Proで73.1%のスコアを達成し、OpenAIのo1やMetaのLlama 3.1など競合他社のトップモデルに匹敵する性能を示しています。さらにコーディング能力の評価では、Sonus-1 ProがHumanEvalで90.0%、Aider-Editで72.6%のスコアを記録しました。
加えてSonus-1ファミリーは、リアルタイム検索機能とFlux画像生成機能を統合しており、プラットフォーム内で最新情報の取得やビジュアルコンテンツの作成が可能となっています。これらの新モデルは、chat.sonus.aiにて無料で試すことができるとのことです。
筆者の視点:年末のDeepSeekに続き、様々なベンチマークで競合のトップモデルに匹敵するモデルが出てきました。ただ、ざっと使ってみた感じでは高い精度を実感できませんでした。とても日常使いでChatGPTやGeminiなどを置き換えられるものには仕上がっていないように思えます。使用する言語の問題かと思い、英語でも試してみましたが、同様の感想でした。ベンチマークで高い点数を取ることだけを目的にトレーニングされているのでは?と疑ってしまいます。