Cosine社のGenie、SWE-Benchで30.08%を達成　他のAIモデルを大きく上回る

サンフランシスコ発のスタートアップ、Cosine社が開発したAIモデル「Genie」が、ソフトウェアエンジニアリングの性能を測るベンチマークSWE-Benchで驚異的なスコアを叩き出しました。30.08%という数字は、これまでの最高記録であるAmazonのCodeWhisperer（19%）を大幅に上回り、GPT-4の1.31%と比べても圧倒的な性能を示しています。

Genieの強みは、人間のエンジニアの思考プロセスを「コード化」し、AIモデルに組み込むという独自の手法にあります。さらに、実際のエンジニアの作業例から得られた独自のデータでトレーニングを行うことで、より実践的な能力を身につけています。SlackやGitHubといった開発ツールとの連携も可能で、まるで人間の同僚のように質問やコメントができるのも特徴です。

Cosine社は、著名なスタートアップアクセラレータYコンビネーターのバッチ卒業企業で、2024年8月には250万ドル（約3.7億円）のシード資金を調達しています。Genieの発表はこの資金調達と同時に発表され、注目を集めています。

Genieは、以前話題となった自律型コーディングプラットフォームDevinをも凌駕する性能を持ち、バグ修正、機能開発、コードリファクタリングなど、様々なプログラミングタスクを自律的または人間と協力してこなすことができます。個人・小規模チーム向けと企業向けの2つの価格帯で提供される予定です。

Cosine社は、Genieのさらなる改善と機能拡張を計画しており、オープンソースコミュニティへの貢献も視野に入れています。AIとエンジニアが協力して開発を進める新たな時代を切り開く存在として、Genieの今後の展開に期待が高まります。