Claude3、初めてGPT-4を上回る – Chatbot Arenaでの評価結果

投稿者:

UC Berkeleyの学生が立ち上げたLMSYS.org(Large Model Systems Organization)が運営する、大規模言語モデル(LLM)の評価プラットフォーム「Chatbot Arena」において、Anthropic社のClaude 3 OPUSがOpenAI社のGPT-4を初めて上回りました。

Image Source: Hugging Face Screen Shot

Chatbot Arenaでは、40万人以上のユーザーが参加し、Eloレーティングシステム(*)を用いてLLMの順位付けを行っています。2023年5月のリーダーボード開設以来、GPT-4モデルが常に上位を占めていましたが、今回Claude 3がその座を奪取したのです。

LMSYSは、UC BerkeleyとUCSD、CMUの学生と教員が共同で設立したオープンリサーチ組織で、オープンなモデル、データセット、システム、評価ツールの共同開発を通じて、LLMを誰もが利用できるようにすることを目指しています。

Claude 3の台頭は、大規模言語モデル市場における競争の激化を示しており、多くのユーザーが日常のワークフローでChatGPTからClaude 3に置き換えつつあります。OpenAIは今年中にGPT-4 Turboの後継となる大型アップデート(GPT-4.5またはGPT-5)をリリースすると予想されています。

Claude 3がGPT-4を上回ったことは、急速に進化するLLM業界における重要なマイルストーンと言えるでしょう。AnthropicやGoogleなどの競合他社が高性能なモデルで追い上げる中、OpenAIは次の画期的なリリースで応戦することが求められています。

*例えば、サッカーのFIFAランキングなどのランキング方式(対戦結果からランクをつけていく方式)