大規模言語モデル(LLM)の性能を比較する「Chatbot Arena」において、OpenAIのGPT-4 Turboが再びトップの座を獲得しました。しばらくの間、Anthropic社のClaude 3 Opusに首位を譲っていましたが、最新バージョンのgpt-4-turbo-2024-04-09がリリースされたことで、再びリーダーボードの頂点に立っています。
GPT-4 Turboの性能向上は、コーディング、数学、推論、ライティングなどの分野で顕著に見られます。Chatbot Arenaでは、全体ランキングだけでなく、コーディングと英語のカテゴリーでもトップに立っています。一方、Claude 3 Opusは3位に後退し、GPT-4 Turboの旧バージョンが2位につけています。
Chatbot Arenaは、ユーザーがモデルの名称を知ることなく、複数のLLMをチャット形式で比較できるプラットフォームです。「Arena (battle)」モードで勝敗を投票することで、Gemini ProやClaude 3、Mistral-Large-2402など82のLLMのランキングに影響を与えることができます。
また、Metaが先日リリースしたLlama3 70Bモデルは、早くもオープンソースモデルのトップにたちました。大手テック企業による新モデルの開発競争が加速する中、LLM市場の動向から目が離せません。