GoogleのGemini-Exp-1121、AIリーダーボードで首位を奪還

GoogleとOpenAIの間でAIモデルの性能競争が激化する中、Googleの「Gemini-Exp-1121」が最新のChatbot Arena リーダーボードでトップの座を再び獲得しました。この出来事は、わずか1週間の間に起きた3回目の首位交代となり、両社の熾烈な競争を物語っています。

Chatbot Arenaは、実際の回答を人間が評価する方法ですので、ベンチマークの優劣を競うよりも、実用性の有無を見る上で信頼できる指標です。

また、Gemini-Exp-1121は、コーディング能力、推論能力、視覚的理解の分野で顕著な改善を示しています。特に、漫画の理解力テストにおいてOpenAIのGPT-4oを上回る成績を示し、より包括的な回答を提供できることが実証されました。論理的推論問題では、GPT-4oが誤りを含む回答をする中、Gemini-Exp-1121は完全に正確な解答を提供しました。

Google DeepMindのチーフサイエンティストであるJack Raeは、この急速な開発を「電撃戦（lightning war）」と表現しており、現状、AIモデルが本来持っている力を磨き上げる「事後学習」の進化速度が、大量のデータを使って行う「事前学習」よりも速く、効果的であることを示唆しています。

この発言から推測するに、Deepmindでは、AIモデルから出力される回答の調整方法に何らかの方法論（ノウハウ）を見出した、ということなのだと思います。

GoogleとOpenAIの激しい開発競争は、AIの性能向上を加速させ、より実生活や企業内で使いやすくなる、という意味で、歓迎するべきことです。