「GPT-4o」!

投稿者:

OpenAIがまた一歩、業界をリードしました。今回の発表では、音声、画像、テキストをリアルタイムで処理できる新たなフラッグシップモデル「GPT-4o」を発表しています。「o」は「omni(全能)」を意味し、マルチモーダルに対応したことを示しています。

GPT-4oは、テキスト、画像、音声を単一のニューラルネットワークで処理するモデルであり、以前のモデルよりも多くの情報を捉え、より自然な対話を実現します。音声入力への応答時間は平均320ミリ秒と、人間の会話に近い速さを実現しています。

主な特徴として、多様な入力・出力形式、高速な応答時間、優れた視覚・聴覚理解能力、会話の文脈理解、ライブ翻訳や情報検索などの追加機能が挙げられます。テキスト、推論、コーディングではGPT-4 Turboと同等の性能を示し、多言語、音声、画像では従来のモデルを上回る性能を発揮しています。

GPT-4oは、無料版と有料版(Plusユーザー)の両方で利用可能です。Plusユーザーはメッセージ制限が5倍になりますが、違いはそれだけで、無料版のユーザーは有料版のユーザーと同じものが使えるようになりました。また、今後数週間以内に、ChatGPT Plus内でGPT-4oを使用した新しいVoice Modeのアルファ版が提供される予定です。

開発者は、APIでGPT-4oをテキストおよびビジョンモデルとして利用することもできます。GPT-4oは、GPT-4 Turboと比較して2倍高速、価格も半額、レート制限が5倍となっています。

OpenAIのCTOであるMira Murati氏は、GPT-4oが人間と機械の相互作用のパラダイムを転換させると述べています。

デモをいくつか見てみましたが、機能的にはそれぞれ既に実現されていることでひとつひとつを取り出してみれば驚くような機能ではありません。ただ、パッケージングの仕方が秀逸で、見せ方が上手いと感じました。Mira Murati氏が言うように、AIとのインタラクションが全く変わる瞬間に立ち会っていることを実感します。