アップルが連日AI関連のニュースを賑やかしています。今回はアップルの研究者が公表したペーパーの中でで、新しいAIモデル「ReALM(Reference Resolution As Language Modeling)」を発表しました。ReALMの最大の特徴は、画面上に表示された視覚的な情報や会話の文脈を理解できすることに長けていて、この特徴により、スマートフォン上でSiriなどのAIアシスタントとのやり取りがより自然で直感的なものになることが期待されています。
ReALMの主な特徴は、あいまいな指示を理解する能力にあるようです。例えば、画面上に花屋のリストが表示されている状態で「Main Streetにあるお店に電話して」と指示すると、ReALMはどの花屋に電話すべきかを判断することができます。また、テキストに埋め込まれた画像から電話番号やレシピなどの情報を抽出することも可能です。
アップルの研究者によると、ReALMは画面上のコンテンツの解釈やあいまいな指示の理解、などの観点でOpenAIのGPT-4よりも優れた性能を発揮するとのことです。これは、画面コンテンツの解釈に特化した学習を行い、よりシンプルな構造を採用しているためだそうです。そのため少ないパラメータ数でも高い性能を発揮することができる、とされています。
ReALMは、ユーザーとAIアシスタントとの対話を大幅に改善する可能性を秘めています。アップルは会話型AIの分野で出遅れていると思われていましたが、ReALMによって、この分野で積極的に競争する姿勢を示しました。ここ数ヶ月小出しに様々なニュースが出てきていましたが、今回のペーパーである程度、アップルの進む方向性が見えてきたような気がします。ここからは完全に筆者の推測ですが、ReALMの機能がSiriに統合され、そうしたインターフェイスが他社のLLMを”Wrap”するWrapperとして機能する、ということなのではないでしょうか。ティム・クックCEOは、今年さらなるAI関連の発表を行う、と示唆しており、引き続き注目したいと思います。