- 総合評価:★★★☆☆
- 試みの新規性:★★★★★
Tavus 社がビデオ会話ができる AI アバターの技術進化を発表しましたので、早速試してみました。このサービスは、オンライン上に人間のデジタルツインを作成し、ビデオでリアルタイムにインタラクションできるというものです。
Tavus 社の Conversational Video Interface ( CVI )プラットフォームには、この度 3 つの新しい AI モデルが導入 * され、インタラクションの自然さがより人間に近づいたとのことです。実際に試してみると、動画付きの AI アバターでここまで自然に会話ができるものは確かに初めて体験しました。
これまでは音声での自然な会話ができるものまではできていて、動画付きの AI との対話は稀でした。もしくは、リップシンク技術を使って動画に音声をつけて自然に見せるという一方的なビデオ作成ツールはありましたが、リアルタイムでのやり取りはできませんでした。
Tavus のシステムを使えば、まるで実在の人物と対話しているような感覚を味わえます。ただし、技術的にはまだ発展途上の段階と感じました。会話にタイムラグが生じたり、画像がちらついたりすることが多くみられました。
筆者独断の評価は星 3 つです。動画を使って自然な会話を目指すという同社の試みは賞賛に値します。ただ、実際に使ってみると「自然」からは程遠く、タイムラグや画像のちらつきなど不自然さが多く残る点が気になり、星を 2 つ減じました。ただ、方向性としては、このまま正常に進化していけば、本当に生活現場で使えるものになる可能性を感じます。今後の進化に期待したいと思います。
*「 Phoenix-3 」「 Raven-0 」「 Sparrow-0 」という 3 つのモデル。
「 Phoenix-3 」は顔全体のアニメーションを担当し、微細な表情や唇の動きを精密に再現。「 Raven-0 」は人間の感情やボディランゲージをリアルタイムで読み取る知覚モデルで、 AI が視覚情報を理解し適切に反応することを可能にします。そして「 Sparrow-0 」は会話のターン取りを最適化し、人間同士のような自然な対話の流れを実現するとのことです。