Tavus が最新 AI リップシンクモデル「 Hummingbird-0 」を発表

投稿者:

サンフランシスコの AI スタートアップ Tavus が発表した「 Hummingbird-0 」は、動画の口の動きを音声に合わせる技術(リップシンク)を用いた AI モデルです。この技術の最大の特徴は「ゼロショット」と呼ばれる方式で、特別な訓練や調整なしでも、既存の動画と新しい音声を組み合わせるだけで自然な口の動きを実現できます。

使い方はとても簡単です。MP4 形式の動画と MP3 形式の音声をアップロードするだけで、約 1 分以内に高品質なリップシンク動画が生成されます。技術的な性能も高く、各種ベンチマークでは、画質を示す指標で 37%、口の動きの正確さで 7%、人物の特徴保持でも 7% 向上するなど、他の競合モデル(例:SyncLabs、Wav2LipやSynthesia等)を上回る結果を出しています。

Hummingbird-0 は、Tavus の主力モデル「 Phoenix-3 」の技術を基に、リップシンクに特化して改良されました。5 分までの動画に対応し、短い動画なら約 1 分で処理が完了します。また、API を通じて他のシステムに組み込むことも可能です。

この技術は様々な場面で活用できます。例えば、グローバル企業が動画を多言語で展開する際や、教育用の動画制作、AI キャラクターの生成、既存映像の台詞変更などに役立ちます。特に再撮影が不要になるため、時間とコストの大幅な削減が期待できます。

ただし、アニメ映像、歌や音楽の動画、リアルタイム処理、複数の話者が同時に登場する動画には向いていないという制限もあります。