Higgsfield AI が「 Speak 2.0 」で AI アバター動画の表現力を大幅向上

AI 動画生成スタートアップの Higgsfield AI は 2025 年 8 月 30 日、カスタムアバター動画生成ツール「 Higgsfield Speak 2.0 」をリリースしました。この新バージョンでは、より自然な口の動きと高度なリップシンク技術により、まるで本物の人が話しているような動画を簡単に作成できるようになりました。

従来の AI アバター動画では、口の動きが音声と合わない、表情が不自然、感情表現が乏しいといった問題がありました。 Speak 2.0 はこれらの課題を大幅に改善し、テキストを入力するだけで喜び、怒り、笑いなどの感情を自然に表現するアバター動画を生成できます。台本を書くような感覚でテキストを入力すれば、話す速度や抑揚、感情まで細かく指定できるのが特徴です。

技術面では、 70 以上の言語に対応した高精度なリップシンク機能を搭載しています。各言語の発音や口の形状の違いを正確に反映し、どの言語でも自然でプロフェッショナルな仕上がりを実現します。また、 Google の Veo 3 との連携により映像品質も向上し、本格的な動画制作ワークフローにも対応できるレベルに達しています。

操作方法も直感的で、「[whispers]（ささやく）」や「[laughs]（笑う）」といった指示をテキストに織り交ぜるだけで、アバターの表現をコントロールできます。複数のキャラクターによる会話シーンや、アクセント、話す速さ、タイミングの調整も可能です。長文のテキストほど自然に聞こえるため、ナレーションや対話形式の動画制作が格段に楽になりました。

さらに 50 種類以上のカメラの動きも選択できます。近づいたり遠ざかったり、急激にズームしたり、ドローンで撮影したような視点など、映画で使われるような撮影技法を手軽に使えるため、動画の表現力が格段に豊かになります。

料金体系は月額約 29 ドル（約 4320 円）からのプロプランで利用でき、無料トライアルでは 2 回の動画生成が可能です。従来のビデオ編集ソフトと比べるとカスタマイズの細かさは限定的ですが、簡単操作で高品質な結果を得られる点が大きな魅力です。

X （旧 Twitter ）では、実際に使ってみたユーザーやクリエイターがそのリアルなリップシンクや多言語対応を高く評価する声も上がっています。