Amazon、AI 音声モデル「 Nova Sonic 」と動画生成モデル「 Nova Reels 1.1 」を発表

投稿者:

Amazon は、新たな AI 音声モデル「Nova Sonic」と、動画生成モデル「Nova Reels 1.1」を発表しました。Nova Sonic は音声認識と音声生成を一体化した「スピーチ・トゥ・スピーチ」モデルで、より自然な対話を実現します。一方の Nova Reels 1.1 は、動画生成の品質を向上させ、生成可能な時間を大幅に延長した最新版です。

Nova Sonic の最大の特長は、従来のように音声を一度テキストに変換せず、音声から直接音声を生成する点にあります。これにより、会話のトーンや間、感情といったニュアンスを正確に捉え、話し手のアクセントや話し方に合わせた自然な応答が可能となりました。たとえ話が途切れたり曖昧だったりしても、適切に理解し対応できる点が特徴です。

現在、対応言語は英語(アメリカ英語とイギリス英語)で、声は男女から選択可能。最大 32,000 のオーディオトークン、1 セッションあたり最大 8 分まで対応しています。Amazon によれば、競合製品と比べて応答速度が速く、平均遅延は 1.09 秒、コストも最大 80% 削減できるとのことです。

一方、Nova Reels 1.1 はテキストから動画を生成するモデルで、従来の 6 秒制限から最大 2 分まで生成可能になり、画質も大幅に向上しました。複数ショットを統一感あるビジュアルスタイルでつなぎ、一貫した動画を作ることができます。1 つのプロンプトで動画全体を作成することも、ショットごとにカスタマイズして詳細に制御することも可能です。

これらのモデルは、Amazon の Bedrock プラットフォームを通じて提供され、開発者はカスタマーサポートや教育支援、マーケティングコンテンツなど、さまざまな分野で活用できます。実際に、教育企業 EF は Nova Sonic を導入し、非ネイティブスピーカー向けの発音・語彙学習の支援に活用しています。

また、Nova Sonic は次世代の Alexa+ アシスタントにも搭載されており、スマートデバイスとの対話体験をさらに進化させています。