音声生成・TTS/STS アーカイブ

MetaがElevenLabsと提携、InstagramとHorizonで音声AIを本格導入へ

2025年 12 月、AI 音声合成技術のリーディングカンパニーである ElevenLabs は、ソーシャルメディア大手 Meta との戦略的提携を発表しました。このパートナーシップは、ElevenLabs の高度なオー

AI 音声技術を手がける ElevenLabs は 11 月 11 日、初開催の ElevenLabs Summit で「Iconic Voice Marketplace」を正式発表しました。企業が著名人の AI 複製音

中国 IT 大手の Tencent は 2025 年 8 月 28 日、動画に自動でプロフェッショナル品質の効果音を生成する AI モデル「 HunyuanVideo-Foley 」をオープンソースで公開しました。このモ

OpenAI は、ベータ版で提供されていた Realtime API を正式に一般公開し、新たな音声対話モデル「 gpt-realtime 」の提供を開始しました。この発表は 2025 年 8 月 28 日に行われ、開発

Microsoft は 2025 年 8 月 28 日、独自開発 AI モデル「 MAI-Voice-1 」と「 MAI-1-preview 」を発表し、これまで OpenAI 技術への依存が続いていた関係性に新たな変化

Microsoft は、長文オーディオや複数話者の会話音声を最大 90 分間生成できるオープンソースの「Text-to-Speach（ TTS ）」モデル「 VibeVoice 」をリリースしました。従来の TTS モデ

中国の AI スタートアップ MiniMax は 2025 年 8 月 7 日、新世代の音声 AI 「 Speech 2.5 」をリリースしました。（デモはこちら）このモデルは 40 言語に対応し、アクセント（訛り）、年

Hume AI が 2025 年 7 月 17 日、次世代の Speech-to-Speech モデル「 EVI 3 （ Empathic Voice Interface 3 ）」を API 経由でリリースしました。この

AI 音声合成スタートアップの ElevenLabs は、新しいテキスト読み上げ（ TTS ）モデル「 Eleven v3 （アルファ版）」を発表しました。同社は「これまでで最も表現力豊かなモデル」と位置づけており、従来

韓国のスタートアップ Nari Labs が 2025 年 4 月、画期的なオープンソースの音声合成（Text-to-Speech、TTS）モデル「Dia」をリリースしました。この 1.6 億パラメータのモデルは、Ele

Google が 2025 年 4 月 14 日に発表した「DolphinGemma」は、イルカの音声通信を解析し、生成するために設計された新しい AI モデルです。このプロジェクトは、ジョージア工科大学およびワイルド・

Amazon は、新たな AI 音声モデル「Nova Sonic」と、動画生成モデル「Nova Reels 1.1」を発表しました。Nova Sonic は音声認識と音声生成を一体化した「スピーチ・トゥ・スピーチ」モデル