韓国のスタートアップ Nari Labs が 2025 年 4 月、画期的なオープンソースの音声合成(Text-to-Speech、TTS)モデル「Dia」をリリースしました。この 1.6 億パラメータのモデルは、Ele
続きを読む
韓国のスタートアップ Nari Labs が 2025 年 4 月、画期的なオープンソースの音声合成(Text-to-Speech、TTS)モデル「Dia」をリリースしました。この 1.6 億パラメータのモデルは、Ele
続きを読むGoogle が 2025 年 4 月 14 日に発表した「DolphinGemma」は、イルカの音声通信を解析し、生成するために設計された新しい AI モデルです。このプロジェクトは、ジョージア工科大学およびワイルド・
続きを読むAmazon は、新たな AI 音声モデル「Nova Sonic」と、動画生成モデル「Nova Reels 1.1」を発表しました。Nova Sonic は音声認識と音声生成を一体化した「スピーチ・トゥ・スピーチ」モデル
続きを読む2021年に創業した中国・上海に本拠を置く AI スタートアップの MiniMax が「 Speech-02 」をリリースしました。Speech-02 はテキストから音声への変換( TTS: Text-to-Speech
続きを読むOpenAI は 2025 年 3 月 20 日、次世代の音声モデルを API ベースでリリースしました。この新モデルは、テキストから音声への変換(Text-to-Speech, TTS)および音声からテキストへの変換(
続きを読むVogent AI が3月11日に発表した「 Self-Learning Voice Agents (自己学習型音声エージェント)」は、音声 AI エージェント分野に革新をもたらす技術として注目を集めています。この新技術
続きを読むHume AI が 2 月 21 日、テキスト音声変換( TTS )専用に設計された大規模言語モデル「 Octave 」をリリースしました。従来の TTS システムとは異なり、 Octave はテキストの文脈や感情を理解
続きを読む音声読み上げAI「Zonos」を試してみました。このサービスは、カリフォルニア州パロアルトのスタートアップZyphraが開発したオープンソースの音声読み上げツールです。現在、英語や日本語を含む6言語に対応しており、その精
続きを読むNVIDIAが、音声生成と編集の分野の新しいAIモデル「Fugatto」(フガット)を発表しました。Fugattoは、25億のパラメータを持つ大規模なモデルで、テキストプロンプトや音声入力から様々な音(音楽・音声・効果音
続きを読むGoogleのAIメモ作成アプリ「NotebookLM」に、新たに「Audio Overview」機能が追加されました。この機能は、NotebookLMにアップロードされた文書やWebページの内容を、AIが生成した2人の
続きを読むStabilityAIが提供する有料の画像生成・画像処理サービス「Stable Assistant」をご紹介します。Stable Assistantは、StabilityAIが公開した最新の画像生成モデル「Stable
続きを読むElevenLabsのSound Effects機能を試してみました。この機能は、プロンプトを入力すると、それに応じた効果音を生成してくれるというものです。 使い方は非常にシンプルで、MetaのAudioboxの中でも同
続きを読む