Microsoft、独自開発の画像・音声モデル3本を正式リリース

文字サイズ

Microsoft は 2026 年 4 月 2 日、自社開発の AI モデル 3 本を正式に公開しました。画像生成の「 MAI-Image-2 」、音声認識の「 MAI-Transcribe-1 」、音声合成の「 MAI-Voice-1 」で、いずれも OpenAI の名称を持たない純粋な自社製品です。これらは、Microsoft AI の CEO ムスタファ・スレイマン氏が 2025 年 11 月に立ち上げた「 MAI Superintelligence チーム」が開発した、初めての公式リリースとなります。

注目度が高いのは画像生成モデルの MAI-Image-2 です。 AI モデルの性能比較サイト Arena.ai のランキングで 3 位を獲得し、 Google や OpenAI の最新モデルに次ぐ評価を受けています。前世代モデルがリリース時に 9 位だったことを考えると、短期間での大幅な性能向上といえます。生成速度は前世代の約 2 倍になり、画像の中に文字を正確に描き込む精度も大きく改善されました。写真のようにリアルな表現や、図表・スライドへの文字入れ、映画的な複雑な構図といった場面での活用が想定されています。ただし現時点では、正方形の画像のみ対応で 1 日 15 枚までという生成制限があります。

音声認識モデルの MAI-Transcribe-1 は、 25 言語のテストで OpenAI の主力モデルを全言語で上回る認識精度を達成しました。音声合成モデルの MAI-Voice-1 は、 1 台のサーバーで 1 分間分の音声を 1 秒以内に生成できる処理速度を実現しています。この 2 つの音声モデルは、わずか 10 人のチームが開発したもので、スレイマン氏が重視する「少数精鋭」の開発体制が結果につながっています。

料金体系も公開されており、 MAI-Transcribe-1 が音声 1 時間あたり $0.36 （約 54 円）、 MAI-Voice-1 が 100 万文字あたり $22 （約 3,300 円）、 MAI-Image-2 が画像出力 100 万トークンあたり $33 （約 4,950 円）となっています。すでに世界最大規模の広告グループである WPP が、業務での大規模活用を前提とした最初の企業パートナーとして名乗りを上げています。

これらのリリースは、 Microsoft の戦略転換を象徴しています。 2025 年 9 月の OpenAI との契約見直しにより、 Microsoft は独自モデルを自由に開発・販売できる立場になりました。 2027 年には OpenAI と直接競合する大規模言語モデルの投入も計画しており、長年続いてきた OpenAI 依存からの脱却が着実に進んでいます。

Microsoft、独自開発の画像・音声モデル3本を正式リリース

関連記事

【 Breaking News 】MicrosoftとOpenAIのパートナーシップ契約が大幅改定、独占ライセンスを解除

Microsoft、健康情報を統合する AI サービス「Copilot Health」を発表

Microsoft、Anthropic の Claude 技術を活用した Copilot Cowork を発表