AI Chat NVIDIA

NVIDIA、マルチモーダル AI モデル「Nemotron 3 Nano Omni」を公開

NVIDIA、マルチモーダル AI モデル「Nemotron 3 Nano Omni」を公開
文字サイズ

NVIDIA は 2026 年 4 月 28 日、音声・映像・画像・テキストをまとめて扱える AI モデル「 Nemotron 3 Nano Omni 」を一般公開しました。これまでの AI システムは、音声・画像・テキストをそれぞれ別のモデルで処理する構成が主流でしたが、同モデルはこれらを一つにまとめることで、処理の複雑さとコストを同時に下げることを目指しています。

技術的な特徴として、モデルのパラメータ数は 300 億規模ですが、処理ごとに全体を動かすのではなく必要な部分だけを選択的に活性化する仕組み(MoE)を採用しています。これにより、性能を維持しながら計算資源を効率的に使えるようになっています。また、テキストや文書、動画、音声といった多様な形式の情報を、最大 256K トークンという長い文脈のなかで一括処理できる点も特徴です。

処理速度の面では、同程度の他のオープンモデルと比べて、動画処理で 9.2 倍、複数文書の処理で 7.4 倍の効率を実現しています。動画の解析コストについても、業界標準のベンチマークで 1 時間分の動画を約 14.27 ドル(約 2,141 円)で処理できることが確認されており、オープン・クローズドを問わず現時点で最も低いコストを達成しています。

すでに Foxconn や Palantir 、インドの医療プラットフォーム Eka Care などが実際の業務に導入しており、 Dell Technologies や Oracle なども採用に向けた評価を進めています。モデルは商用利用が認められており、 Amazon などのクラウドサービスを含む 25 以上のプラットフォームから利用できます。

NVIDIA がこのモデルを無償のオープンウェイト形式で公開した背景には、競合する半導体メーカーが台頭するなかで、開発者を自社のエコシステムに引き留めるねらいがあるとみられます。 Nemotron シリーズはこの 1 年で累計 5,000 万ダウンロードを超えており、今回の Omni はそのシリーズを音声・映像領域にも広げる位置づけです。