NVIDIA Nemotron 3 Nano Omni：把視覺、聽覺與語言塞進同一顆 30B MoE 的開源全模態模型

Apr 29, 2026

陳保羅

NVIDIA Nemotron 3 Nano Omni 封面圖

TL;DR

Nemotron 3 Nano Omni 是 NVIDIA 最新發表的開源多模態基礎模型，把文字、圖像、影片、語音統一進同一個推理迴圈。
採用 30B 總參數 / 3B 活躍參數（30B-A3B）的 Hybrid Mamba2-Transformer MoE 架構，搭配 256K context window。
號稱在多項多模態基準上拿下第一，並提供與其他開源 omni 模型相比最高約 9× 的吞吐，更適合用在大規模 Agentic 系統的「感知子代理（perception sub-agent）」。
權重、資料集、訓練配方全部開放，可在 Hugging Face、AWS SageMaker JumpStart、DeepInfra、fal、Together AI 等平台直接取用。

過去要做一個能「看螢幕、聽會議、讀文件、再做決策」的 Agent，通常得把好幾個模型拼在一起：一顆 Vision-Language、一顆 ASR、一顆 LLM，再用 orchestration 框架把它們串起來。這種「拼裝式 perception 堆疊」會帶來幾個老問題：

Nemotron 3 Nano Omni 想解決的就是這件事——用一顆模型同時負責「看 / 聽 / 讀」，讓 Agent 在感知端只需要呼叫一次。

Nemotron 3 Nano Omni 的設計把多模態感知與推理塞進一個高度模組化的 MoE 架構：

元件	角色	說明
Nemotron 3 Nano LLM	語言主幹（central decoder）	所有模態最終都對齊到這顆文字模型，避免多模態訓練的不穩定。
C-RADIOv4-H	視覺編碼器	處理高解析度圖片與影片，採分層壓縮策略。
Parakeet	語音編碼器	負責 ASR、長音訊理解，不只是逐字稿。
Hybrid Mamba2-Transformer MoE	骨幹	30B 總參數、僅 3B 活躍，兼顧長序列效率與品質。

幾個值得記住的數字：

NVIDIA 官方公告與技術部落格指出，Nemotron 3 Nano Omni 在以下六個方向的多模態基準上都拿到開源模型中的領先位置：

更重要的是它的「效率前緣」：在維持類似互動延遲的條件下，吞吐量約為其他開源 omni 模型的 9 倍，意味著同樣一張 GPU 能服務更多 agent session。

從工程角度，Nemotron 3 Nano Omni 最值得關注的不是某一項 benchmark 分數，而是它把自己定位成**「Agent 系統裡的感知子代理（perception sub-agent）」**：

單一模型取代多模型 pipeline：原本 vision encoder + ASR + VLM 的組合，可以收斂成一個 endpoint。
長 context 讓 agent loop 更穩：256K 足以撐住一段長會議、或一個多視窗的桌面操作流程，不必中途丟掉重要上下文。
與其他 reasoning / planner agent 解耦：感知交給 Nano Omni，規劃與工具呼叫可以交給更專精的 reasoning 模型，整體架構更接近「multi-agent + 工具鏈」的範式。

如果你正在打造的 Agentic 系統，需要同時處理螢幕截圖、會議錄音、PDF、影片片段，那 Nano Omni 很可能會是那個能讓你「砍掉一半感知層」的候選。

NVIDIA 把 Nemotron 3 Nano Omni 做成完全開放：

建議的試用路徑：

先在 fal 或 Together AI 用 hosted endpoint 跑幾個 multimodal prompt，感受一下 256K context 與 omni 輸入的體驗。
如果想自己 host，從 vLLM + FP8 變體開始，會是 cost / latency 比較甜的點。
若是 edge 場景（Jetson、DGX Spark），參考官方 llama.cpp / LM Studio 配方。

Nemotron 3 Nano Omni 不只是「又一顆多模態模型」。它代表 NVIDIA 對 Agentic AI 架構的一個明確押注：未來 agent 不再用一堆模型拼出感知層，而是用一顆高效率的 omni 模型當作統一的感知子代理，再把推理、規劃、工具使用交給上層更專精的角色。

對正在設計 multi-agent 系統的團隊來說，這顆模型很值得排進近期的 PoC 清單——尤其是那些被「文件 + 語音 + 影片」混合輸入折磨許久的場景。