
TL;DR
- Nemotron 3 Nano Omni 是 NVIDIA 最新發表的開源多模態基礎模型,把文字、圖像、影片、語音統一進同一個推理迴圈。
- 採用 30B 總參數 / 3B 活躍參數(30B-A3B)的 Hybrid Mamba2-Transformer MoE 架構,搭配 256K context window。
- 號稱在多項多模態基準上拿下第一,並提供與其他開源 omni 模型相比最高約 9× 的吞吐,更適合用在大規模 Agentic 系統的「感知子代理(perception sub-agent)」。
- 權重、資料集、訓練配方全部開放,可在 Hugging Face、AWS SageMaker JumpStart、DeepInfra、fal、Together AI 等平台直接取用。
為什麼這顆模型值得關注?
過去要做一個能「看螢幕、聽會議、讀文件、再做決策」的 Agent,通常得把好幾個模型拼在一起:一顆 Vision-Language、一顆 ASR、一顆 LLM,再用 orchestration 框架把它們串起來。這種「拼裝式 perception 堆疊」會帶來幾個老問題:
- 跨模態 context 不一致:不同模型各自 tokenize、各自摘要,agent 拿到的世界觀是碎的。
- inference hop 過多:每多一顆模型就多一次序列化/反序列化,延遲與成本都會被放大。
- 維運複雜:版本管理、GPU 配置、prompt 對齊都要分別處理。
Nemotron 3 Nano Omni 想解決的就是這件事——用一顆模型同時負責「看 / 聽 / 讀」,讓 Agent 在感知端只需要呼叫一次。
架構速覽:30B-A3B Hybrid MoE
Nemotron 3 Nano Omni 的設計把多模態感知與推理塞進一個高度模組化的 MoE 架構:
| 元件 | 角色 | 說明 |
|---|---|---|
| Nemotron 3 Nano LLM | 語言主幹(central decoder) | 所有模態最終都對齊到這顆文字模型,避免多模態訓練的不穩定。 |
| C-RADIOv4-H | 視覺編碼器 | 處理高解析度圖片與影片,採分層壓縮策略。 |
| Parakeet | 語音編碼器 | 負責 ASR、長音訊理解,不只是逐字稿。 |
| Hybrid Mamba2-Transformer MoE | 骨幹 | 30B 總參數、僅 3B 活躍,兼顧長序列效率與品質。 |
幾個值得記住的數字:
- 256K tokens context:一次塞下整段螢幕錄影、整場會議或多份混合媒體文件都不必切片。
- 30B-A3B:總容量大、但每次推理只啟動 3B,這是它能跑得「又快又省」的關鍵。
- 單一感知迴圈:圖像、影片、音訊、文字共用同一個多模態 context,agent 不用自己再做 cross-modal 對齊。
效能亮點:六個榜單拿下第一
NVIDIA 官方公告與技術部落格指出,Nemotron 3 Nano Omni 在以下六個方向的多模態基準上都拿到開源模型中的領先位置:
- 複雜文件理解:MMLongBench-Doc、OCRBenchV2、CharXiv
- 影片理解:Video-MME、WorldSense
- 音訊理解:Daily Omni、MMAU、VoiceBench
- 數學與圖表推理:MathVista
- Agentic 螢幕操作:ScreenSpot-Pro
更重要的是它的「效率前緣」:在維持類似互動延遲的條件下,吞吐量約為其他開源 omni 模型的 9 倍,意味著同樣一張 GPU 能服務更多 agent session。
對 Agentic AI 的意義
從工程角度,Nemotron 3 Nano Omni 最值得關注的不是某一項 benchmark 分數,而是它把自己定位成**「Agent 系統裡的感知子代理(perception sub-agent)」**:
- 單一模型取代多模型 pipeline:原本 vision encoder + ASR + VLM 的組合,可以收斂成一個 endpoint。
- 長 context 讓 agent loop 更穩:256K 足以撐住一段長會議、或一個多視窗的桌面操作流程,不必中途丟掉重要上下文。
- 與其他 reasoning / planner agent 解耦:感知交給 Nano Omni,規劃與工具呼叫可以交給更專精的 reasoning 模型,整體架構更接近「multi-agent + 工具鏈」的範式。
如果你正在打造的 Agentic 系統,需要同時處理螢幕截圖、會議錄音、PDF、影片片段,那 Nano Omni 很可能會是那個能讓你「砍掉一半感知層」的候選。
怎麼開始用?
NVIDIA 把 Nemotron 3 Nano Omni 做成完全開放:
- Hugging Face:
nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16與 FP8 變體 - 雲端推理服務:AWS SageMaker JumpStart、DeepInfra、fal、Together AI 都已上線
- 本地 / 邊緣:可在 DGX Spark、Jetson 等硬體上以 llama.cpp、LM Studio、vLLM、SGLang 跑
- 資料與訓練配方:包含 NVIDIA Granary、Music Flamingo 等多模態資料集,以及完整 cookbook
建議的試用路徑:
- 先在 fal 或 Together AI 用 hosted endpoint 跑幾個 multimodal prompt,感受一下 256K context 與 omni 輸入的體驗。
- 如果想自己 host,從 vLLM + FP8 變體開始,會是 cost / latency 比較甜的點。
- 若是 edge 場景(Jetson、DGX Spark),參考官方 llama.cpp / LM Studio 配方。
小結
Nemotron 3 Nano Omni 不只是「又一顆多模態模型」。它代表 NVIDIA 對 Agentic AI 架構的一個明確押注:未來 agent 不再用一堆模型拼出感知層,而是用一顆高效率的 omni 模型當作統一的感知子代理,再把推理、規劃、工具使用交給上層更專精的角色。
對正在設計 multi-agent 系統的團隊來說,這顆模型很值得排進近期的 PoC 清單——尤其是那些被「文件 + 語音 + 影片」混合輸入折磨許久的場景。