簡介
2026 年 Dell Technologies World 上,NVIDIA CEO Jensen Huang 與 Dell 共同揭示了一個深刻的基礎設施典範轉移:Agentic AI 時代的核心瓶頸已經從 GPU 算力,轉向記憶體容量、頻寬與層級設計。這不僅是硬體規格的升級,更是 AI 基礎設施哲學的根本性變革。
傳統 LLM 推理的瓶頸在於 TFLOPS——更多 GPU 意味著更快的推理。但在 Agentic AI 場景中,Agent 需要維持長達數分鐘甚至數小時的 KV Cache,記憶體的存取速度與容量成為決定系統吞吐量的關鍵因素。NVIDIA 的 Vera Rubin 架構正是為這個新現實而生。
記憶體為何成為核心瓶頸
Agentic AI 與傳統 LLM 推理的本質差異在於「持久上下文」。一個典型的 Agent 互動流程如下:
flowchart TD
A[User Request] --> B[Agent Orchestration - CPU]
B --> C[Tool Calls & Strategy - CPU]
C --> D[LLM Prefill - GPU]
D --> E[LLM Decode - GPU/LPU]
E --> F{KV Cache Check}
F -->|Hit| G[Continue Context]
F -->|Miss| H[Reload from G3.5 Storage]
H --> G
G --> B
在這個循環中,GPU 只在 prefill 和 decode 階段處於高利用率。其餘時間,系統的瓶頸在於:
- CPU 序列任務:編排、工具呼叫、策略檢查、驗證邏輯
- KV Cache 管理:跨輪次上下文的保持與搬移
- 記憶體頻寬:大量 context window 的讀寫
Jensen Huang 明確指出,HBM 優化的是速度而非容量,而 Agent 需要的是「長時間保持大量 context」。這就是記憶體層級設計變得至關重要的原因。
Vera Rubin NVL72:10 倍推理成本下降
Vera Rubin NVL72 是 NVIDIA 為 Agentic AI 推理打造的旗艦系統,採用 72 顆 Rubin GPU + 36 顆 Vera CPU 的架構配置。
系統規格總覽
| 指標 | 數值 |
|---|---|
| NVFP4 推理效能 | 3,600 PFLOPS (3.6 EFLOPS) |
| NVFP4 訓練效能 | 2,520 PFLOPS (2.5 EFLOPS) |
| GPU 記憶體 (HBM4) | 20.7 TB 總計,1,580 TB/s 頻寬 |
| CPU 記憶體 (LPDDR5X) | 54 TB 總計 |
| NVLink 頻寬 | 260 TB/s (scale-up) |
| CPU 核心數 | 3,168 個 Olympus 核心 |
| 功耗 | ~190 kW (Max Q) / ~230 kW (Max P) |
| 冷卻方式 | 100% 液冷,45°C 進水溫度 |
單顆 Rubin GPU 規格
| 指標 | 數值 |
|---|---|
| 製程 | TSMC 3nm,雙晶粒 |
| 電晶體數 | 3,360 億 |
| 記憶體 | 288 GB HBM4,22 TB/s 頻寬 |
| NVFP4 推理 | 50 PFLOPS(Blackwell 的 5 倍) |
| 功耗 | ~1.8 kW (Max Q) / ~2.3 kW (Max P) |
值得注意的是 NVFP4 精度的引入。對於推理場景,NVFP4 提供了比 FP8 更高的吞吐密度,這是實現 10 倍成本下降的關鍵技術之一。
Vera CPU:首款 Agentic AI 專用處理器
Vera CPU 是 NVIDIA 對 Agentic AI 暴露的 Amdahl’s Law 瓶頸的直接回應。當 GPU 推理速度越來越快,CPU 序列任務(編排、資料搬移、工具執行、驗證邏輯)逐漸成為系統效能的限速因素。
Vera CPU 核心規格
| 規格 | 數值 |
|---|---|
| 核心架構 | 88 個 Olympus 核心 (Arm v9.2) |
| 執行緒 | 176 (NVIDIA Spatial Multithreading) |
| 記憶體容量 | 最高 1.5 TB LPDDR5X |
| 記憶體頻寬 | 1.2 TB/s(傳統 CPU 的 3 倍) |
| CPU-GPU 互連 | NVLink-C2C 1.8 TB/s(PCIe Gen6 的 7 倍) |
| 特色功能 | 首款支援 FP8 精度的 CPU;硬體機密計算 |
Olympus 核心架構特別針對 AI 工作負載設計,包含 10 路指令取指/解碼前端、神經分支預測器、PyTorch 優化指令緩衝區、以及圖資料庫預取引擎。單一 Vera CPU Rack 可達 256 顆液冷 CPU,支援超過 22,500 個並發環境——這正是多 Agent 協作所需的隔離與編排能力。
CPU:GPU 從 1:4 轉向 1:1 是一個重要的架構信號。AMD 預測伺服器 CPU TAM 年增超過 35%,2030 年將達 1,200 億美元以上,這意味著 CPU 在 AI 基礎設施中的角色正在被重新定義。
記憶體層級架構:五層堆疊
記憶體層級設計是 Vera Rubin 架構最核心的創新。Jensen Huang 將 Dell AI Data Platform 定義為「Agent 的新型長期記憶」,其五層記憶體架構如下:
graph LR
subgraph G1
A1[GPU HBM<br/>288 GB @ 22 TB/s]
end
subgraph G2
A2[Host CPU Memory<br/>1.5 TB LPDDR5X]
end
subgraph G3
A3[Local NVMe SSD<br/>Cache Spill]
end
subgraph G3_5[G3.5 - Key Innovation]
A4[CMX / ICMS<br/>Ethernet-Attached Flash<br/>Pod-Level Shared KV Cache]
end
subgraph G4
A5[External Storage<br/>Object / File]
end
G1 -->|NVLink| G2
G2 -->|PCIe/NVMe| G3
G3 -->|Ethernet| G3_5
G3_5 -->|Network| G4
| 層級 | 技術 | 功能角色 |
|---|---|---|
| G1 | GPU HBM (288 GB @ 22 TB/s) | 活躍推理計算 |
| G2 | Host CPU Memory (1.5 TB LPDDR5X) | KV Cache 暫存、Agent 編排 |
| G3 | 本地 NVMe SSD | 本地快取溢出 |
| G3.5 | CMX/ICMS (乙太網路附加閃存) | Pod 級共享 KV Cache — Agentic 長期記憶 |
| G4 | 外部儲存 (Object/File) | 持久化、非活躍 KV 狀態 |
G3.5 層是關鍵創新。每個 GPU Pod 共享 Petabyte 級閃存,能為多個 Agent 同時保存演進中的上下文。NVIDIA 宣稱這帶來 5 倍 TPS 提升和 5 倍能源效率。這意味著 Agent 不再需要在每次互動時重新載入完整 context,大幅降低推理延遲與成本。
架構分析:Prefill-Decode 分離
Vera Rubin 架構的另一個重要特徵是 prefill 與 decode 的硬體分離。在 NVIDIA 以約 200 億美元收購 Groq(2025 年 12 月)之後,Groq 3 LPX 承擔解碼階段的推理加速。
flowchart LR
subgraph Prefill[G Rubin GPU - Prefill]
P1[Parallel Attention<br/>Compute Bound]
P2[3.6 EFLOPS NVFP4]
end
subgraph Decode[Groq 3 LPX - Decode]
D1[Sequential Token<br/>Memory Bound]
D2[40 PB/s SRAM BW]
D3[128 GB On-Chip SRAM]
end
Prefill -->|KV Cache via G3.5| Decode
Decode -->|Output Tokens| User
| 組件 | 角色 | 關鍵規格 |
|---|---|---|
| Rubin GPU | Prefill(計算密集) | 3.6 EFLOPS NVFP4 |
| Groq 3 LPX | Decode(記憶體密集) | 256 LPU/rack,128 GB SRAM,40 PB/s |
這種分離架構的邏輯很清晰:prefill 是計算密集型,適合 GPU 的大規模平行能力;decode 是記憶體頻寬密集型,適合 Groq LPU 的片上 SRAM 優勢。NVIDIA 宣稱這種組合讓萬億參數模型的每 MW 推理吞吐提升 35 倍。
個人 AI:基礎設施的去中心化
Huang 在此次活動中提出了一個大膽的願景:「personal AI instead of personal computers」。核心論點是 AI 必須在資料產生的地方執行——筆電、工廠、醫院,而非集中於雲端。
數據支持這一轉向:67% 的 AI 工作負載已在雲端之外運行。Dell Deskside Agentic AI 方案宣稱 3 個月回本、87% 成本節省,這對企業本地部署具有強烈吸引力。
graph TB
subgraph Cloud[Cloud AI]
C1[Training Clusters]
C2[Global Model Serving]
end
subgraph Edge[Edge / On-Prem AI]
E1[Deskside AI Racks]
E2[Factory Floor Agents]
E3[Hospital AI Systems]
E4[Personal AI Devices]
end
Cloud -->|Model Distillation| Edge
Edge -->|Data Sovereignty| E1
Edge -->|Low Latency| E2
Edge -->|Privacy Compliance| E3
這架構轉向的驅動力包括資料主權法規、延遲敏感場景、以及推理成本指數崩塌使本地部署變得經濟可行。每代 10 倍的推理成本下降意味著 2-3 年內 Agentic AI 對大規模企業部署具備經濟可行性。
總結
Vera Rubin 架構標誌著 AI 基礎設施從「更多 GPU」到「正確的 CPU-GPU-記憶體平衡」的戰略轉向。幾個關鍵收斂:
-
記憶體是新護城河:控制記憶體層級的公司將控制 Agentic AI 的經濟學。從 HBM4 到 CMX G3.5 到 Dell AI Data Platform,NVIDIA 正在構建一個端到端的記憶體生態系統。
-
CPU 復興:Agentic AI 使 CPU 從配角變為主角。Vera CPU 的出現證明了 CPU-GPU 平衡設計的必要性,CPU:GPU 1:1 的比例將成為新標準。
-
推理成本指數崩塌:10 倍成本下降加上 Prefill-Decode 分離,正在加速 Agentic AI 從實驗室走向生產環境。但同時也意味著 Token 消費的爆炸性增長(預計 2030 年增長 3,400%)。
-
去中心化部署:個人 AI 願景加上 67% 的雲外工作負載,意味著基礎設施投資將從超大型資料中心向邊緣和企業本地擴散。
然而風險依然存在:10 倍成本下降未經第三方驗證、五層記憶體架構的系統複雜度、Groq 整合的不確定性、Vera CPU 作為全新架構的部署風險、以及單 rack 230 kW 的電力挑戰。這些都需要在實際部署中持續觀察。
記憶體而非算力,將決定 Agentic AI 未來的速度。這是 NVIDIA 在 Vera Rubin 中傳達的最重要訊息。
本文基於 Dell Technologies World 2026 公開資訊與 NVIDIA 官方規格整理分析。實際部署效能請以官方 benchmark 為準。