簡介
2026 年 5 月,OpenAI 聯合 AMD、Broadcom、Intel、Microsoft、NVIDIA 六大廠商透過 OCP 發布 MRC (Multipath Reliable Connection) 協定,同時公開了在 131,072 顆 GPU 訓練叢集上的生產部署成果。這套網路架構的核心理念徹底顛覆了業界常識:把 800 Gb/s NIC 拆成 8 條 100 Gb/s、禁用所有動態路由協定、在 Lossy 乙太網路上跑 RDMA——每一項決策都反直覺,但合在一起卻實現了微秒級故障恢復與 33-40% 的硬體成本降低。
NVIDIA 自身簽署 MRC 規範,標誌著封閉式 InfiniBand 最後堡壘的瓦解。本文將深入分析這五項反直覺設計決策背後的技術邏輯與產業意涵。
一、尾延遲瓶頸:為什麼網路決定了訓練效率
當 GPU 叢集突破 10 萬顆時,同步預訓練面臨一個根本性瓶頸——尾延遲主導效應(tail-latency dominance)。每一個訓練步驟的完成時間取決於最慢的那次資料傳輸,而非平均值。
|
|
以 100,000 顆 H100 等級 GPU 為例,雲端費率下運行成本約 $300,000/小時。一次 30 秒的路由收斂中斷就等於 $2,500 白燒。這不是理論問題,而是真金白銀。
MRC 協定正是為解決這個問題而生。它基於 RoCE (RDMA over Converged Ethernet) 延伸,已部署於 Stargate (Oracle Cloud, Abilene, Texas) 和 Microsoft Fairwater 超級電腦的生產環境。
二、反直覺設策之一:把 NIC 拆成 8 個平行平面
直覺上,800 Gb/s 單鏈路應該比 8 條 100 Gb/s 更簡單高效。但 OpenAI 做了完全相反的選擇。
每張 800 Gb/s NIC 被分拆為 8 條 100 Gb/s 獨立鏈路,各自連接到不同的交換機,形成 8 個獨立網路平面。搭配 51.2 Tb/s 交換晶片(每平面 512 個 100 Gb/s 埠),只需二層 Clos 拓樸即可連接 131,072 顆 GPU。
graph LR
subgraph NIC["GPU NIC (800 Gb/s)"]
P1[P1: 100G]
P2[P2: 100G]
P3[P3: 100G]
P4[P4: 100G]
P5[P5: 100G]
P6[P6: 100G]
P7[P7: 100G]
P8[P8: 100G]
end
P1 -- Plane 1 --> T0_1[T0 Switch 1]
P2 -- Plane 2 --> T0_2[T0 Switch 2]
P3 -- Plane 3 --> T0_3[T0 Switch 3]
P4 -- Plane 4 --> T0_4[T0 Switch 4]
P5 -- Plane 5 --> T0_5[T0 Switch 5]
P6 -- Plane 6 --> T0_6[T0 Switch 6]
P7 -- Plane 7 --> T0_7[T0 Switch 7]
P8 -- Plane 8 --> T0_8[T0 Switch 8]
與傳統三層 800 Gb/s Fat-Tree 相比,優勢極為明顯:
| 指標 | 傳統三層 (800 Gb/s) | 多平面二層 (8x100 Gb/s) |
|---|---|---|
| 最大 GPU 數量 | ~64K(100K 需四層) | 131,072 |
| 最長路徑跳數 | 5-7 跳 | 3 跳 |
| 光模組需求 | 基準 | 2/3 |
| 交換機數量 | 基準 | 3/5 |
| T0-T1 鏈路故障影響 | 3% 頻寬損失 | 0.4% |
| NIC-T0 鏈路故障 | 訓練任務失敗 | 12% 頻寬損失,任務繼續 |
關鍵洞察:單一平面故障只影響 12.5% 頻寬,訓練任務從不中斷。這種細粒度的冗餘設計是整個架構韌性的基石。
三、封包噴灑與亂序記憶體放置:消除 Flow 綁定
傳統 RDMA 網路中,同一個 Queue Pair (QP) 的封包走固定路徑。MRC 打破了這個規則。
每個 QP 擁有 128-256 個 Entropy Value (EV),連續封包可以走完全不同的路徑。接收端透過封包自帶的 RDMA 虛擬地址與遠端金鑰,直接寫入最終 HBM 位置,完全不需要重排序緩衝區(reorder buffer)。
stateDiagram-v2
[*] --> Active
Active --> Congested: ECN received
Congested --> Active: Congestion cleared
Congested --> Failed: Packet lost
Failed --> Probing: Background probe
Probing --> Active: Path recovered
EV 的生命週期僅 1-2 毫秒——Active 到 Failed 再回到 Probing,整個過程極快。這意味著路徑故障的恢復是以微秒為單位,而非傳統路由協定的秒級收斂。
效能數據驗證了這個設計的有效性:
| 拓樸位置 | 訊息大小 | 指標 | 結果 |
|---|---|---|---|
| T0-Local | 2 B | 延遲 | 5.09 us |
| T0-Local | 32 KB | 頻寬 | ~770 Gb/s (96% 峰值) |
| Cross-T1 | 2 B | 延遲 | 6.54 us |
| Cross-T1 | 32 KB | 頻寬 | ~770 Gb/s (96% 峰值) |
值得注意的是,T0-Local 與 Cross-T1 的頻寬幾乎相同,證明多平面拓樸成功消除了上聯瓶頸。
四、禁用動態路由與 SRv6 靜態源路由
這可能是所有設計決策中最激進的一項——在超過 13 萬顆 GPU 的網路中,完全禁用 BGP、OSPF、IS-IS 和 FIB。
取而代之的是 SRv6 (Segment Routing over IPv6) 靜態源路由。交換機僅執行左移(shift-left)操作,查詢靜態轉發表,線速轉發。路徑計算的開銷移至 NIC 端,每個 QP 啟動時從拓樸資料庫獲取路徑。
|
|
這帶來三大營運效益:
- 確定性轉發:每個封包的路徑完全可追蹤、可重現
- 消除收斂故障:沒有路由協定,就沒有路由收斂問題
- 極簡營運:「非常小的團隊就能管理多台超級電腦的網路」
生產環境的驗證令人印象深刻:75K GPU 任務啟動時,丟包率在 2 分鐘內穩定至每 NIC 每秒不到 1 次。T0-T1 鏈路每分鐘多次抖動,對同步預訓練無可測量的影響。甚至重啟 4 台 T1 交換機時,未通知訓練團隊,任務繼續運行。
五、Lossy Ethernet 與 ECN 重定向
傳統 RoCE 部署依賴 Priority Flow Control (PFC) 實現無損傳輸,但 PFC 會引發 Head-of-Line Blocking——一條慢速流拖垮整個網路。
OpenAI 的做法截然不同:禁用 PFC,擁抱 Lossy Ethernet。丟包恢復分為三層:
| 恢復層級 | 機制 | 作用 |
|---|---|---|
| 第一層 | 選擇性重傳 (SACK) | 僅重傳丟失的封包 |
| 第二層 | 封包修剪 | 區分擁塞丟包與鏈路故障 |
| 第三層 | 亂序記憶體放置 | 後續封包直接寫入 HBM,不等待 |
更反直覺的是對 ECN (Explicit Congestion Notification) 的處理方式。傳統做法是收到 ECN 就降速,MRC 則把 ECN 解讀為「換路信號」而非「減速信號」——發送端重定向流量到其他 EV,保持全速傳輸。
「降速浪費 GPU 時間」——這句話精準概括了 MRC 的設計哲學。
架構分析:與業界方案的比較
MRC 架構在業界大規模訓練叢集中的定位如何?以下是與 Google 和 xAI 方案的對比:
| 維度 | OpenAI (MRC) | Google (TPU/ICI) | xAI (Colossus) |
|---|---|---|---|
| 網路技術 | 開放式乙太網路 + SRv6 | 自研 ICI + OCS | Spectrum-X 乙太網路 |
| 拓樸 | 二層多平面 Clos | 3D Torus + OCS | 大規模 Fat-Tree |
| 規模 | 131K GPU | 147K via DCN | ~200K H100 |
| 故障恢復 | 微秒級 (1-2 ms) | OCS 重構 (ms 級) | 秒級 |
| 開放程度 | OCP 開放規範 | 封閉生態 | 部分開放 |
MRC 的獨特價值在於:它是唯一同時具備開放標準與微秒級故障恢復的方案。Google ICI 雖然恢復速度快,但綁定 TPU 生態;xAI 的 Spectrum-X 雖然用乙太網路,但尚未達到 MRC 的恢復速度。
風險與未知數
儘管成果驚人,MRC 架構仍面臨幾個潛在挑戰:
- SRv6 路徑計算開銷移至 NIC:QP 啟動時需獲取完整拓樸資料庫,向 50 萬以上 GPU 擴展時,記憶體開銷尚待驗證
- 僅支援 RDMA Write:不支援 RDMA Read 或 Atomic 操作,通用性受限
- SRv6 標頭開銷:超大規模下 EV 數量和標頭長度可能需要重新調校
- 競爭協定 UEC:Ultra Ethernet Consortium 也在制定類似標準,兩者的潛在分歧值得關注
- 跨資料中心限制:MRC 目前針對單一資料中心設計
總結
OpenAI MRC 協定與多平面二層網路架構代表了 AI 訓練基礎設施的範式轉移。五項反直覺設計——分拆 NIC、封包噴灑、禁用動態路由、Lossy 乙太網路、ECN 重定向——共同實現了:
- 131,072 顆 GPU 的全對分頻寬連接,僅需二層交換
- 1-2 毫秒路徑切換,對比傳統 1-30 秒路由收斂
- 33-40% 網路硬體成本降低(光模組減 33%、交換機減 40%)
- 極簡營運:小團隊管理多台超級電腦
六大廠聯合背書與 OCP 開放規範的發布,意味著這不是 OpenAI 的專利方案,而是整個產業向開放式乙太網路遷移的里程碑。NVIDIA 自身簽署 MRC 規範這一事實,宣告了 InfiniBand 在 AI 訓練領域主導地位的終結。
對於 AI 基礎設施工程師而言,MRC 提供了一個清晰的路線圖:乙太網路 + 開放標準 + 微秒級韌性,這就是 Gigascale AI 工廠的網路基礎。
參考資料
- OpenAI et al., “Resilient AI Supercomputer Networking using MRC and SRv6,” arXiv:2605.04333v1, May 2026
- Towards Data Science: “The Counterintuitive Networking Decisions Behind OpenAI’s 131,000-GPU Training Fabric”
- NVIDIA Blog: “NVIDIA Spectrum-X Sets the Standard for Gigascale AI, Now With MRC”
- OCP MRC 1.0 Specification