OpenAI 131K GPU 訓練網路的五大反直覺設計:MRC 協定與乙太網路的勝利

OpenAI 131K GPU 訓練網路的五大反直覺設計決策,MRC 協定如何以乙太網路取代 InfiniBand

簡介

2026 年 5 月,OpenAI 聯合 AMD、Broadcom、Intel、Microsoft、NVIDIA 六大廠商透過 OCP 發布 MRC (Multipath Reliable Connection) 協定,同時公開了在 131,072 顆 GPU 訓練叢集上的生產部署成果。這套網路架構的核心理念徹底顛覆了業界常識:把 800 Gb/s NIC 拆成 8 條 100 Gb/s、禁用所有動態路由協定、在 Lossy 乙太網路上跑 RDMA——每一項決策都反直覺,但合在一起卻實現了微秒級故障恢復與 33-40% 的硬體成本降低。

NVIDIA 自身簽署 MRC 規範,標誌著封閉式 InfiniBand 最後堡壘的瓦解。本文將深入分析這五項反直覺設計決策背後的技術邏輯與產業意涵。


一、尾延遲瓶頸:為什麼網路決定了訓練效率

當 GPU 叢集突破 10 萬顆時,同步預訓練面臨一個根本性瓶頸——尾延遲主導效應(tail-latency dominance)。每一個訓練步驟的完成時間取決於最慢的那次資料傳輸,而非平均值。

1
Training step time = max(all-reduce latency across all GPU pairs)

以 100,000 顆 H100 等級 GPU 為例,雲端費率下運行成本約 $300,000/小時。一次 30 秒的路由收斂中斷就等於 $2,500 白燒。這不是理論問題,而是真金白銀。

MRC 協定正是為解決這個問題而生。它基於 RoCE (RDMA over Converged Ethernet) 延伸,已部署於 Stargate (Oracle Cloud, Abilene, Texas) 和 Microsoft Fairwater 超級電腦的生產環境。


二、反直覺設策之一:把 NIC 拆成 8 個平行平面

直覺上,800 Gb/s 單鏈路應該比 8 條 100 Gb/s 更簡單高效。但 OpenAI 做了完全相反的選擇。

每張 800 Gb/s NIC 被分拆為 8 條 100 Gb/s 獨立鏈路,各自連接到不同的交換機,形成 8 個獨立網路平面。搭配 51.2 Tb/s 交換晶片(每平面 512 個 100 Gb/s 埠),只需二層 Clos 拓樸即可連接 131,072 顆 GPU。

  graph LR
    subgraph NIC["GPU NIC (800 Gb/s)"]
        P1[P1: 100G]
        P2[P2: 100G]
        P3[P3: 100G]
        P4[P4: 100G]
        P5[P5: 100G]
        P6[P6: 100G]
        P7[P7: 100G]
        P8[P8: 100G]
    end
    P1 -- Plane 1 --> T0_1[T0 Switch 1]
    P2 -- Plane 2 --> T0_2[T0 Switch 2]
    P3 -- Plane 3 --> T0_3[T0 Switch 3]
    P4 -- Plane 4 --> T0_4[T0 Switch 4]
    P5 -- Plane 5 --> T0_5[T0 Switch 5]
    P6 -- Plane 6 --> T0_6[T0 Switch 6]
    P7 -- Plane 7 --> T0_7[T0 Switch 7]
    P8 -- Plane 8 --> T0_8[T0 Switch 8]

與傳統三層 800 Gb/s Fat-Tree 相比,優勢極為明顯:

指標 傳統三層 (800 Gb/s) 多平面二層 (8x100 Gb/s)
最大 GPU 數量 ~64K(100K 需四層) 131,072
最長路徑跳數 5-7 跳 3 跳
光模組需求 基準 2/3
交換機數量 基準 3/5
T0-T1 鏈路故障影響 3% 頻寬損失 0.4%
NIC-T0 鏈路故障 訓練任務失敗 12% 頻寬損失,任務繼續

關鍵洞察:單一平面故障只影響 12.5% 頻寬,訓練任務從不中斷。這種細粒度的冗餘設計是整個架構韌性的基石。


三、封包噴灑與亂序記憶體放置:消除 Flow 綁定

傳統 RDMA 網路中,同一個 Queue Pair (QP) 的封包走固定路徑。MRC 打破了這個規則。

每個 QP 擁有 128-256 個 Entropy Value (EV),連續封包可以走完全不同的路徑。接收端透過封包自帶的 RDMA 虛擬地址與遠端金鑰,直接寫入最終 HBM 位置,完全不需要重排序緩衝區(reorder buffer)。

  stateDiagram-v2
    [*] --> Active
    Active --> Congested: ECN received
    Congested --> Active: Congestion cleared
    Congested --> Failed: Packet lost
    Failed --> Probing: Background probe
    Probing --> Active: Path recovered

EV 的生命週期僅 1-2 毫秒——Active 到 Failed 再回到 Probing,整個過程極快。這意味著路徑故障的恢復是以微秒為單位,而非傳統路由協定的秒級收斂。

效能數據驗證了這個設計的有效性:

拓樸位置 訊息大小 指標 結果
T0-Local 2 B 延遲 5.09 us
T0-Local 32 KB 頻寬 ~770 Gb/s (96% 峰值)
Cross-T1 2 B 延遲 6.54 us
Cross-T1 32 KB 頻寬 ~770 Gb/s (96% 峰值)

值得注意的是,T0-Local 與 Cross-T1 的頻寬幾乎相同,證明多平面拓樸成功消除了上聯瓶頸。


四、禁用動態路由與 SRv6 靜態源路由

這可能是所有設計決策中最激進的一項——在超過 13 萬顆 GPU 的網路中,完全禁用 BGP、OSPF、IS-IS 和 FIB

取而代之的是 SRv6 (Segment Routing over IPv6) 靜態源路由。交換機僅執行左移(shift-left)操作,查詢靜態轉發表,線速轉發。路徑計算的開銷移至 NIC 端,每個 QP 啟動時從拓樸資料庫獲取路徑。

1
2
3
4
5
6
7
8
SRv6 Packet Header Flow:
  [Outer IPv6] -> [SRv6 uSID chain] -> [UDP] -> [RoCE Payload]

Switch behavior:
  1. Read first uSID
  2. Shift-left the uSID chain
  3. Forward to next segment
  No FIB lookup. No routing state. Pure deterministic.

這帶來三大營運效益:

  1. 確定性轉發:每個封包的路徑完全可追蹤、可重現
  2. 消除收斂故障:沒有路由協定,就沒有路由收斂問題
  3. 極簡營運:「非常小的團隊就能管理多台超級電腦的網路」

生產環境的驗證令人印象深刻:75K GPU 任務啟動時,丟包率在 2 分鐘內穩定至每 NIC 每秒不到 1 次。T0-T1 鏈路每分鐘多次抖動,對同步預訓練無可測量的影響。甚至重啟 4 台 T1 交換機時,未通知訓練團隊,任務繼續運行


五、Lossy Ethernet 與 ECN 重定向

傳統 RoCE 部署依賴 Priority Flow Control (PFC) 實現無損傳輸,但 PFC 會引發 Head-of-Line Blocking——一條慢速流拖垮整個網路。

OpenAI 的做法截然不同:禁用 PFC,擁抱 Lossy Ethernet。丟包恢復分為三層:

恢復層級 機制 作用
第一層 選擇性重傳 (SACK) 僅重傳丟失的封包
第二層 封包修剪 區分擁塞丟包與鏈路故障
第三層 亂序記憶體放置 後續封包直接寫入 HBM,不等待

更反直覺的是對 ECN (Explicit Congestion Notification) 的處理方式。傳統做法是收到 ECN 就降速,MRC 則把 ECN 解讀為「換路信號」而非「減速信號」——發送端重定向流量到其他 EV,保持全速傳輸。

「降速浪費 GPU 時間」——這句話精準概括了 MRC 的設計哲學。


架構分析:與業界方案的比較

MRC 架構在業界大規模訓練叢集中的定位如何?以下是與 Google 和 xAI 方案的對比:

維度 OpenAI (MRC) Google (TPU/ICI) xAI (Colossus)
網路技術 開放式乙太網路 + SRv6 自研 ICI + OCS Spectrum-X 乙太網路
拓樸 二層多平面 Clos 3D Torus + OCS 大規模 Fat-Tree
規模 131K GPU 147K via DCN ~200K H100
故障恢復 微秒級 (1-2 ms) OCS 重構 (ms 級) 秒級
開放程度 OCP 開放規範 封閉生態 部分開放

MRC 的獨特價值在於:它是唯一同時具備開放標準微秒級故障恢復的方案。Google ICI 雖然恢復速度快,但綁定 TPU 生態;xAI 的 Spectrum-X 雖然用乙太網路,但尚未達到 MRC 的恢復速度。


風險與未知數

儘管成果驚人,MRC 架構仍面臨幾個潛在挑戰:

  1. SRv6 路徑計算開銷移至 NIC:QP 啟動時需獲取完整拓樸資料庫,向 50 萬以上 GPU 擴展時,記憶體開銷尚待驗證
  2. 僅支援 RDMA Write:不支援 RDMA Read 或 Atomic 操作,通用性受限
  3. SRv6 標頭開銷:超大規模下 EV 數量和標頭長度可能需要重新調校
  4. 競爭協定 UEC:Ultra Ethernet Consortium 也在制定類似標準,兩者的潛在分歧值得關注
  5. 跨資料中心限制:MRC 目前針對單一資料中心設計

總結

OpenAI MRC 協定與多平面二層網路架構代表了 AI 訓練基礎設施的範式轉移。五項反直覺設計——分拆 NIC、封包噴灑、禁用動態路由、Lossy 乙太網路、ECN 重定向——共同實現了:

  • 131,072 顆 GPU 的全對分頻寬連接,僅需二層交換
  • 1-2 毫秒路徑切換,對比傳統 1-30 秒路由收斂
  • 33-40% 網路硬體成本降低(光模組減 33%、交換機減 40%)
  • 極簡營運:小團隊管理多台超級電腦

六大廠聯合背書與 OCP 開放規範的發布,意味著這不是 OpenAI 的專利方案,而是整個產業向開放式乙太網路遷移的里程碑。NVIDIA 自身簽署 MRC 規範這一事實,宣告了 InfiniBand 在 AI 訓練領域主導地位的終結。

對於 AI 基礎設施工程師而言,MRC 提供了一個清晰的路線圖:乙太網路 + 開放標準 + 微秒級韌性,這就是 Gigascale AI 工廠的網路基礎。


參考資料

  • OpenAI et al., “Resilient AI Supercomputer Networking using MRC and SRv6,” arXiv:2605.04333v1, May 2026
  • Towards Data Science: “The Counterintuitive Networking Decisions Behind OpenAI’s 131,000-GPU Training Fabric”
  • NVIDIA Blog: “NVIDIA Spectrum-X Sets the Standard for Gigascale AI, Now With MRC”
  • OCP MRC 1.0 Specification