簡介
每次向 ChatGPT 發送一個請求,資料就要在 CPU、GPU、DRAM 之間跑一場接力賽——而每生成一個 token 都得重複一次。這不是優化問題,是結構性瓶頸。
南韓新創 XCENA 拿到了 $135M Series B(估值 $570M,總融資 $185M),核心賭注就一個:把運算搬到記憶體旁邊去。他們的 MX1 晶片透過 CXL(Compute Express Link)在 DRAM 模組內直接處理資料,宣稱能將 10 台伺服器的工作壓縮到 1 台。
這篇文章拆解 MX1 的架構設計、CXL 在 AI 推理中的角色,以及這條路線為什麼值得關注。
記憶體,不是算力,才是 AI 推理的瓶頸
GPU 在矩陣乘法上表現卓越,但 AI 推理不只是矩陣乘法。每個 request 還涉及:
| 階段 | 執行者 | 瓶頸類型 |
|---|---|---|
| Token 預處理 | CPU | 記憶體頻寬 |
| KV Cache 讀寫 | CPU + Memory | 記憶體容量與頻寬 |
| 矩陣運算 | GPU | 算力 |
| 後處理與回傳 | CPU | 記憶體延遲 |
GPU 的算力在持續成長,但周圍的資料搬運成本卻沒有同步下降。CPU 負責的預處理、KV Cache 管理和資料編排,全卡在記憶體頻寬上。XCENA CEO Jin Kim 說得很直白:
CPUs 和 GPUs 數十年來都變聰明了,但記憶體從未改變。
2026 年 5 月,三星、SK Hynix、Micron 三大記憶體廠首次同步市值突破兆美元,這不只是巧合——市場正在對 memory-centric 架構定價。
CXL:給記憶體一條專用快車道
CXL(Compute Express Link)是目前 PCI Express 生態中最關鍵的延伸標準之一。它解決的核心問題是:讓 CPU 和 attached device 共享同一個一致的記憶體位址空間。
傳統架構中,GPU 存取遠端記憶體要透過多層協議轉換,延遲高且頻寬受限。CXL Type 3 device 可以直接暴露 DRAM 給 CPU,低延遲、高頻寬:
|
|
MX1 的策略是 CXL Type 3:透過 CXL 連接 host CPU,但晶片本身就貼在 DRAM 旁邊,資料根本不用離開記憶體模組就被處理完了。
MX1 架構深度拆解
數千個 RISC-V 核心陣列
MX1 不是一顆大核心,而是數千個微型 RISC-V 核心的陣列。每個核心刻意保持小型,專門針對資料處理運算最佳化:
graph TB
subgraph Host_Server[Host Server]
CPU[Host CPU]
end
subgraph MX1 Chip
CXL_IF[CXL Interface]
RISC_ARR[RISC-V Core Array<br/>thousands of cores]
MEM_HIER[Custom Memory Hierarchy]
INTERCONN[Custom Interconnect Bus]
DRAM_CTRL[DRAM Controller]
DRAM[DRAM Modules]
end
CPU <--CXL Link--> CXL_IF
CXL_IF --> RISC_ARR
CXL_IF --> MEM_HIER
RISC_ARR --> INTERCONN
INTERCONN --> DRAM_CTRL
DRAM_CTRL --> DRAM
關鍵設計特色:
| 元件 | 設計選擇 | 為什麼重要 |
|---|---|---|
| 處理器核心 | 數千個 RISC-V micro cores | 高度平行化,專為資料處理而非通用運算 |
| 記憶體層級 | 自研 custom hierarchy | 垂直整合,消除通用 IP 的效率損失 |
| 互連總線 | 自研 interconnect | 低延遲核心間通訊,匹配 workload 特性 |
| DRAM 控制器 | 自研 | 端到端最佳化,從晶片到記憶體無斷點 |
| 製程 | 三星晶圓代工 | 2026 年底量產 |
這種全棧自研的垂直整合程度,在晶片業極為罕見。大多數公司(包括大型競爭對手)會將記憶體控制器或互連 IP 外包,但 XCENA 連這些都自己做——因為他們的賣點就是消除每一層的效率損失。
MX1 處理什麼,GPU 處理什麼?
MX1 不是要取代 GPU,而是承接 GPU 之下的記憶體密集層:
|
|
KV Cache 是推理擴展最關鍵的記憶體瓶頸:隨著對話長度增加,cache 成線性成長,每個新 token 都要讀取全部歷史 KV。把這個讀寫壓力從 CPU 搬到貼著 DRAM 的 MX1 上,就是他們 10:1 伺服器壓縮承諾的核心邏輯。
競爭格局
| 公司 | 架構方向 | 上市狀態 | 核心差異 |
|---|---|---|---|
| XCENA | CXL + 數千 RISC-V cores + 記憶體內運算 | 原型,2026 底量產 | 記憶體端垂直整合 |
| Marvell | 通用核心 + CXL 記憶體連接 | Nasdaq 上市 | 少量通用核心,非專用 |
| Astera Labs | 下一代記憶體連接晶片 | Nasdaq 上市 | 聚焦連接而非運算 |
Jin Kim 的定位很明確:Marvell 的 CXL 方案用的是少數通用核心,XCENA 用的是數千個為資料處理量身打造的微型核心。這不是「我們核心比你多」的問題,而是架構哲學的根本差異——general-purpose vs. domain-specific。
供應鏈與商業化路徑
- 代工:三星晶圓代工,2026 年底量產
- 客戶:瞄準 Hyperscalers——每年 AI 基礎設施支出數百億美元的雲端巨頭,記憶體效率每提升 1% 就是數億美元的節省
- 營收:預計 2027 年開始貢獻
- 團隊:CEO Jin Kim、CTO Dohun Kim、CPO Harry Juhyun Kim 均來自三星與 SK Hynix 記憶體部門
XCENA 的團隊背景決定了他們的切入點——這些人做了幾十年記憶體,比誰都清楚瓶頸在哪裡。這也解釋了為什麼他們敢走全棧自研的路線:記憶體是他們的本壘。
總結
XCENA 的 MX1 抓住了一個真實且日益嚴重的問題:AI 推理的瓶頸正在從算力轉移到記憶體。隨著模型規模持續成長、推理需求爆發,CPU 端的資料編排和記憶體搬運成本會越來越突出。
幾個關鍵觀察:
- 架構趨勢:從 compute-centric 轉向 memory-centric,MX1 是這個趨勢的具體體現,記憶體三巨頭市值破兆也在印證這個方向。
- 技術路線:CXL + RISC-V 大量核心陣列 + 全棧自研,是一條高風險但高上限的路線。成功與否取決於能否在真實 workload 上驗證 10:1 的壓縮比。
- 互補而非取代:MX1 不挑戰 GPU 的矩陣運算霸主地位,而是專注於周圍的資料搬運層。這降低了市場阻力,但限制了天花板。
- 風險因素:原型尚未公佈實測數據;CXL 生態仍在成熟期;Hyperscaler 客戶的導入週期長且要求嚴格。
作為 AI 基礎設施工程師,我認為 XCENA 方向正確——記憶體頻寬確實是下一個必須攻克的堡壘。但從原型到量產到數據驗證,中間還有不短的距離。值得持續追蹤。