XCENA MX1 與 CXL：當記憶體成為 AI 推理的真正瓶頸

簡介

每次向 ChatGPT 發送一個請求，資料就要在 CPU、GPU、DRAM 之間跑一場接力賽——而每生成一個 token 都得重複一次。這不是優化問題，是結構性瓶頸。

南韓新創 XCENA 拿到了 $135M Series B（估值 $570M，總融資 $185M），核心賭注就一個：把運算搬到記憶體旁邊去。他們的 MX1 晶片透過 CXL（Compute Express Link）在 DRAM 模組內直接處理資料，宣稱能將 10 台伺服器的工作壓縮到 1 台。

這篇文章拆解 MX1 的架構設計、CXL 在 AI 推理中的角色，以及這條路線為什麼值得關注。

記憶體，不是算力，才是 AI 推理的瓶頸

GPU 在矩陣乘法上表現卓越，但 AI 推理不只是矩陣乘法。每個 request 還涉及：

階段	執行者	瓶頸類型
Token 預處理	CPU	記憶體頻寬
KV Cache 讀寫	CPU + Memory	記憶體容量與頻寬
矩陣運算	GPU	算力
後處理與回傳	CPU	記憶體延遲

GPU 的算力在持續成長，但周圍的資料搬運成本卻沒有同步下降。CPU 負責的預處理、KV Cache 管理和資料編排，全卡在記憶體頻寬上。XCENA CEO Jin Kim 說得很直白：

CPUs 和 GPUs 數十年來都變聰明了，但記憶體從未改變。

2026 年 5 月，三星、SK Hynix、Micron 三大記憶體廠首次同步市值突破兆美元，這不只是巧合——市場正在對 memory-centric 架構定價。

CXL：給記憶體一條專用快車道

CXL（Compute Express Link）是目前 PCI Express 生態中最關鍵的延伸標準之一。它解決的核心問題是：讓 CPU 和 attached device 共享同一個一致的記憶體位址空間。

傳統架構中，GPU 存取遠端記憶體要透過多層協議轉換，延遲高且頻寬受限。CXL Type 3 device 可以直接暴露 DRAM 給 CPU，低延遲、高頻寬：

1
2
3
4
5
6
7


Traditional:
  CPU ──PCIe── DMA ── DRAM Controller ── DRAM
  (multiple protocol translations, high latency)

CXL-based (MX1):
  CPU ──CXL── MX1 (RISC-V cores + DRAM Controller + DRAM)
  (coherent memory space, low latency, compute near data)

MX1 的策略是 CXL Type 3：透過 CXL 連接 host CPU，但晶片本身就貼在 DRAM 旁邊，資料根本不用離開記憶體模組就被處理完了。

MX1 架構深度拆解

數千個 RISC-V 核心陣列

MX1 不是一顆大核心，而是數千個微型 RISC-V 核心的陣列。每個核心刻意保持小型，專門針對資料處理運算最佳化：

  graph TB
    subgraph Host_Server[Host Server]
        CPU[Host CPU]
    end

    subgraph MX1 Chip
        CXL_IF[CXL Interface]
        RISC_ARR[RISC-V Core Array<br/>thousands of cores]
        MEM_HIER[Custom Memory Hierarchy]
        INTERCONN[Custom Interconnect Bus]
        DRAM_CTRL[DRAM Controller]
        DRAM[DRAM Modules]
    end

    CPU <--CXL Link--> CXL_IF
    CXL_IF --> RISC_ARR
    CXL_IF --> MEM_HIER
    RISC_ARR --> INTERCONN
    INTERCONN --> DRAM_CTRL
    DRAM_CTRL --> DRAM

關鍵設計特色：

元件	設計選擇	為什麼重要
處理器核心	數千個 RISC-V micro cores	高度平行化，專為資料處理而非通用運算
記憶體層級	自研 custom hierarchy	垂直整合，消除通用 IP 的效率損失
互連總線	自研 interconnect	低延遲核心間通訊，匹配 workload 特性
DRAM 控制器	自研	端到端最佳化，從晶片到記憶體無斷點
製程	三星晶圓代工	2026 年底量產

這種全棧自研的垂直整合程度，在晶片業極為罕見。大多數公司（包括大型競爭對手）會將記憶體控制器或互連 IP 外包，但 XCENA 連這些都自己做——因為他們的賣點就是消除每一層的效率損失。

MX1 處理什麼，GPU 處理什麼？

MX1 不是要取代 GPU，而是承接 GPU 之下的記憶體密集層：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


┌─────────────────────────────────────┐
│           Application Layer         │
├─────────────────────────────────────┤
│  GPU: Matrix Multiplication (Core)  │  ← Still GPU
├─────────────────────────────────────┤
│  MX1: Data Orchestration Layer      │
│   • Token Preprocessing             │  ← MX1 takes over
│   • KV Cache Management              │
│   • Data Prefetch & Reordering       │
│   • Attention Prep                   │
├─────────────────────────────────────┤
│  CPU: Scheduling & Control Flow     │
├─────────────────────────────────────┤
│  DRAM (directly attached to MX1)   │
└─────────────────────────────────────┘

KV Cache 是推理擴展最關鍵的記憶體瓶頸：隨著對話長度增加，cache 成線性成長，每個新 token 都要讀取全部歷史 KV。把這個讀寫壓力從 CPU 搬到貼著 DRAM 的 MX1 上，就是他們 10:1 伺服器壓縮承諾的核心邏輯。

競爭格局

公司	架構方向	上市狀態	核心差異
XCENA	CXL + 數千 RISC-V cores + 記憶體內運算	原型，2026 底量產	記憶體端垂直整合
Marvell	通用核心 + CXL 記憶體連接	Nasdaq 上市	少量通用核心，非專用
Astera Labs	下一代記憶體連接晶片	Nasdaq 上市	聚焦連接而非運算

Jin Kim 的定位很明確：Marvell 的 CXL 方案用的是少數通用核心，XCENA 用的是數千個為資料處理量身打造的微型核心。這不是「我們核心比你多」的問題，而是架構哲學的根本差異——general-purpose vs. domain-specific。

供應鏈與商業化路徑

代工：三星晶圓代工，2026 年底量產
客戶：瞄準 Hyperscalers——每年 AI 基礎設施支出數百億美元的雲端巨頭，記憶體效率每提升 1% 就是數億美元的節省
營收：預計 2027 年開始貢獻
團隊：CEO Jin Kim、CTO Dohun Kim、CPO Harry Juhyun Kim 均來自三星與 SK Hynix 記憶體部門

XCENA 的團隊背景決定了他們的切入點——這些人做了幾十年記憶體，比誰都清楚瓶頸在哪裡。這也解釋了為什麼他們敢走全棧自研的路線：記憶體是他們的本壘。

總結

XCENA 的 MX1 抓住了一個真實且日益嚴重的問題：AI 推理的瓶頸正在從算力轉移到記憶體。隨著模型規模持續成長、推理需求爆發，CPU 端的資料編排和記憶體搬運成本會越來越突出。

幾個關鍵觀察：

架構趨勢：從 compute-centric 轉向 memory-centric，MX1 是這個趨勢的具體體現，記憶體三巨頭市值破兆也在印證這個方向。
技術路線：CXL + RISC-V 大量核心陣列 + 全棧自研，是一條高風險但高上限的路線。成功與否取決於能否在真實 workload 上驗證 10:1 的壓縮比。
互補而非取代：MX1 不挑戰 GPU 的矩陣運算霸主地位，而是專注於周圍的資料搬運層。這降低了市場阻力，但限制了天花板。
風險因素：原型尚未公佈實測數據；CXL 生態仍在成熟期；Hyperscaler 客戶的導入週期長且要求嚴格。

作為 AI 基礎設施工程師，我認為 XCENA 方向正確——記憶體頻寬確實是下一個必須攻克的堡壘。但從原型到量產到數據驗證，中間還有不短的距離。值得持續追蹤。

來源：TechCrunch (2026-05-29)