OpenMythos:循環深度 Transformer 架構深度解析
研究日期
2026-04-27
簡介
2026 年 4 月,一位 22 歲的創業者 Kye Gomez 在 GitHub 上開源了 OpenMythos 專案,聲稱以第一性原理從公開學術文獻中重建了 Anthropic Claude Mythos 的核心架構。該專案在短時間內獲得超過 10.6k Stars 和 2.4k Forks,引發 AI 社群廣泛討論。
OpenMythos 的核心是一種名為 Recurrent-Depth Transformer (RDT) 的架構——同一套 Transformer 權重在一次前向傳播中循環執行最多 16 次,以「時間換空間」的方式實現深度推理,而非像傳統模型那樣不斷堆疊更多層。這種設計融合了 DeepSeek 的 MoE 和 MLA 技術,並引入了 LTI 穩定性約束、ACT 自適應停機和深度級 LoRA 適配器等創新機制。
本文將從架構設計、核心組件、學術基礎、實作細節、社群爭議與產業影響等多個維度,對 OpenMythos 進行完整深入的分析。
背景:Claude Mythos 之謎
Claude Mythos 是 Anthropic 對其最新 Claude 模型內部架構的非正式稱呼。Anthropic 從未公開 Claude 的具體架構細節,僅在論文中描述了 RLHF/RLAIF 等訓練方法。然而,Claude 在多步驟推理、數學、程式設計等任務上展現了與其他模型質量不同的能力,引發研究社群對其架構的廣泛猜測。
2026 年 4 月中旬,多條獨立的研究線索在社群中匯聚:
- Sigrid Jin 在 X 上發布「Why Claude Mythos is so good — looped transformer theory」
- Yuekun Yao 探討「LT implicit reasoning over parametric knowledge unlocks generalization」
- rosinality 分析「Looped transformer cyclic trajectories and input injection」
- Hayden Prairie 發布 Parcae 論文,提出穩定循環語言模型的 scaling laws
- davidad 提出 RoPE-like loop index embedding 概念
Kye Gomez 整合了這些公開研究成果,以理論重建的方式推出了 OpenMythos。
⚠️ 重要聲明:OpenMythos 是獨立的社群驅動理論重建,基於公開研究和推測。它不隸屬於、未經 Anthropic 認可、也與 Anthropic 的任何專有系統無關。「Claude Mythos」這個名稱是社群的習慣稱呼,並非 Anthropic 官方命名。
核心概念
Recurrent-Depth Transformer (RDT)
RDT 的核心思想是:不增加參數量,而是增加計算深度。
傳統 Transformer 像蓋摩天大樓——100 層不夠就 200 層,200 層不夠就 500 層。參數越多,模型越大,GPU 記憶體消耗越恐怖,訓練成本越高。
RDT 完全換了一個思路:不蓋摩天大樓,原地跑圈。模型只有一個核心計算區塊,但這個區塊會被反覆執行。每循環一次,隱藏狀態就更新一次,就相當於「多想了一步」。
而且所有的「思考」都在連續潛空間裡默默進行——不需要像思維鏈(Chain-of-Thought)那樣,每一步都輸出可見的 token。這不是重複計算,而是迭代推理。
權重共享 vs. 深度共享
| 特性 | 傳統 Transformer | Recurrent-Depth Transformer |
|---|---|---|
| 層數 | kL 層獨立權重 | k 層權重,循環 L 次 |
| 參數量 | O(kL × d²) | O(k × d²) |
| 記憶體 | 隨深度線性增長 | 不隨推理深度增長 |
| 推理計算 | 固定 | 可動態調整循環次數 |
| 深度外推 | 不可能 | 訓練 T 次,推理 T+k 次 |
架構總覽
整個 OpenMythos 採用三段式設計:
flowchart TD
A[輸入 tokens] --> B[Embedding]
B --> C[Prelude - 標準 Transformer 層]
C --> D[編碼輸入 e]
D --> E[Recurrent Block - 循環核心]
E -->|循環 T 次| E
E --> F[Coda - 標準 Transformer 層]
F --> G[RMSNorm + LM Head]
G --> H[輸出 logits]
style E fill:#f9a825,stroke:#f57f17,color:#000
style C fill:#4caf50,stroke:#388e3c,color:#fff
style F fill:#4caf50,stroke:#388e3c,color:#fff
Prelude(序曲) → Recurrent Block(循環核心) → Coda(終章)
- Prelude:標準 Transformer 層,執行一次,負責將原始輸入編碼為隱藏表示 e
- Recurrent Block:核心循環區塊,最多循環 T 次(預設 16 次),每次更新隱藏狀態
- Coda:標準 Transformer 層,執行一次,將最終隱藏狀態轉換為輸出分佈
主要特性
1. 循環更新規則
Recurrent Block 在每次循環步驟 t 的更新規則為:
$$h_{t+1} = A \cdot h_t + B \cdot e + \text{Transformer}(h_t, e)$$其中:
- $h_t$ 是第 t 次循環後的隱藏狀態
- $e$ 是 Prelude 編碼後的原始輸入,每一步都會被重新注入
- $A$ 和 $B$ 是可學習的注入參數
e 的重新注入是防止模型在循環中「跑偏」的關鍵機制——它確保原始輸入訊號在整個循環深度中始終保持活力。
2. LTI 穩定性約束
訓練循環模型最臭名昭著的問題是不穩定性。兩種主要失敗模式:
- 殘差爆炸:隱藏狀態 $h_t$ 在循環中無限增長
- 損失尖峰:注入參數的譜範數過大導致訓練突然發散
OpenMythos 將循環重新表述為離散線性時不變(LTI)動力系統。忽略非線性 Transformer 貢獻後,遞迴變為:
$$h_{t+1} = A \cdot h_t + B \cdot e$$穩定性完全由 A 的譜半徑決定:
- $\rho(A) < 1$ → 穩定,收斂
- $\rho(A) \geq 1$ → 不穩定,發散
解法:將 A 參數化為連續負對角矩陣,使用 ZOH/Euler 離散化:
$$A_{\text{discrete}} = \exp(\Delta t \cdot A_{\text{continuous}})$$由於 $A_{\text{continuous}} = \text{Diag}(-\exp(\log_A))$ 永遠是負對角矩陣,因此 $A_{\text{discrete}}$ 的所有元素都在 $(0, 1)$ 區間內,保證 $\rho(A) < 1$ 恆成立。
這使得循環模型對超參數選擇更加穩健,即使在高學習率下也能乾淨地訓練。這是 Parcae 架構(Prairie et al., 2026)的核心貢獻。
3. MoE 給廣度,循環給深度
光靠循環能解釋推理的「深度」,但解釋不了「廣度」。處理程式碼、數學、文學、科學、法律等截然不同的領域,需要 Mixture of Experts (MoE)。
OpenMythos 在循環核心的每個 FFN 層都替換成 MoE 層,設計參考了 DeepSeek-MoE:
| 組件 | 說明 |
|---|---|
| 細粒度路由專家 | 大量小型專家(1/m 正常大小) |
| 共享專家 | 少量始終激活的專家,吸收跨領域通用知識 |
| Token 級路由 | 每 token 只激活一小部分專家 |
| 載入平衡偏置 | router_bias 在訓練時外部更新,不扭曲梯度 |
最精妙的設計:隨著隱藏狀態 $h_t$ 在循環中不斷演化,路由器在每個循環深度會選擇不同的專家子集。雖然權重共享,但每次循環的計算路徑完全不同。
MoE 提供廣度,循環提供深度。
4. Multi-Latent Attention (MLA)
注意力機制可切換兩種模式:
GQA(Grouped Query Attention):較少的 KV heads,配合 Flash Attention 2 實現高效推理。
MLA(Multi-Latent Attention):來自 DeepSeek-V2,將 KV cache 壓縮成低秩潛變量,實現 10-20 倍的 KV 記憶體節省。
flowchart LR
subgraph GQA
Q1[Query] --> ATT1[Attention]
K1[Key - 完整] --> ATT1
V1[Value - 完整] --> ATT1
end
subgraph MLA
Q2[Query - 低秩壓縮] --> ATT2[Attention]
CK[潛在 c_kv] --> DEC[解壓縮]
DEC --> K2[Key - 重建]
DEC --> V2[Value - 重建]
K2 --> ATT2
V2 --> ATT2
KR[RoPE Keys - 即時計算] --> ATT2
end
| 特性 | GQA | MLA |
|---|---|---|
| KV cache | 完整 K, V | 壓縮潛在 c_kv + RoPE keys |
| 記憶體縮減 | n_heads/n_kv_heads 倍 | 約 10-20 倍 |
| Flash Attention | 原生支援 | 不支援(手動實作) |
| 每 token 額外計算 | 無 | kv_up 重建(成本低廉) |
5. ACT 自適應計算時間
過度思考問題(Overthinking):超過一定深度後,過多的循環反而會降低預測品質——隱藏狀態漂移過了解決方案,進入雜訊。
OpenMythos 使用 Adaptive Computation Time (ACT) halting 機制:
- 每個 token 位置獨立學習一個 halting 機率
- 簡單 token 早期退出,節省計算
- 困難 token 獲得更多循環迭代
- Remainder trick:確保加權總和為 1,不遺漏剩餘機率質量
這使得模型在同一批次中可以對不同輸入使用不同的計算深度,實現了 Continuous Depth-wise Batching——理論上可帶來 2-3 倍的推理吞吐量提升。
6. 深度級 LoRA 適配器
來自 Relaxed Recursive Transformers(Bae et al., 2024)的想法:在每次循環迭代添加一個小型的 rank-r LoRA 模組。
- 每次循環共享大型公共權重矩陣(遞迴基底)
- 小型適配矩陣按迭代深度微調行為
- 總參數開銷極小
這在「純權重綁定」(最大參數效率,表達力最低)和「完全獨立層」(最大表達力,無參數節省)之間取得了平衡。
架構與原理
完整前向傳播流程
flowchart TD
INPUT[input_ids - B,T] --> EMB[Embedding]
EMB --> PRE[Prelude - N 層 TransformerBlock]
PRE --> ENC[e = 編碼輸入 - 凍結]
ENC --> LOOP{Recurrent Block}
LOOP --> LIE[Loop Index Embedding]
LIE --> NORM1[RMSNorm - h + e]
NORM1 --> TB[TransformerBlock - MLA/GQA + MoE FFN]
TB --> LORA[LoRA Adapter - 深度適配]
LORA --> LTI[LTI Injection - h = A*h + B*e + out]
LTI --> ACT[ACT Halting - 累積 p]
ACT -->|p < threshold| LOOP
ACT -->|p >= threshold| CODA
CODA[Coda - N 層 TransformerBlock] --> OUTNORM[RMSNorm]
OUTNORM --> LM[LM Head - weight-tied]
LM --> LOGITS[logits - B,T,vocab_size]
style LOOP fill:#f9a825,stroke:#f57f17,color:#000
style LTI fill:#e53935,stroke:#c62828,color:#fff
style ACT fill:#7b1fa2,stroke:#6a1b9a,color:#fff
MythosConfig 參數一覽
| 參數 | 預設值 | 說明 |
|---|---|---|
vocab_size |
32000 | 詞彙大小 |
dim |
2048 | 隱藏維度 |
n_heads |
16 | Query attention heads |
n_kv_heads |
4 | KV heads(GQA 用) |
max_seq_len |
4096 | 最大序列長度 |
max_loop_iters |
16 | 預設循環深度 T |
prelude_layers |
2 | 前奏層數 |
coda_layers |
2 | 尾聲層數 |
attn_type |
“mla” | “gqa” 或 “mla” |
kv_lora_rank |
512 | MLA KV 壓縮維度 |
n_experts |
64 | MoE 路由專家總數 |
n_shared_experts |
2 | 共享專家數 |
n_experts_per_tok |
4 | 每 token 選擇的 top-K |
expert_dim |
512 | 每個專家的隱藏維度 |
act_threshold |
0.99 | ACT halting 閾值 |
lora_rank |
16 | 深度 LoRA rank |
模型變體規格
| 變體 | dim | Experts | Loop Iters | Context | LoRA Rank |
|---|---|---|---|---|---|
| mythos_1b | 2048 | 64 | 16 | 4K | 8 |
| mythos_3b | 3072 | 64 | 16 | 4K | 8 |
| mythos_10b | 4096 | 128 | 24 | 8K | 16 |
| mythos_50b | 6144 | 256 | 32 | 8K | 32 |
| mythos_100b | 8192 | 256 | 32 | 1M | 64 |
| mythos_500b | 12288 | 512 | 48 | 1M | 128 |
| mythos_1t | 16384 | 512 | 64 | 1M | 256 |
學術基礎
理論支撐
OpenMythos 的設計並非憑空而來,而是建立在一系列嚴謹的學術研究之上:
1. Universal Transformers(Dehghani et al., 2018)
循環 Transformer 概念的原始論文。提出將 Transformer 層反覆應用於輸入,而非只通過一次。這是所有循環 Transformer 研究的奠基之作。
2. Parcae — Scaling Laws for Stable Looped Language Models(Prairie et al., 2026)
提出了循環語言模型的第一套可預測 scaling laws:
- 訓練:固定 FLOP 預算下,增加平均循環次數並減少 token 數量,比在更多資料上以最少循環訓練能獲得更低的損失
- 推理:更多測試時循環以可預測的飽和指數衰減改善品質
- 關鍵發現:770M 參數的循環模型可達到同資料訓練的 1.3B 固定深度 Transformer 的下游品質——用一半參數做同樣的事
3. Loop, Think, & Generalize(Saunshi et al., 2025)
形式化證明了循環 Transformer 的隱式推理能力。每次循環迭代是思維鏈一步的功能等價物,但在連續潛空間中運作。更進一步,連續潛思考可以同時編碼多個可能的下一步,實現近似廣度優先搜尋。
4. Relaxed Recursive Transformers(Bae et al., 2024)
提出深度級 LoRA 適配方案,在純權重共享和完全獨立層之間取得平衡。
5. DeepSeek-V2 MLA 與 MoE
Multi-Latent Attention 和細粒度 MoE 的工程實踐,已被 DeepSeek 在生產環境中驗證。
6. Mixture-of-Depths Attention(arXiv:2603.15619)
每個 attention head 同時 attend 當前層序列 KV 和前面所有層的 depth KV,提供另一種深度混合的思路。
為什麼循環 Transformer 可能解釋 Claude 的能力
| 觀察到的現象 | 循環架構的解釋 |
|---|---|
| 系統性泛化能力 | 循環模型通過三階段 grokking 過程獲得此能力 |
| 深度外推(訓練 5-hop,測試 10-hop) | 推理時增加循環次數即可 |
| 無需明確 CoT 的深度推理 | 隱式多跳推理在潛空間中進行 |
| 事實回憶不一致 | 結構上偏重組合而非記憶 |
| 新問題推理能力突出 | 階段轉換式能力獲得 |
安裝與設定
安裝
|
|
快速使用
|
|
使用預設模型變體
|
|
訓練 3B 模型
|
|
訓練配置:
| 參數 | 值 |
|---|---|
| 優化器 | AdamW (betas=0.9, 0.95) |
| 學習率 | 3e-4(warmup 2000 步 → cosine decay) |
| 資料集 | FineWeb-Edu (sample-10BT) |
| 目標 tokens | 30B |
| 精度 | bf16(H100/A100)/ fp16 + GradScaler |
| 分散式 | FSDP FULL_SHARD |
| 梯度裁剪 | max_norm=1.0 |
使用案例
適用場景
| 場景 | 優勢 |
|---|---|
| 多步驟數學推理 | 循環深度提供隱式推理鏈 |
| 長序列規劃 | 推理時動態調整計算深度 |
| 消費級硬體部署 | 參數效率高,記憶體不隨推理深度增長 |
| 異構批次推理 | ACT + Continuous Depth Batching 自動分配計算 |
| 程式碼生成 | MoE 提供廣泛領域知識 |
限制
- 訓練穩定性仍需謹慎調參(LTI 約束緩解但未完全解決)
- 事實記憶能力不如密集模型(結構性偏重推理而非記憶)
- 循環推理增加延遲(時間換空間的取捨)
- 大規模驗證仍不足(目前最大實驗僅在 770M-3B 規模)
社群爭議與可信度分析
爭議核心:「Claude Mythos」的名稱問題
Anthropic 從未使用「Mythos」作為其架構名稱。 這個稱呼完全是社群約定俗成的用法。OpenMythos 專案雖然在 README 中明確聲明與 Anthropic 無關,但專案名稱和描述仍然暗示了直接關聯,這在社群中引發了不小的爭議。
Kye Gomez 的背景
| 面向 | 說明 |
|---|---|
| 身份 | Swarms 創辦人,22 歲,高中畢業後創業 |
| 研究方向 | 大規模多智能體系統、替代模型架構、多模態模型 |
| 過往專案 | AgentCoder、Swarms.ai 等多個開源專案 |
| 學術論文 | 無經過同行評審的學術論文 |
| 社群評價 | 兩極分化——Twitter 有追隨者,Reddit/ML 研究社群普遍質疑 |
支持方的觀點
- 整合了多篇最新學術論文的思想,README 的技術寫作質量高
- 程式碼可直接運行,架構設計確實融合了 DeepSeek 的 MoE/MLA
- LTI 穩定性約束的實作有學術依據(Parcae)
- 讓更多人認識到循環 Transformer 這一研究方向
- GitHub 10.6k Stars 顯示社群關注度高
質疑方的觀點
- 核心循環邏輯本質上就是簡單的
for迴圈,技術門檻不高 - 沒有可重現的大規模實驗結果
- Benchmark 數據來源不明,被懷疑 cherry-picking
- 「重建 Claude Mythos」的宣稱缺乏任何實質證據
- 創作者過去的專案(如 AgentCoder)也有類似的誇大宣傳爭議
- 可能存在刷星和假帳號推廣的跡象
客觀評估
| 面向 | 評分 | 說明 |
|---|---|---|
| 架構設計文檔 | 優秀 | README 寫作清晰,理論基礎引用完整 |
| 程式碼品質 | 中等 | 可運行但缺乏完整的測試和文檔 |
| 實驗驗證 | 不足 | 缺乏可重現的大規模 benchmark |
| 創新程度 | 中等 | 主要是整合現有技術,非原創貢獻 |
| 宣傳誠實度 | 有待商榷 | 「重建 Claude」的說法過於大膽 |
產業影響與啟示
對 Scaling Laws 的重新思考
OpenMythos 代表了一種根本性的範式轉移:
- 舊規則:拼參數量、拼 GPU 數量、拼電費帳單
- 新規則:未來最強的模型,不是參數最多的,而是想得最多次的
如果 Parcae 的 scaling laws 在大規模下成立,這將徹底改寫 AI 的競爭格局——消費級硬體也能運行具備強大推理能力的模型。
閉源護城河的消退
正如 36kr 文章所指出的:
當一個人用公開資訊就能重建最核心的技術,護城河就不再是架構了。
FT 報導中,Dario Amodei 預測中國將在 12 個月內完全復刻出 Claude Mythos 級別的大模型。OpenMythos 的出現,讓這個預測看起來更加可信。
對開源社群的意義
不論 OpenMythos 本身的可信度如何,它帶來了幾個積極影響:
- 讓循環 Transformer 成為熱門研究方向——更多研究者和工程師開始探索這條路線
- 提供了可運行的參考實作——即使不直接使用,也可作為學習起點
- 推動了對 AI 架構透明度的討論——閉源模型的「黑箱」正在被社群力量打開
- 證明了獨立研究者也能參與前沿架構創新——不僅是大廠的專利
比較分析
循環 Transformer 家族
| 架構 | 年份 | 核心創新 | 穩定性方案 |
|---|---|---|---|
| Universal Transformer | 2018 | 首次提出循環 Transformer | ACT halting |
| RWKV | 2022 | RNN-Transformer 混合 | 線性注意力 |
| Mamba/SSM | 2023 | 狀態空間模型 | 結構化隱藏狀態 |
| Parcae | 2026 | LTI 穩定循環 + Scaling Laws | 譜半徑約束 |
| OpenMythos | 2026 | RDT + MoE + MLA | LTI + ACT + LoRA |
OpenMythos vs. 傳統 Transformer
| 維度 | 傳統 Transformer | OpenMythos (RDT) |
|---|---|---|
| 參數效率 | 低(深度需要更多參數) | 高(權重共享,循環換深度) |
| 記憶體效率 | 深度正比於層數 | 深度與記憶體無關 |
| 推理延遲 | 固定(一次前向傳播) | 可變(循環次數決定) |
| 訓練難度 | 成熟穩定 | 需要額外穩定性機制 |
| 系統性泛化 | 弱 | 強(理論保證) |
| 事實記憶 | 強 | 較弱(結構性偏重推理) |
| 生產驗證 | 大量驗證 | 缺乏大規模驗證 |
重點整理
- RDT 核心思想:不堆參數,原地循環——同一套權重在一次前向傳播中跑最多 16 次,以迭代推理代替層數堆疊
- 三段式架構:Prelude(編碼)→ Recurrent Block(循環推理)→ Coda(解碼),e 的每次注入防止模型跑偏
- LTI 穩定性保證:A 參數化為負對角矩陣的 ZOH 離散化,由構造保證 $\rho(A) < 1$,徹底解決循環訓練不穩定問題
- MoE + 循環的协同:MoE 提供廣度(不同領域知識),循環提供深度(多步推理),且路由器在每次循環選擇不同專家
- MLA 注意力:DeepSeek-V2 的低秩 KV 壓縮技術,生產規模下實現 10-20 倍 KV cache 節省
- ACT halting:每個 token 獨立決定計算深度,簡單問題快速回答,困難問題深入思考
- 參數效率:770M 循環模型 ≈ 1.3B 標準 Transformer 的品質,用一半參數做同樣的事
- Scaling Law 轉變:未來競爭的不是參數量,而是推理深度——時間換空間的新範式
- 可信度需謹慎看待:架構設計有學術基礎,但「重建 Claude」的宣稱缺乏實質證據,大規模實驗驗證不足
參考資料
- OpenMythos GitHub Repository
- 36kr:Claude Mythos 核心架構開源,22 歲天才一人破解
- Parcae — Scaling Laws for Stable Looped Language Models
- Loop, Think, & Generalize — Implicit Reasoning in Recurrent Depth Transformers
- Reasoning with Latent Thoughts — On the Power of Looped Transformers
- Relaxed Recursive Transformers — Effective Parameter Sharing with Layer-wise LoRA
- Universal Transformers
- Mixture-of-Depths Attention
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- Fine-grained Expert Segmentation and Shared Expert Isolation in MoE
- Sigrid Jin — Why Claude Mythos is so good
- Hayden Prairie — Parcae scaling laws thread
- davidad — RoPE-like loop index embedding