OpenMythos:循環深度 Transformer 架構深度解析

Kye Gomez 以第一性原理理論重建 Claude Mythos 核心架構,開源 OpenMythos 專案,實作 Recurrent-Depth Transformer 結合 MoE、MLA、LTI 穩定性約束與 ACT halting。本文深入分析架構設計、實作細節、學術基礎、社群爭議與產業影響。

OpenMythos:循環深度 Transformer 架構深度解析

研究日期

2026-04-27

簡介

2026 年 4 月,一位 22 歲的創業者 Kye Gomez 在 GitHub 上開源了 OpenMythos 專案,聲稱以第一性原理從公開學術文獻中重建了 Anthropic Claude Mythos 的核心架構。該專案在短時間內獲得超過 10.6k Stars2.4k Forks,引發 AI 社群廣泛討論。

OpenMythos 的核心是一種名為 Recurrent-Depth Transformer (RDT) 的架構——同一套 Transformer 權重在一次前向傳播中循環執行最多 16 次,以「時間換空間」的方式實現深度推理,而非像傳統模型那樣不斷堆疊更多層。這種設計融合了 DeepSeek 的 MoE 和 MLA 技術,並引入了 LTI 穩定性約束、ACT 自適應停機和深度級 LoRA 適配器等創新機制。

本文將從架構設計、核心組件、學術基礎、實作細節、社群爭議與產業影響等多個維度,對 OpenMythos 進行完整深入的分析。

背景:Claude Mythos 之謎

Claude Mythos 是 Anthropic 對其最新 Claude 模型內部架構的非正式稱呼。Anthropic 從未公開 Claude 的具體架構細節,僅在論文中描述了 RLHF/RLAIF 等訓練方法。然而,Claude 在多步驟推理、數學、程式設計等任務上展現了與其他模型質量不同的能力,引發研究社群對其架構的廣泛猜測。

2026 年 4 月中旬,多條獨立的研究線索在社群中匯聚:

  • Sigrid Jin 在 X 上發布「Why Claude Mythos is so good — looped transformer theory」
  • Yuekun Yao 探討「LT implicit reasoning over parametric knowledge unlocks generalization」
  • rosinality 分析「Looped transformer cyclic trajectories and input injection」
  • Hayden Prairie 發布 Parcae 論文,提出穩定循環語言模型的 scaling laws
  • davidad 提出 RoPE-like loop index embedding 概念

Kye Gomez 整合了這些公開研究成果,以理論重建的方式推出了 OpenMythos。

⚠️ 重要聲明:OpenMythos 是獨立的社群驅動理論重建,基於公開研究和推測。它不隸屬於、未經 Anthropic 認可、也與 Anthropic 的任何專有系統無關。「Claude Mythos」這個名稱是社群的習慣稱呼,並非 Anthropic 官方命名。

核心概念

Recurrent-Depth Transformer (RDT)

RDT 的核心思想是:不增加參數量,而是增加計算深度

傳統 Transformer 像蓋摩天大樓——100 層不夠就 200 層,200 層不夠就 500 層。參數越多,模型越大,GPU 記憶體消耗越恐怖,訓練成本越高。

RDT 完全換了一個思路:不蓋摩天大樓,原地跑圈。模型只有一個核心計算區塊,但這個區塊會被反覆執行。每循環一次,隱藏狀態就更新一次,就相當於「多想了一步」。

而且所有的「思考」都在連續潛空間裡默默進行——不需要像思維鏈(Chain-of-Thought)那樣,每一步都輸出可見的 token。這不是重複計算,而是迭代推理

權重共享 vs. 深度共享

特性 傳統 Transformer Recurrent-Depth Transformer
層數 kL 層獨立權重 k 層權重,循環 L 次
參數量 O(kL × d²) O(k × d²)
記憶體 隨深度線性增長 不隨推理深度增長
推理計算 固定 可動態調整循環次數
深度外推 不可能 訓練 T 次,推理 T+k 次

架構總覽

整個 OpenMythos 採用三段式設計

  flowchart TD
    A[輸入 tokens] --> B[Embedding]
    B --> C[Prelude - 標準 Transformer 層]
    C --> D[編碼輸入 e]
    D --> E[Recurrent Block - 循環核心]
    E -->|循環 T 次| E
    E --> F[Coda - 標準 Transformer 層]
    F --> G[RMSNorm + LM Head]
    G --> H[輸出 logits]

    style E fill:#f9a825,stroke:#f57f17,color:#000
    style C fill:#4caf50,stroke:#388e3c,color:#fff
    style F fill:#4caf50,stroke:#388e3c,color:#fff

Prelude(序曲)Recurrent Block(循環核心)Coda(終章)

  • Prelude:標準 Transformer 層,執行一次,負責將原始輸入編碼為隱藏表示 e
  • Recurrent Block:核心循環區塊,最多循環 T 次(預設 16 次),每次更新隱藏狀態
  • Coda:標準 Transformer 層,執行一次,將最終隱藏狀態轉換為輸出分佈

主要特性

1. 循環更新規則

Recurrent Block 在每次循環步驟 t 的更新規則為:

$$h_{t+1} = A \cdot h_t + B \cdot e + \text{Transformer}(h_t, e)$$

其中:

  • $h_t$ 是第 t 次循環後的隱藏狀態
  • $e$ 是 Prelude 編碼後的原始輸入,每一步都會被重新注入
  • $A$ 和 $B$ 是可學習的注入參數

e 的重新注入是防止模型在循環中「跑偏」的關鍵機制——它確保原始輸入訊號在整個循環深度中始終保持活力。

2. LTI 穩定性約束

訓練循環模型最臭名昭著的問題是不穩定性。兩種主要失敗模式:

  • 殘差爆炸:隱藏狀態 $h_t$ 在循環中無限增長
  • 損失尖峰:注入參數的譜範數過大導致訓練突然發散

OpenMythos 將循環重新表述為離散線性時不變(LTI)動力系統。忽略非線性 Transformer 貢獻後,遞迴變為:

$$h_{t+1} = A \cdot h_t + B \cdot e$$

穩定性完全由 A 的譜半徑決定:

  • $\rho(A) < 1$ → 穩定,收斂
  • $\rho(A) \geq 1$ → 不穩定,發散

解法:將 A 參數化為連續負對角矩陣,使用 ZOH/Euler 離散化:

$$A_{\text{discrete}} = \exp(\Delta t \cdot A_{\text{continuous}})$$

由於 $A_{\text{continuous}} = \text{Diag}(-\exp(\log_A))$ 永遠是負對角矩陣,因此 $A_{\text{discrete}}$ 的所有元素都在 $(0, 1)$ 區間內,保證 $\rho(A) < 1$ 恆成立

這使得循環模型對超參數選擇更加穩健,即使在高學習率下也能乾淨地訓練。這是 Parcae 架構(Prairie et al., 2026)的核心貢獻。

3. MoE 給廣度,循環給深度

光靠循環能解釋推理的「深度」,但解釋不了「廣度」。處理程式碼、數學、文學、科學、法律等截然不同的領域,需要 Mixture of Experts (MoE)

OpenMythos 在循環核心的每個 FFN 層都替換成 MoE 層,設計參考了 DeepSeek-MoE

組件 說明
細粒度路由專家 大量小型專家(1/m 正常大小)
共享專家 少量始終激活的專家,吸收跨領域通用知識
Token 級路由 每 token 只激活一小部分專家
載入平衡偏置 router_bias 在訓練時外部更新,不扭曲梯度

最精妙的設計:隨著隱藏狀態 $h_t$ 在循環中不斷演化,路由器在每個循環深度會選擇不同的專家子集。雖然權重共享,但每次循環的計算路徑完全不同。

MoE 提供廣度,循環提供深度。

4. Multi-Latent Attention (MLA)

注意力機制可切換兩種模式:

GQA(Grouped Query Attention):較少的 KV heads,配合 Flash Attention 2 實現高效推理。

MLA(Multi-Latent Attention):來自 DeepSeek-V2,將 KV cache 壓縮成低秩潛變量,實現 10-20 倍的 KV 記憶體節省。

  flowchart LR
    subgraph GQA
        Q1[Query] --> ATT1[Attention]
        K1[Key - 完整] --> ATT1
        V1[Value - 完整] --> ATT1
    end

    subgraph MLA
        Q2[Query - 低秩壓縮] --> ATT2[Attention]
        CK[潛在 c_kv] --> DEC[解壓縮]
        DEC --> K2[Key - 重建]
        DEC --> V2[Value - 重建]
        K2 --> ATT2
        V2 --> ATT2
        KR[RoPE Keys - 即時計算] --> ATT2
    end
特性 GQA MLA
KV cache 完整 K, V 壓縮潛在 c_kv + RoPE keys
記憶體縮減 n_heads/n_kv_heads 倍 約 10-20 倍
Flash Attention 原生支援 不支援(手動實作)
每 token 額外計算 kv_up 重建(成本低廉)

5. ACT 自適應計算時間

過度思考問題(Overthinking):超過一定深度後,過多的循環反而會降低預測品質——隱藏狀態漂移過了解決方案,進入雜訊。

OpenMythos 使用 Adaptive Computation Time (ACT) halting 機制:

  • 每個 token 位置獨立學習一個 halting 機率
  • 簡單 token 早期退出,節省計算
  • 困難 token 獲得更多循環迭代
  • Remainder trick:確保加權總和為 1,不遺漏剩餘機率質量

這使得模型在同一批次中可以對不同輸入使用不同的計算深度,實現了 Continuous Depth-wise Batching——理論上可帶來 2-3 倍的推理吞吐量提升。

6. 深度級 LoRA 適配器

來自 Relaxed Recursive Transformers(Bae et al., 2024)的想法:在每次循環迭代添加一個小型的 rank-r LoRA 模組。

  • 每次循環共享大型公共權重矩陣(遞迴基底)
  • 小型適配矩陣按迭代深度微調行為
  • 總參數開銷極小

這在「純權重綁定」(最大參數效率,表達力最低)和「完全獨立層」(最大表達力,無參數節省)之間取得了平衡。

架構與原理

完整前向傳播流程

  flowchart TD
    INPUT[input_ids - B,T] --> EMB[Embedding]
    EMB --> PRE[Prelude - N 層 TransformerBlock]
    PRE --> ENC[e = 編碼輸入 - 凍結]

    ENC --> LOOP{Recurrent Block}
    LOOP --> LIE[Loop Index Embedding]
    LIE --> NORM1[RMSNorm - h + e]
    NORM1 --> TB[TransformerBlock - MLA/GQA + MoE FFN]
    TB --> LORA[LoRA Adapter - 深度適配]
    LORA --> LTI[LTI Injection - h = A*h + B*e + out]
    LTI --> ACT[ACT Halting - 累積 p]
    ACT -->|p < threshold| LOOP
    ACT -->|p >= threshold| CODA

    CODA[Coda - N 層 TransformerBlock] --> OUTNORM[RMSNorm]
    OUTNORM --> LM[LM Head - weight-tied]
    LM --> LOGITS[logits - B,T,vocab_size]

    style LOOP fill:#f9a825,stroke:#f57f17,color:#000
    style LTI fill:#e53935,stroke:#c62828,color:#fff
    style ACT fill:#7b1fa2,stroke:#6a1b9a,color:#fff

MythosConfig 參數一覽

參數 預設值 說明
vocab_size 32000 詞彙大小
dim 2048 隱藏維度
n_heads 16 Query attention heads
n_kv_heads 4 KV heads(GQA 用)
max_seq_len 4096 最大序列長度
max_loop_iters 16 預設循環深度 T
prelude_layers 2 前奏層數
coda_layers 2 尾聲層數
attn_type “mla” “gqa” 或 “mla”
kv_lora_rank 512 MLA KV 壓縮維度
n_experts 64 MoE 路由專家總數
n_shared_experts 2 共享專家數
n_experts_per_tok 4 每 token 選擇的 top-K
expert_dim 512 每個專家的隱藏維度
act_threshold 0.99 ACT halting 閾值
lora_rank 16 深度 LoRA rank

模型變體規格

變體 dim Experts Loop Iters Context LoRA Rank
mythos_1b 2048 64 16 4K 8
mythos_3b 3072 64 16 4K 8
mythos_10b 4096 128 24 8K 16
mythos_50b 6144 256 32 8K 32
mythos_100b 8192 256 32 1M 64
mythos_500b 12288 512 48 1M 128
mythos_1t 16384 512 64 1M 256

學術基礎

理論支撐

OpenMythos 的設計並非憑空而來,而是建立在一系列嚴謹的學術研究之上:

1. Universal Transformers(Dehghani et al., 2018)

循環 Transformer 概念的原始論文。提出將 Transformer 層反覆應用於輸入,而非只通過一次。這是所有循環 Transformer 研究的奠基之作。

2. Parcae — Scaling Laws for Stable Looped Language Models(Prairie et al., 2026)

提出了循環語言模型的第一套可預測 scaling laws:

  • 訓練:固定 FLOP 預算下,增加平均循環次數並減少 token 數量,比在更多資料上以最少循環訓練能獲得更低的損失
  • 推理:更多測試時循環以可預測的飽和指數衰減改善品質
  • 關鍵發現:770M 參數的循環模型可達到同資料訓練的 1.3B 固定深度 Transformer 的下游品質——用一半參數做同樣的事

3. Loop, Think, & Generalize(Saunshi et al., 2025)

形式化證明了循環 Transformer 的隱式推理能力。每次循環迭代是思維鏈一步的功能等價物,但在連續潛空間中運作。更進一步,連續潛思考可以同時編碼多個可能的下一步,實現近似廣度優先搜尋。

4. Relaxed Recursive Transformers(Bae et al., 2024)

提出深度級 LoRA 適配方案,在純權重共享和完全獨立層之間取得平衡。

5. DeepSeek-V2 MLA 與 MoE

Multi-Latent Attention 和細粒度 MoE 的工程實踐,已被 DeepSeek 在生產環境中驗證。

6. Mixture-of-Depths Attention(arXiv:2603.15619)

每個 attention head 同時 attend 當前層序列 KV 和前面所有層的 depth KV,提供另一種深度混合的思路。

為什麼循環 Transformer 可能解釋 Claude 的能力

觀察到的現象 循環架構的解釋
系統性泛化能力 循環模型通過三階段 grokking 過程獲得此能力
深度外推(訓練 5-hop,測試 10-hop) 推理時增加循環次數即可
無需明確 CoT 的深度推理 隱式多跳推理在潛空間中進行
事實回憶不一致 結構上偏重組合而非記憶
新問題推理能力突出 階段轉換式能力獲得

安裝與設定

安裝

1
2
3
4
pip install open-mythos

# 啟用 Flash Attention 2(需要 CUDA)
pip install open-mythos[flash]

快速使用

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
import torch
from open_mythos.main import OpenMythos, MythosConfig

# 使用 MLA 注意力
cfg = MythosConfig(
    vocab_size=1000,
    dim=256,
    n_heads=8,
    max_seq_len=128,
    max_loop_iters=4,
    prelude_layers=1,
    coda_layers=1,
    n_experts=8,
    n_shared_experts=1,
    n_experts_per_tok=2,
    expert_dim=64,
    lora_rank=8,
    attn_type="mla",
    kv_lora_rank=32,
    q_lora_rank=64,
    qk_rope_head_dim=16,
    qk_nope_head_dim=16,
    v_head_dim=16,
)

model = OpenMythos(cfg)
ids = torch.randint(0, cfg.vocab_size, (2, 16))

# 前向傳播
logits = model(ids, n_loops=4)

# 自迴歸生成
out = model.generate(ids, max_new_tokens=8, n_loops=8)

# 驗證譜半徑(必須 < 1)
A = model.recurrent.injection.get_A()
rho = torch.linalg.eigvals(A).abs().max().item()
print(f"Spectral radius = {rho:.4f}")

使用預設模型變體

1
2
3
4
from open_mythos import mythos_7b, OpenMythos

cfg = mythos_7b()
model = OpenMythos(cfg)

訓練 3B 模型

1
2
3
4
5
# 單 GPU
python training/3b_fine_web_edu.py

# 多 GPU(自動偵測)
torchrun --nproc_per_node=$(python -c "import torch; print(torch.cuda.device_count())") training/3b_fine_web_edu.py

訓練配置

參數
優化器 AdamW (betas=0.9, 0.95)
學習率 3e-4(warmup 2000 步 → cosine decay)
資料集 FineWeb-Edu (sample-10BT)
目標 tokens 30B
精度 bf16(H100/A100)/ fp16 + GradScaler
分散式 FSDP FULL_SHARD
梯度裁剪 max_norm=1.0

使用案例

適用場景

場景 優勢
多步驟數學推理 循環深度提供隱式推理鏈
長序列規劃 推理時動態調整計算深度
消費級硬體部署 參數效率高,記憶體不隨推理深度增長
異構批次推理 ACT + Continuous Depth Batching 自動分配計算
程式碼生成 MoE 提供廣泛領域知識

限制

  • 訓練穩定性仍需謹慎調參(LTI 約束緩解但未完全解決)
  • 事實記憶能力不如密集模型(結構性偏重推理而非記憶)
  • 循環推理增加延遲(時間換空間的取捨)
  • 大規模驗證仍不足(目前最大實驗僅在 770M-3B 規模)

社群爭議與可信度分析

爭議核心:「Claude Mythos」的名稱問題

Anthropic 從未使用「Mythos」作為其架構名稱。 這個稱呼完全是社群約定俗成的用法。OpenMythos 專案雖然在 README 中明確聲明與 Anthropic 無關,但專案名稱和描述仍然暗示了直接關聯,這在社群中引發了不小的爭議。

Kye Gomez 的背景

面向 說明
身份 Swarms 創辦人,22 歲,高中畢業後創業
研究方向 大規模多智能體系統、替代模型架構、多模態模型
過往專案 AgentCoder、Swarms.ai 等多個開源專案
學術論文 無經過同行評審的學術論文
社群評價 兩極分化——Twitter 有追隨者,Reddit/ML 研究社群普遍質疑

支持方的觀點

  • 整合了多篇最新學術論文的思想,README 的技術寫作質量高
  • 程式碼可直接運行,架構設計確實融合了 DeepSeek 的 MoE/MLA
  • LTI 穩定性約束的實作有學術依據(Parcae)
  • 讓更多人認識到循環 Transformer 這一研究方向
  • GitHub 10.6k Stars 顯示社群關注度高

質疑方的觀點

  • 核心循環邏輯本質上就是簡單的 for 迴圈,技術門檻不高
  • 沒有可重現的大規模實驗結果
  • Benchmark 數據來源不明,被懷疑 cherry-picking
  • 「重建 Claude Mythos」的宣稱缺乏任何實質證據
  • 創作者過去的專案(如 AgentCoder)也有類似的誇大宣傳爭議
  • 可能存在刷星和假帳號推廣的跡象

客觀評估

面向 評分 說明
架構設計文檔 優秀 README 寫作清晰,理論基礎引用完整
程式碼品質 中等 可運行但缺乏完整的測試和文檔
實驗驗證 不足 缺乏可重現的大規模 benchmark
創新程度 中等 主要是整合現有技術,非原創貢獻
宣傳誠實度 有待商榷 「重建 Claude」的說法過於大膽

產業影響與啟示

對 Scaling Laws 的重新思考

OpenMythos 代表了一種根本性的範式轉移:

  • 舊規則:拼參數量、拼 GPU 數量、拼電費帳單
  • 新規則未來最強的模型,不是參數最多的,而是想得最多次的

如果 Parcae 的 scaling laws 在大規模下成立,這將徹底改寫 AI 的競爭格局——消費級硬體也能運行具備強大推理能力的模型。

閉源護城河的消退

正如 36kr 文章所指出的:

當一個人用公開資訊就能重建最核心的技術,護城河就不再是架構了。

FT 報導中,Dario Amodei 預測中國將在 12 個月內完全復刻出 Claude Mythos 級別的大模型。OpenMythos 的出現,讓這個預測看起來更加可信。

對開源社群的意義

不論 OpenMythos 本身的可信度如何,它帶來了幾個積極影響:

  1. 讓循環 Transformer 成為熱門研究方向——更多研究者和工程師開始探索這條路線
  2. 提供了可運行的參考實作——即使不直接使用,也可作為學習起點
  3. 推動了對 AI 架構透明度的討論——閉源模型的「黑箱」正在被社群力量打開
  4. 證明了獨立研究者也能參與前沿架構創新——不僅是大廠的專利

比較分析

循環 Transformer 家族

架構 年份 核心創新 穩定性方案
Universal Transformer 2018 首次提出循環 Transformer ACT halting
RWKV 2022 RNN-Transformer 混合 線性注意力
Mamba/SSM 2023 狀態空間模型 結構化隱藏狀態
Parcae 2026 LTI 穩定循環 + Scaling Laws 譜半徑約束
OpenMythos 2026 RDT + MoE + MLA LTI + ACT + LoRA

OpenMythos vs. 傳統 Transformer

維度 傳統 Transformer OpenMythos (RDT)
參數效率 低(深度需要更多參數) 高(權重共享,循環換深度)
記憶體效率 深度正比於層數 深度與記憶體無關
推理延遲 固定(一次前向傳播) 可變(循環次數決定)
訓練難度 成熟穩定 需要額外穩定性機制
系統性泛化 強(理論保證)
事實記憶 較弱(結構性偏重推理)
生產驗證 大量驗證 缺乏大規模驗證

重點整理

  • RDT 核心思想:不堆參數,原地循環——同一套權重在一次前向傳播中跑最多 16 次,以迭代推理代替層數堆疊
  • 三段式架構:Prelude(編碼)→ Recurrent Block(循環推理)→ Coda(解碼),e 的每次注入防止模型跑偏
  • LTI 穩定性保證:A 參數化為負對角矩陣的 ZOH 離散化,由構造保證 $\rho(A) < 1$,徹底解決循環訓練不穩定問題
  • MoE + 循環的协同:MoE 提供廣度(不同領域知識),循環提供深度(多步推理),且路由器在每次循環選擇不同專家
  • MLA 注意力:DeepSeek-V2 的低秩 KV 壓縮技術,生產規模下實現 10-20 倍 KV cache 節省
  • ACT halting:每個 token 獨立決定計算深度,簡單問題快速回答,困難問題深入思考
  • 參數效率:770M 循環模型 ≈ 1.3B 標準 Transformer 的品質,用一半參數做同樣的事
  • Scaling Law 轉變:未來競爭的不是參數量,而是推理深度——時間換空間的新範式
  • 可信度需謹慎看待:架構設計有學術基礎,但「重建 Claude」的宣稱缺乏實質證據,大規模實驗驗證不足

參考資料