OpenMythos：循環深度 Transformer 架構深度解析

研究日期

2026-04-27

簡介

2026 年 4 月，一位 22 歲的創業者 Kye Gomez 在 GitHub 上開源了 OpenMythos 專案，聲稱以第一性原理從公開學術文獻中重建了 Anthropic Claude Mythos 的核心架構。該專案在短時間內獲得超過 10.6k Stars 和 2.4k Forks，引發 AI 社群廣泛討論。

OpenMythos 的核心是一種名為 Recurrent-Depth Transformer (RDT) 的架構——同一套 Transformer 權重在一次前向傳播中循環執行最多 16 次，以「時間換空間」的方式實現深度推理，而非像傳統模型那樣不斷堆疊更多層。這種設計融合了 DeepSeek 的 MoE 和 MLA 技術，並引入了 LTI 穩定性約束、ACT 自適應停機和深度級 LoRA 適配器等創新機制。

本文將從架構設計、核心組件、學術基礎、實作細節、社群爭議與產業影響等多個維度，對 OpenMythos 進行完整深入的分析。

背景：Claude Mythos 之謎

Claude Mythos 是 Anthropic 對其最新 Claude 模型內部架構的非正式稱呼。Anthropic 從未公開 Claude 的具體架構細節，僅在論文中描述了 RLHF/RLAIF 等訓練方法。然而，Claude 在多步驟推理、數學、程式設計等任務上展現了與其他模型質量不同的能力，引發研究社群對其架構的廣泛猜測。

2026 年 4 月中旬，多條獨立的研究線索在社群中匯聚：

Sigrid Jin 在 X 上發布「Why Claude Mythos is so good — looped transformer theory」
Yuekun Yao 探討「LT implicit reasoning over parametric knowledge unlocks generalization」
rosinality 分析「Looped transformer cyclic trajectories and input injection」
Hayden Prairie 發布 Parcae 論文，提出穩定循環語言模型的 scaling laws
davidad 提出 RoPE-like loop index embedding 概念

Kye Gomez 整合了這些公開研究成果，以理論重建的方式推出了 OpenMythos。

⚠️ 重要聲明：OpenMythos 是獨立的社群驅動理論重建，基於公開研究和推測。它不隸屬於、未經 Anthropic 認可、也與 Anthropic 的任何專有系統無關。「Claude Mythos」這個名稱是社群的習慣稱呼，並非 Anthropic 官方命名。

核心概念

Recurrent-Depth Transformer (RDT)

RDT 的核心思想是：不增加參數量，而是增加計算深度。

傳統 Transformer 像蓋摩天大樓——100 層不夠就 200 層，200 層不夠就 500 層。參數越多，模型越大，GPU 記憶體消耗越恐怖，訓練成本越高。

RDT 完全換了一個思路：不蓋摩天大樓，原地跑圈。模型只有一個核心計算區塊，但這個區塊會被反覆執行。每循環一次，隱藏狀態就更新一次，就相當於「多想了一步」。

而且所有的「思考」都在連續潛空間裡默默進行——不需要像思維鏈（Chain-of-Thought）那樣，每一步都輸出可見的 token。這不是重複計算，而是迭代推理。

權重共享 vs. 深度共享

特性	傳統 Transformer	Recurrent-Depth Transformer
層數	kL 層獨立權重	k 層權重，循環 L 次
參數量	O(kL × d²)	O(k × d²)
記憶體	隨深度線性增長	不隨推理深度增長
推理計算	固定	可動態調整循環次數
深度外推	不可能	訓練 T 次，推理 T+k 次

架構總覽

整個 OpenMythos 採用三段式設計：

  flowchart TD
    A[輸入 tokens] --> B[Embedding]
    B --> C[Prelude - 標準 Transformer 層]
    C --> D[編碼輸入 e]
    D --> E[Recurrent Block - 循環核心]
    E -->|循環 T 次| E
    E --> F[Coda - 標準 Transformer 層]
    F --> G[RMSNorm + LM Head]
    G --> H[輸出 logits]

    style E fill:#f9a825,stroke:#f57f17,color:#000
    style C fill:#4caf50,stroke:#388e3c,color:#fff
    style F fill:#4caf50,stroke:#388e3c,color:#fff

Prelude（序曲） → Recurrent Block（循環核心） → Coda（終章）

Prelude：標準 Transformer 層，執行一次，負責將原始輸入編碼為隱藏表示 e
Recurrent Block：核心循環區塊，最多循環 T 次（預設 16 次），每次更新隱藏狀態
Coda：標準 Transformer 層，執行一次，將最終隱藏狀態轉換為輸出分佈

主要特性

1. 循環更新規則

Recurrent Block 在每次循環步驟 t 的更新規則為：

$$h_{t+1} = A \cdot h_t + B \cdot e + \text{Transformer}(h_t, e)$$

其中：

$h_t$ 是第 t 次循環後的隱藏狀態
$e$ 是 Prelude 編碼後的原始輸入，每一步都會被重新注入
$A$ 和 $B$ 是可學習的注入參數

e 的重新注入是防止模型在循環中「跑偏」的關鍵機制——它確保原始輸入訊號在整個循環深度中始終保持活力。

2. LTI 穩定性約束

訓練循環模型最臭名昭著的問題是不穩定性。兩種主要失敗模式：

殘差爆炸：隱藏狀態 $h_t$ 在循環中無限增長
損失尖峰：注入參數的譜範數過大導致訓練突然發散

OpenMythos 將循環重新表述為離散線性時不變（LTI）動力系統。忽略非線性 Transformer 貢獻後，遞迴變為：

$$h_{t+1} = A \cdot h_t + B \cdot e$$

穩定性完全由 A 的譜半徑決定：

$\rho(A) < 1$ → 穩定，收斂
$\rho(A) \geq 1$ → 不穩定，發散

解法：將 A 參數化為連續負對角矩陣，使用 ZOH/Euler 離散化：

$$A_{\text{discrete}} = \exp(\Delta t \cdot A_{\text{continuous}})$$

由於 $A_{\text{continuous}} = \text{Diag}(-\exp(\log_A))$ 永遠是負對角矩陣，因此 $A_{\text{discrete}}$ 的所有元素都在 $(0, 1)$ 區間內，保證 $\rho(A) < 1$ 恆成立。

這使得循環模型對超參數選擇更加穩健，即使在高學習率下也能乾淨地訓練。這是 Parcae 架構（Prairie et al., 2026）的核心貢獻。

3. MoE 給廣度，循環給深度

光靠循環能解釋推理的「深度」，但解釋不了「廣度」。處理程式碼、數學、文學、科學、法律等截然不同的領域，需要 Mixture of Experts (MoE)。

OpenMythos 在循環核心的每個 FFN 層都替換成 MoE 層，設計參考了 DeepSeek-MoE：

組件	說明
細粒度路由專家	大量小型專家（1/m 正常大小）
共享專家	少量始終激活的專家，吸收跨領域通用知識
Token 級路由	每 token 只激活一小部分專家
載入平衡偏置	router_bias 在訓練時外部更新，不扭曲梯度

最精妙的設計：隨著隱藏狀態 $h_t$ 在循環中不斷演化，路由器在每個循環深度會選擇不同的專家子集。雖然權重共享，但每次循環的計算路徑完全不同。

MoE 提供廣度，循環提供深度。

4. Multi-Latent Attention (MLA)

注意力機制可切換兩種模式：

GQA（Grouped Query Attention）：較少的 KV heads，配合 Flash Attention 2 實現高效推理。

MLA（Multi-Latent Attention）：來自 DeepSeek-V2，將 KV cache 壓縮成低秩潛變量，實現 10-20 倍的 KV 記憶體節省。

  flowchart LR
    subgraph GQA
        Q1[Query] --> ATT1[Attention]
        K1[Key - 完整] --> ATT1
        V1[Value - 完整] --> ATT1
    end

    subgraph MLA
        Q2[Query - 低秩壓縮] --> ATT2[Attention]
        CK[潛在 c_kv] --> DEC[解壓縮]
        DEC --> K2[Key - 重建]
        DEC --> V2[Value - 重建]
        K2 --> ATT2
        V2 --> ATT2
        KR[RoPE Keys - 即時計算] --> ATT2
    end

特性	GQA	MLA
KV cache	完整 K, V	壓縮潛在 c_kv + RoPE keys
記憶體縮減	n_heads/n_kv_heads 倍	約 10-20 倍
Flash Attention	原生支援	不支援（手動實作）
每 token 額外計算	無	kv_up 重建（成本低廉）

5. ACT 自適應計算時間

過度思考問題（Overthinking）：超過一定深度後，過多的循環反而會降低預測品質——隱藏狀態漂移過了解決方案，進入雜訊。

OpenMythos 使用 Adaptive Computation Time (ACT) halting 機制：

每個 token 位置獨立學習一個 halting 機率
簡單 token 早期退出，節省計算
困難 token 獲得更多循環迭代
Remainder trick：確保加權總和為 1，不遺漏剩餘機率質量

這使得模型在同一批次中可以對不同輸入使用不同的計算深度，實現了 Continuous Depth-wise Batching——理論上可帶來 2-3 倍的推理吞吐量提升。

6. 深度級 LoRA 適配器

來自 Relaxed Recursive Transformers（Bae et al., 2024）的想法：在每次循環迭代添加一個小型的 rank-r LoRA 模組。

每次循環共享大型公共權重矩陣（遞迴基底）
小型適配矩陣按迭代深度微調行為
總參數開銷極小

這在「純權重綁定」（最大參數效率，表達力最低）和「完全獨立層」（最大表達力，無參數節省）之間取得了平衡。

架構與原理

完整前向傳播流程

  flowchart TD
    INPUT[input_ids - B,T] --> EMB[Embedding]
    EMB --> PRE[Prelude - N 層 TransformerBlock]
    PRE --> ENC[e = 編碼輸入 - 凍結]

    ENC --> LOOP{Recurrent Block}
    LOOP --> LIE[Loop Index Embedding]
    LIE --> NORM1[RMSNorm - h + e]
    NORM1 --> TB[TransformerBlock - MLA/GQA + MoE FFN]
    TB --> LORA[LoRA Adapter - 深度適配]
    LORA --> LTI[LTI Injection - h = A*h + B*e + out]
    LTI --> ACT[ACT Halting - 累積 p]
    ACT -->|p < threshold| LOOP
    ACT -->|p >= threshold| CODA

    CODA[Coda - N 層 TransformerBlock] --> OUTNORM[RMSNorm]
    OUTNORM --> LM[LM Head - weight-tied]
    LM --> LOGITS[logits - B,T,vocab_size]

    style LOOP fill:#f9a825,stroke:#f57f17,color:#000
    style LTI fill:#e53935,stroke:#c62828,color:#fff
    style ACT fill:#7b1fa2,stroke:#6a1b9a,color:#fff

MythosConfig 參數一覽

參數	預設值	說明
`vocab_size`	32000	詞彙大小
`dim`	2048	隱藏維度
`n_heads`	16	Query attention heads
`n_kv_heads`	4	KV heads（GQA 用）
`max_seq_len`	4096	最大序列長度
`max_loop_iters`	16	預設循環深度 T
`prelude_layers`	2	前奏層數
`coda_layers`	2	尾聲層數
`attn_type`	“mla”	“gqa” 或 “mla”
`kv_lora_rank`	512	MLA KV 壓縮維度
`n_experts`	64	MoE 路由專家總數
`n_shared_experts`	2	共享專家數
`n_experts_per_tok`	4	每 token 選擇的 top-K
`expert_dim`	512	每個專家的隱藏維度
`act_threshold`	0.99	ACT halting 閾值
`lora_rank`	16	深度 LoRA rank

模型變體規格

變體	dim	Experts	Loop Iters	Context	LoRA Rank
mythos_1b	2048	64	16	4K	8
mythos_3b	3072	64	16	4K	8
mythos_10b	4096	128	24	8K	16
mythos_50b	6144	256	32	8K	32
mythos_100b	8192	256	32	1M	64
mythos_500b	12288	512	48	1M	128
mythos_1t	16384	512	64	1M	256

學術基礎

理論支撐

OpenMythos 的設計並非憑空而來，而是建立在一系列嚴謹的學術研究之上：

1. Universal Transformers（Dehghani et al., 2018）

循環 Transformer 概念的原始論文。提出將 Transformer 層反覆應用於輸入，而非只通過一次。這是所有循環 Transformer 研究的奠基之作。

2. Parcae — Scaling Laws for Stable Looped Language Models（Prairie et al., 2026）

提出了循環語言模型的第一套可預測 scaling laws：

訓練：固定 FLOP 預算下，增加平均循環次數並減少 token 數量，比在更多資料上以最少循環訓練能獲得更低的損失
推理：更多測試時循環以可預測的飽和指數衰減改善品質
關鍵發現：770M 參數的循環模型可達到同資料訓練的 1.3B 固定深度 Transformer 的下游品質——用一半參數做同樣的事

3. Loop, Think, & Generalize（Saunshi et al., 2025）

形式化證明了循環 Transformer 的隱式推理能力。每次循環迭代是思維鏈一步的功能等價物，但在連續潛空間中運作。更進一步，連續潛思考可以同時編碼多個可能的下一步，實現近似廣度優先搜尋。

4. Relaxed Recursive Transformers（Bae et al., 2024）

提出深度級 LoRA 適配方案，在純權重共享和完全獨立層之間取得平衡。

5. DeepSeek-V2 MLA 與 MoE

Multi-Latent Attention 和細粒度 MoE 的工程實踐，已被 DeepSeek 在生產環境中驗證。

6. Mixture-of-Depths Attention（arXiv:2603.15619）

每個 attention head 同時 attend 當前層序列 KV 和前面所有層的 depth KV，提供另一種深度混合的思路。

為什麼循環 Transformer 可能解釋 Claude 的能力

觀察到的現象	循環架構的解釋
系統性泛化能力	循環模型通過三階段 grokking 過程獲得此能力
深度外推（訓練 5-hop，測試 10-hop）	推理時增加循環次數即可
無需明確 CoT 的深度推理	隱式多跳推理在潛空間中進行
事實回憶不一致	結構上偏重組合而非記憶
新問題推理能力突出	階段轉換式能力獲得

安裝與設定

安裝

1
2
3
4


pip install open-mythos

# 啟用 Flash Attention 2（需要 CUDA）
pip install open-mythos[flash]

快速使用

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38


import torch
from open_mythos.main import OpenMythos, MythosConfig

# 使用 MLA 注意力
cfg = MythosConfig(
    vocab_size=1000,
    dim=256,
    n_heads=8,
    max_seq_len=128,
    max_loop_iters=4,
    prelude_layers=1,
    coda_layers=1,
    n_experts=8,
    n_shared_experts=1,
    n_experts_per_tok=2,
    expert_dim=64,
    lora_rank=8,
    attn_type="mla",
    kv_lora_rank=32,
    q_lora_rank=64,
    qk_rope_head_dim=16,
    qk_nope_head_dim=16,
    v_head_dim=16,
)

model = OpenMythos(cfg)
ids = torch.randint(0, cfg.vocab_size, (2, 16))

# 前向傳播
logits = model(ids, n_loops=4)

# 自迴歸生成
out = model.generate(ids, max_new_tokens=8, n_loops=8)

# 驗證譜半徑（必須 < 1）
A = model.recurrent.injection.get_A()
rho = torch.linalg.eigvals(A).abs().max().item()
print(f"Spectral radius = {rho:.4f}")

使用預設模型變體

1
2
3
4


from open_mythos import mythos_7b, OpenMythos

cfg = mythos_7b()
model = OpenMythos(cfg)

訓練 3B 模型

1
2
3
4
5


# 單 GPU
python training/3b_fine_web_edu.py

# 多 GPU（自動偵測）
torchrun --nproc_per_node=$(python -c "import torch; print(torch.cuda.device_count())") training/3b_fine_web_edu.py

訓練配置：

參數	值
優化器	AdamW (betas=0.9, 0.95)
學習率	3e-4（warmup 2000 步 → cosine decay）
資料集	FineWeb-Edu (sample-10BT)
目標 tokens	30B
精度	bf16（H100/A100）/ fp16 + GradScaler
分散式	FSDP FULL_SHARD
梯度裁剪	max_norm=1.0

使用案例

適用場景

場景	優勢
多步驟數學推理	循環深度提供隱式推理鏈
長序列規劃	推理時動態調整計算深度
消費級硬體部署	參數效率高，記憶體不隨推理深度增長
異構批次推理	ACT + Continuous Depth Batching 自動分配計算
程式碼生成	MoE 提供廣泛領域知識

限制

訓練穩定性仍需謹慎調參（LTI 約束緩解但未完全解決）
事實記憶能力不如密集模型（結構性偏重推理而非記憶）
循環推理增加延遲（時間換空間的取捨）
大規模驗證仍不足（目前最大實驗僅在 770M-3B 規模）

社群爭議與可信度分析

爭議核心：「Claude Mythos」的名稱問題

Anthropic 從未使用「Mythos」作為其架構名稱。 這個稱呼完全是社群約定俗成的用法。OpenMythos 專案雖然在 README 中明確聲明與 Anthropic 無關，但專案名稱和描述仍然暗示了直接關聯，這在社群中引發了不小的爭議。

Kye Gomez 的背景

面向	說明
身份	Swarms 創辦人，22 歲，高中畢業後創業
研究方向	大規模多智能體系統、替代模型架構、多模態模型
過往專案	AgentCoder、Swarms.ai 等多個開源專案
學術論文	無經過同行評審的學術論文
社群評價	兩極分化——Twitter 有追隨者，Reddit/ML 研究社群普遍質疑

支持方的觀點

整合了多篇最新學術論文的思想，README 的技術寫作質量高
程式碼可直接運行，架構設計確實融合了 DeepSeek 的 MoE/MLA
LTI 穩定性約束的實作有學術依據（Parcae）
讓更多人認識到循環 Transformer 這一研究方向
GitHub 10.6k Stars 顯示社群關注度高

質疑方的觀點

核心循環邏輯本質上就是簡單的 for 迴圈，技術門檻不高
沒有可重現的大規模實驗結果
Benchmark 數據來源不明，被懷疑 cherry-picking
「重建 Claude Mythos」的宣稱缺乏任何實質證據
創作者過去的專案（如 AgentCoder）也有類似的誇大宣傳爭議
可能存在刷星和假帳號推廣的跡象

客觀評估

面向	評分	說明
架構設計文檔	優秀	README 寫作清晰，理論基礎引用完整
程式碼品質	中等	可運行但缺乏完整的測試和文檔
實驗驗證	不足	缺乏可重現的大規模 benchmark
創新程度	中等	主要是整合現有技術，非原創貢獻
宣傳誠實度	有待商榷	「重建 Claude」的說法過於大膽

產業影響與啟示

對 Scaling Laws 的重新思考

OpenMythos 代表了一種根本性的範式轉移：

舊規則：拼參數量、拼 GPU 數量、拼電費帳單
新規則：未來最強的模型，不是參數最多的，而是想得最多次的

如果 Parcae 的 scaling laws 在大規模下成立，這將徹底改寫 AI 的競爭格局——消費級硬體也能運行具備強大推理能力的模型。

閉源護城河的消退

正如 36kr 文章所指出的：

當一個人用公開資訊就能重建最核心的技術，護城河就不再是架構了。

FT 報導中，Dario Amodei 預測中國將在 12 個月內完全復刻出 Claude Mythos 級別的大模型。OpenMythos 的出現，讓這個預測看起來更加可信。

對開源社群的意義

不論 OpenMythos 本身的可信度如何，它帶來了幾個積極影響：

讓循環 Transformer 成為熱門研究方向——更多研究者和工程師開始探索這條路線
提供了可運行的參考實作——即使不直接使用，也可作為學習起點
推動了對 AI 架構透明度的討論——閉源模型的「黑箱」正在被社群力量打開
證明了獨立研究者也能參與前沿架構創新——不僅是大廠的專利

比較分析

循環 Transformer 家族

架構	年份	核心創新	穩定性方案
Universal Transformer	2018	首次提出循環 Transformer	ACT halting
RWKV	2022	RNN-Transformer 混合	線性注意力
Mamba/SSM	2023	狀態空間模型	結構化隱藏狀態
Parcae	2026	LTI 穩定循環 + Scaling Laws	譜半徑約束
OpenMythos	2026	RDT + MoE + MLA	LTI + ACT + LoRA

OpenMythos vs. 傳統 Transformer

維度	傳統 Transformer	OpenMythos (RDT)
參數效率	低（深度需要更多參數）	高（權重共享，循環換深度）
記憶體效率	深度正比於層數	深度與記憶體無關
推理延遲	固定（一次前向傳播）	可變（循環次數決定）
訓練難度	成熟穩定	需要額外穩定性機制
系統性泛化	弱	強（理論保證）
事實記憶	強	較弱（結構性偏重推理）
生產驗證	大量驗證	缺乏大規模驗證

重點整理

RDT 核心思想：不堆參數，原地循環——同一套權重在一次前向傳播中跑最多 16 次，以迭代推理代替層數堆疊
三段式架構：Prelude（編碼）→ Recurrent Block（循環推理）→ Coda（解碼），e 的每次注入防止模型跑偏
LTI 穩定性保證：A 參數化為負對角矩陣的 ZOH 離散化，由構造保證 $\rho(A) < 1$，徹底解決循環訓練不穩定問題
MoE + 循環的协同：MoE 提供廣度（不同領域知識），循環提供深度（多步推理），且路由器在每次循環選擇不同專家
MLA 注意力：DeepSeek-V2 的低秩 KV 壓縮技術，生產規模下實現 10-20 倍 KV cache 節省
ACT halting：每個 token 獨立決定計算深度，簡單問題快速回答，困難問題深入思考
參數效率：770M 循環模型 ≈ 1.3B 標準 Transformer 的品質，用一半參數做同樣的事
Scaling Law 轉變：未來競爭的不是參數量，而是推理深度——時間換空間的新範式
可信度需謹慎看待：架構設計有學術基礎，但「重建 Claude」的宣稱缺乏實質證據，大規模實驗驗證不足