StraTA：策略導向的 Agentic RL 訓練方法 — 從 Reactive Agent 到 Strategy-Guided Execution

為什麼 StraTA 值得關注

AI Agent 正在從「Prompt + Tool + Memory」走向「Strategy + Trajectory + Environment Feedback + RL」。StraTA（Strategic Trajectory Abstraction）代表了這條技術線上的一個重要節點：它不再是讓 agent 每一步 reactively 觀察再決定，而是在 episode 開始時先產生一個 compact natural-language strategy，後續所有 action 都 condition on 這個 strategy。

這篇 2026/05 上架 arXiv 的論文，搭配已開源的 GitHub 程式碼與 Hugging Face 上的三個 Qwen2.5-7B checkpoint，為長任務 agent 的 RL 訓練提供了一套完整的技術方案。

StraTA 解決什麼問題？

傳統 reactive agent 的標準流程是：

1

觀察目前狀態 → 想下一步 → 執行 action/tool call → 再觀察 → 再想下一步

這種模式在短任務表現良好，但在長任務中暴露出幾個根本性問題：

Short-sighted exploration：每一步看起來合理，但整體路線可能錯誤
Unnecessary backtracking：做到一半發現方向錯，又回頭重試
Inconsistent behavior：前後決策不一致
Sparse reward credit assignment：最後失敗時，不知道是策略錯、某一步錯，還是工具順序錯

StraTA 的核心思路是把「整體規劃」和「局部執行」拆開：

1
2
3
4
5
6
7
8
9


Task / Initial State
        ↓
先產生 compact strategy (z)
        ↓
每一步 action 都 condition on strategy + current state
        ↓
多個 strategy × 多個 rollout
        ↓
用 RL 比較「哪個 strategy 好」與「哪個 action 好」

目前狀態總覽

項目	狀態
論文	有，2026/05 arXiv
開源程式	有，GitHub 已釋出
模型權重	有，Hugging Face 上 3 個 StraTA checkpoint
通用模型	不是，偏 benchmark / environment-specific agent model
主流模型採用	目前沒有公開證據

官方 Hugging Face collection 目前有三個 checkpoint：

xxyQwQ/train-strata-alfworld-text-qwen2.5-7b（ALFWorld）
xxyQwQ/train-strata-webshop-text-qwen2.5-7b（WebShop）
xxyQwQ/train-strata-sciworld-text-qwen2.5-7b（SciWorld）

這三個都是 Qwen2.5-7B 系列微調後的 checkpoint，主要用於論文重現與 benchmark evaluation，不是成熟通用 agent model。

技術架構深度解析

StraTA 主要有四個技術點，每一個都針對長任務 agent 的特定痛點。

1. Strategy-Guided Execution

原本 reactive agent 的 policy 是：

1

a_t ~ π(a | s_t)

StraTA 改成兩層 policy：

1
2


z ~ π(z | s_1)           # Strategy Policy：從初始狀態產生整體策略
a_t ~ π(a | z, s_t)      # Action Policy：根據策略 + 當前狀態執行動作

其中 s_1 是初始任務狀態，z 是 compact natural-language strategy，s_t 是第 t 步當前狀態，a_t 是第 t 步 action。

這等於在 agent 的決策鏈中插入了一個「全局導航器」：Action Policy 不再只是根據 local state 反應，而是被 global strategy 約束。這對長任務至關重要，因為它確保了整條 trajectory 的方向一致性。

2. Hierarchical GRPO-Style Rollout

StraTA 不是只 sample 多條 trajectory，而是做層級式 rollout：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


Task
 ├─ Strategy A
 │   ├─ Rollout A1
 │   ├─ Rollout A2
 │   └─ Rollout A3
 ├─ Strategy B
 │   ├─ Rollout B1
 │   ├─ Rollout B2
 │   └─ Rollout B3
 └─ Strategy C
     ├─ Rollout C1
     ├─ Rollout C2
     └─ Rollout C3

每個 task sample N 個 strategies，每個 strategy 跑 M 條 rollout。這樣可以同時做兩層比較：

Strategy-level comparison：哪個高階策略比較好？
Action-level comparison：同一策略下，哪條 execution trajectory 比較好？

論文的實驗設定：每個 task sample 4 個 strategies，每個 strategy 做 8 個 rollouts，訓練 150 steps，在 8 張 NVIDIA H100 單節點上完成。

3. Diverse Strategy Rollout

只讓模型隨機產生多個 strategy，可能會得到很多語義很接近的策略，探索效率不高。StraTA 加了 farthest-point sampling，從候選策略中選語義距離較遠的策略，讓探索更分散。

效果是：不要只試 4 個很像的 plan，而是刻意試 4 個不同方向的 plan。這對 WebShop / ALFWorld 這類長任務很有價值，因為 early plan 不同，後續整條 trajectory 會差很多。

4. Critical Self-Judgment

StraTA 加了一個 step-level auxiliary reward，檢查某一步 action 是否：

沒有遵守 strategy
沒有推進任務
重複、無效、偏離方向

如果是，就給 step-level penalty。這是為了解決 sparse terminal reward 的問題：不是等整個 episode 結束才知道成功失敗，而是中途對明顯不合理的 action 提供更細的學習訊號。

實驗結果

ALFWorld / WebShop

論文使用 Qwen2.5-1.5B-Instruct 與 Qwen2.5-7B-Instruct 作 backbone，比較了 Vanilla、ReAct、PPO、RLOO、GRPO、GiGPO、StraTA：

Backbone	Method	ALFWorld Success	WebShop Success
Qwen2.5-1.5B	GiGPO	86.7%	65.0%
Qwen2.5-1.5B	StraTA	90.7%	82.5%
Qwen2.5-7B	GiGPO	90.8%	72.8%
Qwen2.5-7B	StraTA	93.1%	84.2%

最明顯的是 WebShop：StraTA 對 WebShop 的提升遠大於 ALFWorld，表示「先決定購物策略，再逐步搜尋/比較/選商品」這種任務很吃 global strategy。

SciWorld

SciWorld 比 ALFWorld / WebShop 更接近長任務科學實驗流程。StraTA 在 Qwen2.5-7B 上拿到：

Method	SciWorld Overall
Claude-4-Sonnet	57.4
ScalingInter	57.0
PPO	51.4
GRPO	41.8
StraTA	63.5

論文主張 StraTA 在 SciWorld 上超過 frontier closed-source models 與 prior RL baselines。

Ablation：哪些元件真的有用？

論文用 Qwen2.5-3B-Instruct 做 ablation：

Variant	ALFWorld All	WebShop Success
Vanilla StraTA	79.0%	64.0%
+ Diverse strategy rollout	87.9%	64.6%
+ Critical self-judgment	81.9%	66.7%
Full StraTA	88.6%	73.4%

關鍵發現：

Diverse strategy rollout 對 ALFWorld 幫助大，因為探索不同任務路線很重要
Critical self-judgment 對 WebShop 幫助較明顯，因為容易出現無效搜尋、重複比較、偏離購買條件
兩者互補，Full StraTA 才能達到最佳效果

這代表 StraTA 不是只有「多加一句 plan prompt」而已，真正效果來自 strategy-level rollout + strategy quality reward + step-level judgment。

技術發展狀態總表

類別	代表方法	狀態	跟 StraTA 的關係
Strategy-first Agentic RL	StraTA	論文 + code + 3 checkpoints	本體
Agentic RL framework	rLLM	開源框架	StraTA 實作基於 rLLM
Multi-turn benchmark / RL	AgentGym-RL	Framework + paper + datasets	StraTA 使用其環境
Progressive horizon RL	ScalingInter-RL	AgentGym-RL 重要方法	解 long-horizon stability
Step-level credit	GiGPO	StraTA baseline	解 credit assignment
Parallel exploration	DPEPO	2026/04 論文	同樣重視 exploration
Experience retrieval	SLEA-RL	2026/03 論文	用 experience library 輔助每一步
Verifiable environment synthesis	ASTRA	Code + models + datasets	解 agent RL 的資料與環境問題
Credit calibration	ECPO	2026/06 論文	修正 dense credit 不穩問題

對企業 Agent 專案的參考價值

StraTA 目前最值得借的不是「馬上訓練模型」，而是它的 runtime / eval 思想。可以把 agent pipeline 從：

1

User Task → Agent 逐步反應 → Tool call → Output

改成：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


User Task
    ↓
Strategy Generator
    ↓
Executor
    ↓
Verifier
    ↓
Trace Store
    ↓
Eval / Reward

套到 code review agent 的例子：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


MR diff + metadata
    ↓
Review Strategy
  先判斷變更類型、風險模組、檢查順序、停止條件
    ↓
Specialized Reviewers
  Security / Architecture / Code Quality / Test Impact
    ↓
Verifier
  REAL / FALSE_POSITIVE / DUPLICATE / NEEDS_HUMAN_REVIEW
    ↓
Reporter
  Positioned discussion + evidence
    ↓
Trace
  Strategy、actions、tool results、human feedback、final outcome

這樣後面才有機會做漸進式進化：

Phase 1：Prompt-based strategy layer
Phase 2：Strategy quality eval
Phase 3：Trace dataset 建置
Phase 4：SFT strategy generator
Phase 5：Preference learning / DPO
Phase 6：有明確 reward 後再考慮 RL

最終判斷

StraTA 是一個很新的 agentic RL 方法，已經有論文、程式與三個 Qwen2.5-7B-based checkpoint，但目前仍偏研究/benchmark 階段，還不是成熟通用模型訓練標準。

它的價值在於代表 Agentic AI 正在從 Prompt + Tool + Memory 進到 Strategy + Trajectory + Environment Feedback + RL。

對企業內部 agent 來說，最實際的落地順序是：

先做 strategy layer
再做 trajectory logging
再做 evaluation / reward schema
再做 SFT / preference learning
最後才考慮 StraTA-style RL

這條線會比單純堆 prompt、加工具、加 memory 更接近真正可持續進化的 agent system。

參考資源

StraTA arXiv paper（2026/05）
StraTA GitHub repository
StraTA Hugging Face checkpoints（ALFWorld / WebShop / SciWorld，Qwen2.5-7B）
rLLM framework（StraTA 實作基礎）
AgentGym-RL / ScalingInter-RL
GiGPO / ECPO（credit assignment 相關）
DPEPO（parallel exploration）
SLEA-RL（experience retrieval）
ASTRA（verifiable environment synthesis）