StraTA:策略導向的 Agentic RL 訓練方法 — 從 Reactive Agent 到 Strategy-Guided Execution

StraTA(Strategic Trajectory Abstraction)提出在長任務 AI Agent 中,先產生 compact strategy 再用 strategy 約束每一步 action 的 RL 訓練方法。本文深入解析其技術架構、實驗結果、相關技術線,以及對企業 Agent 專案的落地建議。

為什麼 StraTA 值得關注

AI Agent 正在從「Prompt + Tool + Memory」走向「Strategy + Trajectory + Environment Feedback + RL」。StraTA(Strategic Trajectory Abstraction)代表了這條技術線上的一個重要節點:它不再是讓 agent 每一步 reactively 觀察再決定,而是在 episode 開始時先產生一個 compact natural-language strategy,後續所有 action 都 condition on 這個 strategy。

這篇 2026/05 上架 arXiv 的論文,搭配已開源的 GitHub 程式碼與 Hugging Face 上的三個 Qwen2.5-7B checkpoint,為長任務 agent 的 RL 訓練提供了一套完整的技術方案。

StraTA 解決什麼問題?

傳統 reactive agent 的標準流程是:

1
觀察目前狀態  想下一步  執行 action/tool call  再觀察  再想下一步

這種模式在短任務表現良好,但在長任務中暴露出幾個根本性問題:

  • Short-sighted exploration:每一步看起來合理,但整體路線可能錯誤
  • Unnecessary backtracking:做到一半發現方向錯,又回頭重試
  • Inconsistent behavior:前後決策不一致
  • Sparse reward credit assignment:最後失敗時,不知道是策略錯、某一步錯,還是工具順序錯

StraTA 的核心思路是把「整體規劃」和「局部執行」拆開:

1
2
3
4
5
6
7
8
9
Task / Initial State
先產生 compact strategy (z)
每一步 action 都 condition on strategy + current state
多個 strategy × 多個 rollout
用 RL 比較「哪個 strategy 好」與「哪個 action 好」

目前狀態總覽

項目 狀態
論文 有,2026/05 arXiv
開源程式 有,GitHub 已釋出
模型權重 有,Hugging Face 上 3 個 StraTA checkpoint
通用模型 不是,偏 benchmark / environment-specific agent model
主流模型採用 目前沒有公開證據

官方 Hugging Face collection 目前有三個 checkpoint:

  • xxyQwQ/train-strata-alfworld-text-qwen2.5-7b(ALFWorld)
  • xxyQwQ/train-strata-webshop-text-qwen2.5-7b(WebShop)
  • xxyQwQ/train-strata-sciworld-text-qwen2.5-7b(SciWorld)

這三個都是 Qwen2.5-7B 系列微調後的 checkpoint,主要用於論文重現與 benchmark evaluation,不是成熟通用 agent model。

技術架構深度解析

StraTA 主要有四個技術點,每一個都針對長任務 agent 的特定痛點。

1. Strategy-Guided Execution

原本 reactive agent 的 policy 是:

1
a_t ~ π(a | s_t)

StraTA 改成兩層 policy:

1
2
z ~ π(z | s_1)           # Strategy Policy:從初始狀態產生整體策略
a_t ~ π(a | z, s_t)      # Action Policy:根據策略 + 當前狀態執行動作

其中 s_1 是初始任務狀態,z 是 compact natural-language strategy,s_t 是第 t 步當前狀態,a_t 是第 t 步 action。

這等於在 agent 的決策鏈中插入了一個「全局導航器」:Action Policy 不再只是根據 local state 反應,而是被 global strategy 約束。這對長任務至關重要,因為它確保了整條 trajectory 的方向一致性。

2. Hierarchical GRPO-Style Rollout

StraTA 不是只 sample 多條 trajectory,而是做層級式 rollout:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
Task
 ├─ Strategy A
 │   ├─ Rollout A1
 │   ├─ Rollout A2
 │   └─ Rollout A3
 ├─ Strategy B
 │   ├─ Rollout B1
 │   ├─ Rollout B2
 │   └─ Rollout B3
 └─ Strategy C
     ├─ Rollout C1
     ├─ Rollout C2
     └─ Rollout C3

每個 task sample N 個 strategies,每個 strategy 跑 M 條 rollout。這樣可以同時做兩層比較:

  • Strategy-level comparison:哪個高階策略比較好?
  • Action-level comparison:同一策略下,哪條 execution trajectory 比較好?

論文的實驗設定:每個 task sample 4 個 strategies,每個 strategy 做 8 個 rollouts,訓練 150 steps,在 8 張 NVIDIA H100 單節點上完成。

3. Diverse Strategy Rollout

只讓模型隨機產生多個 strategy,可能會得到很多語義很接近的策略,探索效率不高。StraTA 加了 farthest-point sampling,從候選策略中選語義距離較遠的策略,讓探索更分散。

效果是:不要只試 4 個很像的 plan,而是刻意試 4 個不同方向的 plan。這對 WebShop / ALFWorld 這類長任務很有價值,因為 early plan 不同,後續整條 trajectory 會差很多。

4. Critical Self-Judgment

StraTA 加了一個 step-level auxiliary reward,檢查某一步 action 是否:

  1. 沒有遵守 strategy
  2. 沒有推進任務
  3. 重複、無效、偏離方向

如果是,就給 step-level penalty。這是為了解決 sparse terminal reward 的問題:不是等整個 episode 結束才知道成功失敗,而是中途對明顯不合理的 action 提供更細的學習訊號。

實驗結果

ALFWorld / WebShop

論文使用 Qwen2.5-1.5B-Instruct 與 Qwen2.5-7B-Instruct 作 backbone,比較了 Vanilla、ReAct、PPO、RLOO、GRPO、GiGPO、StraTA:

Backbone Method ALFWorld Success WebShop Success
Qwen2.5-1.5B GiGPO 86.7% 65.0%
Qwen2.5-1.5B StraTA 90.7% 82.5%
Qwen2.5-7B GiGPO 90.8% 72.8%
Qwen2.5-7B StraTA 93.1% 84.2%

最明顯的是 WebShop:StraTA 對 WebShop 的提升遠大於 ALFWorld,表示「先決定購物策略,再逐步搜尋/比較/選商品」這種任務很吃 global strategy。

SciWorld

SciWorld 比 ALFWorld / WebShop 更接近長任務科學實驗流程。StraTA 在 Qwen2.5-7B 上拿到:

Method SciWorld Overall
Claude-4-Sonnet 57.4
ScalingInter 57.0
PPO 51.4
GRPO 41.8
StraTA 63.5

論文主張 StraTA 在 SciWorld 上超過 frontier closed-source models 與 prior RL baselines。

Ablation:哪些元件真的有用?

論文用 Qwen2.5-3B-Instruct 做 ablation:

Variant ALFWorld All WebShop Success
Vanilla StraTA 79.0% 64.0%
+ Diverse strategy rollout 87.9% 64.6%
+ Critical self-judgment 81.9% 66.7%
Full StraTA 88.6% 73.4%

關鍵發現:

  • Diverse strategy rollout 對 ALFWorld 幫助大,因為探索不同任務路線很重要
  • Critical self-judgment 對 WebShop 幫助較明顯,因為容易出現無效搜尋、重複比較、偏離購買條件
  • 兩者互補,Full StraTA 才能達到最佳效果

這代表 StraTA 不是只有「多加一句 plan prompt」而已,真正效果來自 strategy-level rollout + strategy quality reward + step-level judgment。

相關技術線

StraTA 屬於 Agentic Reinforcement Learning 裡面的一個分支。它附近有幾條高度相關的研究線,共同描繪出這個領域的快速演進。

AgentGym-RL / ScalingInter-RL

AgentGym 提供 agent benchmark / environment framework。後續的 AgentGym-RL 提出 ScalingInter-RL,用 progressive horizon scaling 方式,先限制互動輪數穩定訓練,再逐步放大 horizon 促進探索。

  • ScalingInter-RL 核心:調整 interaction horizon,讓長任務 RL 更穩
  • StraTA 核心:先產生 strategy,再讓整條 trajectory condition on strategy

兩者方向不同,但都在解長任務 agent 的探索與 credit assignment 問題。

GiGPO

GiGPO(Group-in-Group Policy Optimization)是 StraTA 的重要 baseline。透過 anchor states 建立 step-level credit assignment,想知道「在相似狀態下,哪個 action 比較好」。

  • GiGPO:從相似狀態 / anchor state 做 step-level credit
  • StraTA:從 strategy-level abstraction 先穩定整體方向

StraTA 不是取代 GiGPO,而是補另一層:先解 strategy,再解 action。

DPEPO

DPEPO(2026/04)提出 Diverse Parallel Exploration Policy Optimization。讓 agent 同時跟多個環境互動,透過 trajectory-level success reward、diverse action reward、diverse state transition reward 鼓勵更廣泛探索。

  • StraTA:多個 strategy × 多個 rollout(策略空間探索)
  • DPEPO:多環境 parallel exploration + diversity reward(環境/行為空間平行探索)

兩者都在處理 exploration,但維度不同。

SLEA-RL

SLEA-RL(2026/03)主題是 Step-Level Experience-Augmented RL。Agent 在訓練時不應該每個 episode 都孤立學習,而是要在每一步根據當前 observation 動態 retrieve 過去成功/失敗經驗。

  • StraTA:episode 一開始產生 global strategy(plan-first)
  • SLEA-RL:每一步根據 observation retrieve experience(experience-aware execution)

對 production agent 很有啟發:兩者可以互補。

ASTRA

ASTRA 自動合成 agentic trajectories 和可驗證 RL environments。釋出 ASTRA-32B-Thinking-v1 與 ASTRA-14B-Thinking-v1,使用 SFT + RL,在 multi-turn tool-use benchmark 上接近 closed-source systems。

  • StraTA:怎麼訓練 agent 做長任務
  • ASTRA:怎麼產生可訓練、可驗證的 agentic environment / trajectory

對企業內部 agent 而言,ASTRA 的「verifiable environment synthesis」跟 StraTA 一樣重要——沒有可驗證環境,StraTA 這類 RL 很難落地。

ECPO

ECPO(2026/06)針對 GiGPO 這類 dense credit 方法提出批評:step-level credit 如果 rollout 不夠,可能把 lucky action 誤判成好 action,造成 anchor bias 與訓練震盪。ECPO 用 evidence-calibrated action advantage 和 variance-gated credit weighting 校正。

這篇提醒我們:更細的 credit assignment 不一定更準。StraTA 的 critical self-judgment 也有類似風險——self-judgment 如果判錯,可能會把 reward signal 帶偏。

技術發展狀態總表

類別 代表方法 狀態 跟 StraTA 的關係
Strategy-first Agentic RL StraTA 論文 + code + 3 checkpoints 本體
Agentic RL framework rLLM 開源框架 StraTA 實作基於 rLLM
Multi-turn benchmark / RL AgentGym-RL Framework + paper + datasets StraTA 使用其環境
Progressive horizon RL ScalingInter-RL AgentGym-RL 重要方法 解 long-horizon stability
Step-level credit GiGPO StraTA baseline 解 credit assignment
Parallel exploration DPEPO 2026/04 論文 同樣重視 exploration
Experience retrieval SLEA-RL 2026/03 論文 用 experience library 輔助每一步
Verifiable environment synthesis ASTRA Code + models + datasets 解 agent RL 的資料與環境問題
Credit calibration ECPO 2026/06 論文 修正 dense credit 不穩問題

對企業 Agent 專案的參考價值

StraTA 目前最值得借的不是「馬上訓練模型」,而是它的 runtime / eval 思想。可以把 agent pipeline 從:

1
User Task → Agent 逐步反應 → Tool call → Output

改成:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
User Task
Strategy Generator
Executor
Verifier
Trace Store
Eval / Reward

套到 code review agent 的例子:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
MR diff + metadata
    
Review Strategy
  先判斷變更類型、風險模組、檢查順序、停止條件
    
Specialized Reviewers
  Security / Architecture / Code Quality / Test Impact
    
Verifier
  REAL / FALSE_POSITIVE / DUPLICATE / NEEDS_HUMAN_REVIEW
    
Reporter
  Positioned discussion + evidence
    
Trace
  Strategyactionstool resultshuman feedbackfinal outcome

這樣後面才有機會做漸進式進化:

  1. Phase 1:Prompt-based strategy layer
  2. Phase 2:Strategy quality eval
  3. Phase 3:Trace dataset 建置
  4. Phase 4:SFT strategy generator
  5. Phase 5:Preference learning / DPO
  6. Phase 6:有明確 reward 後再考慮 RL

最終判斷

StraTA 是一個很新的 agentic RL 方法,已經有論文、程式與三個 Qwen2.5-7B-based checkpoint,但目前仍偏研究/benchmark 階段,還不是成熟通用模型訓練標準。

它的價值在於代表 Agentic AI 正在從 Prompt + Tool + Memory 進到 Strategy + Trajectory + Environment Feedback + RL

對企業內部 agent 來說,最實際的落地順序是:

  1. 先做 strategy layer
  2. 再做 trajectory logging
  3. 再做 evaluation / reward schema
  4. 再做 SFT / preference learning
  5. 最後才考慮 StraTA-style RL

這條線會比單純堆 prompt、加工具、加 memory 更接近真正可持續進化的 agent system。


參考資源

  • StraTA arXiv paper(2026/05)
  • StraTA GitHub repository
  • StraTA Hugging Face checkpoints(ALFWorld / WebShop / SciWorld,Qwen2.5-7B)
  • rLLM framework(StraTA 實作基礎)
  • AgentGym-RL / ScalingInter-RL
  • GiGPO / ECPO(credit assignment 相關)
  • DPEPO(parallel exploration)
  • SLEA-RL(experience retrieval)
  • ASTRA(verifiable environment synthesis)