為什麼 StraTA 值得關注
AI Agent 正在從「Prompt + Tool + Memory」走向「Strategy + Trajectory + Environment Feedback + RL」。StraTA(Strategic Trajectory Abstraction)代表了這條技術線上的一個重要節點:它不再是讓 agent 每一步 reactively 觀察再決定,而是在 episode 開始時先產生一個 compact natural-language strategy,後續所有 action 都 condition on 這個 strategy。
這篇 2026/05 上架 arXiv 的論文,搭配已開源的 GitHub 程式碼與 Hugging Face 上的三個 Qwen2.5-7B checkpoint,為長任務 agent 的 RL 訓練提供了一套完整的技術方案。
StraTA 解決什麼問題?
傳統 reactive agent 的標準流程是:
|
|
這種模式在短任務表現良好,但在長任務中暴露出幾個根本性問題:
- Short-sighted exploration:每一步看起來合理,但整體路線可能錯誤
- Unnecessary backtracking:做到一半發現方向錯,又回頭重試
- Inconsistent behavior:前後決策不一致
- Sparse reward credit assignment:最後失敗時,不知道是策略錯、某一步錯,還是工具順序錯
StraTA 的核心思路是把「整體規劃」和「局部執行」拆開:
|
|
目前狀態總覽
| 項目 | 狀態 |
|---|---|
| 論文 | 有,2026/05 arXiv |
| 開源程式 | 有,GitHub 已釋出 |
| 模型權重 | 有,Hugging Face 上 3 個 StraTA checkpoint |
| 通用模型 | 不是,偏 benchmark / environment-specific agent model |
| 主流模型採用 | 目前沒有公開證據 |
官方 Hugging Face collection 目前有三個 checkpoint:
xxyQwQ/train-strata-alfworld-text-qwen2.5-7b(ALFWorld)xxyQwQ/train-strata-webshop-text-qwen2.5-7b(WebShop)xxyQwQ/train-strata-sciworld-text-qwen2.5-7b(SciWorld)
這三個都是 Qwen2.5-7B 系列微調後的 checkpoint,主要用於論文重現與 benchmark evaluation,不是成熟通用 agent model。
技術架構深度解析
StraTA 主要有四個技術點,每一個都針對長任務 agent 的特定痛點。
1. Strategy-Guided Execution
原本 reactive agent 的 policy 是:
|
|
StraTA 改成兩層 policy:
|
|
其中 s_1 是初始任務狀態,z 是 compact natural-language strategy,s_t 是第 t 步當前狀態,a_t 是第 t 步 action。
這等於在 agent 的決策鏈中插入了一個「全局導航器」:Action Policy 不再只是根據 local state 反應,而是被 global strategy 約束。這對長任務至關重要,因為它確保了整條 trajectory 的方向一致性。
2. Hierarchical GRPO-Style Rollout
StraTA 不是只 sample 多條 trajectory,而是做層級式 rollout:
|
|
每個 task sample N 個 strategies,每個 strategy 跑 M 條 rollout。這樣可以同時做兩層比較:
- Strategy-level comparison:哪個高階策略比較好?
- Action-level comparison:同一策略下,哪條 execution trajectory 比較好?
論文的實驗設定:每個 task sample 4 個 strategies,每個 strategy 做 8 個 rollouts,訓練 150 steps,在 8 張 NVIDIA H100 單節點上完成。
3. Diverse Strategy Rollout
只讓模型隨機產生多個 strategy,可能會得到很多語義很接近的策略,探索效率不高。StraTA 加了 farthest-point sampling,從候選策略中選語義距離較遠的策略,讓探索更分散。
效果是:不要只試 4 個很像的 plan,而是刻意試 4 個不同方向的 plan。這對 WebShop / ALFWorld 這類長任務很有價值,因為 early plan 不同,後續整條 trajectory 會差很多。
4. Critical Self-Judgment
StraTA 加了一個 step-level auxiliary reward,檢查某一步 action 是否:
- 沒有遵守 strategy
- 沒有推進任務
- 重複、無效、偏離方向
如果是,就給 step-level penalty。這是為了解決 sparse terminal reward 的問題:不是等整個 episode 結束才知道成功失敗,而是中途對明顯不合理的 action 提供更細的學習訊號。
實驗結果
ALFWorld / WebShop
論文使用 Qwen2.5-1.5B-Instruct 與 Qwen2.5-7B-Instruct 作 backbone,比較了 Vanilla、ReAct、PPO、RLOO、GRPO、GiGPO、StraTA:
| Backbone | Method | ALFWorld Success | WebShop Success |
|---|---|---|---|
| Qwen2.5-1.5B | GiGPO | 86.7% | 65.0% |
| Qwen2.5-1.5B | StraTA | 90.7% | 82.5% |
| Qwen2.5-7B | GiGPO | 90.8% | 72.8% |
| Qwen2.5-7B | StraTA | 93.1% | 84.2% |
最明顯的是 WebShop:StraTA 對 WebShop 的提升遠大於 ALFWorld,表示「先決定購物策略,再逐步搜尋/比較/選商品」這種任務很吃 global strategy。
SciWorld
SciWorld 比 ALFWorld / WebShop 更接近長任務科學實驗流程。StraTA 在 Qwen2.5-7B 上拿到:
| Method | SciWorld Overall |
|---|---|
| Claude-4-Sonnet | 57.4 |
| ScalingInter | 57.0 |
| PPO | 51.4 |
| GRPO | 41.8 |
| StraTA | 63.5 |
論文主張 StraTA 在 SciWorld 上超過 frontier closed-source models 與 prior RL baselines。
Ablation:哪些元件真的有用?
論文用 Qwen2.5-3B-Instruct 做 ablation:
| Variant | ALFWorld All | WebShop Success |
|---|---|---|
| Vanilla StraTA | 79.0% | 64.0% |
| + Diverse strategy rollout | 87.9% | 64.6% |
| + Critical self-judgment | 81.9% | 66.7% |
| Full StraTA | 88.6% | 73.4% |
關鍵發現:
- Diverse strategy rollout 對 ALFWorld 幫助大,因為探索不同任務路線很重要
- Critical self-judgment 對 WebShop 幫助較明顯,因為容易出現無效搜尋、重複比較、偏離購買條件
- 兩者互補,Full StraTA 才能達到最佳效果
這代表 StraTA 不是只有「多加一句 plan prompt」而已,真正效果來自 strategy-level rollout + strategy quality reward + step-level judgment。
相關技術線
StraTA 屬於 Agentic Reinforcement Learning 裡面的一個分支。它附近有幾條高度相關的研究線,共同描繪出這個領域的快速演進。
AgentGym-RL / ScalingInter-RL
AgentGym 提供 agent benchmark / environment framework。後續的 AgentGym-RL 提出 ScalingInter-RL,用 progressive horizon scaling 方式,先限制互動輪數穩定訓練,再逐步放大 horizon 促進探索。
- ScalingInter-RL 核心:調整 interaction horizon,讓長任務 RL 更穩
- StraTA 核心:先產生 strategy,再讓整條 trajectory condition on strategy
兩者方向不同,但都在解長任務 agent 的探索與 credit assignment 問題。
GiGPO
GiGPO(Group-in-Group Policy Optimization)是 StraTA 的重要 baseline。透過 anchor states 建立 step-level credit assignment,想知道「在相似狀態下,哪個 action 比較好」。
- GiGPO:從相似狀態 / anchor state 做 step-level credit
- StraTA:從 strategy-level abstraction 先穩定整體方向
StraTA 不是取代 GiGPO,而是補另一層:先解 strategy,再解 action。
DPEPO
DPEPO(2026/04)提出 Diverse Parallel Exploration Policy Optimization。讓 agent 同時跟多個環境互動,透過 trajectory-level success reward、diverse action reward、diverse state transition reward 鼓勵更廣泛探索。
- StraTA:多個 strategy × 多個 rollout(策略空間探索)
- DPEPO:多環境 parallel exploration + diversity reward(環境/行為空間平行探索)
兩者都在處理 exploration,但維度不同。
SLEA-RL
SLEA-RL(2026/03)主題是 Step-Level Experience-Augmented RL。Agent 在訓練時不應該每個 episode 都孤立學習,而是要在每一步根據當前 observation 動態 retrieve 過去成功/失敗經驗。
- StraTA:episode 一開始產生 global strategy(plan-first)
- SLEA-RL:每一步根據 observation retrieve experience(experience-aware execution)
對 production agent 很有啟發:兩者可以互補。
ASTRA
ASTRA 自動合成 agentic trajectories 和可驗證 RL environments。釋出 ASTRA-32B-Thinking-v1 與 ASTRA-14B-Thinking-v1,使用 SFT + RL,在 multi-turn tool-use benchmark 上接近 closed-source systems。
- StraTA:怎麼訓練 agent 做長任務
- ASTRA:怎麼產生可訓練、可驗證的 agentic environment / trajectory
對企業內部 agent 而言,ASTRA 的「verifiable environment synthesis」跟 StraTA 一樣重要——沒有可驗證環境,StraTA 這類 RL 很難落地。
ECPO
ECPO(2026/06)針對 GiGPO 這類 dense credit 方法提出批評:step-level credit 如果 rollout 不夠,可能把 lucky action 誤判成好 action,造成 anchor bias 與訓練震盪。ECPO 用 evidence-calibrated action advantage 和 variance-gated credit weighting 校正。
這篇提醒我們:更細的 credit assignment 不一定更準。StraTA 的 critical self-judgment 也有類似風險——self-judgment 如果判錯,可能會把 reward signal 帶偏。
技術發展狀態總表
| 類別 | 代表方法 | 狀態 | 跟 StraTA 的關係 |
|---|---|---|---|
| Strategy-first Agentic RL | StraTA | 論文 + code + 3 checkpoints | 本體 |
| Agentic RL framework | rLLM | 開源框架 | StraTA 實作基於 rLLM |
| Multi-turn benchmark / RL | AgentGym-RL | Framework + paper + datasets | StraTA 使用其環境 |
| Progressive horizon RL | ScalingInter-RL | AgentGym-RL 重要方法 | 解 long-horizon stability |
| Step-level credit | GiGPO | StraTA baseline | 解 credit assignment |
| Parallel exploration | DPEPO | 2026/04 論文 | 同樣重視 exploration |
| Experience retrieval | SLEA-RL | 2026/03 論文 | 用 experience library 輔助每一步 |
| Verifiable environment synthesis | ASTRA | Code + models + datasets | 解 agent RL 的資料與環境問題 |
| Credit calibration | ECPO | 2026/06 論文 | 修正 dense credit 不穩問題 |
對企業 Agent 專案的參考價值
StraTA 目前最值得借的不是「馬上訓練模型」,而是它的 runtime / eval 思想。可以把 agent pipeline 從:
|
|
改成:
|
|
套到 code review agent 的例子:
|
|
這樣後面才有機會做漸進式進化:
- Phase 1:Prompt-based strategy layer
- Phase 2:Strategy quality eval
- Phase 3:Trace dataset 建置
- Phase 4:SFT strategy generator
- Phase 5:Preference learning / DPO
- Phase 6:有明確 reward 後再考慮 RL
最終判斷
StraTA 是一個很新的 agentic RL 方法,已經有論文、程式與三個 Qwen2.5-7B-based checkpoint,但目前仍偏研究/benchmark 階段,還不是成熟通用模型訓練標準。
它的價值在於代表 Agentic AI 正在從 Prompt + Tool + Memory 進到 Strategy + Trajectory + Environment Feedback + RL。
對企業內部 agent 來說,最實際的落地順序是:
- 先做 strategy layer
- 再做 trajectory logging
- 再做 evaluation / reward schema
- 再做 SFT / preference learning
- 最後才考慮 StraTA-style RL
這條線會比單純堆 prompt、加工具、加 memory 更接近真正可持續進化的 agent system。
參考資源
- StraTA arXiv paper(2026/05)
- StraTA GitHub repository
- StraTA Hugging Face checkpoints(ALFWorld / WebShop / SciWorld,Qwen2.5-7B)
- rLLM framework(StraTA 實作基礎)
- AgentGym-RL / ScalingInter-RL
- GiGPO / ECPO(credit assignment 相關)
- DPEPO(parallel exploration)
- SLEA-RL(experience retrieval)
- ASTRA(verifiable environment synthesis)