Tags
2 pages
GRPO
StraTA:策略導向的 Agentic RL 訓練方法 — 從 Reactive Agent 到 Strategy-Guided Execution
MinT:管理百萬級 LoRA Adapter 的訓練與服務基礎設施