Abstract
ClawGUI 是浙江大學提出的統一開源 GUI Agent 框架,整合訓練(ClawGUI-RL)、評測(ClawGUI-Eval)與部署(ClawGUI-Agent)三大階段於單一系統。ClawGUI-RL 首創開源 RL 訓練基礎設施,支援 GiGPO 雙層層次化優勢估計;ClawGUI-Eval 在 6 個 benchmarks 與 11+ 個模型上達到 95.8% 再現率;ClawGUI-2B 在 MobileWorld benchmark 達 17.1% 成功率,超越同規模 MAI-UI-2B 達 54%。
ClawGUI
Overview
ClawGUI 是浙江大學提出的統一開源 GUI Agent 框架,旨在整合 GUI Agent 的訓練、評測與部署三大階段於單一系統中。不同於以往僅專注於單一環節的研究,ClawGUI 提供從線上 RL 訓練基礎設施、標準化評測流程,到實際裝置部署的完整解決方案。論文發表於 arXiv:2604.11784,由 Fei Tang、Zhiqiong Lu、Boxuan Zhang、Weiming Lu、Jun Xiao、Yueting Zhuang、Yongliang Shen 等研究者共同發表^[raw/papers/clawgui.md]。
GUI Agent 的核心價值在於能夠透過視覺介面操控任意軟體,無需依賴程式化 API,僅需透過點擊、滑動、輸入等低層級介面動作即可操作任何應用程式。然而研究社群長期以來面臨三個關鍵缺口:訓練生態系統封閉、評測標準不一致、從研究到實際使用者的部署環節斷裂。ClawGUI 正是針對這三個缺口所提出的統一回應^[raw/papers/clawgui.md]。
Core Contributions
ClawGUI 的核心貢獻可分為三大模組:
ClawGUI-RL
這是首個開源的 GUI Agent RL 訓練基礎設施,支援大規模平行虛擬環境與真實物理裝置訓練。整合 GiGPO(Group-in-Group Policy Optimization)與 Process Reward Model(PRM),提供密集的步驟級別監督信號,有效對抗長時域 GUI 任務中 reward 稀疏的問題。關鍵創新包括:
- Environment Manager:統一抽象虛擬與真實裝置後端,支援 Docker-based Android emulator 平行訓練,同時具備健康檢查、崩潰恢復、備用伺服器輪換機制
- Hybrid Reward Design:結合二元結果獎勵(binary outcome reward)與密集步驟獎勵(dense step-level reward via PRM)
- Multi-Algorithm Support:支援 Reinforce++、PPO、GSPO、GRPO、GiGPO 等多種 RL 演算法^[raw/papers/clawgui.md]
ClawGUI-Eval
這是標準化的可重現評測管道,覆蓋 6 個 benchmarks 與 11+ 個模型,達到 95.8% 的再現率。採用嚴格的三階段 pipeline(Infer → Judge → Metric),將推理、判斷、指標計算完全解耦。支援的 benchmarks 包括 ScreenSpot-Pro、ScreenSpot-V2、UI-Vision、MMBench-GUI、OSWorld-G、AndroidControl;支援的模型包括 Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G2、UI-Venus、GUI-Owl、StepGUI、Claude、Gemini、Seed 等^[raw/papers/clawgui.md]。
ClawGUI-Agent
這是面向實際使用者的部署系統,將訓練好的 Agent 帶到 Android、HarmonyOS、iOS 三大平台,透過 12+ 個聊天平台(飛書、釘釘、Telegram、Discord、Slack、QQ 等)提供服務。關鍵特性包括:
- Hybrid CLI-GUI Control:結合 CLI 的精確高效與 GUI 的普遍覆蓋性,根據任務性質自動切換
- Personalized Memory:持久化個人化記憶系統,自動從互動中提取結構化資訊(聯絡人、常用應用、使用習慣),並以向量嵌入儲存
- Remote & Local Control:支援遠端控制與本機控制兩種模式^[raw/papers/clawgui.md]
Architecture / Approach
System Overview
ClawGUI 的整體架構如 Figure 1 所示,三個模組緊密整合:
ClawGUI-RL ←→ ClawGUI-Eval ←→ ClawGUI-Agent
ClawGUI-RL 的架構包含:
- Rollout Manager:管理多任務平行 rollout,支援 64+ 平行虛擬環境
- RL Trainer:基於 verl 框架,支援多種 RL 演算法
- Environment Manager:處理 Task Reset、Task Evaluation、Spare Server Rotation、Teardown 四階段生命週期
- Reward Manager:整合 System Judge(虛擬環境)與 MLLM Judge(真實裝置)
- PRM(Process Reward Model):每個動作後根據前一截圖、當前截圖、動作歷史判斷該步驟對任務完成的貢獻度^[raw/papers/clawgui.md]
GiGPO vs GRPO:GRPO 對同一任務的所有 rollout 分配相同的 episode-level advantage,對長時域 GUI 任務過於粗糙。GiGPO 採用雙層層次化優勢估計——在 episode 層面保留宏觀相對優勢,在 step 層面透過 anchor-state 分組機制估計微觀相對優勢,實現細粒度的信用分配^[raw/papers/clawgui.md]。
ClawGUI-Eval 的三階段 pipeline:
- Infer:生成原始預測結果,支援本地 GPU(transformers)與遠端 API(OpenAI-compatible)推斷
- Judge:Benchmark 特化的判斷器(point-in-box、polygon+refusal-aware、multi-action)
- Metric:匯聚準確率並提供平台、UI 元素類型、任務類別的細緻分解^[raw/papers/clawgui.md]
ClawGUI-Agent 的部署架構:
- 使用者透過自然語言在 12+ 聊天平台下達指令
- 伺服器端執行 message-driven agent loop
- 結合 Context、Memory、Skills 與 LLM Tools
- 控制虛擬或真實裝置(手機、瀏覽器、桌面)^[raw/papers/clawgui.md]
Key Results
ClawGUI-2B Performance
在 MobileWorld GUI-Only benchmark(117 tasks)上,ClawGUI-2B 達到 17.1% Success Rate,顯著超越同規模的 MAI-UI-2B baseline(11.1%),相對提升達 54%。值得注意的是,ClawGUI-2B 甚至超越多個更大的未經訓練的模型:
- Qwen3-VL-32B:11.9%
- UI-Venus-72B:16.4%
- Qwen3-VL-235B-A22B:12.8%^[raw/papers/clawgui.md]
Reward Design Ablation
| Method | Reward Type | SR (%) |
|---|---|---|
| GRPO | Binary (episode-level) | 14.5 |
| GiGPO | Dense (episode- & step-level) | 17.1 |
將 GRPO 置換為 GiGPO 後,SR 提升 2.6%(14.5% → 17.1%),相對增益達 17.9%,直接證實密集信用分配對 GUI Agent RL 訓練的關鍵價值^[raw/papers/clawgui.md]。
Evaluation Reproducibility
ClawGUI-Eval 在 6 個 benchmarks 與 11+ 個模型上達到 95.8%(46/48 cells) 的再現率。兩個失敗案例(Qwen3-VL-2B 與 UI-TARS 1.5-7B on ScreenSpot-Pro)均涉及官方未公開的評測配置,間接確認了評測不可重現的主要原因是未記錄的 prompt 或解析度選擇^[raw/papers/clawgui.md]。
Limitations
論文本身坦然承認以下限制:
- 真實裝置訓練的成本與複雜度:ClawGUI-RL 支援真實物理裝置訓練,但任務必須人工編寫且難以自動驗證,限制了可擴展性
- Benchmark 覆蓋性仍有限:雖然涵蓋 6 個 benchmarks,仍無法完全代表所有真實世界 GUI 場景,特別是網頁與桌面應用
- Agentic Framework 的差距:閉源的 frontier models(如 Claude 4.5 + UI-Ins-7B 達 47.8-55.6%)與 end-to-end 訓練模型之間仍有巨大差距,ClawGUI 的方法論主要惠及後者
- 世界模型的未來方向:當前 GUI Agent 仍為反應式(reactive),缺乏對螢幕演化的內部預測模型,限制了規劃能力^[raw/papers/clawgui.md]
Related Entities
- skill-claw — 基於 OpenClaw 的技能演化框架,讓 Agent 能跨使用者共享所學技能,與 ClawGUI-Agent 的部署理念高度相關
- agent-readmes — Agent Context Files 實證研究,揭示 Agent 配置文件的維護模式與最佳實踐
- openhands — 通用 AI Agent 平台,專注軟體開發任務,與 ClawGUI 的統一框架願景相呼應
- memos — Agent 記憶機制研究,與 ClawGUI-Agent 的 Personalized Memory 系統相關
- Hermes Agent — 另一個持續演化的 Agent 系統,論文Discussion中提及其統一的 terminal-to-Android gateway 作為對比
- tool-attention-mcp-tax — MCP(Model Context Protocol)安全性研究,與 Agent 工具使用上下文相關
- OpenClaw — ClawGUI-Agent 的 hybrid CLI-GUI 控制策略直接基於 OpenClaw 的設計理念^[raw/papers/clawgui.md]
References
- 原始論文:arXiv:2604.11784v1 [cs.LG],2026 年 4 月 13 日
- 作者:Fei Tang, Zhiqiong Lu, Boxuan Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen(浙江大學)
- GitHub:https://github.com/zju-real/ClawGUI
- Project Page:https://zju-real.github.io/ClawGUI-Page