Abstract

ClawGUI 是浙江大學提出的統一開源 GUI Agent 框架,整合訓練(ClawGUI-RL)、評測(ClawGUI-Eval)與部署(ClawGUI-Agent)三大階段於單一系統。ClawGUI-RL 首創開源 RL 訓練基礎設施,支援 GiGPO 雙層層次化優勢估計;ClawGUI-Eval 在 6 個 benchmarks 與 11+ 個模型上達到 95.8% 再現率;ClawGUI-2B 在 MobileWorld benchmark 達 17.1% 成功率,超越同規模 MAI-UI-2B 達 54%。

ClawGUI

Overview

ClawGUI 是浙江大學提出的統一開源 GUI Agent 框架,旨在整合 GUI Agent 的訓練、評測與部署三大階段於單一系統中。不同於以往僅專注於單一環節的研究,ClawGUI 提供從線上 RL 訓練基礎設施、標準化評測流程,到實際裝置部署的完整解決方案。論文發表於 arXiv:2604.11784,由 Fei Tang、Zhiqiong Lu、Boxuan Zhang、Weiming Lu、Jun Xiao、Yueting Zhuang、Yongliang Shen 等研究者共同發表^[raw/papers/clawgui.md]。

GUI Agent 的核心價值在於能夠透過視覺介面操控任意軟體,無需依賴程式化 API,僅需透過點擊、滑動、輸入等低層級介面動作即可操作任何應用程式。然而研究社群長期以來面臨三個關鍵缺口:訓練生態系統封閉、評測標準不一致、從研究到實際使用者的部署環節斷裂。ClawGUI 正是針對這三個缺口所提出的統一回應^[raw/papers/clawgui.md]。

Core Contributions

ClawGUI 的核心貢獻可分為三大模組:

ClawGUI-RL

這是首個開源的 GUI Agent RL 訓練基礎設施,支援大規模平行虛擬環境與真實物理裝置訓練。整合 GiGPO(Group-in-Group Policy Optimization)與 Process Reward Model(PRM),提供密集的步驟級別監督信號,有效對抗長時域 GUI 任務中 reward 稀疏的問題。關鍵創新包括:

  • Environment Manager:統一抽象虛擬與真實裝置後端,支援 Docker-based Android emulator 平行訓練,同時具備健康檢查、崩潰恢復、備用伺服器輪換機制
  • Hybrid Reward Design:結合二元結果獎勵(binary outcome reward)與密集步驟獎勵(dense step-level reward via PRM)
  • Multi-Algorithm Support:支援 Reinforce++、PPO、GSPO、GRPO、GiGPO 等多種 RL 演算法^[raw/papers/clawgui.md]

ClawGUI-Eval

這是標準化的可重現評測管道,覆蓋 6 個 benchmarks 與 11+ 個模型,達到 95.8% 的再現率。採用嚴格的三階段 pipeline(Infer → Judge → Metric),將推理、判斷、指標計算完全解耦。支援的 benchmarks 包括 ScreenSpot-Pro、ScreenSpot-V2、UI-Vision、MMBench-GUI、OSWorld-G、AndroidControl;支援的模型包括 Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G2、UI-Venus、GUI-Owl、StepGUI、Claude、Gemini、Seed 等^[raw/papers/clawgui.md]。

ClawGUI-Agent

這是面向實際使用者的部署系統,將訓練好的 Agent 帶到 Android、HarmonyOS、iOS 三大平台,透過 12+ 個聊天平台(飛書、釘釘、Telegram、Discord、Slack、QQ 等)提供服務。關鍵特性包括:

  • Hybrid CLI-GUI Control:結合 CLI 的精確高效與 GUI 的普遍覆蓋性,根據任務性質自動切換
  • Personalized Memory:持久化個人化記憶系統,自動從互動中提取結構化資訊(聯絡人、常用應用、使用習慣),並以向量嵌入儲存
  • Remote & Local Control:支援遠端控制與本機控制兩種模式^[raw/papers/clawgui.md]

Architecture / Approach

System Overview

ClawGUI 的整體架構如 Figure 1 所示,三個模組緊密整合:

ClawGUI-RL ←→ ClawGUI-Eval ←→ ClawGUI-Agent

ClawGUI-RL 的架構包含:

  • Rollout Manager:管理多任務平行 rollout,支援 64+ 平行虛擬環境
  • RL Trainer:基於 verl 框架,支援多種 RL 演算法
  • Environment Manager:處理 Task Reset、Task Evaluation、Spare Server Rotation、Teardown 四階段生命週期
  • Reward Manager:整合 System Judge(虛擬環境)與 MLLM Judge(真實裝置)
  • PRM(Process Reward Model):每個動作後根據前一截圖、當前截圖、動作歷史判斷該步驟對任務完成的貢獻度^[raw/papers/clawgui.md]

GiGPO vs GRPO:GRPO 對同一任務的所有 rollout 分配相同的 episode-level advantage,對長時域 GUI 任務過於粗糙。GiGPO 採用雙層層次化優勢估計——在 episode 層面保留宏觀相對優勢,在 step 層面透過 anchor-state 分組機制估計微觀相對優勢,實現細粒度的信用分配^[raw/papers/clawgui.md]。

ClawGUI-Eval 的三階段 pipeline:

  1. Infer:生成原始預測結果,支援本地 GPU(transformers)與遠端 API(OpenAI-compatible)推斷
  2. Judge:Benchmark 特化的判斷器(point-in-box、polygon+refusal-aware、multi-action)
  3. Metric:匯聚準確率並提供平台、UI 元素類型、任務類別的細緻分解^[raw/papers/clawgui.md]

ClawGUI-Agent 的部署架構:

  • 使用者透過自然語言在 12+ 聊天平台下達指令
  • 伺服器端執行 message-driven agent loop
  • 結合 Context、Memory、Skills 與 LLM Tools
  • 控制虛擬或真實裝置(手機、瀏覽器、桌面)^[raw/papers/clawgui.md]

Key Results

ClawGUI-2B Performance

在 MobileWorld GUI-Only benchmark(117 tasks)上,ClawGUI-2B 達到 17.1% Success Rate,顯著超越同規模的 MAI-UI-2B baseline(11.1%),相對提升達 54%。值得注意的是,ClawGUI-2B 甚至超越多個更大的未經訓練的模型:

  • Qwen3-VL-32B:11.9%
  • UI-Venus-72B:16.4%
  • Qwen3-VL-235B-A22B:12.8%^[raw/papers/clawgui.md]

Reward Design Ablation

MethodReward TypeSR (%)
GRPOBinary (episode-level)14.5
GiGPODense (episode- & step-level)17.1

將 GRPO 置換為 GiGPO 後,SR 提升 2.6%(14.5% → 17.1%),相對增益達 17.9%,直接證實密集信用分配對 GUI Agent RL 訓練的關鍵價值^[raw/papers/clawgui.md]。

Evaluation Reproducibility

ClawGUI-Eval 在 6 個 benchmarks 與 11+ 個模型上達到 95.8%(46/48 cells) 的再現率。兩個失敗案例(Qwen3-VL-2B 與 UI-TARS 1.5-7B on ScreenSpot-Pro)均涉及官方未公開的評測配置,間接確認了評測不可重現的主要原因是未記錄的 prompt 或解析度選擇^[raw/papers/clawgui.md]。

Limitations

論文本身坦然承認以下限制:

  1. 真實裝置訓練的成本與複雜度:ClawGUI-RL 支援真實物理裝置訓練,但任務必須人工編寫且難以自動驗證,限制了可擴展性
  2. Benchmark 覆蓋性仍有限:雖然涵蓋 6 個 benchmarks,仍無法完全代表所有真實世界 GUI 場景,特別是網頁與桌面應用
  3. Agentic Framework 的差距:閉源的 frontier models(如 Claude 4.5 + UI-Ins-7B 達 47.8-55.6%)與 end-to-end 訓練模型之間仍有巨大差距,ClawGUI 的方法論主要惠及後者
  4. 世界模型的未來方向:當前 GUI Agent 仍為反應式(reactive),缺乏對螢幕演化的內部預測模型,限制了規劃能力^[raw/papers/clawgui.md]
  • skill-claw — 基於 OpenClaw 的技能演化框架,讓 Agent 能跨使用者共享所學技能,與 ClawGUI-Agent 的部署理念高度相關
  • agent-readmes — Agent Context Files 實證研究,揭示 Agent 配置文件的維護模式與最佳實踐
  • openhands — 通用 AI Agent 平台,專注軟體開發任務,與 ClawGUI 的統一框架願景相呼應
  • memos — Agent 記憶機制研究,與 ClawGUI-Agent 的 Personalized Memory 系統相關
  • Hermes Agent — 另一個持續演化的 Agent 系統,論文Discussion中提及其統一的 terminal-to-Android gateway 作為對比
  • tool-attention-mcp-tax — MCP(Model Context Protocol)安全性研究,與 Agent 工具使用上下文相關
  • OpenClaw — ClawGUI-Agent 的 hybrid CLI-GUI 控制策略直接基於 OpenClaw 的設計理念^[raw/papers/clawgui.md]

References