Abstract

ClawGUI 是浙江大學提出的統一開源 GUI Agent 框架，整合訓練（ClawGUI-RL）、評測（ClawGUI-Eval）與部署（ClawGUI-Agent）三大階段於單一系統。ClawGUI-RL 首創開源 RL 訓練基礎設施，支援 GiGPO 雙層層次化優勢估計；ClawGUI-Eval 在 6 個 benchmarks 與 11+ 個模型上達到 95.8% 再現率；ClawGUI-2B 在 MobileWorld benchmark 達 17.1% 成功率，超越同規模 MAI-UI-2B 達 54%。

ClawGUI

Overview

ClawGUI 是浙江大學提出的統一開源 GUI Agent 框架，旨在整合 GUI Agent 的訓練、評測與部署三大階段於單一系統中。不同於以往僅專注於單一環節的研究，ClawGUI 提供從線上 RL 訓練基礎設施、標準化評測流程，到實際裝置部署的完整解決方案。論文發表於 arXiv:2604.11784，由 Fei Tang、Zhiqiong Lu、Boxuan Zhang、Weiming Lu、Jun Xiao、Yueting Zhuang、Yongliang Shen 等研究者共同發表^[raw/papers/clawgui.md]。

GUI Agent 的核心價值在於能夠透過視覺介面操控任意軟體，無需依賴程式化 API，僅需透過點擊、滑動、輸入等低層級介面動作即可操作任何應用程式。然而研究社群長期以來面臨三個關鍵缺口：訓練生態系統封閉、評測標準不一致、從研究到實際使用者的部署環節斷裂。ClawGUI 正是針對這三個缺口所提出的統一回應^[raw/papers/clawgui.md]。

Core Contributions

ClawGUI 的核心貢獻可分為三大模組：

ClawGUI-RL

這是首個開源的 GUI Agent RL 訓練基礎設施，支援大規模平行虛擬環境與真實物理裝置訓練。整合 GiGPO（Group-in-Group Policy Optimization）與 Process Reward Model（PRM），提供密集的步驟級別監督信號，有效對抗長時域 GUI 任務中 reward 稀疏的問題。關鍵創新包括：

Environment Manager：統一抽象虛擬與真實裝置後端，支援 Docker-based Android emulator 平行訓練，同時具備健康檢查、崩潰恢復、備用伺服器輪換機制
Hybrid Reward Design：結合二元結果獎勵（binary outcome reward）與密集步驟獎勵（dense step-level reward via PRM）
Multi-Algorithm Support：支援 Reinforce++、PPO、GSPO、GRPO、GiGPO 等多種 RL 演算法^[raw/papers/clawgui.md]

ClawGUI-Eval

這是標準化的可重現評測管道，覆蓋 6 個 benchmarks 與 11+ 個模型，達到 95.8% 的再現率。採用嚴格的三階段 pipeline（Infer → Judge → Metric），將推理、判斷、指標計算完全解耦。支援的 benchmarks 包括 ScreenSpot-Pro、ScreenSpot-V2、UI-Vision、MMBench-GUI、OSWorld-G、AndroidControl；支援的模型包括 Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G2、UI-Venus、GUI-Owl、StepGUI、Claude、Gemini、Seed 等^[raw/papers/clawgui.md]。

ClawGUI-Agent

這是面向實際使用者的部署系統，將訓練好的 Agent 帶到 Android、HarmonyOS、iOS 三大平台，透過 12+ 個聊天平台（飛書、釘釘、Telegram、Discord、Slack、QQ 等）提供服務。關鍵特性包括：

Hybrid CLI-GUI Control：結合 CLI 的精確高效與 GUI 的普遍覆蓋性，根據任務性質自動切換
Personalized Memory：持久化個人化記憶系統，自動從互動中提取結構化資訊（聯絡人、常用應用、使用習慣），並以向量嵌入儲存
Remote & Local Control：支援遠端控制與本機控制兩種模式^[raw/papers/clawgui.md]

Architecture / Approach

System Overview

ClawGUI 的整體架構如 Figure 1 所示，三個模組緊密整合：

ClawGUI-RL ←→ ClawGUI-Eval ←→ ClawGUI-Agent

ClawGUI-RL 的架構包含：

Rollout Manager：管理多任務平行 rollout，支援 64+ 平行虛擬環境
RL Trainer：基於 verl 框架，支援多種 RL 演算法
Environment Manager：處理 Task Reset、Task Evaluation、Spare Server Rotation、Teardown 四階段生命週期
Reward Manager：整合 System Judge（虛擬環境）與 MLLM Judge（真實裝置）
PRM（Process Reward Model）：每個動作後根據前一截圖、當前截圖、動作歷史判斷該步驟對任務完成的貢獻度^[raw/papers/clawgui.md]

GiGPO vs GRPO：GRPO 對同一任務的所有 rollout 分配相同的 episode-level advantage，對長時域 GUI 任務過於粗糙。GiGPO 採用雙層層次化優勢估計——在 episode 層面保留宏觀相對優勢，在 step 層面透過 anchor-state 分組機制估計微觀相對優勢，實現細粒度的信用分配^[raw/papers/clawgui.md]。

ClawGUI-Eval 的三階段 pipeline：

Infer：生成原始預測結果，支援本地 GPU（transformers）與遠端 API（OpenAI-compatible）推斷
Judge：Benchmark 特化的判斷器（point-in-box、polygon+refusal-aware、multi-action）
Metric：匯聚準確率並提供平台、UI 元素類型、任務類別的細緻分解^[raw/papers/clawgui.md]

ClawGUI-Agent 的部署架構：

使用者透過自然語言在 12+ 聊天平台下達指令
伺服器端執行 message-driven agent loop
結合 Context、Memory、Skills 與 LLM Tools
控制虛擬或真實裝置（手機、瀏覽器、桌面）^[raw/papers/clawgui.md]

Key Results

ClawGUI-2B Performance

在 MobileWorld GUI-Only benchmark（117 tasks）上，ClawGUI-2B 達到 17.1% Success Rate，顯著超越同規模的 MAI-UI-2B baseline（11.1%），相對提升達 54%。值得注意的是，ClawGUI-2B 甚至超越多個更大的未經訓練的模型：

Qwen3-VL-32B：11.9%
UI-Venus-72B：16.4%
Qwen3-VL-235B-A22B：12.8%^[raw/papers/clawgui.md]

Reward Design Ablation

Method	Reward Type	SR (%)
GRPO	Binary (episode-level)	14.5
GiGPO	Dense (episode- & step-level)	17.1

將 GRPO 置換為 GiGPO 後，SR 提升 2.6%（14.5% → 17.1%），相對增益達 17.9%，直接證實密集信用分配對 GUI Agent RL 訓練的關鍵價值^[raw/papers/clawgui.md]。

Evaluation Reproducibility

ClawGUI-Eval 在 6 個 benchmarks 與 11+ 個模型上達到 95.8%（46/48 cells） 的再現率。兩個失敗案例（Qwen3-VL-2B 與 UI-TARS 1.5-7B on ScreenSpot-Pro）均涉及官方未公開的評測配置，間接確認了評測不可重現的主要原因是未記錄的 prompt 或解析度選擇^[raw/papers/clawgui.md]。

Limitations

論文本身坦然承認以下限制：

真實裝置訓練的成本與複雜度：ClawGUI-RL 支援真實物理裝置訓練，但任務必須人工編寫且難以自動驗證，限制了可擴展性
Benchmark 覆蓋性仍有限：雖然涵蓋 6 個 benchmarks，仍無法完全代表所有真實世界 GUI 場景，特別是網頁與桌面應用
Agentic Framework 的差距：閉源的 frontier models（如 Claude 4.5 + UI-Ins-7B 達 47.8-55.6%）與 end-to-end 訓練模型之間仍有巨大差距，ClawGUI 的方法論主要惠及後者
世界模型的未來方向：當前 GUI Agent 仍為反應式（reactive），缺乏對螢幕演化的內部預測模型，限制了規劃能力^[raw/papers/clawgui.md]

skill-claw — 基於 OpenClaw 的技能演化框架，讓 Agent 能跨使用者共享所學技能，與 ClawGUI-Agent 的部署理念高度相關
agent-readmes — Agent Context Files 實證研究，揭示 Agent 配置文件的維護模式與最佳實踐
openhands — 通用 AI Agent 平台，專注軟體開發任務，與 ClawGUI 的統一框架願景相呼應
memos — Agent 記憶機制研究，與 ClawGUI-Agent 的 Personalized Memory 系統相關
Hermes Agent — 另一個持續演化的 Agent 系統，論文Discussion中提及其統一的 terminal-to-Android gateway 作為對比
tool-attention-mcp-tax — MCP（Model Context Protocol）安全性研究，與 Agent 工具使用上下文相關
OpenClaw — ClawGUI-Agent 的 hybrid CLI-GUI 控制策略直接基於 OpenClaw 的設計理念^[raw/papers/clawgui.md]

References

原始論文：arXiv:2604.11784v1 [cs.LG]，2026 年 4 月 13 日
作者：Fei Tang, Zhiqiong Lu, Boxuan Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen（浙江大學）
GitHub：https://github.com/zju-real/ClawGUI
Project Page：https://zju-real.github.io/ClawGUI-Page

Quartz 4

Explorer

ClawGUI — ClawGUI：圖形介面代理統一框架

ClawGUI

Overview

Core Contributions

ClawGUI-RL

ClawGUI-Eval

ClawGUI-Agent

Architecture / Approach

System Overview

Key Results

ClawGUI-2B Performance

Reward Design Ablation

Evaluation Reproducibility

Limitations

References

Graph View

Table of Contents

Backlinks

Quartz 4

Explorer

ClawGUI — ClawGUI：圖形介面代理統一框架

ClawGUI

Overview

Core Contributions

ClawGUI-RL

ClawGUI-Eval

ClawGUI-Agent

Architecture / Approach

System Overview

Key Results

ClawGUI-2B Performance

Reward Design Ablation

Evaluation Reproducibility

Limitations

Related Entities

References

Graph View

Table of Contents

Backlinks