Abstract
SkillClaw 是由 DreamX Team 提出的多使用者 LLM Agent 集體技能演化框架,核心洞察是不同使用者的互動 session 包含互補信號——哪些情況下技能有效、哪些失效。透過封閉循環 Pipeline(多使用者互動 → Session 蒐集 → 技能演化 → 驗證 → 同步),將跨使用者的軌跡彙聚為共享證據庫,由 autonomous Evolver 分析並驅動技能更新,在 WildClawBench 上 6 天內 Social Interaction 從 54.01% 提升至 60.34%,Creative Synthesis 相對增益達 88.41%。
SkillClaw
Overview
SkillClaw 是由 DreamX Team(AMAP-ML)提出的多使用者 LLM Agent 集體技能演化框架(arXiv:2604.08377,2026-04-09),專為 OpenClaw 風格的 Agent 生態系統設計。傳統 LLM Agent 的技能(skills)在部署後靜態不變——使用者從技能中心選用技能後,技能內容不會因為實際使用中的失敗或成功經驗而更新。導致類似的工具呼叫錯誤、工作流程瓶頸、與環境互動的失敗模式在 不同使用者之間反覆出現,卻沒有任何積累與改進。
SkillClaw 的核心洞察是:不同使用者的互動 session 包含了互補的信號——哪些情況下技能有效、哪些情況下失效。彙總跨使用者的軌跡(trajectories)能提供單一使用者無法提供的全局視角,使穩定的技能演化成為可能。SkillClaw 將這個過程自動化: Agents 在日常使用中產生互動 session,這些 session 被蒐集為共享的證據庫,由一個自主的 Agentic Evolver 分析並驅動技能更新——精煉(refine)現有技能、創建(create)新技能、或保留不變(skip)。更新後的技能同步回所有 Agents,形成一個封閉循環:互動產生證據 → 證據驅動演化 → 演化產生經過驗證的技能更新 → 更新後的技能改善未來的互動。^[raw/papers/skill-claw.md]
Core Contributions
SkillClaw 的核心貢獻有三個軸線:
-
Collective Evolution(集體演化):將個別使用者的互動經驗轉化為共享的、改進的技能生態系統。某位使用者發現的問題修復或工作流程優化,會立即同步給所有其他使用者,實現跨使用者的知識遷移與累積能力成長,而非各自獨立、互不分享的碎片化改進。
-
Full Automation(全自動化的演化管線):從 session 記錄到技能同步,整個流程無需人工介入或明確的使用者干預。唯一的「人類輸入」就是正常的 Agent 使用行為。白天使用者產生互動軌跡,夜間系統自動處理並生成候選技能更新,通過驗證後部署——對使用者完全透明。
-
Agentic Evolution Paradigm(Agentic 演化範式):技能更新並非基於預先定義的規則,而是由一個配備結構化 harness 的 LLM Agent(evolver)進行開放式推理(open-ended reasoning)來驅動。Evolver 接收分組後的 session 證據和當前技能定義,但不被固定的推理框架所束縛——這使其能處理多樣化的失敗模式和未見過的使用情境,而不需要為每種情況手工編寫規則。
此外,SkillClaw 作為一個通用框架,相容多種 Claw 風格的 Agent 系統,包括 OpenClaw、CoPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw 和 NemoClaw。^[raw/papers/skill-claw.md]
Architecture / Approach
整體架構:封閉循環 Pipeline
SkillClaw 的運作遵循五階段封閉循環:
Multi-user Interaction → Session Collection → Skill Evolution → Validation → Skill Synchronization
白天(Daytime):多個使用者(實驗中模擬 8 位並發使用者)與各自的 OpenClaw Agent 互動,產生包含完整因果鏈的 session 軌跡:prompt → agent actions → tool calls → feedback → final response。每個 session 都記錄了工具呼叫錯誤、參數格式問題、執行步驟順序等中階資訊,而非僅有最終回應。
夜間(Nighttime):
- 證據彙聚(Aggregation):將跨使用者 session 按引用技能分組為 G(s),未引用任何技能的 session 進入 G(∅)。分組本身揭示了技能的行為邊界——同一技能在不同使用者、不同任務、不同環境下產生不同結果時,比較直接暴露了技能在何處有效、在何處失效。
- Agentic Evolution(演化):Evolver 分析每個 G(s) 中的成功與失敗 session,選擇三種行動之一:Refine(根據觀察到的失敗模式修正錯誤或提高健壯性)、Create(當 G(∅) 揭示了未被任何現有技能覆蓋的反覆性子程序時,建立新技能)、Skip(當證據不足以支持修改時保持不變)。Evolver 總是共同推理成功與失敗 session——成功 session 定義不變異的 invariants,失敗 session 定義需要修正的 targets,確保修正不會意外破壞原本有效的程序。
- Validation(驗證):候選技能在真實執行環境中與當前部署技能進行對比測試。只有在驗證集上表現更好的候選技能才會被接受(Accept);被拒絕(Reject)的技能僅保留為候選記錄,不部署到生產環境。這保證了部署的技能池只會單調提升,不會退化。
- Synchronization(同步):通過驗證的技能更新被合併到共享技能庫,並同步回所有 Agents,供隔天使用。^[raw/papers/skill-claw.md]
技能結構與觸發機制
每個技能(skill)是一個結構化的程序構件,包含:
- Name / Description:觸發條件與用途說明
- Procedural Steps:與工具和環境互動的明確步驟
- API Endpoints / Port Configurations:環境特定的配置細節
- Error Handling / Fallback Strategies:常見錯誤的應對方案
技能在推理時由 Agent 動態選擇與載入,根據當前任務的上下文從共享技能目錄中檢索最相關的技能。^[raw/papers/skill-claw.md]
Key Results
SkillClaw 在 WildClawBench(一個包含 60 個複雜任務、橫跨 6 個能力領域的真實世界 Agent 評測基準)上,以 Qwen3-Max 作為骨幹模型,進行了為期 6 天(6 輪)的連續 day-night 演化實驗。關鍵結果如下:
主觀測任務類別表現(6 天演化後)
| 類別 | Day 1(基線) | Day 6(最終) | 絕對增益 | 相對增益 |
|---|---|---|---|---|
| Social Interaction | 54.01% | 60.34% | +6.33 | +11.72% |
| Search & Retrieval | 22.73% | 34.55% | +11.82 | +52.00% |
| Creative Synthesis | 11.57% | 21.80% | +10.23 | +88.41% |
| Safety & Alignment | 24.00% | 32.00% | +8.00 | +33.33% |
演化模式分析
- Social Interaction:最早出現大幅提升(第 2 天就達到 60.34% 並保持穩定),源於一個高影響工作流程瓶頸(跨部門 Slack 摘要與數據協調)被快速識別並修正。
- Search & Retrieval:階段性提升模式(22.73% → 30.00% → 34.55%),反映了檢索任務的特性:低層級輸入可靠性(如檔案存在性檢查)必須先被解決,高層級約束感知規劃才能生效。
- Creative Synthesis:早期大幅跳躍(11.57% → 21.80%),主因是環境設置瓶頸(工作目錄配置、檔案路徑處理)被解決;內容生成本身並非主要限制。
- Safety & Alignment:最晚改善(到第 5-6 天才達到 32.00%),改進重點在於 Git fallback 目錄克隆協議等執行可靠性,而非表面任務分數。
受控驗證實驗(Skill Evolve Lite)
在 3 個自訂查詢(basic extraction、deadline parsing、save report)上的受控實驗顯示,單輪演化平均帶來 +42.1% 的提升(30.4% → 72.5%)。其中 save report 從 28.3% 提升到 100.0%,證實了當失敗源於缺失的環境特定程序知識時,技能演化可以完全解決問題。^[raw/papers/skill-claw.md]
Limitations
論文坦然承認以下限制:
- 小規模測試:實驗僅涉及 8 位並發使用者、有限回饋信號與互動深度,在用戶規模、時間跨度、任務多樣性上仍有很大擴展空間。
- 驗證的計算成本:候選技能必須在真實執行環境中完整運行並與當前技能對比,這帶來了顯著的額外 token 開銷。
- 演化異質性:不同類別的演化軌跡差異很大,並非所有類別都能在短期內持續改善——部分類別在早期建立最佳技能池後,後續候選更新持續被拒絕。
- 框架相容性邊界:SkillClaw 的設計針對 OpenClaw 風格的多使用者 Agent 生態系統,對於非 Claw 系列的 Agent 系統(如純對話式 Agent 或單使用者設定)需要額外的適配工作。
- 依賴現有技能庫的品質:SkillClaw 的演化效果受初始技能集品質的影響,如果初始技能集合嚴重不足,演化可能需要更長時間才能見效。^[raw/papers/skill-claw.md]
Related Entities
- clawgui — 浙江大學提出的統一開源 GUI Agent 框架,涵蓋 RL 訓練、評測與部署。其 ClawGUI-Agent 的部署理念(結合 CLI 精確性與 GUI 普遍性)與 SkillClaw 的跨使用者技能同步有高度相關性。
- memos — AI 記憶體作業系統研究,探討記憶的 Controllability、Plasticity 與 Evolvability。SkillClaw 的技能演化框架與 MemOS 的記憶可演化性有互補關係——技能可以視為結構化的「程序記憶單元」。
- openhands — 通用 AI Agent 平台,專注軟體開發任務。作為 OpenClaw 生態的成員,openhands 可受益於 SkillClaw 的集體技能演化機制。
- WildClawBench — SkillClaw 的評測基準,60 個真實世界 Agent 任務,覆蓋 6 個能力領域。
- openclaw — SkillClaw 所基於的多使用者 Agent 系統架構,為集體技能演化提供生態系統基礎。
- skill-stealing-attack — 探討 Agent 技能被逆向工程的安全性問題,與 SkillClaw 的技能共享機制形成互補的安全視角。
- tool-attention-mcp-tax — MCP(Model Context Protocol)安全性研究,與 Agent 工具使用和上下文管理相關。^[raw/papers/skill-claw.md]
References
- 原始論文:arXiv:2604.08377v1 [cs.AI],2026 年 4 月 9 日
- 作者:Ziyu Ma, Shidong Yang, Yuxiang Ji, Xucong Wang, Yong Wang, Yiming Hu, Tongwen Huang, Xiangxiang Chu(DreamX Team)
- GitHub:https://github.com/AMAP-ML/SkillClaw
- 評測基準:WildClawBench(Ding et al., 2026)
- 相關框架:OpenClaw、CoPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw、NemoClaw