Abstract

SkillClaw 是由 DreamX Team 提出的多使用者 LLM Agent 集體技能演化框架,核心洞察是不同使用者的互動 session 包含互補信號——哪些情況下技能有效、哪些失效。透過封閉循環 Pipeline(多使用者互動 → Session 蒐集 → 技能演化 → 驗證 → 同步),將跨使用者的軌跡彙聚為共享證據庫,由 autonomous Evolver 分析並驅動技能更新,在 WildClawBench 上 6 天內 Social Interaction 從 54.01% 提升至 60.34%,Creative Synthesis 相對增益達 88.41%。

SkillClaw

Overview

SkillClaw 是由 DreamX Team(AMAP-ML)提出的多使用者 LLM Agent 集體技能演化框架(arXiv:2604.08377,2026-04-09),專為 OpenClaw 風格的 Agent 生態系統設計。傳統 LLM Agent 的技能(skills)在部署後靜態不變——使用者從技能中心選用技能後,技能內容不會因為實際使用中的失敗或成功經驗而更新。導致類似的工具呼叫錯誤、工作流程瓶頸、與環境互動的失敗模式在 不同使用者之間反覆出現,卻沒有任何積累與改進。

SkillClaw 的核心洞察是:不同使用者的互動 session 包含了互補的信號——哪些情況下技能有效、哪些情況下失效。彙總跨使用者的軌跡(trajectories)能提供單一使用者無法提供的全局視角,使穩定的技能演化成為可能。SkillClaw 將這個過程自動化: Agents 在日常使用中產生互動 session,這些 session 被蒐集為共享的證據庫,由一個自主的 Agentic Evolver 分析並驅動技能更新——精煉(refine)現有技能、創建(create)新技能、或保留不變(skip)。更新後的技能同步回所有 Agents,形成一個封閉循環:互動產生證據 → 證據驅動演化 → 演化產生經過驗證的技能更新 → 更新後的技能改善未來的互動。^[raw/papers/skill-claw.md]

Core Contributions

SkillClaw 的核心貢獻有三個軸線:

  1. Collective Evolution(集體演化):將個別使用者的互動經驗轉化為共享的、改進的技能生態系統。某位使用者發現的問題修復或工作流程優化,會立即同步給所有其他使用者,實現跨使用者的知識遷移與累積能力成長,而非各自獨立、互不分享的碎片化改進。

  2. Full Automation(全自動化的演化管線):從 session 記錄到技能同步,整個流程無需人工介入或明確的使用者干預。唯一的「人類輸入」就是正常的 Agent 使用行為。白天使用者產生互動軌跡,夜間系統自動處理並生成候選技能更新,通過驗證後部署——對使用者完全透明。

  3. Agentic Evolution Paradigm(Agentic 演化範式):技能更新並非基於預先定義的規則,而是由一個配備結構化 harness 的 LLM Agent(evolver)進行開放式推理(open-ended reasoning)來驅動。Evolver 接收分組後的 session 證據和當前技能定義,但不被固定的推理框架所束縛——這使其能處理多樣化的失敗模式和未見過的使用情境,而不需要為每種情況手工編寫規則。

此外,SkillClaw 作為一個通用框架,相容多種 Claw 風格的 Agent 系統,包括 OpenClaw、CoPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw 和 NemoClaw。^[raw/papers/skill-claw.md]

Architecture / Approach

整體架構:封閉循環 Pipeline

SkillClaw 的運作遵循五階段封閉循環:

Multi-user Interaction → Session Collection → Skill Evolution → Validation → Skill Synchronization

白天(Daytime):多個使用者(實驗中模擬 8 位並發使用者)與各自的 OpenClaw Agent 互動,產生包含完整因果鏈的 session 軌跡:prompt → agent actions → tool calls → feedback → final response。每個 session 都記錄了工具呼叫錯誤、參數格式問題、執行步驟順序等中階資訊,而非僅有最終回應。

夜間(Nighttime)

  1. 證據彙聚(Aggregation):將跨使用者 session 按引用技能分組為 G(s),未引用任何技能的 session 進入 G(∅)。分組本身揭示了技能的行為邊界——同一技能在不同使用者、不同任務、不同環境下產生不同結果時,比較直接暴露了技能在何處有效、在何處失效。
  2. Agentic Evolution(演化):Evolver 分析每個 G(s) 中的成功與失敗 session,選擇三種行動之一:Refine(根據觀察到的失敗模式修正錯誤或提高健壯性)、Create(當 G(∅) 揭示了未被任何現有技能覆蓋的反覆性子程序時,建立新技能)、Skip(當證據不足以支持修改時保持不變)。Evolver 總是共同推理成功與失敗 session——成功 session 定義不變異的 invariants,失敗 session 定義需要修正的 targets,確保修正不會意外破壞原本有效的程序。
  3. Validation(驗證):候選技能在真實執行環境中與當前部署技能進行對比測試。只有在驗證集上表現更好的候選技能才會被接受(Accept);被拒絕(Reject)的技能僅保留為候選記錄,不部署到生產環境。這保證了部署的技能池只會單調提升,不會退化。
  4. Synchronization(同步):通過驗證的技能更新被合併到共享技能庫,並同步回所有 Agents,供隔天使用。^[raw/papers/skill-claw.md]

技能結構與觸發機制

每個技能(skill)是一個結構化的程序構件,包含:

  • Name / Description:觸發條件與用途說明
  • Procedural Steps:與工具和環境互動的明確步驟
  • API Endpoints / Port Configurations:環境特定的配置細節
  • Error Handling / Fallback Strategies:常見錯誤的應對方案

技能在推理時由 Agent 動態選擇與載入,根據當前任務的上下文從共享技能目錄中檢索最相關的技能。^[raw/papers/skill-claw.md]

Key Results

SkillClaw 在 WildClawBench(一個包含 60 個複雜任務、橫跨 6 個能力領域的真實世界 Agent 評測基準)上,以 Qwen3-Max 作為骨幹模型,進行了為期 6 天(6 輪)的連續 day-night 演化實驗。關鍵結果如下:

主觀測任務類別表現(6 天演化後)

類別Day 1(基線)Day 6(最終)絕對增益相對增益
Social Interaction54.01%60.34%+6.33+11.72%
Search & Retrieval22.73%34.55%+11.82+52.00%
Creative Synthesis11.57%21.80%+10.23+88.41%
Safety & Alignment24.00%32.00%+8.00+33.33%

演化模式分析

  • Social Interaction:最早出現大幅提升(第 2 天就達到 60.34% 並保持穩定),源於一個高影響工作流程瓶頸(跨部門 Slack 摘要與數據協調)被快速識別並修正。
  • Search & Retrieval:階段性提升模式(22.73% → 30.00% → 34.55%),反映了檢索任務的特性:低層級輸入可靠性(如檔案存在性檢查)必須先被解決,高層級約束感知規劃才能生效。
  • Creative Synthesis:早期大幅跳躍(11.57% → 21.80%),主因是環境設置瓶頸(工作目錄配置、檔案路徑處理)被解決;內容生成本身並非主要限制。
  • Safety & Alignment:最晚改善(到第 5-6 天才達到 32.00%),改進重點在於 Git fallback 目錄克隆協議等執行可靠性,而非表面任務分數。

受控驗證實驗(Skill Evolve Lite)

在 3 個自訂查詢(basic extraction、deadline parsing、save report)上的受控實驗顯示,單輪演化平均帶來 +42.1% 的提升(30.4% → 72.5%)。其中 save report 從 28.3% 提升到 100.0%,證實了當失敗源於缺失的環境特定程序知識時,技能演化可以完全解決問題。^[raw/papers/skill-claw.md]

Limitations

論文坦然承認以下限制:

  1. 小規模測試:實驗僅涉及 8 位並發使用者、有限回饋信號與互動深度,在用戶規模、時間跨度、任務多樣性上仍有很大擴展空間。
  2. 驗證的計算成本:候選技能必須在真實執行環境中完整運行並與當前技能對比,這帶來了顯著的額外 token 開銷。
  3. 演化異質性:不同類別的演化軌跡差異很大,並非所有類別都能在短期內持續改善——部分類別在早期建立最佳技能池後,後續候選更新持續被拒絕。
  4. 框架相容性邊界:SkillClaw 的設計針對 OpenClaw 風格的多使用者 Agent 生態系統,對於非 Claw 系列的 Agent 系統(如純對話式 Agent 或單使用者設定)需要額外的適配工作。
  5. 依賴現有技能庫的品質:SkillClaw 的演化效果受初始技能集品質的影響,如果初始技能集合嚴重不足,演化可能需要更長時間才能見效。^[raw/papers/skill-claw.md]
  • clawgui — 浙江大學提出的統一開源 GUI Agent 框架,涵蓋 RL 訓練、評測與部署。其 ClawGUI-Agent 的部署理念(結合 CLI 精確性與 GUI 普遍性)與 SkillClaw 的跨使用者技能同步有高度相關性。
  • memos — AI 記憶體作業系統研究,探討記憶的 Controllability、Plasticity 與 Evolvability。SkillClaw 的技能演化框架與 MemOS 的記憶可演化性有互補關係——技能可以視為結構化的「程序記憶單元」。
  • openhands — 通用 AI Agent 平台,專注軟體開發任務。作為 OpenClaw 生態的成員,openhands 可受益於 SkillClaw 的集體技能演化機制。
  • WildClawBench — SkillClaw 的評測基準,60 個真實世界 Agent 任務,覆蓋 6 個能力領域。
  • openclaw — SkillClaw 所基於的多使用者 Agent 系統架構,為集體技能演化提供生態系統基礎。
  • skill-stealing-attack — 探討 Agent 技能被逆向工程的安全性問題,與 SkillClaw 的技能共享機制形成互補的安全視角。
  • tool-attention-mcp-tax — MCP(Model Context Protocol)安全性研究,與 Agent 工具使用和上下文管理相關。^[raw/papers/skill-claw.md]

References

  • 原始論文:arXiv:2604.08377v1 [cs.AI],2026 年 4 月 9 日
  • 作者:Ziyu Ma, Shidong Yang, Yuxiang Ji, Xucong Wang, Yong Wang, Yiming Hu, Tongwen Huang, Xiangxiang Chu(DreamX Team)
  • GitHubhttps://github.com/AMAP-ML/SkillClaw
  • 評測基準:WildClawBench(Ding et al., 2026)
  • 相關框架:OpenClaw、CoPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw、NemoClaw