Abstract

SkillClaw 是由 DreamX Team 提出的多使用者 LLM Agent 集體技能演化框架，核心洞察是不同使用者的互動 session 包含互補信號——哪些情況下技能有效、哪些失效。透過封閉循環 Pipeline（多使用者互動 → Session 蒐集 → 技能演化 → 驗證 → 同步），將跨使用者的軌跡彙聚為共享證據庫，由 autonomous Evolver 分析並驅動技能更新，在 WildClawBench 上 6 天內 Social Interaction 從 54.01% 提升至 60.34%，Creative Synthesis 相對增益達 88.41%。

SkillClaw

Overview

SkillClaw 是由 DreamX Team（AMAP-ML）提出的多使用者 LLM Agent 集體技能演化框架（arXiv:2604.08377，2026-04-09），專為 OpenClaw 風格的 Agent 生態系統設計。傳統 LLM Agent 的技能（skills）在部署後靜態不變——使用者從技能中心選用技能後，技能內容不會因為實際使用中的失敗或成功經驗而更新。導致類似的工具呼叫錯誤、工作流程瓶頸、與環境互動的失敗模式在不同使用者之間反覆出現，卻沒有任何積累與改進。

SkillClaw 的核心洞察是：不同使用者的互動 session 包含了互補的信號——哪些情況下技能有效、哪些情況下失效。彙總跨使用者的軌跡（trajectories）能提供單一使用者無法提供的全局視角，使穩定的技能演化成為可能。SkillClaw 將這個過程自動化： Agents 在日常使用中產生互動 session，這些 session 被蒐集為共享的證據庫，由一個自主的 Agentic Evolver 分析並驅動技能更新——精煉（refine）現有技能、創建（create）新技能、或保留不變（skip）。更新後的技能同步回所有 Agents，形成一個封閉循環：互動產生證據 → 證據驅動演化 → 演化產生經過驗證的技能更新 → 更新後的技能改善未來的互動。^[raw/papers/skill-claw.md]

Core Contributions

SkillClaw 的核心貢獻有三個軸線：

Collective Evolution（集體演化）：將個別使用者的互動經驗轉化為共享的、改進的技能生態系統。某位使用者發現的問題修復或工作流程優化，會立即同步給所有其他使用者，實現跨使用者的知識遷移與累積能力成長，而非各自獨立、互不分享的碎片化改進。
Full Automation（全自動化的演化管線）：從 session 記錄到技能同步，整個流程無需人工介入或明確的使用者干預。唯一的「人類輸入」就是正常的 Agent 使用行為。白天使用者產生互動軌跡，夜間系統自動處理並生成候選技能更新，通過驗證後部署——對使用者完全透明。
Agentic Evolution Paradigm（Agentic 演化範式）：技能更新並非基於預先定義的規則，而是由一個配備結構化 harness 的 LLM Agent（evolver）進行開放式推理（open-ended reasoning）來驅動。Evolver 接收分組後的 session 證據和當前技能定義，但不被固定的推理框架所束縛——這使其能處理多樣化的失敗模式和未見過的使用情境，而不需要為每種情況手工編寫規則。

此外，SkillClaw 作為一個通用框架，相容多種 Claw 風格的 Agent 系統，包括 OpenClaw、CoPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw 和 NemoClaw。^[raw/papers/skill-claw.md]

Architecture / Approach

整體架構：封閉循環 Pipeline

SkillClaw 的運作遵循五階段封閉循環：

Multi-user Interaction → Session Collection → Skill Evolution → Validation → Skill Synchronization

白天（Daytime）：多個使用者（實驗中模擬 8 位並發使用者）與各自的 OpenClaw Agent 互動，產生包含完整因果鏈的 session 軌跡：prompt → agent actions → tool calls → feedback → final response。每個 session 都記錄了工具呼叫錯誤、參數格式問題、執行步驟順序等中階資訊，而非僅有最終回應。

夜間（Nighttime）：

證據彙聚（Aggregation）：將跨使用者 session 按引用技能分組為 G(s)，未引用任何技能的 session 進入 G(∅)。分組本身揭示了技能的行為邊界——同一技能在不同使用者、不同任務、不同環境下產生不同結果時，比較直接暴露了技能在何處有效、在何處失效。
Agentic Evolution（演化）：Evolver 分析每個 G(s) 中的成功與失敗 session，選擇三種行動之一：Refine（根據觀察到的失敗模式修正錯誤或提高健壯性）、Create（當 G(∅) 揭示了未被任何現有技能覆蓋的反覆性子程序時，建立新技能）、Skip（當證據不足以支持修改時保持不變）。Evolver 總是共同推理成功與失敗 session——成功 session 定義不變異的 invariants，失敗 session 定義需要修正的 targets，確保修正不會意外破壞原本有效的程序。
Validation（驗證）：候選技能在真實執行環境中與當前部署技能進行對比測試。只有在驗證集上表現更好的候選技能才會被接受（Accept）；被拒絕（Reject）的技能僅保留為候選記錄，不部署到生產環境。這保證了部署的技能池只會單調提升，不會退化。
Synchronization（同步）：通過驗證的技能更新被合併到共享技能庫，並同步回所有 Agents，供隔天使用。^[raw/papers/skill-claw.md]

技能結構與觸發機制

每個技能（skill）是一個結構化的程序構件，包含：

Name / Description：觸發條件與用途說明
Procedural Steps：與工具和環境互動的明確步驟
API Endpoints / Port Configurations：環境特定的配置細節
Error Handling / Fallback Strategies：常見錯誤的應對方案

技能在推理時由 Agent 動態選擇與載入，根據當前任務的上下文從共享技能目錄中檢索最相關的技能。^[raw/papers/skill-claw.md]

Key Results

SkillClaw 在 WildClawBench（一個包含 60 個複雜任務、橫跨 6 個能力領域的真實世界 Agent 評測基準）上，以 Qwen3-Max 作為骨幹模型，進行了為期 6 天（6 輪）的連續 day-night 演化實驗。關鍵結果如下：

主觀測任務類別表現（6 天演化後）

類別	Day 1（基線）	Day 6（最終）	絕對增益	相對增益
Social Interaction	54.01%	60.34%	+6.33	+11.72%
Search & Retrieval	22.73%	34.55%	+11.82	+52.00%
Creative Synthesis	11.57%	21.80%	+10.23	+88.41%
Safety & Alignment	24.00%	32.00%	+8.00	+33.33%

演化模式分析

Social Interaction：最早出現大幅提升（第 2 天就達到 60.34% 並保持穩定），源於一個高影響工作流程瓶頸（跨部門 Slack 摘要與數據協調）被快速識別並修正。
Search & Retrieval：階段性提升模式（22.73% → 30.00% → 34.55%），反映了檢索任務的特性：低層級輸入可靠性（如檔案存在性檢查）必須先被解決，高層級約束感知規劃才能生效。
Creative Synthesis：早期大幅跳躍（11.57% → 21.80%），主因是環境設置瓶頸（工作目錄配置、檔案路徑處理）被解決；內容生成本身並非主要限制。
Safety & Alignment：最晚改善（到第 5-6 天才達到 32.00%），改進重點在於 Git fallback 目錄克隆協議等執行可靠性，而非表面任務分數。

受控驗證實驗（Skill Evolve Lite）

在 3 個自訂查詢（basic extraction、deadline parsing、save report）上的受控實驗顯示，單輪演化平均帶來 +42.1% 的提升（30.4% → 72.5%）。其中 save report 從 28.3% 提升到 100.0%，證實了當失敗源於缺失的環境特定程序知識時，技能演化可以完全解決問題。^[raw/papers/skill-claw.md]

Limitations

論文坦然承認以下限制：

小規模測試：實驗僅涉及 8 位並發使用者、有限回饋信號與互動深度，在用戶規模、時間跨度、任務多樣性上仍有很大擴展空間。
驗證的計算成本：候選技能必須在真實執行環境中完整運行並與當前技能對比，這帶來了顯著的額外 token 開銷。
演化異質性：不同類別的演化軌跡差異很大，並非所有類別都能在短期內持續改善——部分類別在早期建立最佳技能池後，後續候選更新持續被拒絕。
框架相容性邊界：SkillClaw 的設計針對 OpenClaw 風格的多使用者 Agent 生態系統，對於非 Claw 系列的 Agent 系統（如純對話式 Agent 或單使用者設定）需要額外的適配工作。
依賴現有技能庫的品質：SkillClaw 的演化效果受初始技能集品質的影響，如果初始技能集合嚴重不足，演化可能需要更長時間才能見效。^[raw/papers/skill-claw.md]

clawgui — 浙江大學提出的統一開源 GUI Agent 框架，涵蓋 RL 訓練、評測與部署。其 ClawGUI-Agent 的部署理念（結合 CLI 精確性與 GUI 普遍性）與 SkillClaw 的跨使用者技能同步有高度相關性。
memos — AI 記憶體作業系統研究，探討記憶的 Controllability、Plasticity 與 Evolvability。SkillClaw 的技能演化框架與 MemOS 的記憶可演化性有互補關係——技能可以視為結構化的「程序記憶單元」。
openhands — 通用 AI Agent 平台，專注軟體開發任務。作為 OpenClaw 生態的成員，openhands 可受益於 SkillClaw 的集體技能演化機制。
WildClawBench — SkillClaw 的評測基準，60 個真實世界 Agent 任務，覆蓋 6 個能力領域。
openclaw — SkillClaw 所基於的多使用者 Agent 系統架構，為集體技能演化提供生態系統基礎。
skill-stealing-attack — 探討 Agent 技能被逆向工程的安全性問題，與 SkillClaw 的技能共享機制形成互補的安全視角。
tool-attention-mcp-tax — MCP（Model Context Protocol）安全性研究，與 Agent 工具使用和上下文管理相關。^[raw/papers/skill-claw.md]

References

原始論文：arXiv:2604.08377v1 [cs.AI]，2026 年 4 月 9 日
作者：Ziyu Ma, Shidong Yang, Yuxiang Ji, Xucong Wang, Yong Wang, Yiming Hu, Tongwen Huang, Xiangxiang Chu（DreamX Team）
GitHub：https://github.com/AMAP-ML/SkillClaw
評測基準：WildClawBench（Ding et al., 2026）
相關框架：OpenClaw、CoPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw、NemoClaw

Quartz 4

Explorer

SkillClaw — SkillClaw：集體技能演化框架

SkillClaw

Overview

Core Contributions

Architecture / Approach

整體架構：封閉循環 Pipeline

技能結構與觸發機制

Key Results

主觀測任務類別表現（6 天演化後）

演化模式分析

受控驗證實驗（Skill Evolve Lite）

Limitations

References

Graph View

Table of Contents

Backlinks

Quartz 4

Explorer

SkillClaw — SkillClaw：集體技能演化框架

SkillClaw

Overview

Core Contributions

Architecture / Approach

整體架構：封閉循環 Pipeline

技能結構與觸發機制

Key Results

主觀測任務類別表現（6 天演化後）

演化模式分析

受控驗證實驗（Skill Evolve Lite）

Limitations

Related Entities

References

Graph View

Table of Contents

Backlinks