Abstract

Skill Stealing Attack 是首次針對 LLM Agent 系統進行的技能竊取實證研究，攻擊者僅透過與公開 Agent 介面互動即可竊取受保護的專有技能內容。論文發現僅需 3 次互動即可成功提取技能，在基準設定下平均達到 48% EM、79.95% ROUGE-L、95.11% cosine similarity。GPT-5 和 Kimi-k2.5 最高整體洩漏，攻擊可跨平台（Claude Code、Codex）轉移，並在 ChatGPT 與 Claude Web 介面均成功提取目標技能。

Skill Stealing Attack

Overview

Skill Stealing Attack 是一種 黑箱（black-box）技能竊取攻擊，攻擊者僅透過與公開的 LLM Agent 介面互動（API 呼叫或 Web 介面），無需任何後端存取權限，即可竊取 Agent 系統中受保護的專有技能（skills）內容。這是首次針對 LLM Agent 系統進行的技能竊取實證研究，論文來自 Zihan Wang、Rui Zhang、Yu Liu 等人（arXiv:2604.21829v1 [cs.CR]，2026 年 4 月），由電子科技大學 Guowen Xu 團隊發表。

與傳統的 System Prompt 竊取不同，技能在 Agent 系統中更加模組化、結構化，並直接與市場流通和貨幣化掛鉤。技能不僅包含提示文本，還涵蓋精心策劃的工作流程、模板、腳本、以及領域特定的營運知識。一旦被竊取，這些專有技能可以幾乎零成本地被複製、再分發甚至轉售，對技能創作者的權益構成嚴重威脅。^[raw/papers/skill-stealing-attack.md]

值得注意的是，論文的研究動機與日益增長的**技能經濟（skill economy）**密不可分。公開技能市場（如 skills.sh）已報告超過 90,368 個已發布技能、9,485 位發布者和 2,430 萬次累計安裝；付費市場（如 Claw Mart）則有超過 2,000 個上架商品和超過 $100,000 的創作者收益。這種商業生態系統直接催生了對技能盜竊攻擊的強烈需求。^[raw/papers/skill-stealing-attack.md]

Core Contributions

論文的貢獻可歸納為以下四個面向：

首次識別並系統化技能竊取攻擊：首次將「技能竊取」定義為 Agent 系統的新型安全威脅——專有技能可透過對抗性提示被非法提取。這區別於傳統的 prompt 竊取，因為技能更具結構性且直接涉及貨幣化利益。
自動化技能竊取提示生成框架：基於先前 prompt-stealing 研究提出攻擊分類法（taxonomy），構建了一個能自動生成多樣化、高效能竊取提示的 Agent 框架，支援從場景建構到結構注入的完整流程。
多平台大規模評測：在 3 種商業 Agent 架構（OpenCode、Claude Code、Codex）、5 種代表性 LLM（GPT-5、Kimi-k2.5、Deepseek-V3.2、Claude-haiku-4.5、MiniMax-M2.7）上進行系統性評測，並使用 4 種互補的洩漏指標進行量化分析。
三階段輕量級防禦設計：提出涵蓋輸入（input）、推理（inference）和輸出（output）三個階段的防禦機制，包括輸入意圖偵測器、SkillGuard-5 上下文強化，以及 LAN（LLM-and-NVRecall）輸出過濾。^[raw/papers/skill-stealing-attack.md]

Architecture / Approach

威脅模型（Threat Model）

攻擊者目標：恢復目標 Agent 服務中的完整專有技能內容（SKILL.md），可以是原始形式或保留高語義相似度的轉換形式。目標內容可能包括技能描述、隱藏的工作流程指示、支援模板、執行邏輯或其他定義 Agent 專業任務行為的配置細節。

攻擊者能力：攻擊者是現實的黑箱對手，僅透過公開的使用者介面或 API 與目標 Agent 互動。可以跨多輪提交任意自然語言查詢，並根據先前的回應調整後續查詢，但無法直接存取服務提供者的後端，包括模型權重、系統配置、本地技能檔案或內部編排邏輯。

防禦者能力：防禦者是 Agent 服務提供者，對部署的系統有完整控制權，可以修改系統指令、添加防禦特定提示、調整技能如何注入模型上下文，並在不同執行階段部署保護機制。^[raw/papers/skill-stealing-attack.md]

攻擊流程（Four-Stage Leakage Process）

威脅場景包含四個代表性階段：

提示提交：黑箱使用者透過標準 API 請求向 Agent 提交精心設計的提取導向提示。
技能讀取：在請求處理期間，Agent 存取相關的本地技能檔案（如 SKILL.md）作為其內部執行的一部分。
內容洩漏：模型消費隱藏內容後，可能在回應中重現這些內容——無論是逐字複製還是保留受保護指示的重新表述形式。
技能回收：攻擊者收集返回的文字，未直接破解後端即恢復了專有技能內容。^[raw/papers/skill-stealing-attack.md]

自動化竊取提示生成框架

框架由三個主要模組構成：

Seed Generation（種子生成）：使用 GPT-5.4 生成 10 個通用提取種子提示，表達竊取隱藏技能內容的核心意圖。每個策略生成 10 個提示，每個提示由不同種子實例化。

Prompt Optimization（提示優化）：從種子池出發，透過兩個攻擊維度優化提示：

Scenario Construction（場景建構）：教育場景（Educational）、假設場景（Hypothetical）、角色扮演場景（Roleplay）或無場景（None）
Structure Injection（結構注入）：Chain-of-Thought（逐步推理）或 Few-Shot Demonstration（少樣本演示）

這產生 4×3 = 12 種策略組合，加上多樣性檢查（embedding-based filtering，cosine similarity threshold = 0.75），最終生成 120 個竊取提示。

Stealing Evaluation（竊取評估）：使用產生的提示對目標 Agent 系統構建技能竊取基準，衡量不同提示變體恢復受保護技能內容的有效性。^[raw/papers/skill-stealing-attack.md]

評估指標（Evaluation Metrics）

論文採用四種互補的洩漏指標：

指標	描述
EM（Exact Match）	標準化後目標技能文字是否完全包含在回應中
ROUGE-L	基於最長公共子序列的詞彙重疊量
Cosine Similarity	使用 text-embedding-3-small 計算語義相似度
LLM-Leakage Ratio	LLM-as-a-judge 評估整體洩漏程度（0-1）

^[raw/papers/skill-stealing-attack.md]

Key Results

核心發現：3 次互動即可竊取技能

論文最關鍵的發現是：只需 3 次互動即可成功提取技能，這對專有技能版權構成嚴重威脅。在基準設定（NO,NO）下，平均已達到 48% EM、79.95% ROUGE-L、95.11% cosine similarity 和 0.91 LLM-leakage ratio。

策略效果分析

(NO,FS) — 無場景 + Few-Shot：最強的平均 ROUGE-L（90.74%）和 cosine similarity（97.34%），LLM-leakage ratio 達 0.93。少樣本演示最可靠地保留被竊技能的詞彙和語義形式。
(NO,COT) — 無場景 + Chain-of-Thought：最高平均 EM（72%）和 LLM-leakage ratio（0.95），但往往會擾亂輸出格式，更容易產生明確且長的回覆，但不一定保持語義一致性。
Scenario Rationalization：角色扮演場景在多數設定中易於抑制，而教育場景和假設場景的攻擊效果更持久。

模型異質性

不同模型對技能竊取的抵抗能力差異顯著：

GPT-5 和 Kimi-k2.5：最高整體洩漏，在多數策略組合下仍然脆弱。GPT-5 在基準下已達到 90% EM，Kimi-k2.5 在多個設定下達到近飽和效能，甚至在多個 Chain-of-Thought 設定下達到 100% EM。
DeepSeek-V3.2：基準設定下 EM 為零，但少樣本和 Chain-of-Thought 變體仍產生強語義洩漏，顯示精確提取低估了其實際暴露程度。
Claude-haiku-4.5：對策略最敏感——在直接提取或少樣本提取下洩漏嚴重，但在角色扮演結合 Chain-of-Thought 等若干設定下效能急劇下降。

跨平台轉移攻擊

在商業 coding agent 上的跨平台評估顯示攻擊具有可轉移性：

Claude Code（MiniMax-M2.7）：EM 在 10%-60% 範圍，RG 和 COS 在多數設定下非常高，顯示較強的文字還原能力。
Codex（GPT-5）：在所有設定下 EM 近零，但 RG、COS 和 LLM 在多個案例中仍高（如 ED,FS），顯示即使精確字串提取失敗，語義洩漏仍然顯著。

Web 平台案例研究

攻擊不僅限於本地框架——在 ChatGPT（GPT-5.4）和 Claude（Sonnet-4.6）的 Web 介面上均成功提取了目標技能，顯示威脅可跨前沿 Web Agent 架構和模型系列轉移，而非依賴特定部署堆疊。^[raw/papers/skill-stealing-attack.md]

Limitations

論文坦然承認以下限制：

攻擊成本低且易自動化：即使防禦能阻擋大部分攻擊嘗試，攻擊者仍可以極低成本自動啟動多輪不同變體的攻擊——只需一次成功提取即可造成嚴重的版權侵害。
防禦並非萬能：三階段防禦（輸入檢測、推理強化、輸出過濾）雖然達到優異效果，但都無法完全阻止技能竊取。輸入檢測器在基準上達到完美檢測（TPR=1.00, FPR=0.00），SkillGuard-5 將 EM 降至 0%，LAN 輸出過濾將 LLM-leakage ratio 從 0.95 降至 0.06，但即使這些綜合防禦疊加，仍存在剩餘攻擊面。 ^[raw/papers/skill-stealing-attack.md]
防禦的適應性挑戰：防禦主要針對基準攻擊設計，面對經過自適應調整的提示變體時效果會有所下降，特別是在多輪互動場景下。
技能價值差異：不同技能對攻擊的敏感度差異很大——有些技能（如 azure-ai）在多數設定下達到幾乎飽和的 EM，顯示一旦模型被誘導暴露隱藏指示，精確恢復就變得非常可靠；而 web-design-guidelines 和 microsoft-foundry 等技能對提示結構更敏感。
版權風險被嚴重忽略：論文認為，技能周圍的版權風險在整個專有 Agent 生態系統中被嚴重忽略，需要更強的保護機制來提供更嚴格的保護保證。^[raw/papers/skill-stealing-attack.md]

skill-claw — 多使用者 LLM Agent 集體技能演化框架，與本研究的技能安全保護形成互補：SkillClaw 研究如何讓技能在多使用者間安全共享與演化，Skill Stealing Attack 研究技能被竊取的風險與防禦。
tool-attention-mcp-tax — MCP（Model Context Protocol）安全性研究，專注於工具使用和上下文管理中的安全問題，與 Agent 技能保護的威脅模型有間接相關性——兩者都涉及 LLM Agent 系統的上下文和工具互動安全。
openhands — 通用 AI Agent 平台，可作為技能竊取攻擊的潛在目標系統之一。
openclaw — 多使用者 Agent 系統架構，為技能竊取攻擊提供生態系統背景。

References

原始論文：arXiv:2604.21829v1 [cs.CR]，2026 年 4 月 23 日
作者：Zihan Wang, Rui Zhang, Yu Liu, Chi Liu, Qingchuan Zhao, Hongwei Li, Guowen Xu（電子科技大學）
技能經濟數據來源：skills.sh 儀表板（2026-03-31）、Claw Mart
評測框架：OpenCode agent framework
評測模型：GPT-5、Kimi-k2.5、Deepseek-V3.2、Claude-haiku-4.5、MiniMax-M2.7
洩漏指標：EM、ROUGE-L、cosine similarity（text-embedding-3-small）、LLM-leakage ratio（GPT-5.4 judge）

Quartz 4

Explorer

Skill Stealing Attack — 技能竊取攻擊：代理安全研究

Skill Stealing Attack

Overview

Core Contributions

Architecture / Approach

威脅模型（Threat Model）

攻擊流程（Four-Stage Leakage Process）

自動化竊取提示生成框架

評估指標（Evaluation Metrics）

Key Results

核心發現：3 次互動即可竊取技能

策略效果分析

模型異質性

跨平台轉移攻擊

Web 平台案例研究

Limitations

References

Graph View

Table of Contents

Backlinks

Quartz 4

Explorer

Skill Stealing Attack — 技能竊取攻擊：代理安全研究

Skill Stealing Attack

Overview

Core Contributions

Architecture / Approach

威脅模型（Threat Model）

攻擊流程（Four-Stage Leakage Process）

自動化竊取提示生成框架

評估指標（Evaluation Metrics）

Key Results

核心發現：3 次互動即可竊取技能

策略效果分析

模型異質性

跨平台轉移攻擊

Web 平台案例研究

Limitations

Related Entities

References

Graph View

Table of Contents

Backlinks