Abstract
Skill Stealing Attack 是首次針對 LLM Agent 系統進行的技能竊取實證研究,攻擊者僅透過與公開 Agent 介面互動即可竊取受保護的專有技能內容。論文發現僅需 3 次互動即可成功提取技能,在基準設定下平均達到 48% EM、79.95% ROUGE-L、95.11% cosine similarity。GPT-5 和 Kimi-k2.5 最高整體洩漏,攻擊可跨平台(Claude Code、Codex)轉移,並在 ChatGPT 與 Claude Web 介面均成功提取目標技能。
Skill Stealing Attack
Overview
Skill Stealing Attack 是一種 黑箱(black-box)技能竊取攻擊,攻擊者僅透過與公開的 LLM Agent 介面互動(API 呼叫或 Web 介面),無需任何後端存取權限,即可竊取 Agent 系統中受保護的專有技能(skills)內容。這是首次針對 LLM Agent 系統進行的技能竊取實證研究,論文來自 Zihan Wang、Rui Zhang、Yu Liu 等人(arXiv:2604.21829v1 [cs.CR],2026 年 4 月),由電子科技大學 Guowen Xu 團隊發表。
與傳統的 System Prompt 竊取不同,技能在 Agent 系統中更加模組化、結構化,並直接與市場流通和貨幣化掛鉤。技能不僅包含提示文本,還涵蓋精心策劃的工作流程、模板、腳本、以及領域特定的營運知識。一旦被竊取,這些專有技能可以幾乎零成本地被複製、再分發甚至轉售,對技能創作者的權益構成嚴重威脅。^[raw/papers/skill-stealing-attack.md]
值得注意的是,論文的研究動機與日益增長的**技能經濟(skill economy)**密不可分。公開技能市場(如 skills.sh)已報告超過 90,368 個已發布技能、9,485 位發布者和 2,430 萬次累計安裝;付費市場(如 Claw Mart)則有超過 2,000 個上架商品和超過 $100,000 的創作者收益。這種商業生態系統直接催生了對技能盜竊攻擊的強烈需求。^[raw/papers/skill-stealing-attack.md]
Core Contributions
論文的貢獻可歸納為以下四個面向:
-
首次識別並系統化技能竊取攻擊:首次將「技能竊取」定義為 Agent 系統的新型安全威脅——專有技能可透過對抗性提示被非法提取。這區別於傳統的 prompt 竊取,因為技能更具結構性且直接涉及貨幣化利益。
-
自動化技能竊取提示生成框架:基於先前 prompt-stealing 研究提出攻擊分類法(taxonomy),構建了一個能自動生成多樣化、高效能竊取提示的 Agent 框架,支援從場景建構到結構注入的完整流程。
-
多平台大規模評測:在 3 種商業 Agent 架構(OpenCode、Claude Code、Codex)、5 種代表性 LLM(GPT-5、Kimi-k2.5、Deepseek-V3.2、Claude-haiku-4.5、MiniMax-M2.7)上進行系統性評測,並使用 4 種互補的洩漏指標進行量化分析。
-
三階段輕量級防禦設計:提出涵蓋輸入(input)、推理(inference)和輸出(output)三個階段的防禦機制,包括輸入意圖偵測器、SkillGuard-5 上下文強化,以及 LAN(LLM-and-NVRecall)輸出過濾。^[raw/papers/skill-stealing-attack.md]
Architecture / Approach
威脅模型(Threat Model)
攻擊者目標:恢復目標 Agent 服務中的完整專有技能內容(SKILL.md),可以是原始形式或保留高語義相似度的轉換形式。目標內容可能包括技能描述、隱藏的工作流程指示、支援模板、執行邏輯或其他定義 Agent 專業任務行為的配置細節。
攻擊者能力:攻擊者是現實的黑箱對手,僅透過公開的使用者介面或 API 與目標 Agent 互動。可以跨多輪提交任意自然語言查詢,並根據先前的回應調整後續查詢,但無法直接存取服務提供者的後端,包括模型權重、系統配置、本地技能檔案或內部編排邏輯。
防禦者能力:防禦者是 Agent 服務提供者,對部署的系統有完整控制權,可以修改系統指令、添加防禦特定提示、調整技能如何注入模型上下文,並在不同執行階段部署保護機制。^[raw/papers/skill-stealing-attack.md]
攻擊流程(Four-Stage Leakage Process)
威脅場景包含四個代表性階段:
- 提示提交:黑箱使用者透過標準 API 請求向 Agent 提交精心設計的提取導向提示。
- 技能讀取:在請求處理期間,Agent 存取相關的本地技能檔案(如 SKILL.md)作為其內部執行的一部分。
- 內容洩漏:模型消費隱藏內容後,可能在回應中重現這些內容——無論是逐字複製還是保留受保護指示的重新表述形式。
- 技能回收:攻擊者收集返回的文字,未直接破解後端即恢復了專有技能內容。^[raw/papers/skill-stealing-attack.md]
自動化竊取提示生成框架
框架由三個主要模組構成:
Seed Generation(種子生成):使用 GPT-5.4 生成 10 個通用提取種子提示,表達竊取隱藏技能內容的核心意圖。每個策略生成 10 個提示,每個提示由不同種子實例化。
Prompt Optimization(提示優化):從種子池出發,透過兩個攻擊維度優化提示:
- Scenario Construction(場景建構):教育場景(Educational)、假設場景(Hypothetical)、角色扮演場景(Roleplay)或無場景(None)
- Structure Injection(結構注入):Chain-of-Thought(逐步推理)或 Few-Shot Demonstration(少樣本演示)
這產生 4×3 = 12 種策略組合,加上多樣性檢查(embedding-based filtering,cosine similarity threshold = 0.75),最終生成 120 個竊取提示。
Stealing Evaluation(竊取評估):使用產生的提示對目標 Agent 系統構建技能竊取基準,衡量不同提示變體恢復受保護技能內容的有效性。^[raw/papers/skill-stealing-attack.md]
評估指標(Evaluation Metrics)
論文採用四種互補的洩漏指標:
| 指標 | 描述 |
|---|---|
| EM(Exact Match) | 標準化後目標技能文字是否完全包含在回應中 |
| ROUGE-L | 基於最長公共子序列的詞彙重疊量 |
| Cosine Similarity | 使用 text-embedding-3-small 計算語義相似度 |
| LLM-Leakage Ratio | LLM-as-a-judge 評估整體洩漏程度(0-1) |
^[raw/papers/skill-stealing-attack.md]
Key Results
核心發現:3 次互動即可竊取技能
論文最關鍵的發現是:只需 3 次互動即可成功提取技能,這對專有技能版權構成嚴重威脅。在基準設定(NO,NO)下,平均已達到 48% EM、79.95% ROUGE-L、95.11% cosine similarity 和 0.91 LLM-leakage ratio。
策略效果分析
- (NO,FS) — 無場景 + Few-Shot:最強的平均 ROUGE-L(90.74%)和 cosine similarity(97.34%),LLM-leakage ratio 達 0.93。少樣本演示最可靠地保留被竊技能的詞彙和語義形式。
- (NO,COT) — 無場景 + Chain-of-Thought:最高平均 EM(72%)和 LLM-leakage ratio(0.95),但往往會擾亂輸出格式,更容易產生明確且長的回覆,但不一定保持語義一致性。
- Scenario Rationalization:角色扮演場景在多數設定中易於抑制,而教育場景和假設場景的攻擊效果更持久。
模型異質性
不同模型對技能竊取的抵抗能力差異顯著:
- GPT-5 和 Kimi-k2.5:最高整體洩漏,在多數策略組合下仍然脆弱。GPT-5 在基準下已達到 90% EM,Kimi-k2.5 在多個設定下達到近飽和效能,甚至在多個 Chain-of-Thought 設定下達到 100% EM。
- DeepSeek-V3.2:基準設定下 EM 為零,但少樣本和 Chain-of-Thought 變體仍產生強語義洩漏,顯示精確提取低估了其實際暴露程度。
- Claude-haiku-4.5:對策略最敏感——在直接提取或少樣本提取下洩漏嚴重,但在角色扮演結合 Chain-of-Thought 等若干設定下效能急劇下降。
跨平台轉移攻擊
在商業 coding agent 上的跨平台評估顯示攻擊具有可轉移性:
- Claude Code(MiniMax-M2.7):EM 在 10%-60% 範圍,RG 和 COS 在多數設定下非常高,顯示較強的文字還原能力。
- Codex(GPT-5):在所有設定下 EM 近零,但 RG、COS 和 LLM 在多個案例中仍高(如 ED,FS),顯示即使精確字串提取失敗,語義洩漏仍然顯著。
Web 平台案例研究
攻擊不僅限於本地框架——在 ChatGPT(GPT-5.4)和 Claude(Sonnet-4.6)的 Web 介面上均成功提取了目標技能,顯示威脅可跨前沿 Web Agent 架構和模型系列轉移,而非依賴特定部署堆疊。^[raw/papers/skill-stealing-attack.md]
Limitations
論文坦然承認以下限制:
-
攻擊成本低且易自動化:即使防禦能阻擋大部分攻擊嘗試,攻擊者仍可以極低成本自動啟動多輪不同變體的攻擊——只需一次成功提取即可造成嚴重的版權侵害。
-
防禦並非萬能:三階段防禦(輸入檢測、推理強化、輸出過濾)雖然達到優異效果,但都無法完全阻止技能竊取。輸入檢測器在基準上達到完美檢測(TPR=1.00, FPR=0.00),SkillGuard-5 將 EM 降至 0%,LAN 輸出過濾將 LLM-leakage ratio 從 0.95 降至 0.06,但即使這些綜合防禦疊加,仍存在剩餘攻擊面。 ^[raw/papers/skill-stealing-attack.md]
-
防禦的適應性挑戰:防禦主要針對基準攻擊設計,面對經過自適應調整的提示變體時效果會有所下降,特別是在多輪互動場景下。
-
技能價值差異:不同技能對攻擊的敏感度差異很大——有些技能(如 azure-ai)在多數設定下達到幾乎飽和的 EM,顯示一旦模型被誘導暴露隱藏指示,精確恢復就變得非常可靠;而 web-design-guidelines 和 microsoft-foundry 等技能對提示結構更敏感。
-
版權風險被嚴重忽略:論文認為,技能周圍的版權風險在整個專有 Agent 生態系統中被嚴重忽略,需要更強的保護機制來提供更嚴格的保護保證。^[raw/papers/skill-stealing-attack.md]
Related Entities
- skill-claw — 多使用者 LLM Agent 集體技能演化框架,與本研究的技能安全保護形成互補:SkillClaw 研究如何讓技能在多使用者間安全共享與演化,Skill Stealing Attack 研究技能被竊取的風險與防禦。
- tool-attention-mcp-tax — MCP(Model Context Protocol)安全性研究,專注於工具使用和上下文管理中的安全問題,與 Agent 技能保護的威脅模型有間接相關性——兩者都涉及 LLM Agent 系統的上下文和工具互動安全。
- openhands — 通用 AI Agent 平台,可作為技能竊取攻擊的潛在目標系統之一。
- openclaw — 多使用者 Agent 系統架構,為技能竊取攻擊提供生態系統背景。
References
- 原始論文:arXiv:2604.21829v1 [cs.CR],2026 年 4 月 23 日
- 作者:Zihan Wang, Rui Zhang, Yu Liu, Chi Liu, Qingchuan Zhao, Hongwei Li, Guowen Xu(電子科技大學)
- 技能經濟數據來源:skills.sh 儀表板(2026-03-31)、Claw Mart
- 評測框架:OpenCode agent framework
- 評測模型:GPT-5、Kimi-k2.5、Deepseek-V3.2、Claude-haiku-4.5、MiniMax-M2.7
- 洩漏指標:EM、ROUGE-L、cosine similarity(text-embedding-3-small)、LLM-leakage ratio(GPT-5.4 judge)