Shadows in the Code: Exploring the Risks and Defenses of LLM-based Multi-Agent Software Development Systems

Overview

Shadows in the Code 由人民大學和螞蟻集團研究團隊於 2025 年 11 月發表(arXiv: 2511.18467,AAAI 2026 接收),發表了首個對 LLM-based 多智慧體軟體開發系統的綜合安全性分析

論文識別兩種危險情境:惡意使用者-善意 Agent(MU-BA)善意使用者-惡意 Agent(BU-MA),並提出 IMBIA(Implicit Malicious Behavior Injection Attack) 攻擊及其防禦方案 Adv-IMBIA。^[raw/papers/shadows-in-the-code.md]

Core Contributions

兩種風險情境

情境縮寫攻擊者目標
Malicious User, Benign AgentsMU-BA惡意使用者透過自然語言指令操縱善意 Agent 生成惡意程式碼
Benign User, Malicious AgentsBU-MA已被植入惡意行為的 Agent在軟體開發過程中暗中注入惡意功能

^[raw/papers/shadows-in-the-code.md]

IMBIA 攻擊

Implicit Malicious Behavior Injection (IMBIA) 展示如何在看似正常的軟體需求下,讓多智慧體系統生成隱藏在表面良性應用下的惡意程式碼。關鍵洞察:攻擊者利用 Agent 間的訊息傳遞和角色分工,將惡意行為「埋藏」在多個看似無害的程式碼提交中。

Adv-IMBIA 防禦

提出 Adv-IMBIA 作為防禦機制,針對 IMBIA 攻擊提供保護。重點發現:coding 和 testing 階段被破壞的 Agent 帶來最大的安全風險,這些關鍵 Agent 需要重點保護。^[raw/papers/shadows-in-the-code.md]

Architecture / Approach

評估框架

論文在三個主流多智慧體軟體開發框架上進行評估:

  • ChatDev
  • MetaGPT
  • AgentVerse

這些框架代表了三種不同的多智慧體軟體開發架構模式,提供了全面的漏洞模式分析。^[raw/papers/shadows-in-the-code.md]

Key Results

框架MU-BA 攻擊成功率BU-MA 攻擊成功率
ChatDev93%71%
MetaGPT45%84%
AgentVerse71%45%

Adv-IMBIA 防禦顯著降低了各場景的攻擊成功率,特別在 MU-BA 情境效果突出。

關鍵發現:

  • Coding 和 Testing Agent 是最關鍵的攻擊目標,對這兩個 Agent 的保護應優先處理
  • 不同框架的漏洞模式差異顯著,反映了架構設計對安全性的深遠影響

^[raw/papers/shadows-in-the-code.md]

Relationship to tool-poisoning-attack

本文與 tool-poisoning-attack 探讨不同的安全维度:Tool Poisoning 聚焦於工具綱要注入,而 IMBIA 攻擊聚焦於 Agent Profile 和指令層面的隱式惡意行為注入。兩者可作為互補的安全威脅分類。

^[raw/papers/shadows-in-the-code.md]

Limitations

  1. 框架覆蓋有限:僅評估三個框架,對更廣泛的多智慧體開發系統(如 Devin、Cline)適用性待驗證
  2. IMBIA 泛化性:攻擊方式針對特定 Agent 角色分工設計,對扁平架構(無明確角色區分)的泛化能力有限
  3. 防禦資源需求:Adv-IMBIA 需要額外資源進行檢測和驗證,實際部署存在性能開銷
  4. 社會工程維度:MU-BA 情境依賴對 Agent 系統prompt injection的深入理解,真實世界攻擊門檻可能高於實驗室環境
  5. 動態對抗演化:隨著防禦方法發布,攻擊者可能演化出能規避檢測的新 IMBIA 變體

^[raw/papers/shadows-in-the-code.md]

  • tool-poisoning-attack — 工具綱要注入攻擊(互補的安全威脅維度)
  • mindguard — 對抗精神攻擊的 Agent 防禦框架(另一種防禦思路)
  • skill-stealing-attack — Agent 技能竊取攻擊(安全領域的另一威脅類型)
  • openhands — AI 軟體開發 Agent 平台,與本文安全性分析直接相關
  • multi-agent-collaboration-survey — 多 Agent 協作框架(安全性分析的互補)
  • clawgui — GUI Agent 統一框架,其軟體生成場景與本文威脅模型相關