Shadows in the Code: Exploring the Risks and Defenses of LLM-based Multi-Agent Software Development Systems
Overview
Shadows in the Code 由人民大學和螞蟻集團研究團隊於 2025 年 11 月發表(arXiv: 2511.18467,AAAI 2026 接收),發表了首個對 LLM-based 多智慧體軟體開發系統的綜合安全性分析。
論文識別兩種危險情境:惡意使用者-善意 Agent(MU-BA) 和 善意使用者-惡意 Agent(BU-MA),並提出 IMBIA(Implicit Malicious Behavior Injection Attack) 攻擊及其防禦方案 Adv-IMBIA。^[raw/papers/shadows-in-the-code.md]
Core Contributions
兩種風險情境
| 情境 | 縮寫 | 攻擊者 | 目標 |
|---|---|---|---|
| Malicious User, Benign Agents | MU-BA | 惡意使用者 | 透過自然語言指令操縱善意 Agent 生成惡意程式碼 |
| Benign User, Malicious Agents | BU-MA | 已被植入惡意行為的 Agent | 在軟體開發過程中暗中注入惡意功能 |
^[raw/papers/shadows-in-the-code.md]
IMBIA 攻擊
Implicit Malicious Behavior Injection (IMBIA) 展示如何在看似正常的軟體需求下,讓多智慧體系統生成隱藏在表面良性應用下的惡意程式碼。關鍵洞察:攻擊者利用 Agent 間的訊息傳遞和角色分工,將惡意行為「埋藏」在多個看似無害的程式碼提交中。
Adv-IMBIA 防禦
提出 Adv-IMBIA 作為防禦機制,針對 IMBIA 攻擊提供保護。重點發現:coding 和 testing 階段被破壞的 Agent 帶來最大的安全風險,這些關鍵 Agent 需要重點保護。^[raw/papers/shadows-in-the-code.md]
Architecture / Approach
評估框架
論文在三個主流多智慧體軟體開發框架上進行評估:
- ChatDev
- MetaGPT
- AgentVerse
這些框架代表了三種不同的多智慧體軟體開發架構模式,提供了全面的漏洞模式分析。^[raw/papers/shadows-in-the-code.md]
Key Results
| 框架 | MU-BA 攻擊成功率 | BU-MA 攻擊成功率 |
|---|---|---|
| ChatDev | 93% | 71% |
| MetaGPT | 45% | 84% |
| AgentVerse | 71% | 45% |
Adv-IMBIA 防禦顯著降低了各場景的攻擊成功率,特別在 MU-BA 情境效果突出。
關鍵發現:
- Coding 和 Testing Agent 是最關鍵的攻擊目標,對這兩個 Agent 的保護應優先處理
- 不同框架的漏洞模式差異顯著,反映了架構設計對安全性的深遠影響
^[raw/papers/shadows-in-the-code.md]
Relationship to tool-poisoning-attack
本文與 tool-poisoning-attack 探讨不同的安全维度:Tool Poisoning 聚焦於工具綱要注入,而 IMBIA 攻擊聚焦於 Agent Profile 和指令層面的隱式惡意行為注入。兩者可作為互補的安全威脅分類。
^[raw/papers/shadows-in-the-code.md]
Limitations
- 框架覆蓋有限:僅評估三個框架,對更廣泛的多智慧體開發系統(如 Devin、Cline)適用性待驗證
- IMBIA 泛化性:攻擊方式針對特定 Agent 角色分工設計,對扁平架構(無明確角色區分)的泛化能力有限
- 防禦資源需求:Adv-IMBIA 需要額外資源進行檢測和驗證,實際部署存在性能開銷
- 社會工程維度:MU-BA 情境依賴對 Agent 系統prompt injection的深入理解,真實世界攻擊門檻可能高於實驗室環境
- 動態對抗演化:隨著防禦方法發布,攻擊者可能演化出能規避檢測的新 IMBIA 變體
^[raw/papers/shadows-in-the-code.md]
Related Entities & Concepts
- tool-poisoning-attack — 工具綱要注入攻擊(互補的安全威脅維度)
- mindguard — 對抗精神攻擊的 Agent 防禦框架(另一種防禦思路)
- skill-stealing-attack — Agent 技能竊取攻擊(安全領域的另一威脅類型)
- openhands — AI 軟體開發 Agent 平台,與本文安全性分析直接相關
- multi-agent-collaboration-survey — 多 Agent 協作框架(安全性分析的互補)
- clawgui — GUI Agent 統一框架,其軟體生成場景與本文威脅模型相關