Abstract
DiffMAS 將多智能體系統中的潛在通訊(latent communication)視為可學習的運算元件,利用 KV Cache 作為連續的潛在通訊媒介讓梯度能夠穿越智能體邊界流動。在數學推理(AIME24、GPQA-Diamond)與程式碼生成(HumanEval+)基準上顯著提升,Qwen3-8B 在 AIME24 從 50.0% 提升至 76.7%(+26.7%)。
DiffMAS (Differentiated Multi-Agent Systems)
Overview
DiffMAS (Differentiated Multi-Agent Systems) 是一個監督式訓練框架,旨在將多智能體系統中的**潛在通訊(latent communication)**視為可學習的運算元件。該框架由 Ye Yu、Heming Liu、Haibo Jin 等人於 2026 年提出,發表於 arXiv (2604.21794)。
傳統多智能體系統通常將通訊視為固定介面——智能體之間透過自然語言文字交換資訊,這種**離散訊息傳遞(discrete message passing)**會在智能體之間形成優化邊界,阻礙端對端梯度傳播。DiffMAS 的核心創新在於利用 Key-Value (KV) Cache 作為連續的潛在通訊媒介,讓梯度能夠穿越智能體邊界流動,進而實現通訊行為與推理能力的聯合優化。
該框架在數學推理(AIME24/25、GPQA-Diamond)、程式碼生成(HumanEval+、MBPP+)及常識推理(OpenBookQA)等多個基準上均展現顯著提升,例如在 Qwen3-8B 上,AIME24 準確率從 50.0% 提升至 76.7%(+26.7%)。
Core Contributions
- 問題形式化:將智能體間通訊建模為優化問題,證明將通訊視為固定介面會阻止跨智能體資訊傳遞的端對端改進。
- 可微分通訊介面:提出 DiffMAS,將 KV 結構的潛在通訊視為智能體之間的任務自適應(task-adaptive)介面,支援梯度傳播。
- 端對端訓練:透過在多智能體潛在軌跡上進行監督式微調(SFT),使模型能夠同時學習如何編碼、解讀資訊以及執行推理。
- 顯著效能提升:在多個推理基準上取得領先成果,AIME24 提升達 +26.7%,GPQA-Diamond 提升達 +20.2%。^[raw/papers/diffmas-multi-agent-communication.md]
Architecture / Approach
系統架構:雙階段設計
DiffMAS 由 K 個順序排列的智能體組成,採用兩階段運作:
Stage I — KV Trace 建構
- 前 K-1 個智能體依序建構共享的 KV Trace
- 每個智能體透過 prefill 現有快取並附加新產生的 KV 區段(latent blocks)
- 此階段不進行梯度更新,僅累積潛在表示
Stage II — LoRA SFT
- 最終智能體對累積的 KV Cache 進行自迴歸解碼
- 透過交叉注意力(cross-attention)處理 KV Trace
- 僅更新最終智能體的 LoRA 參數,骨幹模型保持冻结
潛在區塊與軌跡空間
DiffMAS 定義了潛在區塊空間 ,每個階段發射 T 個潛在區塊。經過 j 個階段後,總區塊數為 ,軌跡空間為 。這種**非覆寫(non-overwriting)**設計使得所有中間區段都保留在最終軌跡中。
核心特性:梯度傳播保證
論文證明了命題 3.1(介面誘導梯度結構)——相較於覆寫式通訊(overwriting communication),DiffMAS 的拼接式介面不會引入與深度相關的乘法衰減因子。在 contractive Jacobian 假設下,覆寫系統的梯度信號會以 的速率幾何衰減,而 DiffMAS 的拼接介面則無此限制。^[raw/papers/diffmas-multi-agent-communication.md]
Key Results
主要 benchmark 結果
| 任務 | 單智能體 | TextMAS | LatentMAS | DiffMAS (提升) |
|---|---|---|---|---|
| AIME24 (Qwen3-8B) | 50.0% | 50.0% | 56.7% | 76.7% (+26.7%) |
| GPQA-Diamond (Qwen3-8B) | 39.9% | 43.4% | 45.5% | 60.1% (+20.2%) |
| HumanEval+ (Qwen3-14B) | 77.2% | 81.5% | 86.8% | 87.7% (+10.5%) |
| OpenBookQA (Qwen3-4B) | 80.1% | 81.8% | 77.6% | 83.2% (+3.1%) |
關鍵發現
- 規模效益:DiffMAS 在小模型上提升最為顯著(Qwen3-4B AIME24: +20.0%),但在大模型上仍保持穩定收益。
- 解碼穩定性:DiffMAS 的 token 層級困惑度(perplexity)更低且分佈更緊密(均值 1.24 vs. LatentMAS 的 1.31)。
- 自我一致性:在 AIME24 上,DiffMAS 展現向高一致性結果(3-4 個正確樣本)偏移的趨勢,表明更穩定的推理軌跡。
- 最優通訊步數:實驗顯示 10 步通訊即可達到最佳效果(76.7%),更多步數反而因雜訊累積而性能下降。
Limitations
- 軌跡膨脹:非覆寫設計使 KV Trace 的環境維度隨深度線性增長(),可能引入冗餘或干擾。
- C2C 基線的弱點:Cache-to-Cache 通訊方法在困難推理任務上表現較弱,原因是訓練數據(OpenHermes-2.5)主要為指令-following 數據,與長期推理軌跡分佈不匹配。
- 最優步數敏感:通訊步數並非越多越好,過長的潛在軌跡會因噪聲累積而損害性能。
- 訓練數據需求:需要針對不同任務領域進行任務特定的 LoRA 微調,對小樣本場景有一定要求。
Related Entities
- agentscope — 多智能體系統框架研究
- llm-multi-agent-challenges — LLM 多智能體系統挑戰與評估
- LoRA — DiffMAS 使用 LoRA 進行參數高效微調
- KV cache — 作為潛在通訊媒介的核心技術
- chain-of-thought — 推理過程中的中間表示,DiffMAS 的潛在軌跡類似於隱式 CoT
Relationship to Other Multi-Agent Papers
DiffMAS 的潛在通訊最佳化路徑與同時期的 evolving-orchestration-multi-agent 採取了互補的研究方向。Evolving Orchestration 探索如何在執行期動態調整多智能體之間的協作拓撲,而 DiffMAS 則專注於透過梯度傳播實現通訊介面的端對端學習——兩者都試圖突破傳統多智能體系統中通訊介面的固化問題,只是切入角度不同。DiffMAS 的 KV Cache 作為連續潛在空間的設計,與 AgentScope 的模擬paradigm 形成對比:AgentScope 傾向於在離散訊息空間中建模智能體互動,而 DiffMAS 則將通訊視為可微分的連續運算。
與多智能體推理領域的其他工作相比,DiffMAS 的核心假設是「通訊行為本身是可以學習的」——這與 agent-memory 系統中將記憶視為可訓練表示的概念共享深層結構聯繫。在 DiffMAS 的框架下,K 個智能體之間的 KV Trace 實際上形成了一種分散式的潛在記憶結構,每個智能體產生的 latent blocks 類似於 agent-memory 中的記憶單元,只是這些記憶單元直接參與梯度最佳化而非僅作為檢索的外部儲存。這種將通訊、推理與記憶統一在同一個可微分框架下的思路,可能是未來多智能體系統設計的重要方向。
Source: arXiv:2604.21794 — Learning to Communicate: Toward End-to-End Optimization of Multi-Agent Language Systems