Abstract

DiffMAS 將多智能體系統中的潛在通訊(latent communication)視為可學習的運算元件,利用 KV Cache 作為連續的潛在通訊媒介讓梯度能夠穿越智能體邊界流動。在數學推理(AIME24、GPQA-Diamond)與程式碼生成(HumanEval+)基準上顯著提升,Qwen3-8B 在 AIME24 從 50.0% 提升至 76.7%(+26.7%)。

DiffMAS (Differentiated Multi-Agent Systems)

Overview

DiffMAS (Differentiated Multi-Agent Systems) 是一個監督式訓練框架,旨在將多智能體系統中的**潛在通訊(latent communication)**視為可學習的運算元件。該框架由 Ye Yu、Heming Liu、Haibo Jin 等人於 2026 年提出,發表於 arXiv (2604.21794)。

傳統多智能體系統通常將通訊視為固定介面——智能體之間透過自然語言文字交換資訊,這種**離散訊息傳遞(discrete message passing)**會在智能體之間形成優化邊界,阻礙端對端梯度傳播。DiffMAS 的核心創新在於利用 Key-Value (KV) Cache 作為連續的潛在通訊媒介,讓梯度能夠穿越智能體邊界流動,進而實現通訊行為與推理能力的聯合優化。

該框架在數學推理(AIME24/25、GPQA-Diamond)、程式碼生成(HumanEval+、MBPP+)及常識推理(OpenBookQA)等多個基準上均展現顯著提升,例如在 Qwen3-8B 上,AIME24 準確率從 50.0% 提升至 76.7%(+26.7%)。

Core Contributions

  1. 問題形式化:將智能體間通訊建模為優化問題,證明將通訊視為固定介面會阻止跨智能體資訊傳遞的端對端改進。
  2. 可微分通訊介面:提出 DiffMAS,將 KV 結構的潛在通訊視為智能體之間的任務自適應(task-adaptive)介面,支援梯度傳播。
  3. 端對端訓練:透過在多智能體潛在軌跡上進行監督式微調(SFT),使模型能夠同時學習如何編碼、解讀資訊以及執行推理。
  4. 顯著效能提升:在多個推理基準上取得領先成果,AIME24 提升達 +26.7%,GPQA-Diamond 提升達 +20.2%。^[raw/papers/diffmas-multi-agent-communication.md]

Architecture / Approach

系統架構:雙階段設計

DiffMAS 由 K 個順序排列的智能體組成,採用兩階段運作:

Stage I — KV Trace 建構

  • 前 K-1 個智能體依序建構共享的 KV Trace
  • 每個智能體透過 prefill 現有快取並附加新產生的 KV 區段(latent blocks)
  • 此階段不進行梯度更新,僅累積潛在表示

Stage II — LoRA SFT

  • 最終智能體對累積的 KV Cache 進行自迴歸解碼
  • 透過交叉注意力(cross-attention)處理 KV Trace
  • 僅更新最終智能體的 LoRA 參數,骨幹模型保持冻结

潛在區塊與軌跡空間

DiffMAS 定義了潛在區塊空間 ,每個階段發射 T 個潛在區塊。經過 j 個階段後,總區塊數為 ,軌跡空間為 。這種**非覆寫(non-overwriting)**設計使得所有中間區段都保留在最終軌跡中。

核心特性:梯度傳播保證

論文證明了命題 3.1(介面誘導梯度結構)——相較於覆寫式通訊(overwriting communication),DiffMAS 的拼接式介面不會引入與深度相關的乘法衰減因子。在 contractive Jacobian 假設下,覆寫系統的梯度信號會以 的速率幾何衰減,而 DiffMAS 的拼接介面則無此限制。^[raw/papers/diffmas-multi-agent-communication.md]

Key Results

主要 benchmark 結果

任務單智能體TextMASLatentMASDiffMAS (提升)
AIME24 (Qwen3-8B)50.0%50.0%56.7%76.7% (+26.7%)
GPQA-Diamond (Qwen3-8B)39.9%43.4%45.5%60.1% (+20.2%)
HumanEval+ (Qwen3-14B)77.2%81.5%86.8%87.7% (+10.5%)
OpenBookQA (Qwen3-4B)80.1%81.8%77.6%83.2% (+3.1%)

關鍵發現

  • 規模效益:DiffMAS 在小模型上提升最為顯著(Qwen3-4B AIME24: +20.0%),但在大模型上仍保持穩定收益。
  • 解碼穩定性:DiffMAS 的 token 層級困惑度(perplexity)更低且分佈更緊密(均值 1.24 vs. LatentMAS 的 1.31)。
  • 自我一致性:在 AIME24 上,DiffMAS 展現向高一致性結果(3-4 個正確樣本)偏移的趨勢,表明更穩定的推理軌跡。
  • 最優通訊步數:實驗顯示 10 步通訊即可達到最佳效果(76.7%),更多步數反而因雜訊累積而性能下降。

Limitations

  1. 軌跡膨脹:非覆寫設計使 KV Trace 的環境維度隨深度線性增長(),可能引入冗餘或干擾。
  2. C2C 基線的弱點:Cache-to-Cache 通訊方法在困難推理任務上表現較弱,原因是訓練數據(OpenHermes-2.5)主要為指令-following 數據,與長期推理軌跡分佈不匹配。
  3. 最優步數敏感:通訊步數並非越多越好,過長的潛在軌跡會因噪聲累積而損害性能。
  4. 訓練數據需求:需要針對不同任務領域進行任務特定的 LoRA 微調,對小樣本場景有一定要求。
  • agentscope — 多智能體系統框架研究
  • llm-multi-agent-challenges — LLM 多智能體系統挑戰與評估
  • LoRA — DiffMAS 使用 LoRA 進行參數高效微調
  • KV cache — 作為潛在通訊媒介的核心技術
  • chain-of-thought — 推理過程中的中間表示,DiffMAS 的潛在軌跡類似於隱式 CoT

Relationship to Other Multi-Agent Papers

DiffMAS 的潛在通訊最佳化路徑與同時期的 evolving-orchestration-multi-agent 採取了互補的研究方向。Evolving Orchestration 探索如何在執行期動態調整多智能體之間的協作拓撲,而 DiffMAS 則專注於透過梯度傳播實現通訊介面的端對端學習——兩者都試圖突破傳統多智能體系統中通訊介面的固化問題,只是切入角度不同。DiffMAS 的 KV Cache 作為連續潛在空間的設計,與 AgentScope 的模擬paradigm 形成對比:AgentScope 傾向於在離散訊息空間中建模智能體互動,而 DiffMAS 則將通訊視為可微分的連續運算。

與多智能體推理領域的其他工作相比,DiffMAS 的核心假設是「通訊行為本身是可以學習的」——這與 agent-memory 系統中將記憶視為可訓練表示的概念共享深層結構聯繫。在 DiffMAS 的框架下,K 個智能體之間的 KV Trace 實際上形成了一種分散式的潛在記憶結構,每個智能體產生的 latent blocks 類似於 agent-memory 中的記憶單元,只是這些記憶單元直接參與梯度最佳化而非僅作為檢索的外部儲存。這種將通訊、推理與記憶統一在同一個可微分框架下的思路,可能是未來多智能體系統設計的重要方向。


Source: arXiv:2604.21794 — Learning to Communicate: Toward End-to-End Optimization of Multi-Agent Language Systems