Abstract

DiffMAS 將多智能體系統中的潛在通訊（latent communication）視為可學習的運算元件，利用 KV Cache 作為連續的潛在通訊媒介讓梯度能夠穿越智能體邊界流動。在數學推理（AIME24、GPQA-Diamond）與程式碼生成（HumanEval+）基準上顯著提升，Qwen3-8B 在 AIME24 從 50.0% 提升至 76.7%（+26.7%）。

DiffMAS (Differentiated Multi-Agent Systems)

Overview

DiffMAS (Differentiated Multi-Agent Systems) 是一個監督式訓練框架，旨在將多智能體系統中的**潛在通訊（latent communication）**視為可學習的運算元件。該框架由 Ye Yu、Heming Liu、Haibo Jin 等人於 2026 年提出，發表於 arXiv (2604.21794)。

傳統多智能體系統通常將通訊視為固定介面——智能體之間透過自然語言文字交換資訊，這種**離散訊息傳遞（discrete message passing）**會在智能體之間形成優化邊界，阻礙端對端梯度傳播。DiffMAS 的核心創新在於利用 Key-Value (KV) Cache 作為連續的潛在通訊媒介，讓梯度能夠穿越智能體邊界流動，進而實現通訊行為與推理能力的聯合優化。

該框架在數學推理（AIME24/25、GPQA-Diamond）、程式碼生成（HumanEval+、MBPP+）及常識推理（OpenBookQA）等多個基準上均展現顯著提升，例如在 Qwen3-8B 上，AIME24 準確率從 50.0% 提升至 76.7%（+26.7%）。

Core Contributions

問題形式化：將智能體間通訊建模為優化問題，證明將通訊視為固定介面會阻止跨智能體資訊傳遞的端對端改進。
可微分通訊介面：提出 DiffMAS，將 KV 結構的潛在通訊視為智能體之間的任務自適應（task-adaptive）介面，支援梯度傳播。
端對端訓練：透過在多智能體潛在軌跡上進行監督式微調（SFT），使模型能夠同時學習如何編碼、解讀資訊以及執行推理。
顯著效能提升：在多個推理基準上取得領先成果，AIME24 提升達 +26.7%，GPQA-Diamond 提升達 +20.2%。^[raw/papers/diffmas-multi-agent-communication.md]

Architecture / Approach

系統架構：雙階段設計

DiffMAS 由 K 個順序排列的智能體組成，採用兩階段運作：

Stage I — KV Trace 建構

前 K-1 個智能體依序建構共享的 KV Trace
每個智能體透過 prefill 現有快取並附加新產生的 KV 區段（latent blocks）
此階段不進行梯度更新，僅累積潛在表示

Stage II — LoRA SFT

最終智能體對累積的 KV Cache 進行自迴歸解碼
透過交叉注意力（cross-attention）處理 KV Trace
僅更新最終智能體的 LoRA 參數，骨幹模型保持冻结

潛在區塊與軌跡空間

DiffMAS 定義了潛在區塊空間 $Z \subseteq R^{d}$ ，每個階段發射 T 個潛在區塊。經過 j 個階段後，總區塊數為 $N_{j} ≜ j T$ ，軌跡空間為 $T_{j} = Z^{N_{j}}$ 。這種**非覆寫（non-overwriting）**設計使得所有中間區段都保留在最終軌跡中。

核心特性：梯度傳播保證

論文證明了命題 3.1（介面誘導梯度結構）——相較於覆寫式通訊（overwriting communication），DiffMAS 的拼接式介面不會引入與深度相關的乘法衰減因子。在 contractive Jacobian 假設下，覆寫系統的梯度信號會以 $ρ^{K - j}$ 的速率幾何衰減，而 DiffMAS 的拼接介面則無此限制。^[raw/papers/diffmas-multi-agent-communication.md]

Key Results

主要 benchmark 結果

任務	單智能體	TextMAS	LatentMAS	DiffMAS (提升)
AIME24 (Qwen3-8B)	50.0%	50.0%	56.7%	76.7% (+26.7%)
GPQA-Diamond (Qwen3-8B)	39.9%	43.4%	45.5%	60.1% (+20.2%)
HumanEval+ (Qwen3-14B)	77.2%	81.5%	86.8%	87.7% (+10.5%)
OpenBookQA (Qwen3-4B)	80.1%	81.8%	77.6%	83.2% (+3.1%)

關鍵發現

規模效益：DiffMAS 在小模型上提升最為顯著（Qwen3-4B AIME24: +20.0%），但在大模型上仍保持穩定收益。
解碼穩定性：DiffMAS 的 token 層級困惑度（perplexity）更低且分佈更緊密（均值 1.24 vs. LatentMAS 的 1.31）。
自我一致性：在 AIME24 上，DiffMAS 展現向高一致性結果（3-4 個正確樣本）偏移的趨勢，表明更穩定的推理軌跡。
最優通訊步數：實驗顯示 10 步通訊即可達到最佳效果（76.7%），更多步數反而因雜訊累積而性能下降。

Limitations

軌跡膨脹：非覆寫設計使 KV Trace 的環境維度隨深度線性增長（ $N_{j} \cdot d$ ），可能引入冗餘或干擾。
C2C 基線的弱點：Cache-to-Cache 通訊方法在困難推理任務上表現較弱，原因是訓練數據（OpenHermes-2.5）主要為指令-following 數據，與長期推理軌跡分佈不匹配。
最優步數敏感：通訊步數並非越多越好，過長的潛在軌跡會因噪聲累積而損害性能。
訓練數據需求：需要針對不同任務領域進行任務特定的 LoRA 微調，對小樣本場景有一定要求。

agentscope — 多智能體系統框架研究
llm-multi-agent-challenges — LLM 多智能體系統挑戰與評估
LoRA — DiffMAS 使用 LoRA 進行參數高效微調
KV cache — 作為潛在通訊媒介的核心技術
chain-of-thought — 推理過程中的中間表示，DiffMAS 的潛在軌跡類似於隱式 CoT

Relationship to Other Multi-Agent Papers

DiffMAS 的潛在通訊最佳化路徑與同時期的 evolving-orchestration-multi-agent 採取了互補的研究方向。Evolving Orchestration 探索如何在執行期動態調整多智能體之間的協作拓撲，而 DiffMAS 則專注於透過梯度傳播實現通訊介面的端對端學習——兩者都試圖突破傳統多智能體系統中通訊介面的固化問題，只是切入角度不同。DiffMAS 的 KV Cache 作為連續潛在空間的設計，與 AgentScope 的模擬paradigm 形成對比：AgentScope 傾向於在離散訊息空間中建模智能體互動，而 DiffMAS 則將通訊視為可微分的連續運算。

與多智能體推理領域的其他工作相比，DiffMAS 的核心假設是「通訊行為本身是可以學習的」——這與 agent-memory 系統中將記憶視為可訓練表示的概念共享深層結構聯繫。在 DiffMAS 的框架下，K 個智能體之間的 KV Trace 實際上形成了一種分散式的潛在記憶結構，每個智能體產生的 latent blocks 類似於 agent-memory 中的記憶單元，只是這些記憶單元直接參與梯度最佳化而非僅作為檢索的外部儲存。這種將通訊、推理與記憶統一在同一個可微分框架下的思路，可能是未來多智能體系統設計的重要方向。

Source: arXiv:2604.21794 — Learning to Communicate: Toward End-to-End Optimization of Multi-Agent Language Systems

Quartz 4

Explorer

DiffMAS (Differentiated Multi-Agent Systems) — DiffMAS：透過 KV Cache 潛在通訊實現多代理端對端優化

DiffMAS (Differentiated Multi-Agent Systems)

Overview

Core Contributions

Architecture / Approach

系統架構：雙階段設計

潛在區塊與軌跡空間

核心特性：梯度傳播保證

Key Results

主要 benchmark 結果

關鍵發現

Limitations

Relationship to Other Multi-Agent Papers

Graph View

Table of Contents

Backlinks

Quartz 4

Explorer

DiffMAS (Differentiated Multi-Agent Systems) — DiffMAS：透過 KV Cache 潛在通訊實現多代理端對端優化

DiffMAS (Differentiated Multi-Agent Systems)

Overview

Core Contributions

Architecture / Approach

系統架構：雙階段設計

潛在區塊與軌跡空間

核心特性：梯度傳播保證

Key Results

主要 benchmark 結果

關鍵發現

Limitations

Related Entities

Relationship to Other Multi-Agent Papers

Graph View

Table of Contents

Backlinks