Abstract

Puppeteer 是清華大學等機構提出的新型多智能體編排框架,於 NeurIPS 2025 發表。核心創新是透過中央化強化學習驅動編排器動態選擇與序列 agent 激活,使多智能體協作能隨任務狀態演化而非預先定義,在四個數據集上平均分從 0.6893 提升至 0.7731,且效率同時改善(token 消耗持續下降)。

Multi-Agent Collaboration via Evolving Orchestration

Overview

Multi-Agent Collaboration via Evolving Orchestration 是清華大學、上海交通大學、北京郵電大學、騰訊 Robotics X 與 Siemens 的研究團隊提出的新型多智能體框架,發表於 NeurIPS 2025。該論文針對 LLM-based Multi-Agent System (MAS) 中靜態組織架構的固有局限性,首創 Puppeteer(傀儡師) 編排 paradigm——由中央化的強化學習驅動編排器動態選擇與序列 agent 激活,使多智能體協作能隨任務狀態演化而非預先定義。^[raw/papers/evolving-orchestration-multi-agent.md]

傳統多智能體系統多依賴預先定義或靜態生成的 agent 拓撲結構(如 chain、tree、DAG),隨著任務複雜度與 agent 數量增長,協調 overhead 急劇上升,導致效能退化、通訊冗餘與計算資源浪費。Puppeteer 的核心思想借鑒自傳統木偶戲——一位 central puppeteer(編排者)在後台動態操控多個 puppets(智能體),根據任務即時狀態即時決定哪個 agent 應該在下一步執行推理。^[raw/papers/evolving-orchestration-multi-agent.md]

Core Contributions

  1. 動態編排(Dynamic Orchestration):超越靜態協作模式,以中央化 policy 在每個時間步驟根據當前任務上下文動態路由 agent,將協作推理序列化而非搜索整個拓撲空間,支援靈活、可擴展的 agent 協調。^[raw/papers/evolving-orchestration-multi-agent.md]

  2. 自適應演化(Adaptive Evolution):使用 REINFORCE 強化學習演算法持續更新編排器策略,根據任務完成品質與資源消耗的回饋信號,動態優選高效 agent 軌跡並修剪低效協作路徑,使系統持續向更高效率演化。^[raw/papers/evolving-orchestration-multi-agent.md]

  3. 壓縮性與循環性(Cyclical Reasoning Structures):分析揭示效能提升的關鍵在於演化後出現的更緊湊、帶循環的推理結構——graph density 增加(agent 間通訊更密集)、cycle formation 上升(agent 間反覆協作驗證),標誌著系統從鬆散探索轉向緊密協調的專業化集體推理。^[raw/papers/evolving-orchestration-multi-agent.md]

Architecture / Approach

Agent 抽象

論文將 LLM-based agent 抽象為三元組 a = (m, r, t)

  • m:底層 foundation model
  • r:推理模式或 prompting strategy(如 task decomposition、reflection、refinement、critique、modification、summarization、termination)
  • t:可用外部工具集(如 WebViewer、WikiSearch、BingSearch、Code Interpreter)

整個 agent 空間 A = {(m,r,t)} 枚舉所有可能組合,每個 agent 代表參與任務求解的原子推理行為。^[raw/papers/evolving-orchestration-multi-agent.md]

動態編排機制

多智能體協作被形式化為一個 sequential decision process,由中央化 policy π governs。在每個時間步驟 t

at ∼ π(St, τ) = P(a | St, τ)

編排器根據當前全局系統狀態 St 與任務規格 τ 選擇要激活的 agent。被選中的 agent 產生輸出後,系統狀態更新為 St+1 = Φ(St, ot),過程持續直到滿足停止條件。最終由 aggregation function Fagg 合併所有 agent 輸出得到最終解答。整個過程滿足 Markov 特性——下一步 agent 選擇僅依賴當前狀態而非完整歷史。^[raw/papers/evolving-orchestration-multi-agent.md]

強化學習優化

使用 REINFORCE 演算法最大化 expected return,回饋函數同時考慮 solution quality 與 computational efficiency:

R(τ) = r_T - λ · C_T   (terminal)
R(τ) = γ · R_{t+1} - λ · C_t  (intermediate)

其中 λ 控制準確度與效率的 trade-off,C_t 為基於 FLOPs 或 token-level 的逐步成本。這個設計激勵編排器在保持效能的同時優先選擇低資源消耗的 agent,並透過 Terminator agent 提前終止推理鏈。^[raw/papers/evolving-orchestration-multi-agent.md]

拓撲演化

動態編排不受限於靜態拓撲——初始階段展現多條不相連的 chain(探索性組織),演化後路徑減少並出現 cycle(更穩定協調的互動)。系統自然湧現 tree-structured 互動(branching expansion、parallel trajectories)並最終形成 graph-structured 拓撲(cross-branch backtracking、self-loop),體現 agent 間豐富、適應性的互動模式。^[raw/papers/evolving-orchestration-multi-agent.md]

Key Results

實驗在四個數據集上進行,分為 closed-domain(GSM-Hard、MMLU-Pro)與 open-domain(SRDD、CommonGen-Hard)任務,並在 Titan(大模型:GPT-4-Turbo、Claude-3-Sonnet 等)與 Mimas(小模型:Qwen-2.5-7B、LLaMA-3.1-8B 等)兩個 subspace 測試。^[raw/papers/evolving-orchestration-multi-agent.md]

發現細節
平均效能提升Puppeteer 在 Titan subspace 平均分從初始化階段 0.6893 提升至演化階段 0.7731;Mimas subspace 從 0.6273 提升至 0.6324
超越基線在幾乎所有任務上超越 Self-Refine、AFlow、MacNet、EvoAgent 等 agent workflow 與多智能體基線
效率同時改善Token 消耗在學習過程中持續下降,效能提升不以計算開銷增加為代價
拓撲收斂演化後 graph density 持續增加、cycle formation 顯著上升,驗證了緊湊循環結構是效能提升的關鍵

Limitations

  1. 編排器自身可能成為瓶頸:中央化編排器 single point of failure 的風險,以及在極大規模 agent 數量下的可擴展性邊界尚未充分探索。^[raw/papers/evolving-orchestration-multi-agent.md]

  2. 強化學習訓練成本:policy 的 online RL 訓練需要大量的互動 sample,與離線方法相比可能面臨樣本效率問題。^[raw/papers/evolving-orchestration-multi-agent.md]

  3. 特定領域適配性:實驗集中於程式開發(SRDD)與創意生成(CommonGen-Hard),在更 domain-specific 場景(如醫療診斷、科學發現)中的泛化能力有待驗證。^[raw/papers/evolving-orchestration-multi-agent.md]

  4. 超參數敏感性:depth、width、λ 等拓撲約束與 reward weight 需針對不同任務調優,預設值可能在某些場景下非最優。^[raw/papers/evolving-orchestration-multi-agent.md]

  • agentscope — AgentScope 是另一個多智能體框架,專注於 agent 模擬與通訊
  • llm-multi-agent-challenges — LLM Multi-Agent Challenges 整理了多智能體系統面臨的核心挑戰
  • ChatDev — ChatDev 是基於多智能體協作的軟體開發框架,是本論文重要的 baseline 之一
  • MACNet — MacNet 是論文中提到的靜態拓撲多智能體 baseline
  • EvoAgent — EvoAgent 使用演化演算法自動生成與優化多智能體系統

References