Abstract

Puppeteer 是清華大學等機構提出的新型多智能體編排框架，於 NeurIPS 2025 發表。核心創新是透過中央化強化學習驅動編排器動態選擇與序列 agent 激活，使多智能體協作能隨任務狀態演化而非預先定義，在四個數據集上平均分從 0.6893 提升至 0.7731，且效率同時改善（token 消耗持續下降）。

Multi-Agent Collaboration via Evolving Orchestration

Overview

Multi-Agent Collaboration via Evolving Orchestration 是清華大學、上海交通大學、北京郵電大學、騰訊 Robotics X 與 Siemens 的研究團隊提出的新型多智能體框架，發表於 NeurIPS 2025。該論文針對 LLM-based Multi-Agent System (MAS) 中靜態組織架構的固有局限性，首創 Puppeteer（傀儡師） 編排 paradigm——由中央化的強化學習驅動編排器動態選擇與序列 agent 激活，使多智能體協作能隨任務狀態演化而非預先定義。^[raw/papers/evolving-orchestration-multi-agent.md]

傳統多智能體系統多依賴預先定義或靜態生成的 agent 拓撲結構（如 chain、tree、DAG），隨著任務複雜度與 agent 數量增長，協調 overhead 急劇上升，導致效能退化、通訊冗餘與計算資源浪費。Puppeteer 的核心思想借鑒自傳統木偶戲——一位 central puppeteer（編排者）在後台動態操控多個 puppets（智能體），根據任務即時狀態即時決定哪個 agent 應該在下一步執行推理。^[raw/papers/evolving-orchestration-multi-agent.md]

Core Contributions

動態編排（Dynamic Orchestration）：超越靜態協作模式，以中央化 policy 在每個時間步驟根據當前任務上下文動態路由 agent，將協作推理序列化而非搜索整個拓撲空間，支援靈活、可擴展的 agent 協調。^[raw/papers/evolving-orchestration-multi-agent.md]
自適應演化（Adaptive Evolution）：使用 REINFORCE 強化學習演算法持續更新編排器策略，根據任務完成品質與資源消耗的回饋信號，動態優選高效 agent 軌跡並修剪低效協作路徑，使系統持續向更高效率演化。^[raw/papers/evolving-orchestration-multi-agent.md]
壓縮性與循環性（Cyclical Reasoning Structures）：分析揭示效能提升的關鍵在於演化後出現的更緊湊、帶循環的推理結構——graph density 增加（agent 間通訊更密集）、cycle formation 上升（agent 間反覆協作驗證），標誌著系統從鬆散探索轉向緊密協調的專業化集體推理。^[raw/papers/evolving-orchestration-multi-agent.md]

Architecture / Approach

Agent 抽象

論文將 LLM-based agent 抽象為三元組 a = (m, r, t)：

m：底層 foundation model
r：推理模式或 prompting strategy（如 task decomposition、reflection、refinement、critique、modification、summarization、termination）
t：可用外部工具集（如 WebViewer、WikiSearch、BingSearch、Code Interpreter）

整個 agent 空間 A = {(m,r,t)} 枚舉所有可能組合，每個 agent 代表參與任務求解的原子推理行為。^[raw/papers/evolving-orchestration-multi-agent.md]

動態編排機制

多智能體協作被形式化為一個 sequential decision process，由中央化 policy π governs。在每個時間步驟 t：

at ∼ π(St, τ) = P(a | St, τ)

編排器根據當前全局系統狀態 St 與任務規格 τ 選擇要激活的 agent。被選中的 agent 產生輸出後，系統狀態更新為 St+1 = Φ(St, ot)，過程持續直到滿足停止條件。最終由 aggregation function Fagg 合併所有 agent 輸出得到最終解答。整個過程滿足 Markov 特性——下一步 agent 選擇僅依賴當前狀態而非完整歷史。^[raw/papers/evolving-orchestration-multi-agent.md]

強化學習優化

使用 REINFORCE 演算法最大化 expected return，回饋函數同時考慮 solution quality 與 computational efficiency：

R(τ) = r_T - λ · C_T   (terminal)
R(τ) = γ · R_{t+1} - λ · C_t  (intermediate)

其中 λ 控制準確度與效率的 trade-off，C_t 為基於 FLOPs 或 token-level 的逐步成本。這個設計激勵編排器在保持效能的同時優先選擇低資源消耗的 agent，並透過 Terminator agent 提前終止推理鏈。^[raw/papers/evolving-orchestration-multi-agent.md]

拓撲演化

動態編排不受限於靜態拓撲——初始階段展現多條不相連的 chain（探索性組織），演化後路徑減少並出現 cycle（更穩定協調的互動）。系統自然湧現 tree-structured 互動（branching expansion、parallel trajectories）並最終形成 graph-structured 拓撲（cross-branch backtracking、self-loop），體現 agent 間豐富、適應性的互動模式。^[raw/papers/evolving-orchestration-multi-agent.md]

Key Results

實驗在四個數據集上進行，分為 closed-domain（GSM-Hard、MMLU-Pro）與 open-domain（SRDD、CommonGen-Hard）任務，並在 Titan（大模型：GPT-4-Turbo、Claude-3-Sonnet 等）與 Mimas（小模型：Qwen-2.5-7B、LLaMA-3.1-8B 等）兩個 subspace 測試。^[raw/papers/evolving-orchestration-multi-agent.md]

發現	細節
平均效能提升	Puppeteer 在 Titan subspace 平均分從初始化階段 0.6893 提升至演化階段 0.7731；Mimas subspace 從 0.6273 提升至 0.6324
超越基線	在幾乎所有任務上超越 Self-Refine、AFlow、MacNet、EvoAgent 等 agent workflow 與多智能體基線
效率同時改善	Token 消耗在學習過程中持續下降，效能提升不以計算開銷增加為代價
拓撲收斂	演化後 graph density 持續增加、cycle formation 顯著上升，驗證了緊湊循環結構是效能提升的關鍵

Limitations

編排器自身可能成為瓶頸：中央化編排器 single point of failure 的風險，以及在極大規模 agent 數量下的可擴展性邊界尚未充分探索。^[raw/papers/evolving-orchestration-multi-agent.md]
強化學習訓練成本：policy 的 online RL 訓練需要大量的互動 sample，與離線方法相比可能面臨樣本效率問題。^[raw/papers/evolving-orchestration-multi-agent.md]
特定領域適配性：實驗集中於程式開發（SRDD）與創意生成（CommonGen-Hard），在更 domain-specific 場景（如醫療診斷、科學發現）中的泛化能力有待驗證。^[raw/papers/evolving-orchestration-multi-agent.md]
超參數敏感性：depth、width、λ 等拓撲約束與 reward weight 需針對不同任務調優，預設值可能在某些場景下非最優。^[raw/papers/evolving-orchestration-multi-agent.md]

agentscope — AgentScope 是另一個多智能體框架，專注於 agent 模擬與通訊
llm-multi-agent-challenges — LLM Multi-Agent Challenges 整理了多智能體系統面臨的核心挑戰
ChatDev — ChatDev 是基於多智能體協作的軟體開發框架，是本論文重要的 baseline 之一
MACNet — MacNet 是論文中提到的靜態拓撲多智能體 baseline
EvoAgent — EvoAgent 使用演化演算法自動生成與優化多智能體系統

References

原論文：arXiv:2505.19591 — NeurIPS 2025
程式碼：OpenBMB/ChatDev at puppeteer branch

Quartz 4

Explorer

Multi-Agent Collaboration via Evolving Orchestration — 演化編排：多智能體協作框架

Multi-Agent Collaboration via Evolving Orchestration

Overview

Core Contributions

Architecture / Approach

Agent 抽象

動態編排機制

強化學習優化

拓撲演化

Key Results

Limitations

References

Graph View

Table of Contents

Backlinks

Quartz 4

Explorer

Multi-Agent Collaboration via Evolving Orchestration — 演化編排：多智能體協作框架

Multi-Agent Collaboration via Evolving Orchestration

Overview

Core Contributions

Architecture / Approach

Agent 抽象

動態編排機制

強化學習優化

拓撲演化

Key Results

Limitations

Related Entities

References

Graph View

Table of Contents

Backlinks