Abstract

AgentScope 是阿里巴巴集團與中國人民大學於 2024 年聯合發表的大規模多智能體模擬平台,基於 Actor 模型實現 100,000+ 等級 Agent 的真正平行執行,突破 Python GIL 限制。平台提供一鍵分散式轉換(to_dist())、異質性自動生成管線與 Web 化集中管理介面,僅用 4 台設備即可成功運行 100 萬個 Agent 的並行模擬。

AgentScope

Overview

AgentScope 是阿里巴巴集團與中國人民大學於 2024 年聯合發表的大規模多智能體模擬平台,基於 ModelScope 生態系統構建,專注於支援 100,000+(100K)等級 Agent 的超大規模並行模擬。論文題為《Very Large-Scale Multi-Agent Simulation in AgentScope》,發表於 arXiv(編號 2407.17789),作者群包含 Xuchen Pan、Dawei Gao、Yuexiang Xie、Yushuo Chen、Zhewei Wei、Yaliang Li、Bolin Ding、Ji-Rong Wen 與 Jingren Zhou。

隨著大型語言模型(LLM)如 GPT-4、Qwen2、Llama3 等的迅速崛起,智慧代理的能力邊界大幅擴展,為多智能體系統在模擬領域的應用開闢了全新道路。傳統模擬方法高度依賴預定義規則與繁瑣的人力介入,需具備大量專業知識才能構建有意義的模擬情境。相較之下,LLM 驅動的智慧代理能以更互動、自適應且擬真的方式執行模擬,大幅降低人力成本並提升模擬的真實性。

然而,現有的多智能體平台在面對真正大規模模擬時仍面臨諸多挑戰。根據論文分析,這些挑戰主要來自三個面向:擴展性與效率瓶頸(現有框架難以支撐數萬甚至百萬規模的 Agent 並行運行)、群體分布與代理多樣性不足(難以生成具有差異化背景設定的異質性代理群體)、以及管理複雜度過高(跨設備的初始化、監控與終止操作極為繁瑣)。AgentScope 即針對這些痛點提出一套完整且系統性的解決方案。^[raw/papers/agentscope.md]

Core Contributions

AgentScope 的核心創新可歸納為以下四大貢獻:

1. Actor-Based 分散式並行機制

AgentScope 以 Actor 模型(1985 年由 Agha 提出的並發計算數學模型)為底層技術架構,實現 Agent 等級的真正平行執行。每個 Actor 作為獨立計算單元,接收訊息、獨立運算並產生結果。系統能自動識別 Agent之間的依賴關係——當某 Agent 的依賴項已滿足時即可立即啟動執行,無需等待其他 Agent 完成,從而最大化並行效率。

此架構突破了 Python 非同步 I/O 框架(如 AutoGen、MetaGPT)的 GIL(全局解釋器鎖)限制,透過多行程模式實現運算密集任務的真正並行。AgentScope 支援兩種多行程模式:一對一模式(每個 Agent 運行於獨立行程,適合運算密集場景)與多對一模式(多個 Agent 共用單一行程,適合 I/O 密集或 API 等待場景)。

此外,平台提供 to_dist() 函式,支援一鍵將集中式工作流轉換為分散式工作流,無需修改任何業務邏輯代碼,僅需在初始化階段調用此函式即可自動完成分發。

2. 靈活的多層次環境支援

AgentScope 支援**智慧體之間(Inter-Agent)智慧體與環境之間(Agent-Environment)**的雙向互動。系統將環境抽象為一種特殊類型的 Agent,具備以下關鍵特性:

  • 高並發存取:透過 RPC(遠程過程調用)機制確保數萬個 Agent 可同時查詢與修改共享狀態
  • 多樣化狀態管理:使用者可自訂環境函式,支援灵活的狀態擴展——例如聊天室模擬中的對話歷史、地圖模擬中的位置座標與障礙物設置
  • 雙向互動:引入 Listener 機制,當特定條件滿足時(如 Agent 被提及),環境可主動推送通知給相關 Agent
  • 多層次結構:支援全域環境(Global Environment)與子環境(Sub-Environment)的嵌套,適用於需要群組內協作與群組間資訊隔離的複雜模擬場景

3. 異質性配置與自動背景生成管線

針對大規模模擬中代理多樣性不足的問題,AgentScope 提供完整工具鏈:

  • 配置工具:研究者可定義人口總數,並從多個維度(年齡、性別、職業、國籍、教育程度等)指定人口分布比例,系統內建常用分布模板
  • 自動生成管線:根據配置自動抽樣、轉換為 JSON 格式,並填充至 Meta Prompt 由 LLM 生成詳細角色背景設定
  • 隨機性增加多樣性:生成過程中支援調整隨機種子與 LLM 溫度參數,進一步避免生成結果趨同

4. Web 化集中管理介面(Agent-Manager)

Agent-Manager 是專為大規模代理生命週期管理設計的視覺化模組。研究者可透過 Web 介面一目了然地掌握所有已註冊伺服器與分散部署之 Agent 的狀態,包括伺服器身份、IP 位址、運行狀態及計算資源利用率。伺服器可跨模擬任務複用,無需每次重新啟動,大幅簡化了多輪實驗的管理負擔。^[raw/papers/agentscope.md]

Architecture / Approach

系統架構分層

AgentScope 的整體架構可分為四層:

基礎層(Foundation Layer):基於 ModelScope-Agent 構建,提供 LLM 服務接入(支援 vLLM 推理引擎)、記憶體管理與基礎 Agent 抽象。

並行執行層(Execution Layer):實現 Actor-Based 分散式機制,支援 Agent 等級的自動平行執行與跨設備 RPC 通訊。

互動層(Interaction Layer):提供 Inter-Agent 訊息傳遞與 Agent-Environment 雙向互動的統一接口,包含 Global Environment 與 Sub-Environment 的多層次結構支援。

應用層(Application Layer):包含異質性配置工具、背景自動生成管線以及 Agent-Manager 視覺化管理介面。

自動工作流轉換機制

to_dist() 函式執行的轉換分為兩個階段:

第一階段——分發與代理替換:每個集中式流程中的 Agent 被分發至指定設備,原位置自動替換為 Proxy 代理。Proxy 保留原 Agent 的 Orchestration 能力,可用於工作流協調並自動轉發訊息至對應的分散式 Agent。

第二階段——Placeholder 非阻塞機制:當 Proxy 接收到訊息時,立即返回一個 Placeholder 而非等待實際結果,使主流程得以繼續執行而無需阻塞等待。分散式 Agent 處理完畢後,結果會自動回傳至原呼叫端。

實驗配置

論文的驗證實驗運行於配備多台設備的叢集,每台設備配備 8 張 A100-80G GPU、64 核心 CPU 與 1TB 記憶體。LLM 推理採用 vLLM 引擎,支援高並發服務請求。實驗使用六種主流開源 LLM:Llama3-8B、Llama3-70B、Qwen2-72B 與 MistralAI-8×22B 等。^[raw/papers/agentscope.md]

Key Results

AgentScope 以經典的「猜測平均值之 2/3 遊戲」(Guess 2/3 of Average Game)進行全面驗證,展示了以下關鍵成果:

超大規模擴展性驗證

僅使用 4 台設備即成功運行 100 萬個 Agent 的並行模擬,驗證了 Actor-Based 分散式機制的優秀擴展性。隨著設備數量增加,運行時間呈現近線性縮減,展示了水平擴展的有效性。

LLM 差異化行為觀察

不同 LLM 驅動的 Agent 展現出顯著不同的策略行為:

  • Llama3-70B:傾向於多層次賽局理論推理,報告數字逐步收斂至個位數
  • Qwen2-72B:展現更進取的策略調整,能根據多輪歷史快速適應
  • MistralAI-8×22B:行為波動性較大,反映出模型規模與推理能力的直接關聯

Prompt 設計敏感性

四種不同 Prompt 配置(從簡單直接回報到要求逐步推理)顯著影響 Agent 的策略深度:

  • 僅要求直接報告數字的 Prompt 導致平均回報在 50 左右
  • 要求「逐步思考」的 Prompt 使 Agent 展現 Nash 均衡的迭代推理行為,回報逐步下降
  • 加入上輪結果提示的 Prompt 使 Agent 展現動態學習與策略調整能力

多輪學習與收斂

在 10 輪以上的多輪遊戲中,觀察到群體平均回報從初期的 40-50 逐步收斂至接近 Nash 均衡(個位數),但不同 LLM 的收斂速度與穩定性存在明顯差異。

背景設定的策略影響

具有不同教育背景的 Agent 表現出與其背景一致的策略行為模式:

  • 小學生角色:簡單直覺計算,傾向報告 30-40 左右
  • 博士角色:嚴謹的賽局理論分析,能完整推導 Nash 均衡
  • 遊戲理論教授角色:預期對手的策略層次,選擇接近理論預測的值(15 左右)

這些結果確認了 AgentScope 在生成具有多樣化且合理背景設定之 Agent 群體方面的有效性。^[raw/papers/agentscope.md]

Limitations

儘管 AgentScope 在大規模多智能體模擬方面展現顯著優勢,論文本身坦承以下局限:

  1. LLM API 效能依賴:模擬效率高度依賴底層 LLM 推理引擎(如 vLLM)的吞吐量與穩定性。當 LLM 服務不可用、延遲過高或請求超時時,整體模擬流程將受到直接影響,在資源受限環境中此問題尤為突出。

  2. Agent 行為真實性邊界:LLM 模擬的人類決策行為仍受限於模型本身的推理能力與 Prompt 設計品質,無法完全捕捉真實人類決策中的非理性因素、情感偏差與社會影響。當模擬情境需要高度細緻的人類行為建模時,這一限制可能導致模擬結果與現實偏離。

  3. 設備與網路邊界:雖然支援跨設備部署,100K+ 規模的 Agent 之間的通訊協調仍帶來顯著的網路開銷。擴展性最終受制於可用設備數量、網路頻寬與延遲,在跨地域分散式部署場景中挑戰更加嚴峻。

  4. 模擬情境通用性:部分設計(如多層環境結構、群組划分机制)針對社交模擬等特定類型的應用場景優化,對其他類型的模擬場景(如金融市場模擬、交通流量模擬)的通用性與遷移代價尚需進一步驗證。

  5. 超大規模監控成本:在極大規模下,個體層級行為的細粒度監控與及時管理成本急劇上升。雖然 Agent-Manager 提供了視覺化介面,但在百萬 Agent 等級下的監控效能、即時性與可操作性仍有優化空間。^[raw/papers/agentscope.md]

相關資源

  • 原始論文:arXiv 2407.17789
  • 原始 PDF:PDF
  • 原始全文:raw/papers/agentscope.md
  • GitHub:modelscope/agentscope(examples/paper_large_scale_simulation)

關聯條目

memos — 記憶作業系統,統一管理 LLM Agent 的參數、Activation 與純文字記憶,與 AgentScope 中大規模模擬的長期狀態管理需求相關

llm-multi-agent-challenges — 系統性盤點 LLM 多智能體系統的通訊協作、任務分配、湧現行為等挑戰,與 AgentScope 致力解決的擴展性、多樣性、管理效率問題高度呼應

evolving-orchestration-multi-agent — 演化編排多智能體系統,涉及智慧體協作與工作流動態優化,與 AgentScope 的自動化工作流轉換機制相關

scientific-workflow-agent — 科學工作流自動化代理,與 AgentScope 在科學研究模擬場景中的應用潛力相關

openhands — 開源 AI Agent 平台,與 AgentScope 同屬多智能體系統範疇,兩者在平台架構設計上面臨類似挑戰

beyond-static-responses — 六層級框架涵蓋 AgentScope 所模擬的「群體動力學」與「社會動態模擬」場景,為大規模模擬提供理論分層依據