Abstract

AgentScope 是阿里巴巴集團與中國人民大學於 2024 年聯合發表的大規模多智能體模擬平台，基於 Actor 模型實現 100,000+ 等級 Agent 的真正平行執行，突破 Python GIL 限制。平台提供一鍵分散式轉換（to_dist()）、異質性自動生成管線與 Web 化集中管理介面，僅用 4 台設備即可成功運行 100 萬個 Agent 的並行模擬。

AgentScope

Overview

AgentScope 是阿里巴巴集團與中國人民大學於 2024 年聯合發表的大規模多智能體模擬平台，基於 ModelScope 生態系統構建，專注於支援 100,000+（100K）等級 Agent 的超大規模並行模擬。論文題為《Very Large-Scale Multi-Agent Simulation in AgentScope》，發表於 arXiv（編號 2407.17789），作者群包含 Xuchen Pan、Dawei Gao、Yuexiang Xie、Yushuo Chen、Zhewei Wei、Yaliang Li、Bolin Ding、Ji-Rong Wen 與 Jingren Zhou。

隨著大型語言模型（LLM）如 GPT-4、Qwen2、Llama3 等的迅速崛起，智慧代理的能力邊界大幅擴展，為多智能體系統在模擬領域的應用開闢了全新道路。傳統模擬方法高度依賴預定義規則與繁瑣的人力介入，需具備大量專業知識才能構建有意義的模擬情境。相較之下，LLM 驅動的智慧代理能以更互動、自適應且擬真的方式執行模擬，大幅降低人力成本並提升模擬的真實性。

然而，現有的多智能體平台在面對真正大規模模擬時仍面臨諸多挑戰。根據論文分析，這些挑戰主要來自三個面向：擴展性與效率瓶頸（現有框架難以支撐數萬甚至百萬規模的 Agent 並行運行）、群體分布與代理多樣性不足（難以生成具有差異化背景設定的異質性代理群體）、以及管理複雜度過高（跨設備的初始化、監控與終止操作極為繁瑣）。AgentScope 即針對這些痛點提出一套完整且系統性的解決方案。^[raw/papers/agentscope.md]

Core Contributions

AgentScope 的核心創新可歸納為以下四大貢獻：

1. Actor-Based 分散式並行機制

AgentScope 以 Actor 模型（1985 年由 Agha 提出的並發計算數學模型）為底層技術架構，實現 Agent 等級的真正平行執行。每個 Actor 作為獨立計算單元，接收訊息、獨立運算並產生結果。系統能自動識別 Agent之間的依賴關係——當某 Agent 的依賴項已滿足時即可立即啟動執行，無需等待其他 Agent 完成，從而最大化並行效率。

此架構突破了 Python 非同步 I/O 框架（如 AutoGen、MetaGPT）的 GIL（全局解釋器鎖）限制，透過多行程模式實現運算密集任務的真正並行。AgentScope 支援兩種多行程模式：一對一模式（每個 Agent 運行於獨立行程，適合運算密集場景）與多對一模式（多個 Agent 共用單一行程，適合 I/O 密集或 API 等待場景）。

此外，平台提供 to_dist() 函式，支援一鍵將集中式工作流轉換為分散式工作流，無需修改任何業務邏輯代碼，僅需在初始化階段調用此函式即可自動完成分發。

2. 靈活的多層次環境支援

AgentScope 支援**智慧體之間（Inter-Agent）與智慧體與環境之間（Agent-Environment）**的雙向互動。系統將環境抽象為一種特殊類型的 Agent，具備以下關鍵特性：

高並發存取：透過 RPC（遠程過程調用）機制確保數萬個 Agent 可同時查詢與修改共享狀態
多樣化狀態管理：使用者可自訂環境函式，支援灵活的狀態擴展——例如聊天室模擬中的對話歷史、地圖模擬中的位置座標與障礙物設置
雙向互動：引入 Listener 機制，當特定條件滿足時（如 Agent 被提及），環境可主動推送通知給相關 Agent
多層次結構：支援全域環境（Global Environment）與子環境（Sub-Environment）的嵌套，適用於需要群組內協作與群組間資訊隔離的複雜模擬場景

3. 異質性配置與自動背景生成管線

針對大規模模擬中代理多樣性不足的問題，AgentScope 提供完整工具鏈：

配置工具：研究者可定義人口總數，並從多個維度（年齡、性別、職業、國籍、教育程度等）指定人口分布比例，系統內建常用分布模板
自動生成管線：根據配置自動抽樣、轉換為 JSON 格式，並填充至 Meta Prompt 由 LLM 生成詳細角色背景設定
隨機性增加多樣性：生成過程中支援調整隨機種子與 LLM 溫度參數，進一步避免生成結果趨同

4. Web 化集中管理介面（Agent-Manager）

Agent-Manager 是專為大規模代理生命週期管理設計的視覺化模組。研究者可透過 Web 介面一目了然地掌握所有已註冊伺服器與分散部署之 Agent 的狀態，包括伺服器身份、IP 位址、運行狀態及計算資源利用率。伺服器可跨模擬任務複用，無需每次重新啟動，大幅簡化了多輪實驗的管理負擔。^[raw/papers/agentscope.md]

Architecture / Approach

系統架構分層

AgentScope 的整體架構可分為四層：

基礎層（Foundation Layer）：基於 ModelScope-Agent 構建，提供 LLM 服務接入（支援 vLLM 推理引擎）、記憶體管理與基礎 Agent 抽象。

並行執行層（Execution Layer）：實現 Actor-Based 分散式機制，支援 Agent 等級的自動平行執行與跨設備 RPC 通訊。

互動層（Interaction Layer）：提供 Inter-Agent 訊息傳遞與 Agent-Environment 雙向互動的統一接口，包含 Global Environment 與 Sub-Environment 的多層次結構支援。

應用層（Application Layer）：包含異質性配置工具、背景自動生成管線以及 Agent-Manager 視覺化管理介面。

自動工作流轉換機制

to_dist() 函式執行的轉換分為兩個階段：

第一階段——分發與代理替換：每個集中式流程中的 Agent 被分發至指定設備，原位置自動替換為 Proxy 代理。Proxy 保留原 Agent 的 Orchestration 能力，可用於工作流協調並自動轉發訊息至對應的分散式 Agent。

第二階段——Placeholder 非阻塞機制：當 Proxy 接收到訊息時，立即返回一個 Placeholder 而非等待實際結果，使主流程得以繼續執行而無需阻塞等待。分散式 Agent 處理完畢後，結果會自動回傳至原呼叫端。

實驗配置

論文的驗證實驗運行於配備多台設備的叢集，每台設備配備 8 張 A100-80G GPU、64 核心 CPU 與 1TB 記憶體。LLM 推理採用 vLLM 引擎，支援高並發服務請求。實驗使用六種主流開源 LLM：Llama3-8B、Llama3-70B、Qwen2-72B 與 MistralAI-8×22B 等。^[raw/papers/agentscope.md]

Key Results

AgentScope 以經典的「猜測平均值之 2/3 遊戲」（Guess 2/3 of Average Game）進行全面驗證，展示了以下關鍵成果：

超大規模擴展性驗證

僅使用 4 台設備即成功運行 100 萬個 Agent 的並行模擬，驗證了 Actor-Based 分散式機制的優秀擴展性。隨著設備數量增加，運行時間呈現近線性縮減，展示了水平擴展的有效性。

LLM 差異化行為觀察

不同 LLM 驅動的 Agent 展現出顯著不同的策略行為：

Llama3-70B：傾向於多層次賽局理論推理，報告數字逐步收斂至個位數
Qwen2-72B：展現更進取的策略調整，能根據多輪歷史快速適應
MistralAI-8×22B：行為波動性較大，反映出模型規模與推理能力的直接關聯

Prompt 設計敏感性

四種不同 Prompt 配置（從簡單直接回報到要求逐步推理）顯著影響 Agent 的策略深度：

僅要求直接報告數字的 Prompt 導致平均回報在 50 左右
要求「逐步思考」的 Prompt 使 Agent 展現 Nash 均衡的迭代推理行為，回報逐步下降
加入上輪結果提示的 Prompt 使 Agent 展現動態學習與策略調整能力

多輪學習與收斂

在 10 輪以上的多輪遊戲中，觀察到群體平均回報從初期的 40-50 逐步收斂至接近 Nash 均衡（個位數），但不同 LLM 的收斂速度與穩定性存在明顯差異。

背景設定的策略影響

具有不同教育背景的 Agent 表現出與其背景一致的策略行為模式：

小學生角色：簡單直覺計算，傾向報告 30-40 左右
博士角色：嚴謹的賽局理論分析，能完整推導 Nash 均衡
遊戲理論教授角色：預期對手的策略層次，選擇接近理論預測的值（15 左右）

這些結果確認了 AgentScope 在生成具有多樣化且合理背景設定之 Agent 群體方面的有效性。^[raw/papers/agentscope.md]

Limitations

儘管 AgentScope 在大規模多智能體模擬方面展現顯著優勢，論文本身坦承以下局限：

LLM API 效能依賴：模擬效率高度依賴底層 LLM 推理引擎（如 vLLM）的吞吐量與穩定性。當 LLM 服務不可用、延遲過高或請求超時時，整體模擬流程將受到直接影響，在資源受限環境中此問題尤為突出。
Agent 行為真實性邊界：LLM 模擬的人類決策行為仍受限於模型本身的推理能力與 Prompt 設計品質，無法完全捕捉真實人類決策中的非理性因素、情感偏差與社會影響。當模擬情境需要高度細緻的人類行為建模時，這一限制可能導致模擬結果與現實偏離。
設備與網路邊界：雖然支援跨設備部署，100K+ 規模的 Agent 之間的通訊協調仍帶來顯著的網路開銷。擴展性最終受制於可用設備數量、網路頻寬與延遲，在跨地域分散式部署場景中挑戰更加嚴峻。
模擬情境通用性：部分設計（如多層環境結構、群組划分机制）針對社交模擬等特定類型的應用場景優化，對其他類型的模擬場景（如金融市場模擬、交通流量模擬）的通用性與遷移代價尚需進一步驗證。
超大規模監控成本：在極大規模下，個體層級行為的細粒度監控與及時管理成本急劇上升。雖然 Agent-Manager 提供了視覺化介面，但在百萬 Agent 等級下的監控效能、即時性與可操作性仍有優化空間。^[raw/papers/agentscope.md]

關聯條目

memos — 記憶作業系統，統一管理 LLM Agent 的參數、Activation 與純文字記憶，與 AgentScope 中大規模模擬的長期狀態管理需求相關

llm-multi-agent-challenges — 系統性盤點 LLM 多智能體系統的通訊協作、任務分配、湧現行為等挑戰，與 AgentScope 致力解決的擴展性、多樣性、管理效率問題高度呼應

evolving-orchestration-multi-agent — 演化編排多智能體系統，涉及智慧體協作與工作流動態優化，與 AgentScope 的自動化工作流轉換機制相關

scientific-workflow-agent — 科學工作流自動化代理，與 AgentScope 在科學研究模擬場景中的應用潛力相關

openhands — 開源 AI Agent 平台，與 AgentScope 同屬多智能體系統範疇，兩者在平台架構設計上面臨類似挑戰

beyond-static-responses — 六層級框架涵蓋 AgentScope 所模擬的「群體動力學」與「社會動態模擬」場景，為大規模模擬提供理論分層依據

Quartz 4

Explorer

AgentScope — 代理領域：十萬以上代理超大規模模擬平台

AgentScope

Overview

Core Contributions

1. Actor-Based 分散式並行機制

2. 靈活的多層次環境支援

3. 異質性配置與自動背景生成管線

4. Web 化集中管理介面（Agent-Manager）

Architecture / Approach

系統架構分層

自動工作流轉換機制

實驗配置

Key Results

超大規模擴展性驗證

LLM 差異化行為觀察

Prompt 設計敏感性

多輪學習與收斂

背景設定的策略影響

Limitations

相關資源

關聯條目

Graph View

Table of Contents

Backlinks