MALT: Improving Reasoning with Multi-Agent LLM Training
Overview
MALT (Multi-Agent LLM Training) 是由 Oxford、Cooperative AI Foundation、MBZUAI 和 Stanford 的研究團隊於 2024 年 12 月發表的論文,提出一種創新的後訓練(post-training)策略,透過生成-驗證-精煉三階段的異構智慧體管道來提升 LLM 推理能力。
核心洞察:LLM 單鏈推理(single chain-of-thought)限制了其在複雜任務中探索推理路徑或自我修正的能力。MALT 將推理過程拆分為三個專門角色(生成器、驗證器、精煉器),透過搜尋樹 expansion 和value iteration 自動產生多智慧體訓練數據,無需人工或教師模型監督。^[raw/papers/malt.md]
Core Contributions
1. 首創多智慧體 LLM 聯合後訓練
MALT 是首個提出多智慧體 LLM 訓練概念的論文,在挑戰性推理任務上合作後訓練專門的生成器、驗證器和精煉模型。^[raw/papers/malt.md]
2. 搜尋樹 Expansion + Value Iteration Credit Assignment
- 搜尋樹 expansion:每次對每個模型的輸出進行 exponential branching,產生大量有用的合成數據
- Value iteration:分析搜尋樹的輸出,將最終結果 reward 傳播回各個角色,自動歸因正確/錯誤的推理分支
這個方法無需干預即可選擇軌跡、生成角色數據或設計價值函數,完全自動化產生後訓練用的推理軌跡。^[raw/papers/malt.md]
3. Off-Policy 學習
MALT 的 off-policy 特性允許每個智慧體從正確和錯誤的軌跡中學習,實現自動專門化(specialization)。 ^[raw/papers/malt.md]
Architecture / Approach
三階段管道
問題輸入
↓
[生成器 Agent] → 產生候選推理路徑
↓
[驗證器 Agent] → 評估每條路徑的正確性
↓
[精煉器 Agent] → 修正錯誤路徑
↓
最終答案
Value Iteration 信用分配
傳統 RL 在多智慧體設定中面臨信用分配問題——如何判斷是哪個智慧體引入了錯誤。MALT 透過分析搜尋樹輸出來識別哪個模型引入了錯誤,實現無需額外訓練數據或 oracle policy 的信用歸因。
訓練方法結合了:
- 監督式微調(SFT):在生成的軌跡上微調
- 直接偏好優化(DPO):根據驗證器的反饋優化偏好
^[raw/papers/malt.md]
Key Results
| 基準 | 基線改進幅度 |
|---|---|
| MATH | +15.66% |
| GSM8K | +7.42% |
| CSQA | +9.40% |
最值得注意的是,在更具挑戰性的 GSM-Symbolic 基準上,MALT 的效能幾乎接近同系列 8.75 倍大的模型,展現出卓越的泛化能力。^[raw/papers/malt.md]
Limitations
- 領域特定性:當前實驗集中在數學和常識推理,對其他領域(如程式碼生成、開放域問答)的泛化能力尚未充分驗證
- 計算成本:搜尋樹 expansion 產生大量候選軌跡,訓練過程的計算成本較高
- 角色數量固定:目前管道僅限於三個角色(生成-驗證-精煉),對更複雜的協作結構支援不足
- 測試時推理 overhead:三階段管道在推理時增加了延遲,與單一 LLM 推理相比有額外開銷
- credit assignment 假設:value iteration 的信用歸因基於最終結果,對部分正確的中間推理步驟敏感度有限
^[raw/papers/malt.md]
Related Entities & Concepts
- skill-claw — 集體技能演化框架,與 MALT 的多智慧體協作訓練精神相通
- evolving-orchestration-multi-agent — 動態編排:Agent 角色隨任務演化
- multi-agent-collaboration-survey — 多智慧體協作機制的五維度分類框架
- tool-attention-mcp-tax — 工具選擇機制,與 MALT 的中介層動態分配思路互補
- openhands — AI 軟體開發 Agent 平台,可探索 MALT 架構在程式碼生成任務的應用