MALT: Improving Reasoning with Multi-Agent LLM Training

Overview

MALT (Multi-Agent LLM Training) 是由 Oxford、Cooperative AI Foundation、MBZUAI 和 Stanford 的研究團隊於 2024 年 12 月發表的論文,提出一種創新的後訓練(post-training)策略,透過生成-驗證-精煉三階段的異構智慧體管道來提升 LLM 推理能力。

核心洞察:LLM 單鏈推理(single chain-of-thought)限制了其在複雜任務中探索推理路徑或自我修正的能力。MALT 將推理過程拆分為三個專門角色(生成器、驗證器、精煉器),透過搜尋樹 expansionvalue iteration 自動產生多智慧體訓練數據,無需人工或教師模型監督。^[raw/papers/malt.md]

Core Contributions

1. 首創多智慧體 LLM 聯合後訓練

MALT 是首個提出多智慧體 LLM 訓練概念的論文,在挑戰性推理任務上合作後訓練專門的生成器、驗證器和精煉模型。^[raw/papers/malt.md]

2. 搜尋樹 Expansion + Value Iteration Credit Assignment

  • 搜尋樹 expansion:每次對每個模型的輸出進行 exponential branching,產生大量有用的合成數據
  • Value iteration:分析搜尋樹的輸出,將最終結果 reward 傳播回各個角色,自動歸因正確/錯誤的推理分支

這個方法無需干預即可選擇軌跡、生成角色數據或設計價值函數,完全自動化產生後訓練用的推理軌跡。^[raw/papers/malt.md]

3. Off-Policy 學習

MALT 的 off-policy 特性允許每個智慧體從正確和錯誤的軌跡中學習,實現自動專門化(specialization)。 ^[raw/papers/malt.md]

Architecture / Approach

三階段管道

問題輸入
    ↓
[生成器 Agent] → 產生候選推理路徑
    ↓
[驗證器 Agent] → 評估每條路徑的正確性
    ↓
[精煉器 Agent] → 修正錯誤路徑
    ↓
最終答案

Value Iteration 信用分配

傳統 RL 在多智慧體設定中面臨信用分配問題——如何判斷是哪個智慧體引入了錯誤。MALT 透過分析搜尋樹輸出來識別哪個模型引入了錯誤,實現無需額外訓練數據或 oracle policy 的信用歸因。

訓練方法結合了:

  • 監督式微調(SFT):在生成的軌跡上微調
  • 直接偏好優化(DPO):根據驗證器的反饋優化偏好

^[raw/papers/malt.md]

Key Results

基準基線改進幅度
MATH+15.66%
GSM8K+7.42%
CSQA+9.40%

最值得注意的是,在更具挑戰性的 GSM-Symbolic 基準上,MALT 的效能幾乎接近同系列 8.75 倍大的模型,展現出卓越的泛化能力。^[raw/papers/malt.md]

Limitations

  1. 領域特定性:當前實驗集中在數學和常識推理,對其他領域(如程式碼生成、開放域問答)的泛化能力尚未充分驗證
  2. 計算成本:搜尋樹 expansion 產生大量候選軌跡,訓練過程的計算成本較高
  3. 角色數量固定:目前管道僅限於三個角色(生成-驗證-精煉),對更複雜的協作結構支援不足
  4. 測試時推理 overhead:三階段管道在推理時增加了延遲,與單一 LLM 推理相比有額外開銷
  5. credit assignment 假設:value iteration 的信用歸因基於最終結果,對部分正確的中間推理步驟敏感度有限

^[raw/papers/malt.md]