MALT: Improving Reasoning with Multi-Agent LLM Training

Overview

MALT (Multi-Agent LLM Training) 是由 Oxford、Cooperative AI Foundation、MBZUAI 和 Stanford 的研究團隊於 2024 年 12 月發表的論文，提出一種創新的後訓練（post-training）策略，透過生成-驗證-精煉三階段的異構智慧體管道來提升 LLM 推理能力。

核心洞察：LLM 單鏈推理（single chain-of-thought）限制了其在複雜任務中探索推理路徑或自我修正的能力。MALT 將推理過程拆分為三個專門角色（生成器、驗證器、精煉器），透過搜尋樹 expansion 和value iteration 自動產生多智慧體訓練數據，無需人工或教師模型監督。^[raw/papers/malt.md]

Core Contributions

1. 首創多智慧體 LLM 聯合後訓練

MALT 是首個提出多智慧體 LLM 訓練概念的論文，在挑戰性推理任務上合作後訓練專門的生成器、驗證器和精煉模型。^[raw/papers/malt.md]

2. 搜尋樹 Expansion + Value Iteration Credit Assignment

搜尋樹 expansion：每次對每個模型的輸出進行 exponential branching，產生大量有用的合成數據
Value iteration：分析搜尋樹的輸出，將最終結果 reward 傳播回各個角色，自動歸因正確/錯誤的推理分支

這個方法無需干預即可選擇軌跡、生成角色數據或設計價值函數，完全自動化產生後訓練用的推理軌跡。^[raw/papers/malt.md]

3. Off-Policy 學習

MALT 的 off-policy 特性允許每個智慧體從正確和錯誤的軌跡中學習，實現自動專門化（specialization）。 ^[raw/papers/malt.md]

Architecture / Approach

三階段管道

問題輸入
    ↓
[生成器 Agent] → 產生候選推理路徑
    ↓
[驗證器 Agent] → 評估每條路徑的正確性
    ↓
[精煉器 Agent] → 修正錯誤路徑
    ↓
最終答案

Value Iteration 信用分配

傳統 RL 在多智慧體設定中面臨信用分配問題——如何判斷是哪個智慧體引入了錯誤。MALT 透過分析搜尋樹輸出來識別哪個模型引入了錯誤，實現無需額外訓練數據或 oracle policy 的信用歸因。

訓練方法結合了：

監督式微調（SFT）：在生成的軌跡上微調
直接偏好優化（DPO）：根據驗證器的反饋優化偏好

^[raw/papers/malt.md]

Key Results

基準	基線改進幅度
MATH	+15.66%
GSM8K	+7.42%
CSQA	+9.40%

最值得注意的是，在更具挑戰性的 GSM-Symbolic 基準上，MALT 的效能幾乎接近同系列 8.75 倍大的模型，展現出卓越的泛化能力。^[raw/papers/malt.md]

Limitations

領域特定性：當前實驗集中在數學和常識推理，對其他領域（如程式碼生成、開放域問答）的泛化能力尚未充分驗證
計算成本：搜尋樹 expansion 產生大量候選軌跡，訓練過程的計算成本較高
角色數量固定：目前管道僅限於三個角色（生成-驗證-精煉），對更複雜的協作結構支援不足
測試時推理 overhead：三階段管道在推理時增加了延遲，與單一 LLM 推理相比有額外開銷
credit assignment 假設：value iteration 的信用歸因基於最終結果，對部分正確的中間推理步驟敏感度有限

^[raw/papers/malt.md]

skill-claw — 集體技能演化框架，與 MALT 的多智慧體協作訓練精神相通
evolving-orchestration-multi-agent — 動態編排：Agent 角色隨任務演化
multi-agent-collaboration-survey — 多智慧體協作機制的五維度分類框架
tool-attention-mcp-tax — 工具選擇機制，與 MALT 的中介層動態分配思路互補
openhands — AI 軟體開發 Agent 平台，可探索 MALT 架構在程式碼生成任務的應用

Quartz 4

Explorer

MALT: Improving Reasoning with Multi-Agent LLM Training

MALT: Improving Reasoning with Multi-Agent LLM Training

Overview

Core Contributions

1. 首創多智慧體 LLM 聯合後訓練

2. 搜尋樹 Expansion + Value Iteration Credit Assignment

3. Off-Policy 學習

Architecture / Approach

三階段管道

Value Iteration 信用分配

Key Results

Limitations

Graph View

Table of Contents

Backlinks

Quartz 4

Explorer

MALT: Improving Reasoning with Multi-Agent LLM Training

MALT: Improving Reasoning with Multi-Agent LLM Training

Overview

Core Contributions

1. 首創多智慧體 LLM 聯合後訓練

2. 搜尋樹 Expansion + Value Iteration Credit Assignment

3. Off-Policy 學習

Architecture / Approach

三階段管道

Value Iteration 信用分配

Key Results

Limitations

Related Entities & Concepts

Graph View

Table of Contents

Backlinks