Abstract
Nemobot Games 是南洋理工大學與香港城市大學於 2026 年提出的互動式 LLM 遊戲 Agent 程式設計框架,基於 Claude Shannon 的遊戲機器分類法進行現代化改造。核心貢獻是將 LLM 整合進四類遊戲機架構,採用可程式化提示工程與群眾外包相結合,支援部署至 Facebook Messenger 與 Telegram,已用於香港城市大學(251 名學生)、南洋理工大學(80+ 名學生)等多所大學的本科課程教學。
Nemobot Games
Overview
Nemobot Games 是由南洋理工大學(NTU)與香港城市大學研究團隊於 2026 年提出的互動式 LLM 遊戲 Agent 程式設計框架,基於 Claude Shannon 經典的遊戲機器分類法(Game Playing Machines)進行延伸與現代化改造。論文題為《Crafting Strategic AI Gaming Agents for Interactive Learning with Large Language Models》,作者包括 Chee Wei Tan、Yuchen Wang 與 Shangxin Guo,發表於 arXiv(編號 2604.21896)。
該系統的核心目標,是將大型語言模型(LLM)整合進 Shannon 的四類遊戲機架構,使 AI Agent 能夠在對抗性遊戲環境中動態生成、測試與迭代策略。與傳統直接調用 LLM API 下棋的簡單方式不同,Nemobot 採用**可程式化的提示工程(Programmable Prompt Engineering)與群眾外包(Crowdsourcing)**相結合的方式,將 LLM 函式視為可模組化、具可稽核性的元件,讓使用者能夠設計、測試、分享與逐步精煉遊戲策略。^[raw/papers/nemobot-games.md]
在應用場景上,Nemobot 支援部署至 Facebook Messenger 與 Telegram 等即時通訊平台,透過聊天機器人介面提供互動式 AI 遊戲體驗。平台已用於多所大學的本科課程教學,包括香港城市大學(2020–2021,251 名學生)、南洋理工大學(2022–2023,80+ 名學生)以及普林斯頓大學遙距實習計畫(2021–2022,約 30 名大學生)。^[raw/papers/nemobot-games.md]
Core Contributions
Nemobot Games 的核心貢獻可歸納為以下三個層面:
1. 基於 Shannon 分類法的 AI 遊戲程式設計框架
研究重新系統化 Claude Shannon 在 1953 年與 1955 年提出的遊戲機器分類法,並將其對應至現代 LLM 能力:
- Type 1(字典型機器):將遊戲狀態-動作映射压缩至 LLM 的推理能力中,動態生成最優走步,無需穷举預計算。典型遊戲:Tic-Tac-Toe。
- Type 2(數學公式型機器):LLM 扮演互動式副駕駛,以自然語言解釋最優走步背後的數學推理(如 Nim-sum 計算)。典型遊戲:Nim、The Game of Euclid。
- Type 3(啟發式原則型機器):結合經典 minimax 演算法與群眾外包資料,LLM 動態查詢遊戲樹中的最佳路徑。典型遊戲:Mancala。
- Type 4(學習型機器):透過強化學習(RL)與人類反饋(RLHF)、自我批判(self-critique)以及 Donald Michie 的 Boxes 演算法,迭代精煉策略。^[raw/papers/nemobot-games.md]
2. 可程式化提示工程(Programmable Prompt Engineering)
Nemobot 創新地將 LLM 函式(LLM Functions)作為遊戲邏輯的模組化元件嵌入系統。相較於傳統預先編寫所有可能情境的條件判斷,提示工程允許動態上下文即時生成回應。平台採用 LLM Functions 模式,讓開發者以自然語言描述高層次遊戲邏輯,由 LLM 動態生成策略程式碼。^[raw/papers/nemobot-games.md]
這呼應了 Shannon 最初的願景——機器最終能自主生成自身的指令系統。Michie 的「備忘函式(Memo Functions)」概念在此框架中獲得現代實現:KV 快取對應神經化備忘化(Neuralized Memoization),而平台更進一步延伸至語義備忘化(Semantic Memoization)、程序化備忘化(Procedural Memoization)與分散式備忘化(Distributed Memoization)。^[raw/papers/nemobot-games.md]
3. 群眾外包協作式提示工程
透過群眾外包匯聚多元參與者的策略創意與人類直覺,Nemobot 建構了一個可擴展的提示庫(Prompt Repository)。遊戲資料(如勝負比率、成功啟發式演算法)異步同步至雲端資料庫,形成自我強化的策略改進循環。這種協作方式類似 1999 年 Kasparov 對戰「世界聯隊」的人機協作模式,讓人類智慧與 AI 推理能力產生綜效。^[raw/papers/nemobot-games.md]
Architecture / Approach
系統三層架構
Nemobot 的系統架構包含三個核心層次:
-
模型無關 AI 整合層(Model-Agnostic AI Integration):採用「自攜金鑰(Bring Your Own Key, BYOK)」原則,支援連接各式 LLM API(如 GPT-4、GPT-3.5),與特定模型無綁定關係,確保框架随模型演進仍具適應性。
-
狀態管理與延遲控制層(State Management and Latency):遊戲邏輯與狀態管理在本地執行環境處理,遊戲狀態存放於記憶體以最小化延遲。LLM 僅在使用者明確觸發「LLM 函式」時才被查詢,確保核心遊戲循環不被推論延遲所瓶頸。
-
資料持久化與群眾外包層(Data Persistence and Crowdsourcing):遊戲狀態為暫態,效能指標與訓練結果則批次非同步同步至雲端資料庫,在不干擾即時互動的前提下匯聚群眾外包資料。^[raw/papers/nemobot-games.md]
三大互動模組
- Coding Pad(編碼面板):用於程式設計遊戲邏輯與 AI 推理啟發式,使用 NodeJS 範本定義初始狀態
S0、轉換函式f(Si+1|Si, ai)與終止狀態Se。編碼面板中編寫的程式可同步部署為聊天機器人驅動的遊戲。 - Chat Playground(聊天遊戲場):即時與 AI Agent 互動,觀察其在各狀態下的動作
ai並記錄最終獎勵Rk。支援自動化遊戲(隨機動作生成或基於另一 AI 的訓練)。 - Analysis Portal(分析入口):視覺化分析 AI 效能,識別啟發式精煉方向,支援基於效能數據引導的疊代改進。^[raw/papers/nemobot-games.md]
互動式訓練流程(Algorithm 1)
訓練流程採疊代式獎勵驅動啟發式更新:
H0 ← initial heuristic, k ← 1, R ← ∅
while true do
for i in [1, count(Dk)] do
R.add(Rik ← reward(Dik))
end for
if loss(R) ≤ τ then break end if
Hk ← update(Hk−1, R)
k ← (k + 1)
record < Hk, R >
R ← ∅
end while
return Hk
每次疊代中,啟發式針對測試資料集 D 進行評估,產生獎勵 Ri 引导調整,直到 AI 滿足預先定義的效能閾值 τ 為止。^[raw/papers/nemobot-games.md]
Key Results
教學應用成效
Nemobot Games 在真實教學場景中展現顯著成效:
- 香港城市大學(2020–2021):251 名本科生使用 Nemobot 學習策略遊戲程式設計
- 南洋理工大學(2022–2023):80+ 名學生透過平台理解 AI 遊戲 Agent 的底層機制
- 普林斯頓大學遙距實習(2021–2022):約 30 名大學生使用平台完成遠距 AI 教育任務
學生從 OpenAI Playground 與 Codex 起步,逐步过渡至 ChatGPT 與 OpenAI API,在十週內完成策略遊戲的程式設計與部署。^[raw/papers/nemobot-games.md]
四類遊戲的實證結果
| 遊戲 | Shannon 分類 | LLM Enhancement | 驗證方式 |
|---|---|---|---|
| Tic-Tac-Toe | Type 1(字典型) | LLM 動態查詢最優走步,壓缩字典至模型推理能力 | 確定性對局一致性 |
| Nim | Type 2(數學公式型) | Nim-sum 計算說明、程式碼生成、GCD 演算法實現 | 數學最優性驗證 |
| Mancala | Type 3(啟發式原則型) | LLM 輔助遊戲樹查詢,結合 minimax 與群眾外包策略 | 人機對戰排行榜 |
| Code Mentor / Role Playing | Type 4(學習型) | RL + RLHF + 群眾外包反饋 + 自我批判 | 疊代訓練收斂曲線 |
對於 Nim 遊戲的強化學習訓練,論文提供了不同初始堆疊大小 N 與每步最大移除數 K 下的訓練輪次 L 數據,驗證了 Michie Boxes 演算法與 LLM 函式编程相结合的有效性。^[raw/papers/nemobot-games.md]
多遊戲類型擴展
除純策略遊戲外,平台還支援物理學習問答遊戲(牛頓三大定律)、數學 RPG 遊戲(單人挑戰)、音頻標註推薦系統遊戲、程式設計教練對戰遊戲以及角色扮演對話樹動態生成遊戲,涵蓋 Type 1 至 Type 4 的完整光譜。^[raw/papers/nemobot-games.md]
Limitations
儘管 Nemobot Games 在遊戲化 AI 教育與 LLM 策略 Agent 設計上取得重要進展,論文本身亦坦承以下多項開放議題:
1. 長期策略推理的局限性
LLM 在需要長期規劃的複雜遊戲(如西洋棋、Mancala)中表現受限。論文指出,LLM 擅長短期決策但面對需要多步前瞻的策略時常有不足,未來需結合記憶機制或外部模型(如 AlphaGo 式的蒙特卡羅樹搜索)以克服此瓶頸。^[raw/papers/nemobot-games.md]
2. 泛化與特化之間的张力
LLM 雖在大規模資料上訓練以獲得泛化能力,但應用於特定遊戲領域時往往需要大量微調。如何發展自適應微調方法,使 LLM 能即時根據遊戲反饋調整,是尚未解決的挑戰。^[raw/papers/nemobot-games.md]
3. 人類反饋的規模化瓶頸
群眾外包反饋雖能加速學習,但確保回饋品質與一致性本身即為瓶頸。未來研究可探索自動化反饋系統或結合人類監督與 AI 生成評估的混合方案。^[raw/papers/nemobot-games.md]
4. 對抗性訓練的倫理疑慮
近期研究顯示對抗性 bot 能擊敗超人類水準的圍棋 AI(如 AlphaGo),代價是訓練出專門利用對手漏洞而非發展全面策略的 Agent。論文提醒開發者需確保 AI 以公平、透明的方式對戰,避免利用人類弱點並創造富有挑戰性但愉快的遊戲體驗。^[raw/papers/nemobot-games.md]
5. 計算效率與可重現性的取捨
LLM 本身為高資源密集系統,在即時互動遊戲中大規模部署面臨高昂計算成本。如何在輕量級模型與完整 LLM 能力之間取得平衡,並確保回應準確性與資源利用率的可重現基準測試,是重要的工程挑戰。^[raw/papers/nemobot-games.md]
Related Entities
- agentscope — 南洋理工大學參與的另一大規模多智能體模擬平台,採用 Actor-Based 分散式架構,支援 100K+ 等級 Agent 並行
- llm-multi-agent-challenges — LLM 多智能體系統所面臨的核心挑戰,包括擴展性、群體多樣性與協作機制等議題,與 Nemobot 的設計方向高度相關
- openhands — 开源 AI Agent 程式設計環境,專注於軟體開發任務,與 Nemobot 同樣強調 LLM 作為可程式化元件的理念
- claude-code-analysis — 分析 Claude Code 作為 AI 程式設計助手的架構與能力,可與 Nemobot 的 LLM 函式設計相互參照
References
- Original paper: arXiv:2604.21896 — “Nemobot Games: Crafting Strategic AI Gaming Agents for Interactive Learning with Large Language Models”
- Live demo: https://nemobot-neue-experiment.vercel.app
- Nim Simulation: Web-based browser simulation for training data generation
- Mancala Leaderboard: Crowdsourced human vs. AI match records