Agent Memory

Overview

Agent 記憶指的是讓 LLM Agent 能夠在互動之間持久化、檢索和更新資訊的系統和架構——超越即時的上下文視窗。現有 LLM 將上下文視窗視為無差異的「工作記憶」，造成三個核心問題：上下文溢位隨對話增長而加劇、早期重要事實被遺忘、以及跨 session 無連續性。^[raw/papers/memos.md]

現有記憶機制的局限性並非偶然，而是源於 LLMs 內部缺乏明確的層次化記憶表示。沒有在參數記憶和外接檢索之間建立Intermediate Explicit Memory Layer，模型在讀寫成本上都處於次優狀態，無法在儲存成本和檢索效率之間取得平衡。^[raw/papers/memos.md]

Core Contributions

系統化記憶分類：將 LLMs 的記憶分為隱式（參數記憶、KV-cache、隱狀態）和顯式（純文字、上下文基礎儲存）兩大類，並按時間尺度分為感官、短期的長期記憶。^[raw/papers/memos.md]
三層記憶統一框架：提出 MemOS 將純文字（plaintext）、基於激活（activation-based）和參數級（parameter-level）記憶統一為單一可調度系統資源，實現跨記憶類型的動態轉換。^[raw/papers/memos.md]
Controllability、Plasticity、Evolvability：MemOS 提供記憶生命週期的完整管理（Controllability）、跨任務/角色的記憶重構與遷移（Plasticity），以及三層記憶間的動態轉換（Evolvability）。^[raw/papers/memos.md]
跨使用者技能記憶：SkillClaw 將互動軌跡作為主要改進信號，使跨使用者的技能知識累積成為可能——知識在一個 context 中被發現後，能夠傳播到整個系統而無需使用者額外操作。^[raw/papers/skill-claw.md]

Architecture

Memory Hierarchy Model

LLM 記憶可沿兩個維度刻畫：隱式與顯式。隱式記憶包括：

參數記憶（Parametric Memory）：編碼在模型權重中的知識，透過預訓練和微調形成，具有高度通用性但更新成本高且有災難性遺忘風險。^[raw/papers/memos.md]
KV-cache（Key-Value Cache）：儲存已處理過的金鑰-值表示，在自迴歸生成期間實現歷史記憶的持久訪問，但主要用於推理效率優化而非結構化可控知識表示。^[raw/papers/memos.md]
隱狀態操控（Hidden State Steering）：在處理過程中對層級中間激活進行直接操控，代表一種更靈活、瞬時且高效的記憶控制手段。^[raw/papers/memos.md]

顯式記憶分為：

上下文視窗（Context Window）：Prompt 和直接串聯的歷史對話，構成 LLMs 的顯式短期記憶，但受制於上下文視窗長度。^[raw/papers/memos.md]
外部檢索系統（RAG）：將外部知識以純文字形式注入，雖實現動態訪問但本質上仍是無狀態的「臨時組成」管線，缺乏生命週期追蹤、版本控制和基於權限的調度。^[raw/papers/memos.md]

MemOS System Architecture

MemOS 由四個協作模組構成核心架構：

MemReader：負責從各記憶層（文字、激活、參數）讀取資料
MemScheduler：根據上下文條件動態調度記憶資源
MemLifecycle：管理記憶的創建、激活、融合歸檔和過期
MemOperator：提供記憶的插入、刪除、更新等操作介面

這些模組共同協調記憶流、狀態轉換和存取控制，形成作業系統風格的抽象層和統一 Memory API。^[raw/papers/memos.md]

SkillClaw 的封閉循環架構

SkillClaw 的跨使用者技能記憶系統採用集中式演化引擎架構：

Multi-user Interaction → Session Collection → Skill Evolution → Skill Synchronization

每個使用者與獨立的 OpenClaw Agent 互動，產生的軌跡被上傳作為共享證據。集中式演化引擎週期性處理收集的 session，更新技能庫，並將更新後的技能同步回所有 Agent，形成封閉循環。^[raw/papers/skill-claw.md]

Key Results

MemOS Benchmark Results

MemOS 在多個基準上展現領先效能：

Benchmark	指標	MemOS vs 基線
PreFEval (0 turns)	Personalized Response Rate	超越 MIRIX、Mem0、Zep、Memobase、MemU、Supermemory
PreFEval (10 turns)	Personalized Response Rate	持續排名第一
PersonaMem	Precision Score	持續排名第一
LongMemEval	Overall Mean Score	持續排名第一
LoCoMo	LLM Judge Score	持續排名第一

MemOS (MemOS-1031) 在所有類別中均排名第一，顯著超越強基線。^[raw/papers/memos.md]

三層記憶的量化效益

研究證明，引入明確的 Intermediate Memory Layer 後，模型在讀寫成本上都比純參數記憶或純 RAG 架構更高效。當使用者查詢到某條知識時，系統會自動選擇最優的記憶層進行讀取或寫入——高頻訪問的知識優先保留在激活記憶層，結構化文件存入文字記憶，專家知識可寫入參數記憶。^[raw/papers/memos.md]

SkillClaw 的演化效能

在 WildClawBench 上，SkillClaw 的集體技能演化展現顯著效能提升。Social Interaction 類別從 54.01% 提升至 60.34%（+11.72%），Search & Retrieval 從 22.73% 提升至 34.55%（+52.00%），Creative Synthesis 從 11.57% 提升至 21.80%（+88.41%），Safety & Alignment 從 24.00% 提升至 32.00%（+33.33%）。^[raw/papers/skill-claw.md]

Limitations

MemCube 碎片化問題：當記憶被分割為大量具有不同 provenance 和 versioning 的 MemCube 時，檢索和組合查詢的複雜度急劇上升，需要更智慧的 MemCube 合併策略。^[raw/papers/memos.md]
記憶一致性挑戰：跨不同記憶層（文字、激活、參數）更新同一事實時，保持一致性是一個開放問題——當使用者偏好改變時，所有三層是否同步更新？衝突時誰優先？^[raw/papers/memos.md]
SkillClaw 的單一技能庫瓶頸：集中式技能庫是 single point of failure——如果技能庫被攻擊或污染，所有使用者都會受到影響，且缺乏去中心化備份機制。^[raw/papers/skill-claw.md]
驗證延遲限制演化速度：SkillClaw 的驗證步驟發生在夜間，這意味著發現的問題需要平均 12-24 小時才能被修復並部署，對快速迭代場景不友好。^[raw/papers/skill-claw.md]
跨平台記憶遷移的實際困難：雖然多個平台都聲稱支援「記憶」，但它們的內部表示、權限模型和生命週期管理各不相同，真正實現跨平台遷移需要大量標準化工作。^[raw/papers/memos.md]
記憶隱私與權限控制的不成熟：當多個 Agent 共享記憶時，如何精細控制哪些 Agent 可以讀取/寫入哪些記憶單元，目前沒有成熟的解決方案。^[raw/papers/memos.md]

參見

memos — MemOS 論文（61 次引用），最完整的 LLM 記憶系統分類框架
skill-claw — 跨 Agent 人群的技能記憶，集體演化系統的具體實現
openhands — 軟體開發 Agent，其 append-only session 設計是一種簡化的持久化策略

Quartz 4

Explorer

Agent Memory

Agent Memory

Overview

Core Contributions

Architecture

Memory Hierarchy Model

MemOS System Architecture

SkillClaw 的封閉循環架構

Key Results

MemOS Benchmark Results

三層記憶的量化效益

SkillClaw 的演化效能

Limitations

相關概念

參見

Graph View

Table of Contents

Backlinks