Agent Memory
Overview
Agent 記憶指的是讓 LLM Agent 能夠在互動之間持久化、檢索和更新資訊的系統和架構——超越即時的上下文視窗。現有 LLM 將上下文視窗視為無差異的「工作記憶」,造成三個核心問題:上下文溢位隨對話增長而加劇、早期重要事實被遺忘、以及跨 session 無連續性。^[raw/papers/memos.md]
現有記憶機制的局限性並非偶然,而是源於 LLMs 內部缺乏明確的層次化記憶表示。沒有在參數記憶和外接檢索之間建立Intermediate Explicit Memory Layer,模型在讀寫成本上都處於次優狀態,無法在儲存成本和檢索效率之間取得平衡。^[raw/papers/memos.md]
Core Contributions
-
系統化記憶分類:將 LLMs 的記憶分為隱式(參數記憶、KV-cache、隱狀態)和顯式(純文字、上下文基礎儲存)兩大類,並按時間尺度分為感官、短期的長期記憶。^[raw/papers/memos.md]
-
三層記憶統一框架:提出 MemOS 將純文字(plaintext)、基於激活(activation-based)和參數級(parameter-level)記憶統一為單一可調度系統資源,實現跨記憶類型的動態轉換。^[raw/papers/memos.md]
-
Controllability、Plasticity、Evolvability:MemOS 提供記憶生命週期的完整管理(Controllability)、跨任務/角色的記憶重構與遷移(Plasticity),以及三層記憶間的動態轉換(Evolvability)。^[raw/papers/memos.md]
-
跨使用者技能記憶:SkillClaw 將互動軌跡作為主要改進信號,使跨使用者的技能知識累積成為可能——知識在一個 context 中被發現後,能夠傳播到整個系統而無需使用者額外操作。^[raw/papers/skill-claw.md]
Architecture
Memory Hierarchy Model
LLM 記憶可沿兩個維度刻畫:隱式與顯式。隱式記憶包括:
- 參數記憶(Parametric Memory):編碼在模型權重中的知識,透過預訓練和微調形成,具有高度通用性但更新成本高且有災難性遺忘風險。^[raw/papers/memos.md]
- KV-cache(Key-Value Cache):儲存已處理過的金鑰-值表示,在自迴歸生成期間實現歷史記憶的持久訪問,但主要用於推理效率優化而非結構化可控知識表示。^[raw/papers/memos.md]
- 隱狀態操控(Hidden State Steering):在處理過程中對層級中間激活進行直接操控,代表一種更靈活、瞬時且高效的記憶控制手段。^[raw/papers/memos.md]
顯式記憶分為:
- 上下文視窗(Context Window):Prompt 和直接串聯的歷史對話,構成 LLMs 的顯式短期記憶,但受制於上下文視窗長度。^[raw/papers/memos.md]
- 外部檢索系統(RAG):將外部知識以純文字形式注入,雖實現動態訪問但本質上仍是無狀態的「臨時組成」管線,缺乏生命週期追蹤、版本控制和基於權限的調度。^[raw/papers/memos.md]
MemOS System Architecture
MemOS 由四個協作模組構成核心架構:
- MemReader:負責從各記憶層(文字、激活、參數)讀取資料
- MemScheduler:根據上下文條件動態調度記憶資源
- MemLifecycle:管理記憶的創建、激活、融合歸檔和過期
- MemOperator:提供記憶的插入、刪除、更新等操作介面
這些模組共同協調記憶流、狀態轉換和存取控制,形成作業系統風格的抽象層和統一 Memory API。^[raw/papers/memos.md]
SkillClaw 的封閉循環架構
SkillClaw 的跨使用者技能記憶系統採用集中式演化引擎架構:
Multi-user Interaction → Session Collection → Skill Evolution → Skill Synchronization
每個使用者與獨立的 OpenClaw Agent 互動,產生的軌跡被上傳作為共享證據。集中式演化引擎週期性處理收集的 session,更新技能庫,並將更新後的技能同步回所有 Agent,形成封閉循環。^[raw/papers/skill-claw.md]
Key Results
MemOS Benchmark Results
MemOS 在多個基準上展現領先效能:
| Benchmark | 指標 | MemOS vs 基線 |
|---|---|---|
| PreFEval (0 turns) | Personalized Response Rate | 超越 MIRIX、Mem0、Zep、Memobase、MemU、Supermemory |
| PreFEval (10 turns) | Personalized Response Rate | 持續排名第一 |
| PersonaMem | Precision Score | 持續排名第一 |
| LongMemEval | Overall Mean Score | 持續排名第一 |
| LoCoMo | LLM Judge Score | 持續排名第一 |
MemOS (MemOS-1031) 在所有類別中均排名第一,顯著超越強基線。^[raw/papers/memos.md]
三層記憶的量化效益
研究證明,引入明確的 Intermediate Memory Layer 後,模型在讀寫成本上都比純參數記憶或純 RAG 架構更高效。當使用者查詢到某條知識時,系統會自動選擇最優的記憶層進行讀取或寫入——高頻訪問的知識優先保留在激活記憶層,結構化文件存入文字記憶,專家知識可寫入參數記憶。^[raw/papers/memos.md]
SkillClaw 的演化效能
在 WildClawBench 上,SkillClaw 的集體技能演化展現顯著效能提升。Social Interaction 類別從 54.01% 提升至 60.34%(+11.72%),Search & Retrieval 從 22.73% 提升至 34.55%(+52.00%),Creative Synthesis 從 11.57% 提升至 21.80%(+88.41%),Safety & Alignment 從 24.00% 提升至 32.00%(+33.33%)。^[raw/papers/skill-claw.md]
Limitations
-
MemCube 碎片化問題:當記憶被分割為大量具有不同 provenance 和 versioning 的 MemCube 時,檢索和組合查詢的複雜度急劇上升,需要更智慧的 MemCube 合併策略。^[raw/papers/memos.md]
-
記憶一致性挑戰:跨不同記憶層(文字、激活、參數)更新同一事實時,保持一致性是一個開放問題——當使用者偏好改變時,所有三層是否同步更新?衝突時誰優先?^[raw/papers/memos.md]
-
SkillClaw 的單一技能庫瓶頸:集中式技能庫是 single point of failure——如果技能庫被攻擊或污染,所有使用者都會受到影響,且缺乏去中心化備份機制。^[raw/papers/skill-claw.md]
-
驗證延遲限制演化速度:SkillClaw 的驗證步驟發生在夜間,這意味著發現的問題需要平均 12-24 小時才能被修復並部署,對快速迭代場景不友好。^[raw/papers/skill-claw.md]
-
跨平台記憶遷移的實際困難:雖然多個平台都聲稱支援「記憶」,但它們的內部表示、權限模型和生命週期管理各不相同,真正實現跨平台遷移需要大量標準化工作。^[raw/papers/memos.md]
-
記憶隱私與權限控制的不成熟:當多個 Agent 共享記憶時,如何精細控制哪些 Agent 可以讀取/寫入哪些記憶單元,目前沒有成熟的解決方案。^[raw/papers/memos.md]
相關概念
- 技能演化(skill-claw)— 跨使用者的技能記憶,透過集體互動軌跡驅動技能持續改進
- 上下文管理(openhands)— OpenHands 作為單一 Agent 平台,其上下文管理策略與長期記憶的取捨
- 規劃 — 記憶使長期連貫規劃成為可能,沒有持久化記憶的 Agent 每次 session 都是從零開始
- 個人化 — 記憶使 Agent 能適應個別使用者,實現真正的長期 AI 陪伴
參見
- memos — MemOS 論文(61 次引用),最完整的 LLM 記憶系統分類框架
- skill-claw — 跨 Agent 人群的技能記憶,集體演化系統的具體實現
- openhands — 軟體開發 Agent,其 append-only session 設計是一種簡化的持久化策略