你问AI助手"我上周说的那个机器人项目进展怎么样了?",它回答"抱歉,我不太清楚您指的是哪个项目"。不是它不想帮你,是它真的忘了。ICLR 2026上,三篇论文同时出手,试图从根本上解决这个让所有Agent开发者头疼的问题。
一、为什么你的Agent总是"失忆"?三大病灶诊断
在聊论文之前,先搞清楚问题到底是什么。当前主流Agent的记忆方案,几乎全部卡在单一颗粒度陷阱里。
病灶一:颗粒度单一,信息要么太粗要么太细。Session级记忆把整段对话压缩成一段摘要,细节全丢;Turn级记忆每句话单独存,噪音爆炸,检索效率极低。就像一个图书管理员——要么把整本书背下来(累死),要么给每个字建索引(疯掉)。
病灶二:检索是一次性命中,没有"联想"。现有方案几乎全是Top-K向量相似度搜索——输入一个问题,算一下向量距离,取最相似的K条。这就像查字典只看第一个匹配项,不会"顺藤摸瓜"。真实场景中,用户的问题往往是模糊的、需要多段记忆串联才能回答的。
病灶三:静态评测≠真实效果。大部分论文用离线数据集评测(扔一堆对话历史进去,看能不能回答对),但真实Agent场景是循环的——Agent读记忆→回答→用户反馈→写入新记忆→下次再读。静态评测无法捕捉这个循环中的"重用偏差"(reuse bias),导致论文数据好看,上线拉胯。
ICLR 2026的三篇论文,恰好分别对应这三个病灶,而且彼此互补,基本覆盖了Agent长期记忆的全部技术路线。
二、MemGAS:多颗粒度+图传播,让Agent"联想式"回忆
MemGAS(From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents)是这三篇里最系统、工程可用性最高的一篇。
2.1 核心思路:四层记忆,图结构关联
MemGAS的做法看似简单,但没有人系统地做过:同时建四层记忆,再用图把它们串起来。
四层分别是:
关键在于层与层之间有边。Session连到它包含的Turn,Turn连到它的Summary,Summary连到Keyword。这样,当一次检索命中了某个Keyword,图传播算法会自动把和它相连的Session、Turn、Summary都"带出来"——这就是"联想式回忆"的数学实现。
2.2 检索算法:不是Top-K,是种子节点+阻尼传播
MemGAS的检索不是简单的向量最近邻搜索,而是一个图传播过程。论文里最核心的几个参数,其实就是这道"联想"题的旋钮:
• num_seednodes=15:先通过向量搜索找到15个最相关的种子节点(可以是任意层的记忆)
• damping=0.1:阻尼系数,控制"联想"能传多远。0.1意味着每传播一层,信号衰减到10%,防止无限扩散
• temp=0.2:温度参数,控制检索结果的"创造力"。越低越保守(只取最相关的),越高越"大胆"(会把弱相关但可能有用的记忆也带出来)
• mem_threshold=30:最终保留的记忆条数阈值
这个设计的精妙之处:它模拟了人类回忆的"蝴蝶效应"——你问"机器人项目进展如何",先命中"机器人"这个关键词,然后图传播把相连的"上周讨论"、"西雅图搬家"、"新工作"全部带出来,Agent就能给出有上下文的回答。
2.3 实验数据:全面碾压单颗粒度基线
论文在四个主流长程对话记忆基准上做了评测:
• LoCoMo-10:10轮以上的超长对话,测试跨会话记忆关联
• LongMemEval-s/m:短期/中期记忆评测,包含时间推理问题
• Long-MT-Bench+:多轮工具调用场景下的记忆评测
结果:MemGAS在全部四个数据集上,一致优于所有单颗粒度基线(session_level / turn_level / summary_level / key_level)以及简单的混合基线(hybrid_level)。评测方式是用GPT-4o作为judge对检索质量打分,避免了单一指标的偏差。
2.4 一行代码接入:已经可以跑了
这是最实用的一点:MemGAS提供了完整的Python封装,已经在GitHub开源(Applied-Machine-Learning-Lab/ICLR2026_MemGAS)。接入代码:
from quickstart import MemGASMemory, MemoryConfig
mem = MemGASMemory(
MemoryConfig(
storage_dir="./memgas_store",
embedder="contriever", # contriever / mpnet / minilm
llm_provider="openai", # openai 或 vllm(本地)
llm_model="gpt-4o-mini",
default_mode="memgas",
)
)
# 存:支持多段对话批量写入
mem.add(
session=["[User]: 我搬到西雅图了 [AI]: 天气好吗?",
"我开始了机器人创业公司的新工作,骑自行车上班。"],
conversation_id="user_001",
)
# 取:自动多颗粒度图检索
hits = mem.retrieve(query="我最近的工作是什么?", topk=3)
支持用vllm接入本地大模型(比如Qwen2.5-7B),也支持conversation_id做多用户记忆隔离。一个部署就能服务多用户Agent。
三、RF-Mem:借鉴认知科学,让Agent拥有"快检索"和"慢回忆"双系统
RF-Mem(ReFamiliarization-based Memory)来自大连理工大学、香港城市大学、华为和中国科学技术大学,已被ICLR 2026收录。它的切入点更"认知科学"——直接借鉴人类记忆的双加工理论(Dual-Process Theory)。
3.1 核心洞察:一次性Top-K检索是不够的
人类记忆有两种模式:熟悉性(Familiarity)快速但粗糙,回忆(Recollection)慢但精确。RF-Mem把这个双系统搬进了Agent的记忆检索。
具体流程:
Step 1 — Probe Retrieval(探针检索):先做一轮快速Top-K,拿到初步候选集。同时计算两个信号:平均相似度(候选和问题的匹配程度)和分布熵(候选之间的多样性——熵高说明候选分散,可能没找对方向)。
Step 2 — Familiarity路径 vs Recollection路径:如果平均相似度高且分布熵低(说明"很熟悉,候选很集中"),直接走Familiarity路径,返回Top-K结果——这是"快检索"。如果相似度低或熵高("不确定,候选很分散"),启动Recollection路径——在嵌入空间里逐步重构证据链,把真正关键的证据一点点"回忆"出来。
这个设计的实用价值非常直接:对于简单明确的问题("我的API Key是什么?"),系统秒回;对于模糊复杂的问题("帮我总结一下上个月讨论过的所有技术方案的优缺点"),系统会"想一想",在嵌入空间里多做几次传播,再给出答案。
3.2 实验:在三个基准上稳定提升
RF-Mem在PersonaMem、PersonaBench和LongMemEval三个基准上取得了稳定提升。论文特别强调了固定预算和延迟约束下的表现——这意味着RF-Mem不仅效果好,而且在工程上可控:你可以设定"最多花500ms做回忆",系统会自动在Familiarity和Recollection之间做权衡。
对比MemGAS:MemGAS是"全量多颗粒度图传播",效果更好但计算开销更大;RF-Mem是"按需切换双模式",在延迟敏感场景下更有优势。两套方案其实是互补关系。
四、AMemGym(美团):第一次认真评测"Agent记忆"的真实循环
前两篇论文关注"怎么让检索更好",美团这篇AMemGym关注的则是更底层的问题:你怎么知道你的记忆系统真的好用?
4.1 静态评测的致命缺陷
现有记忆评测几乎全部是"离策略"(off-policy)的:扔一堆对话历史进去,看能不能回答对。但真实Agent场景是同策略(on-policy)循环的:
Agent读记忆 → 生成回答 → 用户反馈 → 新记忆写入 → 下次再读记忆
这个循环中有一个关键问题:记忆的读写会互相影响。坏的记忆检索会导致错的回答,错的回答会产生坏的新记忆,坏的新记忆又会进一步恶化后续检索——这是一个反馈回路。静态评测完全捕捉不到这个动力学过程,导致论文数据好看、上线拉胯的"重用偏差"(reuse bias)。
4.2 AMemGym的解决方案:用户模拟器+结构化数据
AMemGym的核心创新:构建一个交互式评测环境,用用户模拟器来模拟真实的多轮对话循环,从而在同策略(on-policy) setting下评测记忆系统的端到端表现。
具体做法:
• 用LLM构建用户模拟器,能够根据场景设定,持续多轮地"扮演"一个真实用户(有记忆、有偏好、有上下文)
• 构建关联结构化数据,确保评测的可重复性(每次跑同一个seed,用户行为一致)
• 对记忆生命周期进行分解诊断:读记忆→写记忆→更新记忆,每个环节单独打分,告诉你"是检索不行,还是写入不行"
更重要的是,AMemGym可以作为一个持续学习模拟环境来用——你可以在上面训练"如何让Agent自己优化自己的记忆策略",而不只是评测静态指标。
对业界的意义:这篇论文第一次提供了一套可操作的Agent记忆评测标准。以后做Agent记忆模块,不要再只跑LongMemEval了,用AMemGym跑一下on-policy评测,才知道真实场景下会不会翻车。
五、三篇论文横向对比:选型指南
把三篇放在一起看,它们其实覆盖了Agent记忆系统的三个不同层面:
选型建议:如果你今天就要接入一个记忆系统,先上MemGAS(有代码、有文档、有API)。如果场景对延迟敏感,研究一下RF-Mem的双系统思路,按需集成。如果你在做Agent记忆模块的研发,用AMemGym做评测基准,别再用静态数据集自嗨了。
六、从ICLR 2026看Agent记忆的下一个战场
把这三篇论文放在一起来看,一个清晰的信号浮现出来:Agent领域正在从"模型能力竞赛"过渡到"系统工程竞赛"。记忆,就是下一个瓶颈和突破口。
趋势一:多颗粒度将成为标配。单一颗粒度的记忆方案会像单一卷积核的CNN一样,被历史淘汰。未来主流Agent框架(LangChain、AutoGen、OpenClaw)都会内置多颗粒度记忆模块。
趋势二:检索≠搜索,记忆需要"动力学"。静态Top-K检索会被动态图传播/双系统自适应检索替代。未来Agent的记忆检索会像一个"小模型"一样,有自己的状态、反馈和自适应逻辑。
趋势三:评测标准正在重建。ICLR 2026之后,静态记忆评测数据集(LongMemEval等)会继续用,但工业界会逐步转向on-policy评测。谁能建立事实上的评测标准,谁就掌握了Agent记忆方向的话语权。
趋势四:记忆+持续学习=终极形态。Google DeepMind预言2026是"持续学习元年",Anthropic CEO确认持续学习将在2026年实用化。当Agent既能"记住"(MemGAS/RF-Mem),又能"从记忆中学习"(持续学习),才是真正意义上的"不遗忘的AI助手"。
一句话总结:ICLR 2026的这三篇记忆论文,不是三个孤立的技术点,而是Agent记忆系统从"能用"到"好用"的必经之路上的三块路标。现在接入,刚好赶在大规模落地之前。
数据来源于:https://minigpt.top/console/posts/editor?name=33e9e653-e362-4ece-8bf1-56876fd51da1