长程Agent入门基础教程（非常详细），搞懂埃森哲MemexRL“建索引”，收藏这一篇就够了！

张

张建站

2026/4/4 22:52:21

10分钟阅读

长程Agent入门基础教程（非常详细），搞懂埃森哲MemexRL“建索引”，收藏这一篇就够了！

很多人一提到长程 Agent第一反应还是两条路。要么继续堆上下文窗口让模型尽量“全都记住”要么不断做摘要把旧历史压缩成更短的文本。问题是这两条路各有硬伤。前者成本越来越高而且随着轨迹变长模型即使“看得见”远处内容也未必真的“用得好”后者虽然省 token但本质上是在丢证据一旦摘要漏了细节后面就很难原样找回来。Accenture 旗下 AI 团队发表的这篇论文《Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory》试图回答一个更具体的问题**如果 Agent 在几十步、上百步的任务里既要节省上下文又不能丢掉原始证据应该怎么设计记忆系统**这篇论文给出的答案不是“更聪明地摘要”而是把记忆拆成两层上下文里只保留一个很小的、可操作的进度视图原始工具输出、关键观察和中间结果放进外部经验库用稳定索引管理真正需要时再精确读回换句话说它想做的不是让模型“背更多历史”而是让模型学会像人一样工作**工作台上只摆当前进度和目录详细材料放档案柜里需要时再翻。**这篇论文到底提出了什么论文提出了一个记忆框架名字叫**Memex**。它的核心有三个部件Indexed Summary也就是带索引的摘要。它不是普通摘要而是“当前进度索引目录”。External Experience Store也就是外部经验库。里面存放的是完整保真的历史证据比如工具输出、代码片段、环境观察结果等。两个记忆操作CompressExperience和ReadExperience。其中CompressExperience可以理解成“归档”。当上下文太长时Agent 不再把整段历史一直留在 prompt 里而是把关键内容写入外部库同时在上下文中留下简明进度和索引描述。ReadExperience(index)则可以理解成“按编号调档”。当后续某一步需要某段旧证据时模型不是靠语义模糊搜索去猜而是直接根据索引把原始内容取回来再重新注入当前上下文。这套设计的重点在于**压缩的是工作上下文不是证据本身。**传统摘要式记忆的问题是一旦压缩很多细节就被改写了而 Memex 的思路是摘要只承担“导航”和“状态同步”的职责原始证据本身并没有丢。这张图展示的是论文最核心的系统结构。左边是普通 Agent 的长轨迹系统提示、用户问题、思考、工具调用和工具输出会越堆越长右边是 Memex 的做法把长轨迹压成一个短小的索引摘要并把详细内容存到外部库里。最右边展示的是回读动作当某个子任务需要旧证据时Agent 通过ReadExperience(Index I)把对应内容重新取回。图里最重要的信息不是“存起来”这件事而是“上下文里保留的是目录不是全文”。为什么说它不是普通的“RAG for Agent”如果只看“外部存储需要时取回”很多人会马上把它类比成 RAG。但这篇论文强调两者并不一样。RAG 更像是从一个大的知识库里按语义相似度搜索信息难点在于“检索到最像的内容”。而 Memex 针对的是**Agent 自己在执行过程中产生的经验**难点不是“海量知识搜索”而是“我自己之前做过什么、看到过什么、哪些证据值得以后精准访问”。所以作者认为只靠相似度检索是不够的。因为长程任务里的历史往往充满重复片段、临时分支和噪声如果没有稳定命名和显式索引后续检索会非常模糊。模型会一次次重读相似内容但未必能精确找到真正需要的那一段。Memex 想解决的正是这个“经验组织问题”。它要求 Agent 在压缩时就做出判断哪些内容值得存应该如何命名索引目录里要留下什么描述什么时候应该压缩什么时候应该回读这其实比“做个摘要”更难因为它涉及长链路 credit assignment也就是你现在做的一次归档价值可能要十几步之后才体现出来。Memex 的执行流程具体是怎么走的论文在算法部分给了一个很清晰的 Agent Loop。一开始模型上下文里只有系统提示和任务说明。之后每一步Agent 会读取当前上下文、输出思考、执行一个动作。这个动作可能是普通工具也可能是记忆工具。如果动作是CompressExperience系统就会把若干历史块写入外部经验库然后把工作上下文重写成“系统提示用户任务索引摘要”。如果动作是ReadExperience(index)系统就会按索引把对应内容取回并把原文再追加进当前上下文供模型继续推理。这张图本质上是一张流程图式伪代码。读它时可以重点看第 11 到 17 行第 11 到 14 行是压缩流程把MemoryBlocks写到外部库再把上下文重置成更短的IndexedSummary第 15 到 17 行是回读流程根据索引从外部库中拿回原始内容。它证明这篇论文不是把“记忆”当成一个隐藏机制而是把它显式做成了 Agent 的一类动作让模型自己学会在什么时机调用。这里最关键的一点是作者没有把“什么时候压缩”写成死规则。他们会在每一步给模型一个ContextStatus告诉它当前工作上下文已经多长、阈值是多少但是否压缩由模型自己决定。这意味着压缩时机本身也被当成一种可学习能力而不是硬编码策略。真正的创新点在 MemexRL如果只有 Memex 这个框架它更像一种系统设计。而论文真正往前推进的一步是提出了**MemexRL**也就是用强化学习去训练模型掌握这套记忆行为。作者的判断是索引记忆不是靠 prompt 规则就能稳定学会的。原因很简单。一次好的归档动作价值可能不会立刻反映出来而是会在后面表现为少走弯路少做重复工具调用在上下文更短的情况下仍能完成任务需要旧信息时能精确回读而不是重新搜索因此论文把记忆行为和任务行为放进同一个动作空间里一起做 RL 优化。奖励函数由四部分组成任务成功奖励R_task上下文溢出惩罚P_context重复工具调用惩罚P_redundancy工具格式错误惩罚P_format直白地说这个训练目标希望模型学会三件事任务要做成上下文不要一路膨胀不要总把以前做过的查询再做一遍应该优先利用外部经验库这就是 MemexRL 和很多“会摘要的 Agent”最大的区别。它不是只训练模型把历史写短一点而是训练模型形成一套完整的记忆操作习惯。论文为什么要专门做理论分析这篇论文有一个值得注意的优点它没有只停留在工程直觉上而是补了一层理论解释。作者想说明的是Memex 这套机制至少在理论上有机会同时满足两个目标决策质量不掉太多工作上下文不会随着历史无限增长论文提出了一个“有界决策充分性”的概念。意思是说如果当前决策真正需要的旧证据其实只对应外部经验库里的少数几个块那么模型没必要每次都带着完整历史走。只要当前上下文里的索引摘要足够好外加每一步最多回读有限几个块就有可能达到和“完整历史全带着”的策略一样的决策质量。这个理论假设当然并不保证现实里一定成立但它帮论文把一个工程系统提升成了一个更完整的研究问题**长程 Agent 的关键也许不是无限扩容上下文而是找到一种足够好的“摘要索引有界回读”机制。**实验到底证明了什么实验环境是一个改造过的**ALFWorld**这是一个经典的文本交互任务环境。作者刻意把它改得更适合考验记忆能力比如隐藏可用命令、隐藏初始位置描述、限制look动作使用次数让 Agent 更依赖对过去观察结果的保留与回读。同时作者还限制压缩后的摘要长度只有 300 token。这个设置很重要因为它逼着模型不能把所有细节都偷偷塞回摘要而必须真的把详细信息放进外部经验库再通过索引取回。底座模型方面论文使用的是**Qwen3-30B-A3B-Thinking-2507**。最关键的结果在 Figure 4:这张图由两个折线图组成。左图的纵轴是任务成功率横轴可以理解为训练进程右图的纵轴是工作上下文峰值长度也就是一次任务里上下文最长会膨胀到多少 token。最值得关注的模式是训练后成功率从 24.22% 提升到 85.61%同时峰值工作上下文从 16934 token 降到 9634 token明显逼近训练时设置的 8000 token 惩罚阈值。它说明 MemexRL 学到的不是“胡乱压缩”而是在尽量缩短工作上下文的同时反而把任务做得更好了。这个结果很重要因为它直接反驳了一种常见担忧记忆压缩往往会伤害任务性能。但在这篇论文里压缩不是简单删内容而是换成“索引化保存必要时回读”于是上下文更短任务反而更稳定。训练后模型的记忆习惯发生了什么变化如果说 Figure 4 证明了“结果变好了”那么 Figure 5 证明的是“行为方式真的变了”:这张图也是两个指标。左边统计每个 episode 平均调用多少次CompressExperience右边统计平均调用多少次ReadExperience。读图时最关键的结论是训练后压缩次数从大约 6.5 次降到 3 次左右而回读次数则从大约 1 次升到 6 到 7 次。也就是说模型不是更频繁地“把东西写短”而是更有选择地压缩同时更积极地在需要时调取旧证据。这背后反映的是一种很像人的工作方式转变不是反复重写笔记而是先把资料归档好之后按目录精准翻阅作者认为这正是 Memex 的目标状态。这篇论文最有价值的地方是什么如果把这篇论文压缩成一句话我觉得它最重要的贡献是**它把 Agent 的长时记忆从“如何少丢一点历史”推进到“如何组织历史并让历史可被精确再利用”。**过去很多工作都在想办法让上下文别爆掉但方法大多还是围绕“删、截、压缩、总结”。Memex 的视角不太一样它默认原始证据是有价值的不应该轻易被二次改写真正该被压缩的是当前工作台而不是档案库。这对 Agent 系统设计有几层启发。第一长程任务的核心瓶颈可能不是上下文本身不够大而是**没有形成可复用的经验结构**。第二记忆系统不只是存储组件也是一套策略学习问题。什么时候归档、怎么命名、何时回读本质上都需要训练。第三这种“索引化经验记忆”特别适合工具调用密集、任务跨度长、证据需要原样保留的场景比如代码修复、复杂搜索、事务性任务执行、多轮研究助手等。当然这篇论文也有边界。它当前的实验环境仍然比较受控外部经验库的组织方式也相对简单未来如果任务更开放、索引规模更大、跨任务共享更多如何避免索引膨胀、如何设计更稳健的命名与检索策略都会变成新的问题。但至少在研究方向上这篇论文已经把问题提得很准了**Agent 要想真正做长任务不能只会“压缩上下文”还得会“管理经验”。**学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】