导语最近一头扎进 AI Agent开发的世界边学边整理把这一路上搞懂的核心概念做下简单记录。从 Transformer 到 Multi-Agent从 RAG 到 Function Calling——这些概念单看都懂放在一起容易乱。所以重新梳理了一遍有类比帮助理解也可以当做一个学习目录使用。如果正准备入坑希望这份笔记能帮你少走弯路。有什么不对的地方欢迎指正交流目录1. Transformer2. Prompt Engineering提示词工程3. Fine-tuning微调4. RAG检索增强生成5. Function Calling函数调用6. MCPModel Context Protocol模型上下文协议7. Skill技能8. Memory记忆9. Context Engineering上下文工程10. Reasoning Planning推理与规划11. Agent智能体12. Multi-Agent多智能体13. Harness Engineering驾驭工程 写在最后1. TransformerTransformer 模型由 Vaswani 等人在《Attention Is All You Need》论文中首次提出。该模型摒弃了传统的循环神经网络RNN和卷积神经网络CNN创新性地提出了自注意力机制Self-Attention。最初的 Transformer 架构包含编码器和解码器两部分。现在Decoder-only仅解码器变体成为主流GPT 系列就是典型代表。2. Prompt Engineering提示词工程提示词Prompt是用户给模型的输入指令用于引导模型产生更准确、可控的输出。提示词工程 降低模糊性提升你与 AI 之间的对齐度这是一种提升效果但不改变模型参数的低成本调优手段。提示词分为两类类型说明系统提示词全局约束定义 AI 的角色、行为边界用户提示词应用于当前对话并对后续对话产生一定影响3. Fine-tuning微调微调是在基座大模型Base LLM的基础上进行的。使用已经预训练好的基座模型用自己的专属数据对模型参数做小幅度、定向优化让模型更加垂直化。但模型微调需要消耗大量经济成本、人力和时间导致迭代周期较长。现实困境近几年模型迭代速度太快可能微调还没做完新的基座大模型在你想微调的细分领域已经完成了超越。4. RAG检索增强生成RAG 让 LLM 在回答问题时先从外部知识库中检索相关内容再基于检索结果生成回答而不是仅依赖模型训练时记住的知识。RAG 也能让模型输出更优质的内容增强特定领域的垂直能力达到与微调相似的效果。两者的核心区别对比项微调RAG是否改参数是修改模型智力否外挂知识库类比闭卷考试靠记忆开卷考试有参考资料成本高低落地速度慢快【1】原理生产链路建立索引文档 → 切片Chunking → embedding 向量化 → 向量 → 存入向量数据库消费链路检索用户请求 → embedding 向量化 → 向量 → 向量数据库检索R → 召回相似片段 → 拼接生成增强上下文A → LLM 生成回复G图片来源RAG 与知识检索 | 菜鸟教程【2】效果RAG 外挂可检索的知识库解决了私有知识的需求更重要的是处理了 LLM 的两大痛点时效性差模型基于历史训练数据无法处理实时信息。RAG 可以实时将所需信息传给模型让回答具备时效性。幻觉问题当模型不确定答案时容易编造。RAG 提供了更丰富可靠的参考上下文减少幻觉。【3】优化方向RAG 的流程包含多个环节每一步都值得深入研究优化如何切分 → 如何向量化 → 相似度检索算法 → 召回数量 → 召回阈值……5. Function Calling函数调用对于 AI Agent 来说工具是把决策转化为真实动作的执行单元现代大模型通过函数调用机制来使用工具。Function Calling 本质模型与工具之间的通信协议⚠️常见误区一开始很容易认为 Function Calling 就是工具本身但其实它是模型的能力。开发者预先定义好工具的名称、功能描述与参数说明。当用户提出需求时Function Calling 让大模型识别到需要调用工具 → 输出结构化参数工具名 参数 → 交给程序执行。【1】工具调用流程用户请求 → 大模型接收 → 模型推理并输出结构化 JSON → 函数执行 → 结果返回模型 → 模型组织语言回答用户图片来源工具调用Function Calling| 菜鸟教程6. MCPModel Context Protocol模型上下文协议MCP 是一个标准化协议让 LLM 能以统一方式连接各种工具和数据源。与 Function Calling 的关系Function Calling 是模型的「能力」知道能调什么MCP 是「插头标准」让工具可以即插即用两者都可以连接内部或外部资源区别在于层次不同7. Skill技能Skill 是业务层面的「能力封装包」是完成一件事的完整方案本质是可复用、自触发的能力模块。它不再直接将所有工具暴露给 LLM而是让 Agent 从小而稳定的切入点开始避免Agent一开始就被淹没。Skill本质不是工具而是行为规范 专业知识 使用时机的组合教 AI 按固定流程做事的操作说明书一旦写好就能像函数一样反复调用。Skill 内部可以包含业务逻辑、工具调用、外部 API【1】优点优点说明渐进式披露不再一股脑将所有工具交给 LLM而是分门别类存放需要时才拉入上下文增强可移植性将可复用的功能打包需要时直接拉取使用使用流程发现 → 激活 → 执行8. Memory记忆记忆管理用于增强模型使用的连贯性。记忆类型类型说明实践方案短期记忆记住当前对话的上下文窗口受限于模型的上下文长度MongoDB 存储每次对话读取滑动窗口记忆参与上下文组成长期记忆记住长期偏好、关键信息Pinecone、Milvus 等向量数据库存储【1】RAG 与长期记忆RAG 是检索机制长期记忆可以用 RAG 实现是目前主流技术方案之一用户提问 → 向量化检索 → 召回相关内容 → 注入上下文 → 生成回答9. Context Engineering上下文工程Agent 运行时需要为 LLM 提供各类信息用户提示词、对话历史、长期记忆、外部知识、工具等这些都是上下文。LLM 对组织好的上下文进行分析理解生成回答。上下文工程关注高质量筛选、压缩和组织上下文最大化模型的决策与推理能力。【1】核心问题数据堆积随着对话长度增加上下文长度也在增加。模型基于 Transformer 架构而 Transformer 依赖自注意力机制当上下文过长时LLM 有限的注意力会被分散影响决策质量。10. Reasoning Planning推理与规划10.1 CoTChain of Thought思维链传统 LLM 生成回答时往往是直觉性的一步到位。思维链CoT的核心思想强制要求模型在输出最终答案前先显式地输出中间的推理步骤。这激活了模型的逻辑推理能力给了模型更多思考时间让回答建立在正确逻辑的基础上。10.2 ReAct 框架Reasoning ActingReAct 范式下Agent 遵循以下循环直到得出最终结论Thought思考→ Action行动→ Observation观察→ 循环...11. Agent智能体Agent LLM 记忆 工具 规划Agent 综合了前面所说的 Memory、Function Calling、MCP、Reasoning Planning是一个可以进行思考 → 行动 → 观察循环的动态闭环反馈系统能调用工具完成复杂任务。12. Multi-Agent多智能体多个分工协作的 Agent 共同完成任务。通过任务拆分、隔离上下文解决单 Agent 难以处理的复杂问题。 需要谨慎使用避免 Token 消耗过大、协作效率低、系统复杂度过高的问题。通俗比喻有时候团队合作拉通对齐的过程比干活都费劲。【1】适用场景上下文爆炸/污染背景信息完全不同时适合拆分使用任务可并行互相之间的工作可以不交叉聚焦工作对象拆分可以让每个 Agent 更专注【2】协作模式模式说明流水线式A 输出 → B 输入 → C 输出如研究→写作→审核Hierarchical层级式主管 Agent 分配任务给子 Agent竞争式多个 Agent 独立解题投票选最优协作式共享上下文共同讨论解决13. Harness Engineering驾驭工程人类掌舵智能体执行原则说明1. 设定边界做好约束告诉 Agent 边界在哪必须遵守什么规则2. 完整上下文尽可能全面地提供 Agent 所需的最完整上下文3. 验证验收任务完成后让 Agent 做自测验收4. 纠偏修正建立科学的循环系统对错误及时纠偏和修正 写在最后这 13 个概念构成了 AI Agent 应用研发的核心知识框架。理解它们就像拿到了进入 AI 应用世界的地图。真正的理解来自实践索引建立完了该拉取下来做更深层次的实践尝试了后面再做记录吧。