2026 年 2 月Harness Engineering这个词在 AI 工程圈突然火了。Mitchell Hashimoto 首先命名了这个实践OpenAI 跟着发了一份百万行代码的实验报告Martin Fowler 补上深度分析——短短几周它就成了绕不开的话题。这个术语背后的东西其实一句话就能说清Agent Model Harness。模型负责推理剩下的全部是工程——工具系统、上下文管理、权限控制、反馈回路。过去大家以为瓶颈在模型不够聪明现在发现错了瓶颈在外围工程。一、模型智力已过线真正的问题是工程2024 年我们还觉得自己比 GPT 聪明2025 年开始承认模型比自己高明到 2026 年模型的推理能力已经远超普通人类水平。继续卷模型普通人已经感受不到差异了。关键问题从模型够不够聪明变成了能不能帮我把事儿做成。有个实验很说明问题Can.ac 仅仅改了 Grok Code Fast 1 的工具接口格式编码基准分数就从 6.7% 跳到了 68.3%。没有动任何模型权重只改了 Harness。LangChain 也通过 Harness 改进在 Terminal Bench 2.0 上从第 30 名飙到第 5 名。DeepMind 的 Agents 团队做了更直接的验证固定模型不变只换 Harness也就是模型外围的基础设施性能就产生了巨大差距。Claude Code 的商业价值蒸蒸日上它的本质就是在做 Harness 工程。二、上下文窗口不是越大越好给 Agent 塞一堆 MCP 工具、冗长文档和对话历史不会让它变聪明——只会让它变笨。Dex Horthy 给了量化数据以 168K token 的上下文窗口为例用到大约 40% 就开始走下坡路。前 40% 是 Smart Zone——推理聚焦且准确超过这个阈值就是 Dumb Zone——幻觉、死循环、格式错误的工具调用齐上阵。Anthropic 的 Carlini 在 C 编译器项目里花了大量精力做上下文污染缓解日志写文件不输出控制台、用 grep 友好的错误格式、预计算聚合统计而不是甩原始数据出来。原因很简单——上下文一旦爆了Agent 直接掉进 Dumb Zone。经验公式记住一条就够了上下文利用率保持在 40% 以下。更多 token 不等于更好结果。三、什么是 Harness马具的隐喻Harness本意是马具——缰绳、鞍具那一套。LLM 就像一匹蛮力十足但方向感不太行的马跑得快但容易跑偏。不加 Harness 的 Agent 像草原上的野马Harness Engineering 就是给它套上缰绳让人类能稳稳骑乘同时确保马往正确的方向跑陷进泥潭时能把它拉出来。三层工程的关系很多人会把 Prompt、Context、Harness 混为一谈。它们是嵌套关系层层递进•Prompt Engineering——告诉模型做什么和怎么做•Context Engineering——让模型做得更好•Harness Engineering——确保模型可控地做Phil Schmid 的比喻最到位模型是 CPUHarness 是操作系统。CPU 再强OS 拉胯也白搭。四、Harness 的四大支柱OpenAI、Anthropic、Carlini 等多个独立团队的实践反复 converged 到四个共同模式。1. 上下文分层恰好够用不多不少每个团队都发现把所有指令塞进一个文件根本没法扩展。解决方案是分层加载、渐进披露。OpenClaw 的 Skills 机制是个好例子。默认不加载所有技能的详细内容先扫描技能列表只看名字和描述判断需要用哪个再去读对应的 SKILL.md。既省了上下文空间又保持了灵活性。OpenAI 的做法类似从单个巨大的 AGENTS.md 迁移到分层架构构建小型入口文件指向深层的事实源设计文档、架构图、执行计划。一个后台 Agent 定期扫描过期文档并提交清理 PR——由 Agent 为 Agent 维护的文档。2. Agent 专业化专才优于通才专注于特定领域、拥有受限工具的 Agent永远比拥有全部权限的通用 Agent 靠谱。这不是纯组织考虑——专业化本身就是上下文管理策略。每个专家携带更少的无关信息所以天然运行在 Smart Zone 内。Carlini 的 C 编译器项目把 Agent 分为四类角色编译器核心、去重、性能优化、文档。LLM 生成的代码经常重新实现已有功能他专门分配了一个去重 Agent来解决。Vasilopoulos 部署了 19 个领域特定的 Agent。3. 持久化记忆状态存在文件系统上不在上下文窗口里每次新 Agent 会话从零开始通过文件系统制品重建上下文。就像一个项目组全是轮班工程师——每个人上岗时对之前的进展一脸懵只能靠交接文档恢复状态。Anthropic 的两阶段方案很经典初始化 Agent 建立 init.sh、进度文件和初始 git 提交后续编码 Agent 每次做出增量进展后留下结构化更新。关键发现是用 JSON 追踪 feature 状态比 Markdown 更有效因为 Agent 不太会不小心破坏结构化数据。OpenClaw 的双层记忆也值得参考长期记忆MEMORY.md每次自动注入 每日记忆追加写入、按需搜索检索用 BM25 向量双路召回还有时间衰减机制。4. 结构化执行先规划再动手Boris Tane 说得最干脆“永远不要让 Agent 在你审查和批准计划之前写一行代码。”把思考与执行分开理解 → 规划 → 执行 → 验证。Anthropic 把这个做到了极致——初始化 Agent 先生成超过 200 个功能的结构化列表全部标为 failing后续 Agent 每次只处理一个完成后提交 git 和进度更新。Huntley 的 Ralph Wiggum Loop 提供了反压思路上游给确定性设置和一致上下文下游用测试、类型检查、Lint、CI 拒绝无效工作。五、五大落地难题与解法无限循环Agent 遇到无法解决的错误时可能在同一个死角无限重试。解法上下游反压机制。上游保证输入确定下游通过测试和 CI 拒绝无效工作。Claude Code 的循环在执行完一轮后会确认问题解决才返回结果不会无脑重来。上下文爆炸一味堆 Prompt、历史记录和工具返回结果推理耗时剧增、成本飙升。解法** 压缩 修剪 记忆分层。OpenClaw 支持三种压缩策略自适应切换工具返回结果头尾保留中间省略裁剪不超过 50%长期记忆按需注入、每日记忆搜索获取。权限失控Agent 删文件、调外部 API 时缺乏审批或熔断。解法三层纵深防御——沙箱 Hook 权限分级。OpenClaw 的文件系统沙箱限范围、命令执行白名单 人工确认、网络白名单。Hook 系统可以在工具执行前拦截校验参数比如阿里云 ECS 实例 ID 必须以 i- 开头通过正则校验直接拦住错误参数迫使模型修正而不是盲目执行。质量不可控Agent 写完代码就跑个单元测试压根没做端到端验证。解法强制测试闭环 CI 流水线。OpenAI 的自定义 Linter 不仅标记违规还在错误消息里直接告诉 Agent 怎么修——工具在 Agent 工作时顺便教会它。Carlini 的总结很到位“我必须不断提醒自己我是在为 Claude 写测试框架不是为自己写。”成本不透明上下文塞满导致 token 消耗飙升效果反而下降。解法控制在 40% 利用率以内 可配置压缩模型 KV Cache 优化。OpenClaw 支持用便宜模型做上下文压缩压缩操作设超时防止卡死。六、顶级团队的实战OpenAI零手写的百万行代码三名工程师五个月构建百万行代码产品手写代码 0 行合并约 1,500 个 PR效率提升约 10 倍。核心原则就几条设计环境而非编写代码Agent 卡住时诊断缺什么能力让它自己补上、依赖方向用 Linter 机械化 enforce、所有知识放代码仓库当唯一事实源Slack 和 Google Docs 对 Agent 等于不存在、对抗熵最初每周五手动清理 AI Slop后来自动化为后台任务。Anthropic16 个 Agent 造 C 编译器两周、16 个并行 Opus 4.6 实例、约 2,000 次 Claude Code 会话、产出 10 万行 Rust 代码。GCC torture test 通过率 99%能编译 PostgreSQL、Redis、FFmpeg、CPython、Linux 6.9 Kernel 等 150 真实项目总 API 成本约 $20,000。几个关键设计日志写文件不占上下文、确定性测试子采样解决 Agent 时间盲区、四类专业化分工。Stripe推个 Slack 任务就走的无人值守开发者发个 Slack 任务就离开Agent 从写代码、跑 CI 到提 PR 全程包办人只在最后审查环节介入。Toolshed MCP 提供近 500 个工具隔离的 Devbox 环境与人类工程师用同样的开发环境。核心洞察Agent 需要和人类工程师一样的上下文和工具——不是事后补上的集成而是一开始就得是一等公民。Hashimoto 的 Ghostty每天最后的 30 分钟AGENTS.md 的每一行对应一个过去的 Agent 失败案例——现在被永久预防。工作模式每天最后 30 分钟启动 Agent让它非工作时间干活第二天早上拿到暖启动的成果开始上班。七、Harness vs Workflow主导权之争很多人问Workflow 也能约束 Agent为什么要搞 Harness区别在于主导权是谁。Workflow 把大模型当成节点按预设流程 A→B→C 执行Harness 把大模型当成主体给它自主决策的空间但套上缰绳。基础模型越来越强的当下Harness 更能发挥模型能力同时确保不过失。WorkflowHarness执行路径固定线性动态Agent 自主规划模型角色执行者主导者受约束异常处理预设之外会断裂可动态调整适用场景确定性高的简单流程复杂、不确定的长周期任务八、业界共识与分歧六大共识瓶颈在基础设施不在模型智能。Can.ac 改 Harness 就让分数翻倍是最直接证据。文档必须是活的。AGENTS.md 每一行对应一个历史失败案例后台 Agent 定期清理过期内容。思考与执行必须分离。所有团队独立发现了先规划再执行模式。上下文不是越多越好。40% 甜区有量化数据支撑。约束必须机械化。“不能机械执行的规则Agent 一定会偏离。”工程师角色在变。从写代码转向设计环境和管理。三大空白区这些方向最值得探索•棕地改造所有成功案例都是绿地项目。十年历史的遗留代码库怎么引入 Harness零方法论。Martin Fowler 打比方“在从没跑过静态分析的代码库上跑静态分析——你会被警报淹没。”•行为验证大家擅长约束 Agent 不做错事但验证 Agent 做对了事远未解决。•长期可维护性怎么防止功能没问题但维护性很差的代码渗进代码库没人回答。九、30 年软件工程的一条暗线Harness 的出现不是偶然。回顾三十年工程师一直在跟系统复杂度打架• 1994 GOF 设计模式 → 驾驭对象复杂性• 2002 企业应用架构模式 → 驾驭架构复杂性• 2010 微服务 → 驾驭分布式复杂性• 2017 DDIA → 驾驭数据系统复杂性• 2026 Harness → 驾驭智能体不确定性贯穿三十年的不变主题是抽象。加上结构化把混乱中的本质拎出来——设计模式是抽象微服务是抽象云计算是抽象Harness 也是抽象。我们第一次在驾驭一个不确定性的系统。以前的复杂系统都是确定性的——代码写什么就执行什么。Agent 不同它是概率机器你期待一个输出但它不一定照做。Harness 就是那条缰绳。十、工程师的能力转型工程师不会失业但码农会。码农 只写代码的人。Agent 能生成代码码农的价值就被替代。工程师 能设计并驾驭复杂系统的人。核心能力不在写代码而在三件事理解系统复杂性、抽象和结构化思维、驾驭不确定性。业务理解是你的护城河。不是 Agent 能做什么而是你懂什么决定了你能设计和驾驭什么。在 AI 时代个体需要懂的更多而不是更少。十一、立即可做的八件事创建并维护 AGENTS.md——每次 Agent 犯错就更新一条不是一次性文档代码仓库当唯一事实源——团队知识版本控制别放 Slack 或 Wiki构建带修复建议的自定义 Linter——工具教 Agent 怎么修提供端到端测试工具——浏览器自动化显著提升验证质量增量执行——每次会话处理一个功能完成后提交 git 和进度分层管理上下文——Tier 1/2/3 渐进式披露避免单文件堆叠上下文利用率控制在 40% 以下——更多 token 不代表更好结果定期垃圾回收——自动化 Agent 清理技术债“AI 编码的兴起并没有取代软件工程的工艺——它抬高了工艺的门槛。” —— Addy Osmani凡此过往皆为序章。模型越强Harness 越重要。与其等更强的模型出来不如先把缰绳套上马背。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】