写代码不再是主角：Harness Engineering，正在重塑软件工程

张

张建站

2026/4/14 2:15:10

10分钟阅读

如果你最近还在纠结“哪个模型更强”那你可能只看到了上半场。真正决定下一代软件工程效率的不只是模型参数不只是 prompt也不只是 IDE 里的代码补全而是一整套围绕模型展开的工程控制层任务拆解、上下文组织、工具调用、沙箱隔离、测试验证、评审回路、知识沉淀、运行时观测、失败恢复与安全治理。这套东西现在有了一个越来越多人开始使用的名字Harness Engineering。一个足够震撼的行业信号2026 年 2 月 11 日OpenAI 发布文章《Harness engineering: leveraging Codex in an agent-first world》。文中提到他们用 Codex 构建并交付了一个真实可用的内部 beta 产品整个代码库约 100 万行代码、约 1500 个 PR在实验阶段“0 行人工手写代码”整体开发时间约为纯手写的 1/10。这段信息真正值得所有开发者重视的不只是“AI 会写代码”这件事本身而是背后的角色变化当工程师的主要工作不再是逐行编写代码而是设计环境、表达意图、建立反馈闭环软件工程就已经进入了一个新的阶段。换句话说人类工程师并没有消失但工作的重心正在整体上移一层。什么是 Harness Engineering如果用一句更好理解的话来解释Harness Engineering 不是让模型更聪明而是让模型在真实工程环境里更可靠。它关心的不是“这句 prompt 怎么写更优雅”而是下面这些更工程化的问题模型有没有足够好的任务入口与上下文地图它能不能安全地调用仓库、浏览器、终端、测试、监控等工具它写完之后谁来验收怎么验收失败后怎么回滚它能不能跨长任务保持一致性还是跑着跑着就“脑雾”了它产生的知识能不能沉淀回仓库成为下一轮 agent 的燃料它的权限、密钥、数据边界是否被严格约束OpenAI 的做法很典型把AGENTS.md从“百科全书”降级成“目录”把真正的知识库结构化放进仓库把 UI、日志、指标都变成 agent 可读、可验证的反馈信号甚至用一个持续运行的 “doc-gardening” agent 去修复过期文档。这已经不是传统意义上的“AI 辅助编程”而是在搭建一个面向 AI 的工程操作面板。为什么它会在 2026 年突然变得重要因为模型变强之后瓶颈转移了。过去软件工程的大头在“写出来”。今天越来越多团队发现真正拖慢交付速度的是写完之后的那一长串事情测试、验证、安全、发布、回归、治理、可观测性、成本控制。这也是 Harness 这家公司在 2025 年到 2026 年反复强调的关键词Everything After Code。它的判断很直接AI 正在大幅提升代码生成速度但测试、安全、部署与治理反而会因为变更量暴涨而成为更大的瓶颈。于是未来的软件工程竞争不再只是“谁写得快”而是“谁能把 AI 生成的东西稳定送上生产环境”。这点和 OpenAI、Anthropic、LangChain 的观察实际上正在汇流成同一个结论。三家公司给了我们三个关键判断1. OpenAI软件工程正在从“写代码”变成“设计反馈闭环”OpenAI 在 2026 年 2 月的文章里最核心的经验不是某个模型技巧而是工程方法变化工程师通过 prompt 驱动 agent而不是亲手改每一行代码PR 审查、修复、回归、合并可以越来越多地由 agent 对 agent 完成仓库里的文档、计划、架构说明、质量评分正在变成 agent 的“系统记忆”UI、日志、指标、追踪系统也要变成 agent 可验证的反馈信号这意味着未来优秀工程师的护城河不只是代码能力而是把知识、规则、验证与协作流程编码成可执行系统的能力。2. Anthropic真正拉开差距的是Planner Generator Evaluator这类结构2026 年 3 月 24 日Anthropic 在《Harness design for long-running application development》中明确写到Harness design 是 agentic coding 前沿表现的关键。他们给出的一个重要启发是多智能体分工开始变得像真实软件团队Planner负责把一句模糊需求扩展成产品规格Generator负责分阶段构建Evaluator负责像 QA 一样点击、验证、打分、找缺陷更有意思的是Anthropic 给出了一个非常现实的结论Evaluator并不是永远都要有但当任务刚好超出模型“单兵作战”能力边界时它会带来非常明显的提升。这对未来软件工程的影响很大。因为它说明团队的价值不再只是“有没有更强模型”而是“能不能为不同复杂度的任务设计合适的 agent 组织结构”。3. LangChain只改 Harness不换模型成绩也能大幅提升2026 年 2 月 17 日LangChain 发文介绍他们只调整了 coding agent 的 harness没有换模型就把 Terminal Bench 2.0 的成绩从 52.8 拉到 66.5排名从 Top 30 进入 Top 5。这组数据非常有穿透力。它告诉我们未来软件工程不会只卷底模也会开始卷system prompt 设计tools 选择middleware 与 hooksself-verification 机制trace 分析与错误归因memory 与 context delivery也就是说模型能力会越来越像“基础设施”而 harness 设计会越来越像“应用层差异化能力”。更值得开发者注意的是LangChain 这里讨论的并不是纸上谈兵而是围绕deepagents-cli、trace、sandbox orchestration 这些可落地、可复用、也更接近开源生态的工程能力展开。Harness Engineering 会怎样改写未来软件工程如果把时间拉长到未来 3 到 5 年我的判断是它至少会带来六个变化。第一工程师的角色会整体上移未来的高价值工程师会更像AI 任务设计师工程流程编排师验证系统设计者知识与规范的产品经理安全与权限边界的架构师写代码仍然重要但它会更像“交给 agent 执行的局部动作”而不是人类最主要的产出方式。第二代码库会从“代码容器”变成“组织知识底座”OpenAI 的经验已经很说明问题如果知识只存在于 Slack、会议记录或人的脑海里对 agent 来说就等于不存在。所以未来的 repo 会越来越像一个活的系统代码是实现层AGENTS.md是导航层docs/是知识层plan、ADR、quality score、runbook 是决策层test、trace、metrics、screenshots 是验证层一个对 agent 友好的仓库很可能也会对新同事更友好对组织传承更友好。第三测试与验证会从“收尾环节”升级为“主战场”AI 最擅长的是快速生成最不擅长的是天然怀疑自己。所以未来团队的关键能力会越来越体现在是否能把“验收标准”写得可执行是否能让 agent 自动运行测试、截图、查日志、读指标是否能在退出前强制自检是否能把失败反馈变成下一轮迭代信号一句话没有验证闭环的 AI 编程只是更快地产生不确定性。第四多智能体协作会像今天的微服务一样普及Planner、Builder、Reviewer、QA、Release、SRE、Security这些角色未来很可能都会有对应的 agent。Harness 公司在其平台里已经把这种方向产品化了DevOps、SRE、AppSec、Test、FinOps 等专用 agent通过统一的知识图谱与编排层协作。这背后释放出的信号是未来的软件工程不只是“一个超级模型干所有事”而是一群有边界、有上下文、有权限控制的 agent在同一工程系统里协同工作。第五Everything After Code会成为新一轮基础设施机会如果 AI 让代码产能暴涨那么测试、部署、安全、回滚、观测、成本治理就会成为更值钱的基础设施层。这也是为什么我判断未来最有价值的一批开源项目很可能不再只是“另一个聊天 UI”或“另一个模型壳”而是agent sandboxtrace 与 eval 平台execution plan 与 context management 工具policy-as-code 与权限控制层repo knowledge graph面向 agent 的 CI/CD、QA、observability 组件谁能把这些能力做成稳定、好用、开放的底座谁就更可能卡住下一代软件工程入口。第六软件工程会更像“持续调教系统”而不是“一次性交付项目”OpenAI 提到他们一度每周五要花 20% 的时间清理 “AI slop”后来才把“黄金原则”编码进仓库用后台任务持续做清理。这件事很重要。它说明未来软件工程不是“交给 agent 之后就自动变好”而是会进入一个新的长期状态持续观察 agent 的失败模式持续把经验写进规则、文档、技能与脚本持续删除已经过时的 harness 假设持续重构 agent 看得懂、也能继续维护的代码库换句话说未来的软件工程会更像经营一个会自我放大的系统。这件事对普通开发者意味着什么不是每个人都要明天就组一支多智能体团队但现在就有三件事值得开始做。1. 把隐性知识写回仓库架构原则、验收标准、运行手册、常见坑、测试方式不要只留在聊天记录里。对未来的 agent 来说这些内容必须是可发现、可版本化、可链接的。2. 把“验证”前置到和“生成”同等重要的位置让 agent 先写测试、跑测试、截屏、查日志、读指标再决定是否结束任务。谁先把验证体系搭好谁就更能真正用好 AI 编程。3. 关注开源世界里新的“工程底座”机会接下来值得重点关注的不一定是“最会写代码的模型”而是那些能让模型更稳定、更安全、更可审计地参与软件交付的开源项目与协议比如 sandbox、trace、eval、MCP、agent runtime、repo memory、quality gates 等方向。如果你在做效率工具、开发者平台或开源基础设施这不是一个旁观赛道而很可能就是接下来几年最值得下注的新入口。最后一句如果说过去十年软件工程的关键词是 Cloud、DevOps、Platform Engineering那么接下来几年一个很可能频繁出现的新词就是 Harness Engineering。它本质上代表的是一场角色迁移从“人类亲自完成大部分实现”转向“人类设计系统让 AI 在系统中持续产出可信结果”。下一代最强的工程团队不一定是写代码最快的团队而是最会设计这套系统的团队。而下一波真正值得关注的效率工具、开源项目可能也不会只是“更聪明的模型壳”而是帮助我们把 AI 变成真正工程生产力的那层 harness。参考资料OpenAI,Harness engineering: leveraging Codex in an agent-first world2026-02-11https://openai.com/index/harness-engineering/Anthropic,Harness design for long-running application development2026-03-24https://www.anthropic.com/engineering/harness-design-long-running-appsAnthropic,Scaling Managed Agents: Decoupling the brain from the hands2026https://www.anthropic.com/engineering/managed-agentsLangChain,Improving Deep Agents with harness engineering2026-02-17https://www.langchain.com/blog/improving-deep-agents-with-harness-engineeringHarness,Harness AI: The Platform for Everything After Code2025-08-26https://www.harness.io/blog/announcing-harness-aiHarness,Accelerating Our Mission to Bring AI to Everything After Code2025-12-11https://www.harness.io/blog/240m-financing-to-bring-ai-to-everything-after-codeHarness AI product pagehttps://www.harness.io/products/harness-ai