很多团队开始用 AI Agent 写代码以后,都会经历一个很像的时刻 | 模型不行!!!
很多团队开始用 AI Agent 写代码以后都会经历一个很像的时刻。你把任务丢过去给用户模块加个搜索功能。20 分钟后Agent 回来交卷。你打开项目一看功能加了但测试全红用的是项目里已经废弃的旧语法API 没走团队统一要求的认证链路代码看起来不少真正一跑却直接报错这时候最容易下的结论是什么“模型不行。”但很多时候真正不行的不是模型。而是你的 Harness。先说结论如果你只记住一句话就记住这一句大多数 Agent 失败不是模型不够强而是它没有被放进一个能稳定交付的工作台里。很多人一失败就想换模型。Claude 不行换 GPTGPT 不行换更贵版本再不行就上多 agent。但很多问题根本不是“智力不够”而是“工程环境太差”。比如任务说得不够具体团队规则只存在于人脑子里环境不可重现没有进度状态没有严格验证没有交接和清理机制这些东西加起来就是 Harness。你可以把模型理解成发动机把 Harness 理解成整辆车的传动、仪表盘、刹车、导航和维修系统。发动机再强车架散了、刹车坏了、油表不准照样开不远。Harness 到底是什么很多人以为 Harness 就是一份 Prompt 文件。不是。Harness 是模型权重之外所有帮助 Agent 稳定完成目标的工程系统。更具体一点它至少有五个部分子系统它负责什么指令系统告诉 Agent 项目是什么、规则是什么工具系统让 Agent 能读、能写、能跑、能查环境系统保证依赖、版本、运行方式一致状态系统让长任务能跨会话接力反馈系统让“完成”有客观证据