告别手动调Harness!Stanford 提出 Meta-Harness,自动找到最优“模型脚手架”
想象你招了一个顶级工程师但每次布置任务时你只丢给他一张纸条上面写着“完成这个任务”却没有背景信息、没有工具清单、也没有任何失败案例可供参考。结果完成的效果与你所想的大相径庭。工程师本身没问题问题出在任务分配和支持机制上。这篇论文要解决的正是 LLM 系统里的这个“任务调度与支撑层”——Harness。固定同一个模型只改它外层的 Harness 代码性能差距可以达到6 倍。但大家花了大量时间调模型权重却很少认真对待 Harness 的设计。Meta-Harness 想把这件事自动化用一个 agent 来搜索最好的 Harness 代码。在 IMO 级别的数学题上找到的 Harness 在五个从未见过它的模型上平均提升了4.7 个点。什么是 Harness为什么它很重要Harness 这个词在论文里的定义很具体决定给模型存什么、取什么、展示什么的那段代码。更直接地说就是围绕模型的脚手架——怎么构造 prompt、从哪取上下文、中间状态怎么维护、多轮对话怎么更新记忆。一个典型例子同样是 RAG你可以先检索再问可以边推理边检索可以检索后做二次过滤可以根据问题类型切换检索策略。这些选择都在 Harness 里。模型没动只是 Harness 不同SWE-bench 上的表现就能差 6 倍。这个数字来自论文引用的 SWE-bench Mobile 实验不是作者自己说的。换句话说Harness 设计的好坏和选哪个模型一样重要却没有得到同等的重视。为什么已有的文本优化器不够用既然 Harness 这么重要为什么没人自动化呢不是没人试过。OPRO、TextGrad、OpenEvolve 这些文本优化器都在尝试自动改进 LLM 系统的配置。问题在于它们在设计时隐含了一个假设反馈是可以压缩的。具体表现是有的只看标量分数有的只给当前候选提供反馈有的用一个 LLM 把失败原因总结成几百字。论文里统计了几个代表性方法每步优化时可用的上下文是100 到 30,000 token。而 Harness 的问题在于一次评估产生的诊断信息可以达到1000 万 token。这不是说需要全部读完而是说压缩会损失关键信息。一个 Harness 失败原因可能藏在第 7 轮的中间状态里也可能是某种特殊输入触发了一条边界路径。把这些压缩成它在困难任务上表现较差诊断信息就丢了。Meta-Harness 的选择是不压缩直接给 agent 一个文件系统。Meta-Harness 的核心设计文件系统即历史这是论文最核心的设计决策也是我觉得最有意思的地方。每次评估完一个候选 HarnessMeta-Harness 把三样东西写进文件系统源码、得分、执行轨迹包含所有 prompt、工具调用、模型输出、状态更新。新一轮迭代时proposer 是一个 coding agent可以用 grep 和 cat 翻这些文件随便看哪个历史候选的哪个部分。论文里用的是 Claude Code Opus 4.6。它不是被动接受一个精心设计的反馈字符串而是主动决定看什么。数据上的体现在最复杂的设置里proposer 每轮迭代读取的文件中位数是82 个其中 41% 是历史 Harness 的源码40% 是执行轨迹。它每步通常会参考20 个以上的历史候选。这是一个非马尔可夫的访问模式。它不只看上一步它翻历史。下面这张图展示了 Meta-Harness 的完整搜索循环proposer 读文件系统、生成候选、评估结果写回文件系统循环往复。注意 proposer 接触的不是一个固定格式的反馈字符串而是一个可以自由查询的目录树。下图给出了两个任务的一览左边是文本分类上 Meta-Harness 和各对比方法的搜索曲线右边是 TerminalBench-2 上各 Haiku 4.5 agent 的通过率。核心信息是 Meta-Harness 的搜索曲线在非常早期就超过了竞品的最终结果。三个任务上的结果在线文本分类用更少 token 赢了更多分这个任务是把一段话归到某个类别里——比如看病历判断是什么病或者看案件描述判断罪名。但难点在于类别可以多达几百个模型没办法把每个类别的例子都塞进上下文。所以 Harness 的工作是每来一条新样本从已有的标注历史里检索最相关的例子组装进 prompt让模型作判断然后把这条样本记下来备用。这是一个持续积累记忆、边看边学的过程。论文用了三个难度不同的数据集法律判决分类215 类、疾病预测22 类、化学反应预测180 类。Meta-Harness 的平均准确率比 ACE 高7.7 个点比 MCE 高8.6 个点。更有意思的是上下文开销。ACE 用了 50,800 tokenMCE 用了 28,500 tokenMeta-Harness 只用了11,400 token。分高、token 少两个目标都赢了。和文本优化器比Meta-Harness 在4 次评估后就追平了 OpenEvolve 和 TTT-Discover 的最终结果而后者需要 60 次。最终分数高出超过 10 个点。消融实验直接说明了文件系统的价值只给分数时中位准确率是 34.6%给分数加 LLM 总结是 34.9%几乎没变给完整执行轨迹中位准确率跳到50.0%最高能到 56.7%。LLM 总结没有恢复被压缩掉的信号有时甚至有害。检索增强数学推理Harness 跨模型通用这个任务的想法直接做数学题之前先去题库里找几道类似的已解题目一起塞给模型参考看看能不能帮它答得更准。但找几道类似的题这件事大有讲究。用哪种检索方法找几道按什么标准排序对于几何题和数论题有用的参考题长什么样这些全是 Harness 决定的而不是模型本身。论文给模型配了一个 53 万道竞赛数学题的语料库测试集是 200 道 IMO 级别的题全部是新题包括 2025 年 12 月到 2026 年 1 月才发布的 ArXiv 数学题。搜索时只用 GPT-OSS-20B 做评估找到 Harness 后在五个从未参与搜索的模型上测试包括 GPT-5.4-nano、GPT-5.4-mini、Gemini Flash 等。找到的 Harness 在五个模型上平均提升了4.7 个点比 BM25 检索高 1.3 个点而且完全避免了朴素 dense retrieval 和随机 few-shot 在部分模型上的退化。这个跨模型泛化是我觉得含金量最高的结果说明找到的 Harness 学到的是结构性的东西而不只是对某个模型的过拟合。TerminalBench-2超过手工调的 baseline这个任务是让 AI agent 在一个真实终端环境里独立完成复杂的编程挑战不允许人介入全程靠自己。任务形式大概是给你一台机器里面装了某些工具和依赖你需要写代码、调试、安装缺少的包最终让一个程序跑起来并输出正确结果。难在哪里难在每道题的环境不一样agent 得先摸清楚这台机器有什么、缺什么才能制定策略。TerminalBench-2 共有 89 道这样的题。Opus 4.6 上Meta-Harness 得了76.4%超过了精心手工调参的 Terminus-KIRA74.7%在所有 Opus 4.6 agent 里排第二。第一是 ForgeCode得了 81.8%但作者无法从公开代码单独复现。Haiku 4.5 上Meta-Harness 得了37.6%在所有 Haiku 4.5 agent 里排第一。这两个结果加在一起说明了一件事搜索出来的 Harness 比手工设计的更强而且这个结论在不同量级的模型上都成立。它发现了什么光看分数不够过瘾我更好奇 agent 具体找到了什么。文本分类上它发现了一个两步验证的 Harness先检索 5 个相似样本做草稿预测再基于草稿标签分别检索 5 个支持样本和 5 个挑战样本最终预测。第二次检索依赖第一步的草稿——这是针对当前猜测主动找反例的策略。这个设计不像是拼凑出来的有内在逻辑。数学检索上它发现了一个四路路由程序。先用关键词判断题目类型分成组合、几何、数论和其他然后每条路径走不同的检索策略。几何题倾向于返回原始 BM25 近邻组合题则做去重加难度重排。检索用的 tokenizer 有数学意识把\frac、^{2}这样的 LaTeX 符号当作原子单位不拆散。这个四路结构不是一次性设计出来的而是两条搜索路径合并的产物。agent 在历史候选里分别找到了擅长几何和擅长组合的版本最终把它们合并成一个。TerminalBench-2 上关键发现是环境引导。在 agent 正式开始工作前先运行一条复合 shell 命令把沙箱快照注入初始 prompt当前目录、可用语言版本、包管理器、内存大小。这个操作消除了 agent 通常要花的 2 到 4 轮探索性对话。这个想法的来源可以从搜索轨迹里看清楚。早期迭代的改动都在动控制流和 prompt 结构一直在退化。到第 7 次迭代proposer 明确切换策略改成在循环开始前加一个纯信息注入主动绕开了容易出错的部分。三个任务发现的 Harness 有一个共同特点设计都有具体理由而不只是凑出来的。全量历史访问让 proposer 能看到哪里反复失败、为什么失败然后才给出有针对性的改动。TerminalBench-2 发现的 Harness 结构如下图绿色是继承自 Terminus-KIRA 的部分红色是 Meta-Harness 新加的环境引导模块。两者的对比清楚地说明新增的内容量很小改动集中在哪里。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】