一句话讲清楚大型推理模型其实已经知道什么时候该停止思考只是现有的采样方式掩盖了这个能力——SAGE方法通过累积自置信度释放了这一潜力。思考的困境想得越多未必越好自从DeepSeek-R1和OpenAI o1/o3系列横空出世Chain-of-ThoughtCoT推理成为了AI界的标配。这些大型推理模型Large Reasoning Models, LRMs通过想得更长来解决复杂问题确实取得了惊艳的效果。但问题来了想得越长答案就越准吗研究给出了一个出人意料的答案DeepSeek-R1在AIME 2025上的回答比Claude 3.7 Sonnet长5倍但准确率相当QwQ-32B在AIME和HMMT上最短的回答比随机采样的回答准确率还高2个百分点而且用的token少了31%在AIME 2025上72%的问题中更长的回答反而更容易出错这就像一个学生做数学题——写满三页草稿纸的不一定比写半页的正确。更糟糕的是研究者发现模型往往在正确答案出现后还会继续废话几百个token才停止。SAGE释放了被pass1掩盖的高效推理潜力通过让LRM学习这些高效推理模式SAGE-RL在多个挑战性数学基准上同时提升了推理能力和简洁性惊人发现模型心里有数面对这个问题来自北航和字节跳动的研究团队提出了一个大胆的假设推理模型其实隐式地知道什么时候该停止思考只是现有的采样范式掩盖了这个能力。RFCS指标量化废话程度为了验证这个假设研究者设计了一个巧妙的指标——RFCSRatio of the First Correct Step即首次正确答案出现的步骤索引 ÷ 总推理步骤数。如果RFCS 1说明模型一得到正确答案就停了如果RFCS 1说明模型在得到正确答案后还废话了很久。模型仅用500个token就得出了正确答案却在当前采样策略下多用了452个冗余token才终止推理过程统计结果显示在MATH-500数据集上所有模型超过一半的正确回答都存在显著的无效步骤。更令人担忧的是经过更多后训练的模型DeepScaleR或更先进的推理模型Qwen3-8B在这个指标上并没有实质性改善。MATH-500上各LRM的RFCS统计RFCS( 1)表示RFCS不等于1的正确回答数量SAGE解锁模型的自省能力基于上述发现研究团队提出了SAGESelf-Aware Guided Efficient Reasoning——一种无需训练的采样范式通过利用模型的累积自置信度来发现简洁且正确的推理链。核心思想累积置信度 vs 下一个token概率传统采样关注的是下一个token的概率而SAGE关注的是整个推理链的累积置信度。累积置信度分数 定义为其中 是第 个token的对数概率。简单来说 衡量的是模型对整个推理链的平均信心程度。SAGE算法流程SAGE的工作流程如下1候选序列扩展维护top-个候选序列每步从每个序列扩展出个最可能的下一个token得到个候选。2置信度筛选使用累积置信度保留top-个最高分的序列。3适时终止当模型对停止信号/think有高置信度时终止推理链。4答案生成从发现的推理链中贪心解码出最终答案。当根据模型置信度保留推理分支时模型能够以强置信度终止思考而累积置信度筛选的推理链更短且更准确关键发现高置信度路径导致高效推理研究者发现了一个有趣的现象观察1使用累积置信度筛选的推理链准确率和token效率都显著更高。DS-7B在MATH-500子集上的对比实验使用筛选的推理链明显优于仅使用单步概率观察2高置信度路径自然导向高置信度的结束。当推理链按累积置信度筛选时模型对停止信号/think的排名始终位于前列。累积置信度筛选的推理链中停止信号的平均排名比例观察3随着探索宽度增加模型收敛到更高的准确率和更短的回答。这证明了模型普遍具有高效的推理能力只是被现有采样范式锁住了。SAGE在各次运行中的Token效率对比SAGE-RL让模型学会高效思考SAGE虽然有效但需要较大的探索空间。如何将这种高效推理能力固化到模型中研究团队提出了SAGE-RL——将SAGE作为混合采样集成到基于组的强化学习如GRPO、GSPO中。训练方式在标准RLVR框架中每组采样个回答。SAGE-RL的改进很简单个样本使用标准随机采样2个样本使用SAGE采样这种混搭方式让模型在训练过程中接触到高效推理链从而学习到更精确的推理模式。RLVR与SAGE-RL的训练动态对比。SAGE-RL在保持较低熵和KL散度的同时实现了更高的准确率和更短的响应长度实验结果又快又准在6个挑战性数学基准MATH-500、AIME 2024/2025、AMC23、OlympiadBench、Minerva上的实验结果令人印象深刻主要结果方法MATH-500AIME 2024AIME 2025AMC23DS-1.5B Baseline78.4%13.3%6.7%72.5% GRPO80.6%16.7%10.0%77.5% SAGE-GRPO82.6%20.0%13.3%82.5%核心数据平均准确率提升2.1%Token消耗降低44.1%MATH-500上Token效率提升最高达105.3%AMC23上Token效率提升最高达114.7%SAGE-RL调优后各模型的RFCS统计冗余推理步骤大幅减少深度分析RFCS指标显著改善SAGE-RL训练后的模型正确答案出现后立即停止的比例大幅提高证明模型确实学会了适时止损。难任务表现更优在MATH数据集的Level 4-5高难度题目上SAGE-GRPO相比普通GRPO提升更为明显。SAGE-GRPO在不同难度级别上的训练动态技术细节SAGE vs Beam Search虽然SAGE基于beam search思想但有两个关键区别区别1评分函数不同Beam Search使用累积概率SAGE使用累积置信度平均对数概率避免了长度偏见区别2终止机制不同Beam Search通常在固定长度或EOS token处停止SAGE根据模型对/think的置信度动态终止TSearch w/ 与vanilla beam search的两个关键区别展望与思考SAGE揭示了一个深刻的事实AI模型可能比我们想象的更聪明——它们知道何时该停止只是我们没有给它们表达这种自知之明的机会。这项工作的意义不仅在于提升了推理效率更重要的是为理解和改进AI推理过程提供了新视角效率与准确性并非零和博弈通过正确的采样策略可以同时提升两者模型的元认知能力模型对自己的推理过程有一定的自知之明训练范式的反思现有的pass1训练方式可能抑制了模型的某些潜在能力未来这种自省式的推理方式可能会成为AI系统的重要特征——不仅知道如何思考还知道何时该停止思考。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】