2025_NIPS_Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning
文章总结与翻译一、主要内容本文聚焦大语言模型(LLM)推理任务中测试时计算量缩放的核心问题,深入探讨了思维链(CoT)长度与推理性能的关系,提出了最优思维缩放策略(TOPS)并验证其有效性。核心研究背景当前基于System-2思维的研究(如OpenAI的o1模型)通过延长CoT长度增加测试时计算量,以提升复杂推理能力,但现有研究存在两大盲区:一是过度追求长CoT可能带来的负面影响未被充分关注,二是缺乏针对不同任务场景的最优CoT长度适配机制。关键发现长CoT的负面效应:在数学推理任务(如GSM8K、MATH500)中,过度延长CoT会导致推理性能下降,尤其在简单任务中更为显著,主要原因是长CoT包含更多错误步骤,干扰模型正确推理。最优推理努力的差异性:不同难度的任务存在适配的最优推理努力(即CoT长度),简单任务适合短CoT,复杂任务(如AIME2024)需要中等或长CoT,但并非越长越好。一致性与性能的关联:最优推理努力下,模型生成的答案在多次采样中一致性最高,既不会思考不足也不会过度思考。技术方案:TOPS策略该策略包含三个核心阶段,实现模型自适应推理长度选择:格式模仿(Format Imitation):使用