RLT:用“小脑”微调VLA“大脑”,真能解决机器人“最后一毫米”难题?
先说结论RLT的核心是分工冻结的VLA充当“感知大脑”和“动作参谋”轻量级MLP网络作为“执行小脑”进行在线精调避免了直接微调数十亿参数模型的灾难性成本。其高效的关键在于“RL Token”和“参考动作先验”双重设计前者浓缩了高维视觉语义后者将无约束搜索转化为局部微调极大缩短了强化学习的信用分配链条。方法在拧螺丝等需要亚毫米级精度的任务上展现了潜力但高度依赖预训练VLA的质量且“小脑”学到的策略难以直接迁移本质是一种针对特定任务的“打补丁”式优化。从“大模型落地必须轻量化”的工程困境切入探讨这种“冻结大脑、训练小脑”的混合架构到底在精度、速度和成本上带来了哪些实质性的权衡。让一个通用机器人模型去拧螺丝听起来已经不再是科幻情节。当前顶尖的视觉-语言-动作模型看过数万小时的演示数据后确实能对着螺丝刀和孔位做出像模像样的动作。但真到了产线上问题就来了它动作可能慢吞吞对准时总会犹豫那么一下或者在最后旋入的瞬间因为微小的角度偏差而失败。这“最后一毫米”的精度鸿沟让很多看似成功的演示离真正的工业级可靠应用还差着关键一步。一个很自然的想法是用强化学习来微调它。让机器人在真实环境里多练练通过试错把最后那点偏差磨掉。但这想法一碰到工程现实就碎了一个几十亿参数的VLA模型每次前向推理已经够喝一壶了还要用数据效率极低的在线RL去更新它的所有参数这需要的不仅仅是海量数据更是你无法承受的机器磨损和时间成本。这就陷入了一个两难用大模型调不动用小模型从头训又丢了它宝贵的泛化知识。RLT这篇工作本质上就是在回答这个问题有没有一种办法既能留住大模型的知识又能享受小模型快速训练的好处它的答案很取巧不是二选一而是让它们俩分工协作。把大模型当成一个“知识黑盒”只提取接口直接微调VLA之所以不现实除了计算量大更深层的原因是它的内部表示太高维、太复杂了。对于需要高频决策比如50Hz的在线RL来说这就像用高射炮打蚊子信号噪声比太差学习效率极低。RLT的第一个关键设计“RL Token”就是用来解决这个问题的。它的思路不是去理解或修改VLA庞杂的内部网络而是把它当作一个已经训练好的“感知器官”。具体做法是在VLA的末端额外接一个轻量级的编码器-解码器结构。这个编码器的任务是把VLA最终层那些高维的token序列压缩成一个固定长度的低维向量——这就是RL Token。为了确保这个压缩过程没丢掉有用信息解码器会被训练去从这个Token重建原始的VLA特征。这个过程很像为VLA这个“大脑”安装了一个标准的数据输出端口。之后所有下游的强化学习组件不再需要直接面对原始的图像或复杂的Transformer特征只需要看这个RL Token就够了。论文里的消融实验很能说明问题如果把RL Token换成在ImageNet上预训练的标准ResNet编码器任务吞吐量直接掉一半。这说明RL Token里封装的不只是“看到了什么”更是VLA从海量数据中学到的“该怎么操作”的直觉这种直觉是通用视觉模型不具备的。给强化学习一个“参考答案”限制搜索范围有了清晰的“状态”表示RL Token接下来是“动作”的问题。如果让强化学习智能体在完整的14维关节空间里假设动作块长度为10那就是140维漫无目的地探索去寻找那“最后一毫米”的最优解无异于大海捞针样本效率会低得可怕。RLT的第二个聪明之处是引入了“参考动作先验”。具体来说在每一步决策时冻结的VLA会基于当前观测生成一个它认为最优的“参考动作块”。然后需要训练的轻量级Actor网络其输入不仅仅是状态RL Token本体感觉还会把这个“参考动作块”也喂进去。它的任务不是从零生成动作而是输出一个对这份“参考答案”的微调量。这带来了两个根本性的好处。第一它把强化学习的搜索空间从整个高维动作空间限制在了“参考答案”附近的局部区域。智能体不再需要学习“如何拧螺丝”这个宏观策略这是VLA已经提供的只需要学习“当VLA的计划有微小偏差时该如何修正”。问题难度骤降。第二它提供了一种稳定的正则化手段。通过在训练目标中增加一项迫使Actor输出的动作不要偏离参考动作太远有效防止了训练初期因Critic信号不准而导致的策略崩溃。当然这里也有个陷阱如果Actor只会无脑抄袭VLA的参考动作那就学不到任何新东西。论文里用了一个很实用的“参考动作Dropout”技巧训练时随机将一部分参考动作置零强迫Actor在“没有参考答案”的情况下也得能独立生成合理的动作保持了策略的自主性。“小脑”可以多简单两层MLP就够当“大脑”VLA负责了最重的感知和理解“小脑”RL策略的设计就可以极致简化。在RLT中这个“小脑”就是一个标准的Actor-Critic架构而且网络结构简单得惊人对于插充电器、插网线这类任务Actor和Critic都是仅有两层隐藏层256维的MLP即使对于最难的拧螺丝任务也只需要三层MLP512维。这背后的逻辑很清晰所有复杂的特征提取和宏观规划都已经由RL Token这个接口提供了。MLP网络只需要学习一个从“浓缩状态”到“动作微调量”的映射函数。这是一个相对低维、相对平滑的回归问题简单的MLP足以胜任并且能保证在50Hz的高控制频率下进行实时推理。这种设计也呼应了经典的机器人RL系统如SERL的成功经验但关键区别在于那些系统是从头训练一个小网络而RLT的小网络是建立在一个强大得多的通用先验之上。你可以把它理解为RLT是在VLA已经画好的设计草图上进行精准的工程制图。效果与边界快3倍但并非万能从论文展示的结果看RLT在它设定的场景下是成功的。在以太网插拔等任务上相比基础VLA策略RLT微调后的策略成功率相当但执行速度提升了约3倍动作更加果断。在更难的拧螺丝和扎带任务上成功率有40%-60%的显著提升。这确实印证了其“局部精修”思路的有效性。但是这些亮眼的数据背后有明确的适用边界。首先它高度依赖预训练VLA本身的质量。如果VLA对某个任务连基本的粗调能力都没有比如完全搞错了物体方位那么RLT的“局部微调”将无从谈起。它解决的是“准而不精”的问题而不是“完全不会”的问题。其次它引入了额外的复杂性和训练阶段。你需要先为特定任务收集少量数据来训练RL Token编码器并可能微调VLA。然后才能进行在线RL阶段。整个流程比“开箱即用”要复杂得多。最关键的是学到的“小脑”MLP策略是与特定任务深度绑定的。它无法像底层VLA那样泛化到新指令、新物体。本质上RLT是通过一个轻量级的、任务特定的“适配层”放大了VLA在某个具体任务上的性能上限。这是一种性能与泛化的交换用泛化性换取了在特定点上的极致精度和速度。所以该怎么看RLT如果站在一个需要部署机器人解决某个固定、高精度任务的工程师角度RLT提供了一条很务实的技术路径。当你有这么一个强大的通用VLA但它就是差一点才能满足产线节拍或良率要求时RLT这种“打补丁”的方式成本相对可控收益也明确。它更像是一套精密的“手术工具”而不是包治百病的“万能药”。它的价值在于明确展示了一种混合架构的可行性让大模型做它擅长的感知与初步规划让小模型做它擅长的高效、在线策略优化。这种分工协作的思路可能比RLT的具体实现方式对未来机器人学习系统的设计有更深的启发。最终是否采用这种方案取决于你的任务瓶颈到底在哪。如果瓶颈是泛化性那你应该继续投数据训练更大的VLA如果瓶颈是特定场景下的绝对精度和速度并且你有条件进行小规模的在线学习那么RLT所指明的这条“冻结大脑训练小脑”的路径值得你仔细权衡。最后留一个讨论点如果要让你为一个新的精密装配任务比如插内存条设计微调方案你会优先选择RLT这种“大模型冻结小网络微调”的路径还是尝试用更少的示范数据直接对VLA进行全参数微调为什么