MPCoT 提出奖励引导多路径潜在推理提升VLA测试时扩展性

作者：袖梨 2026-06-21

MPCoT 提出奖励引导多路径潜在推理框架以解决VLA模型测试时可扩展性问题

研究者日前在arXiv发布了MPCoT框架，一个通过奖励信号引导多路径潜在推理来增强视觉-语言-动作（VLA）模型测试时扩展性的新方法。VLA模型在长时程和高不确定性控制任务中表现脆弱，现有单次动作解码模式缺乏推理深度。MPCoT的核心思路是并行初始化多条假设路径，通过权重共享的迭代步骤逐步优化，最终用软聚合方式融合各路径信息后再进行动作解码。

VLA模型当前面临的核心短板

VLA模型将视觉、语言信息直接映射为动作指令，在处理简单任务时效率较高。但在需要长时间规划、环境动态变化或存在多种可能性的场景下，单次解码输出的动作往往不够可靠。直接引入显式思维链（chain-of-thought）虽能加深推理，但会带来令牌延迟，且文本到动作的间接接口增加了不必要的计算损耗。

MPCoT如何设计推理机制

MPCoT构建了一个潜在空间的推理通道。框架初始化M个不同的假设路径，每一条路径代表一种可能的动作演化方向。在后续K个权重绑定的推理步骤中，每条假设路径在潜在空间中持续迭代，以奖励模型输出的评分作为强化信号。路径之间通过软注意力机制进行信息交换，避免过早丢弃低分但可能正确的备选方案。最终路径聚合结果再输入动作解码器，生成实际控制信号。这种设计兼顾了推理深度与计算效率，路径数量M和推理步数K可根据任务复杂度灵活调节。

训练阶段特有的路径偏好目标

MPCoT在训练时引入了一个路径偏好目标函数。该目标仅作用于训练阶段，不会增加推理时额外开销。它的作用是引导模型在假设路径之间建立合理的优先级排序，使得高分路径在软聚合中的权重更突出。这种训练-推理不对称的设计让MPCoT在测试时能以较少的假设路径达到良好的扩展效果，避免因路径过多导致的显存爆炸。

测试时可扩展性的提升路径

MPCoT为VLA模型的测试时扩展提供了一条新的路径。传统方法依赖扩大模型参数量或增加数据量来提升性能，而MPCoT通过增加推理路径和迭代步数即可获得更好的控制质量。这种扩展方式在计算资源有限时尤其有价值，用户可以根据硬件条件动态调整M值和K值，在推理质量与响应延迟之间找到平衡点。

对VLA控制场景的潜在影响

机器人操作、自动驾驶等长时程控制任务对动作推理的鲁棒性要求极高。MPCoT的多路径并行推理与奖励引导机制，本质上让模型在决策前做了更多“内部试错”，降低了单一路径陷入局部最优的风险。对于需要在复杂物理环境中连续执行多个子任务的操作场景，这种潜在空间推理方式可能比先写文本再转动作的传统思路更具表达力。

MPCoT 提出奖励引导多路径潜在推理提升VLA测试时扩展性

相关文章

精彩推荐