MLLM多步推理中视觉注意力分散导致感知受损

作者：袖梨 2026-06-01

arXiv最新研究（编号2603.14184v2）揭示了多模态大语言模型（MLLMs）在扩展推理模式下会出现感知受损问题，尤其在视觉问答（VQA）任务中表现明显。研究团队将这一现象归因于注意力分散：在多步推理过程中，模型的视觉注意力会逐渐变得分散，并漂移至与问题无关的区域，可以说模型对视觉输入的“聚焦能力”正在被削弱。通过分析注意力图谱，团队确认推理提示词是导致视觉注意力下降的直接原因。

注意力图谱揭示的真相研究团队通过分析MLLMs的注意力图谱发现，推理提示词显著降低了模型对视觉信息的关注度。这就好比一个人在思考复杂问题时，眼睛虽然看着画面，但注意力早已飘到别处——模型的视觉焦点其实已经丢失了。随着推理步数增加，注意力分散的程度也在加剧，模型对图像中关键区域的关注持续下降。这其实解释了为什么MLLM在需要多步推理的视觉任务中常常表现不如预期。

多步推理原本是为了提升模型的思考深度，但这项研究却指出它带来了意想不到的副作用。模型在一步步推理时，视觉注意力反而越来越分散，离问题相关的区域越来越远。这真的很讽刺：越是深入思考，越是对视觉输入“视而不见”。模型在处理复杂推理任务时，视觉注意力资源正被大量挤占，导致感知能力受损，对图像中的细节信息无法有效捕捉。

为什么会出现这种情况呢？研究显示，推理过程本身会占用大量的注意力资源，导致模型对视觉输入的关注不足。在VQA任务中，模型需要同时处理语言推理和视觉理解，两方面的注意力竞争之下，视觉注意力往往会被挤占。这不正是注意力资源分配失衡的典型案例吗？模型的注意力机制在多重任务面前暴露了明显的短板，多任务处理时的资源调度问题亟待解决。

这项发现对MLLMs的应用意义挺大。视觉注意力分散导致的感知受损，会直接影响模型在依赖视觉信息任务中的表现。无论是自动驾驶场景中的物体识别，还是医疗影像分析中的病灶检测，视觉注意力的稳定性都挺重要。模型若在多步推理中失去对视觉输入的关注，其实际应用价值将大打折扣，甚至可能在实际场景中产生误判。

目前研究团队已经提出了针对性的缓解思路，但具体方案尚未在摘要中详细展开。可以说，这项研究为MLLMs的推理机制优化指明了新的方向：在增强模型推理能力的同时，必须确保视觉注意力不会“掉队”。这确实是一个重要的平衡点，未来的研究或许会探索如何让模型在深度推理时依然保持对视觉输入的稳定关注，从而真正实现推理深度与感知精度的兼得。

MLLM多步推理中视觉注意力分散导致感知受损

相关文章

精彩推荐