多模态大模型注意力头中的函数向量负责视觉关系传输

作者：袖梨 2026-06-03

多模态大模型注意力头中的函数向量负责视觉关系传输

日前，一篇发表于arXiv的研究论文揭示了多模态大模型内部机制的关键发现。论文指出，大型多模态模型（LMMs）能从少量示例中学习执行新任务，但这背后的工作原理一直是个谜。研究人员发现，模型内一小部分注意力头负责传输视觉关系信息，这些注意力头的激活信号被称为“函数向量”。

这项发现的核心在于，咱们平时看到的模型能做复杂推理，其实靠的就是这些特殊“小零件”。说白了，注意力头就像模型里的一排排小开关，其中有一批专门负责视觉关系——比如识别“A在B的左边”或“C比D大”这类逻辑。研究人员通过实验证实，只要调整这些函数向量，就能直接改变模型处理视觉关系任务的能力。

提取函数向量，就能操控模型行为？

真的可以。论文里说明了一个关键操作：先把这些负责视觉关系传输的注意力头找出来，然后提取它们的激活信号。这就像从一堆零件里抽出关键齿轮，再试着转动它。研究者发现，光是调整这些函数向量，模型在视觉关系任务上的表现就会跟着变。凭什么说它们重要？因为其他注意力头动一动没这种效果，唯独这批函數向量能精准控制视觉推理。

更厉害的是，这些函数向量不光是“开关”那么简单。你可以把它当作一种可编程的信号——注入特定向量后，模型就能按你期望的方式处理图像关系。这背后的逻辑挺直接的：视觉关系传输不是靠整个网络瞎蒙，而是由专门的小团队（注意力头）搞定。这对理解未来多模态模型的内部工作原理是个挺重要的突破。

这项发现对AI行业意味着什么？

首先，它让咱们从“黑盒用模型”转向“能拆开看了”。以前你问模型为什么判断失误，它给不出解释；现在起码知道问题可能出在视觉关系传输的那批注意力头上。其次，提取和操纵函数向量，意味着未来我们可以更精细地调试模型——好比不用重写整个程序，只要改几个关键函数的参数就行。

当然，这还只是开始。论文基于先前对大型语言模型的研究，把函数向量的概念搬到了多模态领域。下一步？咱们可以期待，类似的机制会不会同样出现在处理音频、视频的模型里？视觉关系传输只是第一块拼图，多模态大模型内部还有更多函数向量等待发现。没错，这算是给深不可测的AI内部世界撬开了一扇窗。