AAM多模态基础模型问世:统一人类注意力建模新范式
日前,一篇发表在arXiv上的论文提出了Attend to Anything Model(AAM),这是一个多模态基础模型,首次实现将图像、视频、音频-视觉任务中的人类注意力建模统一起来。论文指出,现有的人类注意力检测方法长期处于碎片化状态,模型能力再强、数据规模再大,也仍然局限于特定场景和任务,无法在实际应用中真正通用。AAM的提出,正是要打破这一僵局。

为什么要统一人类注意力建模?
这个问题其实挺关键的。咱们想一下——目前主流的注意力(也就是显著度)检测模型,有的只看静态图片里的物体,有的只能分析视频里人的视线,还有的专门处理音频+视觉混合场景。每个模型都像只专精一门功夫的武林高手,换个擂台就傻眼了。这背后的原因,就是不同的模态(图像、视频、音频等)和任务格式之间缺乏统一的建模框架。AAM从底层重新设计了模型架构,让同一个模型能同时处理多种输入,无论场景是街头监控、自动驾驶还是电影分析。
AAM的核心突破在哪?
这对AI行业意味着什么?
说白了,如果一个基础模型能统一处理所有注意力相关任务,下游应用的成本会骤降。自动驾驶需要同时分析路面、行人、交通标志的注意力分布;智能安防需要在视频流里实时定位人类行动;甚至AR/VR设备要预测用户视线——以前每个场景都要单独训练模型,现在直接用AAM微调就能搞定。这不光是效率提升,更是让AI对人类注意力的理解从一个“片段”变成了“整体”。
挑战还在,但方向对了
当然,论文也提到当前AAM在极端复杂场景下的泛化能力仍有提升空间。但换个角度看,能把这么多碎片化的方法统一到一个框架里,本身就已经是一次重要的范式转换。凭什么人类注意力建模必须永远支离破碎?AAM给出了一个挺有说服力的答案。