AAM多模态基础模型：统一人类注意力建模新范式

作者：袖梨 2026-06-05

AAM多模态基础模型问世：统一人类注意力建模新范式

日前，一篇发表在arXiv上的论文提出了Attend to Anything Model（AAM），这是一个多模态基础模型，首次实现将图像、视频、音频-视觉任务中的人类注意力建模统一起来。论文指出，现有的人类注意力检测方法长期处于碎片化状态，模型能力再强、数据规模再大，也仍然局限于特定场景和任务，无法在实际应用中真正通用。AAM的提出，正是要打破这一僵局。

为什么要统一人类注意力建模？

这个问题其实挺关键的。咱们想一下——目前主流的注意力（也就是显著度）检测模型，有的只看静态图片里的物体，有的只能分析视频里人的视线，还有的专门处理音频+视觉混合场景。每个模型都像只专精一门功夫的武林高手，换个擂台就傻眼了。这背后的原因，就是不同的模态（图像、视频、音频等）和任务格式之间缺乏统一的建模框架。AAM从底层重新设计了模型架构，让同一个模型能同时处理多种输入，无论场景是街头监控、自动驾驶还是电影分析。

AAM的核心突破在哪？

跨模态统一：不再是图片用一个模型、视频另用一个。AAM把各类注意力任务都纳入同一个训练框架，模型学会的是人类注意力的底层规律，而非针对某一类数据的表面模式。
场景泛化：以往模型在实验室数据集上成绩不错，换成真实环境就急剧下降。AAM的目标是让模型在现实世界中也能稳定工作，这确实是一种更实用的思路。
任务全覆盖：从单纯图像显著性检测，到视频中动态注意力追踪，再到音视频联合场景下的注意力预测，AAM都能覆盖——这不就省去了研发N个独立模型的麻烦？

这对AI行业意味着什么？

说白了，如果一个基础模型能统一处理所有注意力相关任务，下游应用的成本会骤降。自动驾驶需要同时分析路面、行人、交通标志的注意力分布；智能安防需要在视频流里实时定位人类行动；甚至AR/VR设备要预测用户视线——以前每个场景都要单独训练模型，现在直接用AAM微调就能搞定。这不光是效率提升，更是让AI对人类注意力的理解从一个“片段”变成了“整体”。

挑战还在，但方向对了

当然，论文也提到当前AAM在极端复杂场景下的泛化能力仍有提升空间。但换个角度看，能把这么多碎片化的方法统一到一个框架里，本身就已经是一次重要的范式转换。凭什么人类注意力建模必须永远支离破碎？AAM给出了一个挺有说服力的答案。