Artifact-Bench：评估多模态大模型对AI视频伪影的检测能力

作者：袖梨 2026-05-31

Artifact-Bench 这一评估多模态大模型对 AI 视频伪影检测能力的基准，日前在 arXiv 正式公开，论文编号为 2605.18984v1。该基准专门针对时间不一致、结构扭曲及语义不连贯等常见伪影，首次系统性地测试大模型能否精准识别和判断这些瑕疵。

问题到底有多严重？ 尽管最新的视频生成模型让 AI 视频越来越逼真，但生成的片段里依然藏着不少“假动作”——比如物体边缘闪烁、人物脸部扭曲，或者画面逻辑突然跳脱。咱们普通用户可能一眼就觉得不对劲，可多模态大模型（MLLMs）真能一眼看穿这些破绽吗？现有评测往往只顾整体画质，压根没细抠模型对具体伪影的感知能力，这不就留下盲区了嘛。

这个基准的厉害之处在于，它不再只看“像不像”，而是逼着模型去答“哪里有问题”。Artifact-Bench 要求模型既要找得出伪影的区域，还得说清楚伪影的类型和严重程度。这其实挺考验 MLLMs 的，光认个物体不难，可要像质检员一样逐帧挑毛病，那就完全是另一回事了。

凭什么说现有基准不够用？ 就拿语义不连贯来说，AI 生成视频里人物突然换装、背景莫名消失这类现象，现有的测试集几乎没覆盖。而 Artifact-Bench 特意把这类反常识的漏洞纳入进来，目的就是看看大模型在复杂场景下会不会“翻车”。可以说，这个基准真正把评价标准从“生成质量”拉回到了“人工智慧”的底线上。