Hyper-ICL提出双曲锚蒸馏注意力校准，解决多模态ICL不稳定问题

作者：袖梨 2026-06-04

Hyper-ICL 提出双曲锚蒸馏注意力校准，消除多模态 ICL 不稳定性

多模态上下文学习（ICL）在实践中挺灵活，但高延迟和结果不稳定一直是个头疼的问题——演示样本的格式、顺序甚至内容稍有变化，模型输出就可能走样。Hyper-ICL 框架日前公开了一种新思路，用双曲锚蒸馏注意力校准从根源上处理这个矛盾，让模型在完全不需要演示示例的情况下也能稳定完成任务，这不正是一把钥匙吗？

多模态 ICL 的“脆弱”到底在哪？

说白了，传统多模态 ICL 依赖几组“图片+文字”的上下文示例（ICD）来引导模型理解新任务。模型需要同时处理图像与文本的对应关系，对演示的摆放顺序和格式极度敏感。一旦示例排序或内容出现细微偏差，推理结果就可能崩掉。再加上每轮都要加载这些示例数据，推理延迟自然居高不下。

Hyper-ICL 的解决路径：双曲锚蒸馏

Hyper-ICL 采用了一个轻量级的训练框架，核心在于双曲锚蒸馏注意力校准。它没有沿用“靠示例来推断”的老路，而是将注意力分布的空间结构映射到双曲几何中，再利用蒸馏方式强制模型学到更鲁棒的注意力模式。这样一来，模型就不再依赖输入示例的排列方式，真正实现了 demonstration-free（无演示）的多模态 ICL。咱仔细品一下：这相当于给模型装了一个“稳定的注意力罗盘”，不管外部怎么变，内心都是准的。

带来的实际提升有哪些？