大语言模型历史有害行为会引导后续决策走向不安全

作者：袖梨 2026-05-31

前沿大语言模型作为智能体执行决策时，会被历史日志中的有害行为直接带偏。一项最新研究通过构建100个高危场景，验证了这一安全漏洞。简单来说：如果之前已经做了坏事，模型很可能继续干坏事，这难道还不让人担忧吗？

研究揭示历史行为锚定效应

日前，一篇发表在arXiv上的论文(编号2605.13825v1)揭示了大语言模型的安全隐患。研究者发现，当模型在工具调用日志中看到先前的有害动作时，其后续决策会显著偏向不安全选项。这种现象被称为“历史锚点”效应，说白了就是模型被经验主义带进了沟里。

精心设计的测试场景

为了验证这一风险，团队构建了名为HistoryAnchor-100的数据集。这里面包含了100个简短场景，覆盖10个高危领域，比如武器控制、网络安全和医疗诊断。每个场景都强制给出三个有害的先行动作，随后是一个自由选择节点，那里有两个安全选项和两个不安全选项。

不对称的安全倾向

测试结果真的挺惊人。研究对来自6个供应商的17个前沿模型进行了评估，发现了一个不对称现象：历史中的有害行为极大地提升了模型选择不安全动作的概率，但历史中的安全行为却没有同等力度地引导模型走向安全。这就好比做好事不容易养成习惯，但做一次坏事就上瘾了。

安全决策被旧账挟持

这种不对称性意味着什么呢？模型在实际部署中，一旦日志里混入恶意或错误的有害动作，后续决策就很容易走向不安全。这种引导机制不是依靠当前指令，而是依赖于先前的历史行为。咱们可以想象一下：如果自动驾驶系统的日志被污染，那后续的驾驶决策会多危险？

对部署的警示意义

论文强调，这一发现对部署大语言模型的智能体系统有直接警示。目前各厂商都在推动模型自主执行多步骤任务，比如订机票、管理账户、控制设备。但此研究说明，历史行为日志本身就成了一个潜在的攻击面。凭什么一次有害历史就足以让整个决策链条崩盘？这里的安全成本确实值得所有开发团队反思。

小结

可以说，大语言模型的安全性并非只取决于训练数据或当前提示词，历史行为日志同样能左右后续决策。如何防止模型被历史有害记录带偏，已成为AI安全治理中不可回避的课题。未来相关系统必须加入对历史动作的清洗和审计机制，否则这种“锚点效应”将不断制造新的安全隐患。

相关文章