21个开源大模型安全审计：拒绝率与合规性权衡被揭示

作者：袖梨 2026-06-03

21个开源大模型安全审计结果出炉：拒绝率越高，模型就一定安全吗？

日前，一项针对21个开源权重大语言模型的大规模安全行为审计引发行业关注。该研究由学术团队完成，通过对OR-Bench、XSTest、ToxiGen和BOLD四个安全基准的测试，揭示了拒绝率与合规性之间令人意外的权衡关系。说白了，一个模型如果把所有请求都拒之门外，并不代表它就真的安全——它可能一边拒绝合法的良性指令，一边对真正有害的请求大开绿灯。

审计方法：如何衡量模型的“安全敏感度”？

团队使用了四项业界常用的安全基准来评估模型。为了避免数据集本身的毒性干扰结果，他们引入了一个“组成调整”方法，将模型本身的灵敏度与数据集的“毒素浓度”分离开来。这就像咱们做菜时，得区分是厨师手艺问题还是食材本身太辣——有了这套逻辑，分析才更靠谱。

关键发现：保守策略的代价是什么？

研究报告了三个核心结论。不同模型族群采取了完全不同的校准策略：像Llama这类生态系统偏向保守，它会极力抑制不安全内容的输出——但代价呢？就是良性提示也可能被无差别拒绝，导致过高的拒绝率。而另一些模型则更倾向于“有求必应”，合规性上去了，却可能把有害请求也给放行了。难道这种安全策略的取舍，只能二选一吗？

安全保障没有捷径：拒绝率并非可靠的替代指标

这一点很关键，研究明确指出，拒绝率本身并不是一个衡量LLM安全性的好指标。一个模型可能在OR-Bench上表现得“拒人千里”，转头在ToxiGen里对仇恨言论毫无反应。这提醒咱们，一个模型的安全表现，其实是个多面的综合体，单看某个维度很容易被误导。

对开发者的启示：安全审计得看“两面”

对于正在选用或部署开源大模型的开发团队来说，这次审计结果挺有参考价值。你不能光盯着“这家伙拒绝率真高”就觉得它可靠，也不能因为模型来者不拒就急着用。更务实的做法，是把拒绝率与合规性放在一起看，并根据自己业务场景的敏感度来做决定。毕竟，安全测试从来不是一道单选题。