大型语言模型(LLM)在司法、招聘等价值敏感决策中,真的能做到只看事实、不看人吗?一份来自arXiv的最新研究给出了否定证据。一篇题为《Do Gender Cues Affect LLM Value Trade-offs? Evidence from a Controlled Decision》的论文(arXiv:2606.02214v1)推出了一项名为RVDB(真实价值决策基准)的测试,专门用于验证LLM在面对同一个决策场景时,是否会因为角色被设定为“男性”或“女性”而做出截然不同的价值权衡。
基准测试的核心设计

其实,要验证这一点并不复杂。研究人员精心构建了“Realistic Value Decision Benchmark(RVDB)”,这个基准测试的核心思路是:严格固定住所有变量,只改变角色本身的性别线索。说的明白点,就是把同一个道德困境(比如在救人时,选择牺牲效率更高的方案,还是更公平的方案),轮番给模型看“男性版”和“女性版”的设定,看它给出的答案是否一致。论文明确指出,测试控制了场景、价值对顺序、角色、候选决策、价值距离和决策严重性等所有因素,只改变角色的性别配置。
给大模型吹的“性别风”
凭什么性别线索就能影响训练有素的AI?测试覆盖了7款主流大模型,采用位置平衡的评估方法,专门测试模型在性别扰动下是否还能保持决策不变。结果发现,当模型处理价值冲突时,这阵“性别风”确实吹乱了它的天平。例如,在面对“公平与效率”的典型矛盾时,模型对于男性角色和女性角色的道德折中方案,竟然给出了不同的偏好权重。
两个关键看点
为什么说这个发现挺重要?咱们可以拆解一下:
LLM的“道德困境”离现实有多远?
这次研究就像一面镜子,照出了AI模型在处理价值权衡时,仍然会无意识地将性别这种不相关的线索纳入决策公式。虽然它只是一个测试,但释放的信号足够清晰:要让人工智能真正值得信赖,还得把这种隐形的“性别滤镜”彻底擦干净才行。