PoliticsBench：多轮角色扮演评测大模型政治价值观

作者：袖梨 2026-06-04

PoliticsBench：多阶段角色扮演让大模型的z治价值观无处遁形

一项名为PoliticsBench的基准测试在AI圈里被频繁讨论。它可不是那种走走过场的标准测试，而是用二十个不断演变的场景，让大语言模型（比如咱们常用的ChatGPT或国内的大模型）轮流扮演不同角色，看它们怎么在z治两难中做取舍。说白了，这就是给AI的“z治脑回路”做一次压力体检。

现有的社会偏见基准测试，多数都盯着人口统计性的刻板印象，比如性别或种族。可一旦涉及z治价值观，它们就变得粗线条了，很难看出模型到底是怎么琢磨“公平”、“自由”这些抽象概念的。PoliticsBench挺巧妙，它通过多阶段角色扮演，让模型在具体情境里把底牌都亮出来，深层的社会z治推理过程暴露得一清二楚。

二十个场景，模拟现实中的价值博弈

这个基准到底怎么玩？它会构建一个连续的剧情，模型被要求代入不同的身份——比如一个法官、一个正策制定者或者普通市民。在每一个节点上，模型都得从几个对立的选项中挑一个，并解释为什么。举个例子，一个场景可能是“正府该不该为了经济增长而放宽环保标准？”这可不是非黑即白的选择，模型必须权衡效率与公平、自由与管控。

更关键的是，这不是单次问答。二十个场景会层层叠加，模型在前期选择会直接影响后续的对话。这就让评测更有深度，因为它能看出模型的价值取向是否前后一致。如果它在第一个场景里强调“个人自由”，在第二个场景里却疯狂支持“正府坚控”，那它的价值观体系恐怕就有矛盾了，不是吗？

从粗略标签到精细刻度，到底谁更有原则？

学术界一直主张要更严谨地评测AI的z治倾向。之前那种设问方式，顶多看出模型“偏左”还是“偏右”。PoliticsBench就像把光谱放大，测量出了模型在“经济干预”、“社会保守”、“文化多元”等具体维度上的细微波动。结果很有意思，有的模型看起来中立，但换一个角色身份，观点就明显摇摆；有的则表现出极强的意识形态一致性，哪怕角色设定与立场冲突。

这种评测方法其实对用户很有参考价值。一般人哪会知道模型背后训练数据的z治色彩？但只要用PoliticsBench跑一遍，模型的“z治价值观地图”就画出来了。这就提醒咱们，用大模型做信息检索或文本生成时，得留个心眼儿——它给出的“客观答案”里，可能早就掺杂了特定的价值取向。