一项基于Dolma数据集和OLMo模型的研究,系统追踪了性别偏见从预训练数据到模型对齐的传播路径。该研究通过零样本提示和token共现分析,揭示了职业性别刻板印象如何在训练数据中固化并最终影响模型输出。
这篇出自arXiv(编号2411.19240)的工作,专门分析OLMo模型和Dolma语料中性别-职业偏见的源头。研究者发现,预训练数据里男性与医生、工程师这类职业的关联频率明显高于女性,而这种模式在后续的指令微调和对齐阶段依然顽强存在——这难道不令人深思吗?

其实,偏见并非模型自己“创造”的,而是从训练数据里直接学来的。咱们平时用大模型时感受到的性别刻板印象,很可能在文本语料中早已扎根。这项研究确实提醒我们:AI的公平性不能光靠对齐阶段修补,数据源头才是更关键的一环。
具体方法上,团队采用零样本提示,让OLMo模型直接输出职业相关的描述,同时计算词与词的共现频率。结果挺一致:无论是预训练基础模型还是经过对齐的版本,都表现出类似的职业性别偏差。这就意味着,即便投入了大量资源做RLHF,偏见依然很难被抹去。

路径追踪的逻辑很简单:预训练数据中的统计关联,通过预训练阶段被模型吸收,再经过指令微调和强化学习对齐,偏见并未消除,反而可能被隐藏或放大。凭什么花了这么多算力和人力做对齐,性别偏见面貌依旧?
这项研究为理解大模型偏见的起源提供了实证基础。未来改进的方向或许在于:在构建预训练数据时就主动平衡职业与性别的关联,而不是依赖后期对齐去“纠正”。OLMo模型作为一个开放的研究平台,为这类溯源分析提供了很好的实验条件。