一项来自arXiv预印本的研究揭示,ChatGPT正在大规模改变AI会议的同行评审内容。研究人员开发了一套最大似然估计模型,能够高效检测大型语料库中由大语言模型(LLM)显著修改或生成的文本比例。该模型参考了专家撰写的文本与AI生成的参考文本,并在ChatGPT发布后的多个顶级AI会议中展开实测——包括ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023。初步结果显示,这些会议中有约6%的评审文本可能经过AI实质性修改。
监控方法:从微观到宏观这套监控方法不依赖对单篇文本的判断,而是从语料整体入手。研究者通过对比专家写作文本与AI生成文本的统计特征,建立了一个似然模型。为什么要用大而化之的策略?因为逐篇标注大规模会议评审文本根本不现实,而他们找到了一个挺巧妙的统计路径——好比在干草堆里估计有多少根针,不用一根根数,只需称重比对。实际操作中,他们将模型对准ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023的评审数据,确实发现了AI修改的明显痕迹。

数据背后的疑问6%这个数字意味着什么?对于动辄数千篇投稿的大型AI会议,哪怕只有6%的评审被AI“润色”或“改写”,背后也是数百篇文本被机器介入。这可不是小事。要知道,同行评审本该依赖审稿人的专业判断,如果连文字表述都被生成式AI偷偷替换,那评审的独立性和公正性何来保障?当然,作者也承认,这个模型只能估算修改比例,无法判断修改对评审质量的具体影响——但光是这个规模,就值得咱们警惕了。
算不算一场“静默革命”?说实话,ChatGPT这种工具在学术圈普及极快,很多人用它润色论文、撰写摘要,现在连评审环节也渗透进来了。研究者用的大规模监控方法,本质上是对学术界真实情况的“快照”。它揭示了一个尴尬现实:就算没有明确授权,AI已经在改写学术话语。咱们必须问一句:当AI悄悄修改评审文本时,谁来监控这些监控者?目前的方法只能告诉你“有多少被改”,但没法告诉你“改得对不对”。

未来方向与现有局限论文只给出了“between 6.”这一不完整数字,但后续分析可能会补全确切区间。目前的方法依赖参考文本的准确性,如果参考文本本身含有偏差,模型结果也会跑偏。不过,这项研究确实为大规模监控AI修改内容打开了思路。它不针对某个人,而是盯着整个系统——这挺像用大数据抓交通违章,不抓单个司机,先看哪些路口违规率飙高。对于AI会议来说,这种“宏观执法”也许才是更现实的应对手段。