arXiv日前发布了一项关于GRASP:确定性论点排序方法解决LLM评判不一致问题的研究。该方法通过在交互图中对论点进行确定性排序,系统性化解了大型语言模型在全局评判中的逻辑冲突。团队认为,当前LLM作为裁判时,其整体性评分模式往往被修辞技巧所干扰。
为什么一个模型能够凭整体印象代替结构分析?这项研究揭示了问题的核心——“整体评判”这种常见做法,其实会让不同模型之间产生严重的评判分歧。当辩论的复杂交互结构被压缩成一个简单结论时,逻辑的稳定性自然就无法保证。

GRASP方法的创新在于它彻底改变了评判的底层逻辑。它不再要求模型输出一个模糊的全局分数,而是强制LLM依据交互图中的论点依赖关系,按确定性规则进行排序。这确实是一种更接近人类辩论评判员的思路——先拆解论据,再判断强弱。
研究团队还展示了一个挺有意思的测试场景:当同一场辩论被交给不同的LLM进行整体评判时,最终结论往往南辕北辙。但改用GRASP框架后,各模型的排序结果呈现出高度一致性。这说明分歧的根源并不在模型能力,而在于评判流程本身。

可以说,这项研究戳破了LLM-as-a-Judge这个热门领域的一个泡沫。如果评判规则本身就不透明、不稳定,那么所谓的“AI裁判”又有多少可信度呢?GRASP通过引入确定性仲裁机制,为这个问题提供了一个非常实在的解决方案。
这算不算重新定义了AI辩论的评判标准?从目前案例来看,至少它让我们看到了一条摆脱模型任性判罚的可行路径。当然,要解决LLM评判不一致问题,后续还需要更多真实场景的验证。但至少这次,技术路线确实比以往更加清晰了。