PlanarBench基准测试：LLM平面图ASCII绘制空间推理能力评估

作者：袖梨 2026-06-03

PlanarBench基准测试对LLM的空间推理能力进行评估——它让模型根据边列表画出平面图的ASCII艺术。日前，arXiv上的论文（2606.02010v1）公布了测试结果，91个模型在199个最小非异构连通平面图上接受了挑战，这些图的顶点数从2到7不等。

这个测试挺有意思的一点是，它设计得让模型没法靠死记硬背过关。ASCII艺术就是用字符拼出图像，模型得把抽象的数字关系变成视觉布局。为什么呢？因为边顺序、方向还有节点标签都是可以打乱重排的，这就逼着模型真正理解图的结构，而不是背答案。

研究人员发现，边数量是预测模型表现好坏的最强指标，相关系数达到了-0.85。这算是个新发现——以前的图基准测试只用节点数量来衡量难度，忽视了边的影响。边数越多，模型绘制平面图的准确率就越低，这直观地反映了空间推理的复杂度。

这个相关系数-0.85意味着什么呢？它说明边的数量几乎决定了模型的成败，而不是节点数或其他的图属性。这确实是个挺重要的发现，因为它给后续的模型优化指了个方向——要想提升空间推理，得从处理复杂边关系入手。

具体来看，测试用的图都是最简单的连通平面图，但即便如此，模型们的表现差异还挺大的。咱们人类随手就能画出来的平面图，模型却要费好大劲。说白了，视觉化推理对LLM来说依然是个弱项。

那么，这场测试能说明什么？它让我们看到，LLM在平面图绘制这种需要把抽象结构转成视觉布局的任务上，确实还有很大的提升空间。你能想象让AI手动画一张平面图吗？这其实是在测试它对空间关系的深层理解。

可以说，PlanarBench为评估LLM的推理能力提供了一个全新的视角。未来，这类测试可能会成为衡量AI模型空间智能的标配。这不比单纯靠选择题考试来得实在？

相关文章