LLMTabBench：从零到少样本的LLM表格分类评估

作者：袖梨 2026-05-30

arXiv上出现了一篇新论文——LLMTabBench，专门评估大语言模型在表格二分类任务上的表现，从零样本一直测到少样本。这项工作直接对比了LLM与专业表格模型TabPFN，后者虽然是当前最顶尖的先验数据拟合网络，但依然需要少样本上下文才能工作。LLM能不能靠上下文学习直接跳过标注数据？这篇论文给出了基准答案。

表格数据的监督分类其实是机器学习的老本行，但依赖大量标注样本是个硬伤。在数据稀缺的场景，TabPFN这种专门方法确实挺厉害——它通过大规糢合成预训练设定了高标準，可问题是它仍然需要几个标注例子作为上下文才能启动。这就尴尬了：万一连那几个样例都凑不齐呢？LLM的零样本能力正好补上这个缺口，论文把它们放在一起比，挺有意思。

LLMTabBench这个评估框架，核心就是看LLM能不能通过上下文学习直接对表格数据进行二分类。零样本场景下，模型只靠任务描述和表头信息给出判断；少样本场景则给出几个标注行作为示例。对比下来，LLM在某些任务上表现不输TabPFN，但稳定性还有差距。凭什么TabPFN能一直稳？因为人家是专为表格数据设计的，而LLM的强项在文本，表格数据里的数值和类别特征处理起来确实容易翻车。

论文的实际测试包括多种表格数据集，覆盖不同的特征类型和样本量。结果说明，LLM在零样本时虽然能猜对一些，但准确率波动挺大；一旦给了几个样例（比如5-shot），性能就明显提升，甚至接近TabPFN。这说明上下文学习对表格分类确实有效，但关键是怎么用好那有限的几个例子。作者也指出，LLM对表格的列名和数值排列顺序很敏感——换一换顺序，分数能差好几个点！

这个基准的出现，其实给表格分类领域提了个实打实的问题：咱们是不是可以少花点力气标注数据，直接用LLM的上下文学习搞定？至少从零样本到少样本这段路，LLM已经给出了一条新路径。当然，距离替代专业模型还有距离，但方向值得跟下去。未来会不会有更强的表格专用LLM出现？咱们等着看。