LLMTabBench:从零到少样本的LLM表格分类评估

作者:袖梨 2026-05-30

arXiv上出现了一篇新论文——LLMTabBench,专门评估大语言模型在表格二分类任务上的表现,从零样本一直测到少样本。这项工作直接对比了LLM与专业表格模型TabPFN,后者虽然是当前最顶尖的先验数据拟合网络,但依然需要少样本上下文才能工作。LLM能不能靠上下文学习直接跳过标注数据?这篇论文给出了基准答案。

表格数据的监督分类其实是机器学习的老本行,但依赖大量标注样本是个硬伤。在数据稀缺的场景,TabPFN这种专门方法确实挺厉害——它通过大规糢合成预训练设定了高标準,可问题是它仍然需要几个标注例子作为上下文才能启动。这就尴尬了:万一连那几个样例都凑不齐呢?LLM的零样本能力正好补上这个缺口,论文把它们放在一起比,挺有意思。

LLMTabBench这个评估框架,核心就是看LLM能不能通过上下文学习直接对表格数据进行二分类。零样本场景下,模型只靠任务描述和表头信息给出判断;少样本场景则给出几个标注行作为示例。对比下来,LLM在某些任务上表现不输TabPFN,但稳定性还有差距。凭什么TabPFN能一直稳?因为人家是专为表格数据设计的,而LLM的强项在文本,表格数据里的数值和类别特征处理起来确实容易翻车。

论文的实际测试包括多种表格数据集,覆盖不同的特征类型和样本量。结果说明,LLM在零样本时虽然能猜对一些,但准确率波动挺大;一旦给了几个样例(比如5-shot),性能就明显提升,甚至接近TabPFN。这说明上下文学习对表格分类确实有效,但关键是怎么用好那有限的几个例子。作者也指出,LLM对表格的列名和数值排列顺序很敏感——换一换顺序,分数能差好几个点!

这个基准的出现,其实给表格分类领域提了个实打实的问题:咱们是不是可以少花点力气标注数据,直接用LLM的上下文学习搞定?至少从零样本到少样本这段路,LLM已经给出了一条新路径。当然,距离替代专业模型还有距离,但方向值得跟下去。未来会不会有更强的表格专用LLM出现?咱们等着看。

相关文章

精彩推荐