PubTables-v2：面向全页与多页表格抽取的大型数据集发布

作者：袖梨 2026-06-05

研究人员日前发布了PubTables-v2，一个专为全页与多页表格抽取打造的大型数据集。说白了，文档理解领域一直有个难题：让AI直接在一整页甚至多页文档里抽表格，而不是用老办法先切块再分析。PubTables-v2就是冲着这个痛点来的，它能直接给视觉语言模型（VLMs，可以同时看懂文字和版面的AI模型）提供大规模训练素材。

从两步走到一步到位

传统表格抽取方法，通常分成两步走——先检测出表格的位置，再识别它内部的结构。这样当然也行，但效率不高，容易出错。视觉语言模型的流行，让一步到位直接从全页上下文里捞表格变成可能。可问题是，想训练这种模型，过去一直缺足够大、标注又规范的数据集——凭什么让模型学会处理跨页表呢？缺了关键数据，进展自然就卡住了。

PubTables-v2到底新在哪

这是第一个把全页、多页和单表抽取任务整合到一起的大型数据集。无论模型处理的是一个小单元格，还是一份跨页的财务报告，都能用同一套标准去训练和评估。数据集本身在arXiv上公开发布（编号2512.10888v3），有兴趣的团队可以直接拿去用。这才是开源精神嘛！大家站在同一批数据上赛跑，公平又高效。

为什么这事儿挺关键

试想一下，你手头有一份几十页的PDF年报，想快速提取其中所有表格数据。如果没有PubTables-v2这类数据，模型往往只认识标准格式的表格，碰上跨页表、嵌套表就傻眼。现在有了定向的、高质量的训练集，模型的泛化能力就能明显提升。这不光省时间，还能让AI真正处理真实场景里的复杂文档。

对开发者和研究者的意义