Member-only story
如何将 PDF 表格数据免费转换到 Excel ?
所见即所获,提升你的数据采集效率。
需求
写了那篇《如何用Python批量提取PDF文本内容?》后,我在后台收到了许多留言。
不少读者询问,如果是 PDF 文件中的表格呢?能否正确转换?
我当时没有理解这种需求。因为那篇文章谈的主要是把文本抽取出来,目的主要是进行下一步的自然语言处理。这种 PDF 文件中大量的内容,都是文字。表格在其中,只占非常小的比例。
《如何用Python批量提取PDF文本内容?》一文提供的工具pdf_extractor
会保留表格里面的数据,但是结构信息基本就被丢弃掉了。
表格转换,属于结构化数据提取。这和我当时文章所谈的主旨不同。所以我没有一一回复。
然而,最近我自己也遇到了这种需求。
我需要从一些论文的表格中,抽取一些数据。尤其是一些对比结果的列表。
在机器学习的论文中,总会有这种对比表格。主要是把目前模型的结果,与基准线或者当前最好的结果进行比对,从而说明论文的价值和意义。我在《文科生用机器学习做论文,该写些什么?》一文里,专门给你谈过这种对比的选择。
例如这样的:
如果在跟踪自然语言处理进展的话,你一眼就能认出,这个表格来自于哪篇论文,对吧?
对,就是大名鼎鼎 BERT 语言模型。
一方面,我们可能需要对论文表格中出现的一些数据进行统计计算。另一方面,我们也需要把部分结果,放在自己的论文里作为对比。而这些,如果都需要我们手动提取数据,然后再输入到程序中或者 Excel 里,会很低效。
我们需要一种简便的方法,帮助自己把 PDF 表格里面的信息,在尽可能保持格式的情况下,正确提取出来。
搜寻
既然有了需求,我就开始搜集信息。我发现,目前支持从 PDF 中抽取表格的应用,其实还真不少。