Member-only story

如何将 PDF 表格数据免费转换到 Excel ?

Shuyi Wang
6 min readApr 6, 2019

--

所见即所获,提升你的数据采集效率。

需求

写了那篇《如何用Python批量提取PDF文本内容?》后,我在后台收到了许多留言。

不少读者询问,如果是 PDF 文件中的表格呢?能否正确转换?

我当时没有理解这种需求。因为那篇文章谈的主要是把文本抽取出来,目的主要是进行下一步的自然语言处理。这种 PDF 文件中大量的内容,都是文字。表格在其中,只占非常小的比例。

如何用Python批量提取PDF文本内容?》一文提供的工具pdf_extractor 会保留表格里面的数据,但是结构信息基本就被丢弃掉了。

表格转换,属于结构化数据提取。这和我当时文章所谈的主旨不同。所以我没有一一回复。

然而,最近我自己也遇到了这种需求。

我需要从一些论文的表格中,抽取一些数据。尤其是一些对比结果的列表。

在机器学习的论文中,总会有这种对比表格。主要是把目前模型的结果,与基准线或者当前最好的结果进行比对,从而说明论文的价值和意义。我在《文科生用机器学习做论文,该写些什么?》一文里,专门给你谈过这种对比的选择。

例如这样的:

如果在跟踪自然语言处理进展的话,你一眼就能认出,这个表格来自于哪篇论文,对吧?

对,就是大名鼎鼎 BERT 语言模型。

一方面,我们可能需要对论文表格中出现的一些数据进行统计计算。另一方面,我们也需要把部分结果,放在自己的论文里作为对比。而这些,如果都需要我们手动提取数据,然后再输入到程序中或者 Excel 里,会很低效

我们需要一种简便的方法,帮助自己把 PDF 表格里面的信息,在尽可能保持格式的情况下,正确提取出来。

搜寻

既然有了需求,我就开始搜集信息。我发现,目前支持从 PDF 中抽取表格的应用,其实还真不少。

--

--

Shuyi Wang
Shuyi Wang

Written by Shuyi Wang

PhD in Information Science. Associate Professor at Tianjin Normal University. Former Adjunct Faculty at UNT. First Prize Winner of HackNTX 2018.

No responses yet