Member-only story

如何将 PDF 表格数据免费转换到 Excel ？

6 min readApr 6, 2019

所见即所获，提升你的数据采集效率。

需求

写了那篇《如何用Python批量提取PDF文本内容？》后，我在后台收到了许多留言。

不少读者询问，如果是 PDF 文件中的表格呢？能否正确转换？

我当时没有理解这种需求。因为那篇文章谈的主要是把文本抽取出来，目的主要是进行下一步的自然语言处理。这种 PDF 文件中大量的内容，都是文字。表格在其中，只占非常小的比例。

《如何用Python批量提取PDF文本内容？》一文提供的工具pdf_extractor 会保留表格里面的数据，但是结构信息基本就被丢弃掉了。

表格转换，属于结构化数据提取。这和我当时文章所谈的主旨不同。所以我没有一一回复。

然而，最近我自己也遇到了这种需求。

我需要从一些论文的表格中，抽取一些数据。尤其是一些对比结果的列表。

在机器学习的论文中，总会有这种对比表格。主要是把目前模型的结果，与基准线或者当前最好的结果进行比对，从而说明论文的价值和意义。我在《文科生用机器学习做论文，该写些什么？》一文里，专门给你谈过这种对比的选择。

例如这样的：

如果在跟踪自然语言处理进展的话，你一眼就能认出，这个表格来自于哪篇论文，对吧？

对，就是大名鼎鼎 BERT 语言模型。

一方面，我们可能需要对论文表格中出现的一些数据进行统计计算。另一方面，我们也需要把部分结果，放在自己的论文里作为对比。而这些，如果都需要我们手动提取数据，然后再输入到程序中或者 Excel 里，会很低效。

我们需要一种简便的方法，帮助自己把 PDF 表格里面的信息，在尽可能保持格式的情况下，正确提取出来。

既然有了需求，我就开始搜集信息。我发现，目前支持从 PDF 中抽取表格的应用，其实还真不少。