Member-only story

如何用 Python 批量提取 PDF 文本内容?

本文为你展示,如何用 Python 把许多 PDF 文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析。

Shuyi Wang
13 min readSep 26, 2021

问题

最近,读者们在后台的留言,愈发五花八门了。

写了几篇关于自然语言处理的文章后,一种呼声渐强:

老师,pdf 中的文本内容,有没有什么方便的方法提取出来呢?

我能体会到读者的心情。

我展示的例子中,文本数据都是直接可以读入数据框工具做处理的。它们可能来自开放数据集合、网站 API,或者爬虫。

但是,有的时候,你会遇到需要处理指定格式数据的问题。

例如 pdf。

许多的学术论文、研究报告,甚至是资料分享,都采用这种格式发布。

这时候,已经掌握了诸多自然语言分析工具的你,会颇有 “拔剑四顾心茫然” 的感觉 — — — 明明知道如何处理其中的文本信息,但就是隔着一个格式转换的问题,做不来。

怎么办?

办法自然是有的,例如专用工具、在线转换服务网站,甚至还可以手动复制粘贴嘛。

但是,咱们是看重效率的,对不对?

上述办法,有的需要在网上传输大量内容,花费时间较多,而且可能带来安全和隐私问题;有的需要专门花钱购买;有的干脆就不现实。

怎么办?

好消息是,Python 就可以帮助你高效、快速地批量提取 pdf 文本内容,而且和数据整理分析工具无缝衔接,为你后续的分析处理做好基础服务工作。

本文给你详细展示这一过程。

想不想试试?

数据

为了更好地说明流程,我为你准备好了一个压缩包。

里面包括本教程的代码,以及我们要用到的数据。

请你到 这个网址 下载本教程配套的压缩包。

下载后解压,你会在生成的目录(下称”演示目录”)里面看到以下内容。

--

--

Shuyi Wang
Shuyi Wang

Written by Shuyi Wang

PhD in Information Science. Associate Professor at Tianjin Normal University. Former Adjunct Faculty at UNT. First Prize Winner of HackNTX 2018.

No responses yet