Member-only story
如何用 Python 批量提取 PDF 文本内容?
本文为你展示,如何用 Python 把许多 PDF 文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析。
问题
最近,读者们在后台的留言,愈发五花八门了。
写了几篇关于自然语言处理的文章后,一种呼声渐强:
老师,pdf 中的文本内容,有没有什么方便的方法提取出来呢?
我能体会到读者的心情。
我展示的例子中,文本数据都是直接可以读入数据框工具做处理的。它们可能来自开放数据集合、网站 API,或者爬虫。
但是,有的时候,你会遇到需要处理指定格式数据的问题。
例如 pdf。
许多的学术论文、研究报告,甚至是资料分享,都采用这种格式发布。
这时候,已经掌握了诸多自然语言分析工具的你,会颇有 “拔剑四顾心茫然” 的感觉 — — — 明明知道如何处理其中的文本信息,但就是隔着一个格式转换的问题,做不来。
怎么办?
办法自然是有的,例如专用工具、在线转换服务网站,甚至还可以手动复制粘贴嘛。
但是,咱们是看重效率的,对不对?
上述办法,有的需要在网上传输大量内容,花费时间较多,而且可能带来安全和隐私问题;有的需要专门花钱购买;有的干脆就不现实。
怎么办?
好消息是,Python 就可以帮助你高效、快速地批量提取 pdf 文本内容,而且和数据整理分析工具无缝衔接,为你后续的分析处理做好基础服务工作。
本文给你详细展示这一过程。
想不想试试?
数据
为了更好地说明流程,我为你准备好了一个压缩包。
里面包括本教程的代码,以及我们要用到的数据。
请你到 这个网址 下载本教程配套的压缩包。
下载后解压,你会在生成的目录(下称”演示目录”)里面看到以下内容。