Member-only story

如何对 PDF 文献做可视化分析？

9 min readSep 26, 2021

看了大量文献后，你的硬盘上想必存下不少 PDF 文件。能否充分利用它们，挖掘出你独特的领域知识地图呢？本文为你提供一种简便易行的办法。

疑问

在网上写文章最大的好处，是经常可以收到读者的反馈。不少读者会提出一些好问题，时常给我以启发。

前些日子，我写了《如何快速梳理领域文献》一文，为大家讲解了如何使用 VosViewer 这一文献可视化分析工具，快速梳理领域文献。

有读者来信，提出一个疑问：

是否有软件支持导入 PDF 文件，直接做文献可视化分析呢？

我看到这个问题，开始一愣，继而会心一笑。

愣的原因是，我之前没有想过会有这样的需求。因为做文献可视化分析的时机，往往是我们刚 * 刚接触 * 某一个领域，* 不确定 * 哪些文献应该重点阅读。

这时候，信息的来源是文献数据库（Web of Science, Scopus 等）的检索结果。这些导出的检索结果里面包含了足够的可供分析的元数据信息（作者、机构、时间、国别、期刊等）。

然而 PDF 文件可就不一样了。虽然它包含了文献的全文，但是却并不更适合提炼元数据信息，做文献可视化分析。尤其是比起元数据导出格式（例如 RIS 等），它的体积又大得多。

因此，很难想象一个文献可视化工具会选用 PDF 作为数据源。

于是，我打算如实回答，在我接触过的若干种主流文献可视化工具里，没有哪一款支持这样的功能。

但是，我旋即想起了哈佛大学营销学教授莱维特（Theodore Levitt）的那句经典名言：

人们其实不想买一个 1/4 英寸的钻头。他们只想要一个 1/4 英寸的洞。

如果透过表象，洞察用户的实际需求，我就立刻能理解这位读者的痛点在哪里了。

对科研工作者来说，已阅读文献（大多是 PDF 格式）的管理，确实是个非常实际的难题。

我们经常会从各种文献数据库里下载阅读文献，也因此会在硬盘里积攒下大量的 PDF 文件。这些文献往往是在相对较长的一段时间内积累起来的，许多都经过了研究者的扫读 (skimming) 甚至是精读，确认和研究主题密切相关，才被一直保留下来。

当然，如果你阅读后发现文献不相关，都懒得整理…… 算我没说。(幸好做可视化分析的时候，这部分文献可以相对容易地被识别出来。)