Member-only story

如何对 PDF 文献做可视化分析?

Shuyi Wang
9 min readSep 26, 2021

--

看了大量文献后,你的硬盘上想必存下不少 PDF 文件。能否充分利用它们,挖掘出你独特的领域知识地图呢?本文为你提供一种简便易行的办法。

Photo by freestocks on Unsplash

疑问

在网上写文章最大的好处,是经常可以收到读者的反馈。不少读者会提出一些好问题,时常给我以启发。

前些日子,我写了《如何快速梳理领域文献》一文,为大家讲解了如何使用 VosViewer 这一文献可视化分析工具,快速梳理领域文献。

有读者来信,提出一个疑问:

是否有软件支持导入 PDF 文件,直接做文献可视化分析呢?

我看到这个问题,开始一愣,继而会心一笑。

愣的原因是,我之前没有想过会有这样的需求。因为做文献可视化分析的时机,往往是我们刚 * 刚接触 * 某一个领域,* 不确定 * 哪些文献应该重点阅读。

这时候,信息的来源是文献数据库(Web of Science, Scopus 等)的检索结果。这些导出的检索结果里面包含了足够的可供分析的元数据信息(作者、机构、时间、国别、期刊等)。

然而 PDF 文件可就不一样了。虽然它包含了文献的全文,但是却并不更适合提炼元数据信息,做文献可视化分析。尤其是比起元数据导出格式(例如 RIS 等),它的体积又大得多。

因此,很难想象一个文献可视化工具会选用 PDF 作为数据源。

于是,我打算如实回答,在我接触过的若干种主流文献可视化工具里,没有哪一款支持这样的功能。

但是,我旋即想起了哈佛大学营销学教授莱维特(Theodore Levitt)的那句经典名言:

人们其实不想买一个 1/4 英寸的钻头。他们只想要一个 1/4 英寸的洞。

如果透过表象,洞察用户的实际需求,我就立刻能理解这位读者的痛点在哪里了。

痛点

对科研工作者来说,已阅读文献(大多是 PDF 格式)的管理,确实是个非常实际的难题。

我们经常会从各种文献数据库里下载阅读文献,也因此会在硬盘里积攒下大量的 PDF 文件。这些文献往往是在相对较长的一段时间内积累起来的,许多都经过了研究者的扫读 (skimming) 甚至是精读,确认和研究主题密切相关,才被一直保留下来。

当然,如果你阅读后发现文献不相关,都懒得整理…… 算我没说。(幸好做可视化分析的时候,这部分文献可以相对容易地被识别出来。)

--

--

Shuyi Wang
Shuyi Wang

Written by Shuyi Wang

PhD in Information Science. Associate Professor at Tianjin Normal University. Former Adjunct Faculty at UNT. First Prize Winner of HackNTX 2018.

No responses yet