Member-only story
如何对 PDF 文献做可视化分析?
看了大量文献后,你的硬盘上想必存下不少 PDF 文件。能否充分利用它们,挖掘出你独特的领域知识地图呢?本文为你提供一种简便易行的办法。
疑问
在网上写文章最大的好处,是经常可以收到读者的反馈。不少读者会提出一些好问题,时常给我以启发。
前些日子,我写了《如何快速梳理领域文献》一文,为大家讲解了如何使用 VosViewer 这一文献可视化分析工具,快速梳理领域文献。
有读者来信,提出一个疑问:
是否有软件支持导入 PDF 文件,直接做文献可视化分析呢?
我看到这个问题,开始一愣,继而会心一笑。
愣的原因是,我之前没有想过会有这样的需求。因为做文献可视化分析的时机,往往是我们刚 * 刚接触 * 某一个领域,* 不确定 * 哪些文献应该重点阅读。
这时候,信息的来源是文献数据库(Web of Science, Scopus 等)的检索结果。这些导出的检索结果里面包含了足够的可供分析的元数据信息(作者、机构、时间、国别、期刊等)。
然而 PDF 文件可就不一样了。虽然它包含了文献的全文,但是却并不更适合提炼元数据信息,做文献可视化分析。尤其是比起元数据导出格式(例如 RIS 等),它的体积又大得多。
因此,很难想象一个文献可视化工具会选用 PDF 作为数据源。
于是,我打算如实回答,在我接触过的若干种主流文献可视化工具里,没有哪一款支持这样的功能。
但是,我旋即想起了哈佛大学营销学教授莱维特(Theodore Levitt)的那句经典名言:
人们其实不想买一个 1/4 英寸的钻头。他们只想要一个 1/4 英寸的洞。
如果透过表象,洞察用户的实际需求,我就立刻能理解这位读者的痛点在哪里了。
痛点
对科研工作者来说,已阅读文献(大多是 PDF 格式)的管理,确实是个非常实际的难题。
我们经常会从各种文献数据库里下载阅读文献,也因此会在硬盘里积攒下大量的 PDF 文件。这些文献往往是在相对较长的一段时间内积累起来的,许多都经过了研究者的扫读 (skimming) 甚至是精读,确认和研究主题密切相关,才被一直保留下来。
当然,如果你阅读后发现文献不相关,都懒得整理…… 算我没说。(幸好做可视化分析的时候,这部分文献可以相对容易地被识别出来。)