Member-only story

如何用 Python 提取中文关键词?

Shuyi Wang
11 min readSep 26, 2021

--

本文一步步为你演示,如何用 Python 从中文文本中提取关键词。如果你需要对长文 “观其大略”,不妨尝试一下。

需求

好友最近对自然语言处理感兴趣,因为他打算利用自动化方法从长文本里提取关键词,来确定主题。

他向我询问方法,我推荐他阅读我的那篇《如何用 Python 从海量文本提取主题?》。

看过之后,他表示很有收获,但是应用场景和他自己的需求有些区别

如何用 Python 从海量文本提取主题?》一文面对的是大量的文档,利用主题发现功能对文章聚类。而他不需要处理很多的文档,也没有聚类的需求,但是需要处理的每篇文档都很长,希望通过自动化方法从长文提取关键词,以观其大略。

我突然发现,之前居然忘了写文,介绍单一文本关键词的提取方法。

虽然这个功能实现起来并不复杂,但是其中也有些坑,需要避免踩进去的。

通过本文,我一步步为你演示如何用 Python 实现中文关键词提取这一功能。

环境

Python

第一步是安装 Python 运行环境。我们使用集成环境 Anaconda。

请到 这个网址 下载最新版的 Anaconda。下拉页面,找到下载位置。根据你目前使用的系统,网站会自动推荐给你适合的版本下载。我使用的是 macOS,下载文件格式为 pkg。

下载页面区左侧是 Python 3.6 版,右侧是 2.7 版。请选择 2.7 版本。

双击下载后的 pkg 文件,根据中文提示一步步安装即可。

样例

我专门为你准备了一个 github 项目,存放本文的配套源代码和数据。请从 这个地址 下载压缩包文件,然后解压。

--

--

Shuyi Wang
Shuyi Wang

Written by Shuyi Wang

PhD in Information Science. Associate Professor at Tianjin Normal University. Former Adjunct Faculty at UNT. First Prize Winner of HackNTX 2018.

No responses yet