Member-only story
如何用 Python 提取中文关键词?
本文一步步为你演示,如何用 Python 从中文文本中提取关键词。如果你需要对长文 “观其大略”,不妨尝试一下。
需求
好友最近对自然语言处理感兴趣,因为他打算利用自动化方法从长文本里提取关键词,来确定主题。
他向我询问方法,我推荐他阅读我的那篇《如何用 Python 从海量文本提取主题?》。
看过之后,他表示很有收获,但是应用场景和他自己的需求有些区别。
《如何用 Python 从海量文本提取主题?》一文面对的是大量的文档,利用主题发现功能对文章聚类。而他不需要处理很多的文档,也没有聚类的需求,但是需要处理的每篇文档都很长,希望通过自动化方法从长文提取关键词,以观其大略。
我突然发现,之前居然忘了写文,介绍单一文本关键词的提取方法。
虽然这个功能实现起来并不复杂,但是其中也有些坑,需要避免踩进去的。
通过本文,我一步步为你演示如何用 Python 实现中文关键词提取这一功能。
环境
Python
第一步是安装 Python 运行环境。我们使用集成环境 Anaconda。
请到 这个网址 下载最新版的 Anaconda。下拉页面,找到下载位置。根据你目前使用的系统,网站会自动推荐给你适合的版本下载。我使用的是 macOS,下载文件格式为 pkg。
下载页面区左侧是 Python 3.6 版,右侧是 2.7 版。请选择 2.7 版本。
双击下载后的 pkg 文件,根据中文提示一步步安装即可。
样例
我专门为你准备了一个 github 项目,存放本文的配套源代码和数据。请从 这个地址 下载压缩包文件,然后解压。