Member-only story

如何用 Python 和循环神经网络做中文文本分类?

Shuyi Wang
18 min readOct 5, 2021

--

本文为你展示,如何使用 fasttext 词嵌入预训练模型和循环神经网络(RNN), 在 Keras 深度学习框架上对中文评论信息进行情感分类。

Photo by Hello I’m Nik on Unsplash

疑问

回顾一下,之前咱们讲了很多关于中文文本分类的内容。

你现在应该已经知道如何对 中文文本进行分词 了。

你也已经学习过,如何利用经典的机器学习方法,对分词后的中文文本,做分类

你还学习过,如何用 词嵌入预训练模型,以向量,而不是一个简单的索引数值,来代表词语,从而让中文词语的表征包含语义级别的信息。

但是,好像还差了点儿什么。

对,基于深度学习的中文文本分类方法,老师是不是忘了讲?

其实没有。

我一直惦记着,把这个重要的知识点,给你详细讲解一下。但是之前这里面一直有一条鸿沟,那就是循环神经网络(Recurrent Neural Network, RNN)。

如果你不知道 RNN 是怎么回事儿,你就很难理解文本作为序列,是如何被深度学习模型来处理的。

好在,我已经为你做了 视频教程,用手绘的方式,给你讲了这一部分。

既然现在这道鸿沟,已被跨越了。本文咱们就来尝试,把之前学过的知识点整合在一起,用 Python 和 Keras 深度学习框架,对中文文本尝试分类。

环境

为了对比的便捷,咱们这次用的,还是《如何用 Python 和机器学习训练中文文本情感分类模型?》一文中采用过的某商户的点评数据。

我把它放在了一个 github repo 中,供你使用。

请点击 这个链接,访问咱们的代码和数据。

--

--

Shuyi Wang
Shuyi Wang

Written by Shuyi Wang

PhD in Information Science. Associate Professor at Tianjin Normal University. Former Adjunct Faculty at UNT. First Prize Winner of HackNTX 2018.

No responses yet