Member-only story
如何用 Python 和循环神经网络做中文文本分类?
本文为你展示,如何使用 fasttext 词嵌入预训练模型和循环神经网络(RNN), 在 Keras 深度学习框架上对中文评论信息进行情感分类。
Photo by Hello I’m Nik on Unsplash
疑问
回顾一下,之前咱们讲了很多关于中文文本分类的内容。
你现在应该已经知道如何对 中文文本进行分词 了。
你也已经学习过,如何利用经典的机器学习方法,对分词后的中文文本,做分类。
你还学习过,如何用 词嵌入预训练模型,以向量,而不是一个简单的索引数值,来代表词语,从而让中文词语的表征包含语义级别的信息。
但是,好像还差了点儿什么。
对,基于深度学习的中文文本分类方法,老师是不是忘了讲?
其实没有。
我一直惦记着,把这个重要的知识点,给你详细讲解一下。但是之前这里面一直有一条鸿沟,那就是循环神经网络(Recurrent Neural Network, RNN)。
如果你不知道 RNN 是怎么回事儿,你就很难理解文本作为序列,是如何被深度学习模型来处理的。
好在,我已经为你做了 视频教程,用手绘的方式,给你讲了这一部分。
既然现在这道鸿沟,已被跨越了。本文咱们就来尝试,把之前学过的知识点整合在一起,用 Python 和 Keras 深度学习框架,对中文文本尝试分类。
环境
为了对比的便捷,咱们这次用的,还是《如何用 Python 和机器学习训练中文文本情感分类模型?》一文中采用过的某商户的点评数据。
我把它放在了一个 github repo 中,供你使用。
请点击 这个链接,访问咱们的代码和数据。