Member-only story

如何用机器学习处理二元分类任务?

Shuyi Wang
17 min readSep 28, 2021

--

图像是猫还是狗?情感是正还是负?贷还是不贷?这些问题,该如何使用合适的机器学习模型来解决呢?

Photo by Andrew S on Unsplash

问题

暑假后,又有一批研究生要开题了。这几天陆续收到他们发来的研究计划大纲。

其中好几个,打算使用机器学习做分类。

但是,从他们的文字描述来看,不少人对机器学习进行分类的方法,还是一知半解

考虑到之前分享机器学习处理分类问题的文章,往往针对具体的任务案例。似乎对分类问题的整体步骤与注意事项,还没有详细论述过。于是我决定写这篇文章,帮他们梳理一下。

他们和你一样,也是我专栏的读者。

如果你对机器学习感兴趣,并且实际遇到了分类任务,那我解答他们遇到的一些疑问,可能对于你同样有用。

所以,我把这篇文章也分享给你。希望能有一些帮助。

监督

监督式机器学习任务很常见。主要模型,是分类与回归。

就分类问题而言,二元分类是典型应用。

例如决策辅助,你利用结构化数据,判定可否贷款给某个客户;

例如情感分析,你需要通过一段文字,来区分情感的正负极性;

例如图像识别,你得识别出图片是猫,还是狗。

今天咱们就先介绍一下,二元分类,这个最为简单和常见的机器学习应用场景。

注意要做分类,你首先得有合适的数据。

什么是合适的数据呢?

这得回到我们对机器学习的大类划分。

分类任务,属于监督式学习。

监督式学习的特点,是要有标记。

例如给你1000张猫的图片,1000张狗的图片,扔在一起,没有打标记。这样你是做不了分类的。

虽然你可以让机器学习不同图片的特征,让它把图片区分开。

但是这叫做聚类,属于非监督学习

天知道,机器是根据什么特征把图片分开的。

你想得到的结果,是猫放在一类,狗放在另一类。

--

--

Shuyi Wang
Shuyi Wang

Written by Shuyi Wang

PhD in Information Science. Associate Professor at Tianjin Normal University. Former Adjunct Faculty at UNT. First Prize Winner of HackNTX 2018.

No responses yet