Member-only story

如何用机器学习处理二元分类任务？

17 min readSep 28, 2021

图像是猫还是狗？情感是正还是负？贷还是不贷？这些问题，该如何使用合适的机器学习模型来解决呢？

问题

暑假后，又有一批研究生要开题了。这几天陆续收到他们发来的研究计划大纲。

其中好几个，打算使用机器学习做分类。

但是，从他们的文字描述来看，不少人对机器学习进行分类的方法，还是一知半解。

考虑到之前分享机器学习处理分类问题的文章，往往针对具体的任务案例。似乎对分类问题的整体步骤与注意事项，还没有详细论述过。于是我决定写这篇文章，帮他们梳理一下。

他们和你一样，也是我专栏的读者。

如果你对机器学习感兴趣，并且实际遇到了分类任务，那我解答他们遇到的一些疑问，可能对于你同样有用。

所以，我把这篇文章也分享给你。希望能有一些帮助。

监督式机器学习任务很常见。主要模型，是分类与回归。

就分类问题而言，二元分类是典型应用。

例如决策辅助，你利用结构化数据，判定可否贷款给某个客户；

例如情感分析，你需要通过一段文字，来区分情感的正负极性；

例如图像识别，你得识别出图片是猫，还是狗。

今天咱们就先介绍一下，二元分类，这个最为简单和常见的机器学习应用场景。

注意要做分类，你首先得有合适的数据。

什么是合适的数据呢？

这得回到我们对机器学习的大类划分。

分类任务，属于监督式学习。

监督式学习的特点，是要有标记。

例如给你1000张猫的图片，1000张狗的图片，扔在一起，没有打标记。这样你是做不了分类的。

虽然你可以让机器学习不同图片的特征，让它把图片区分开。

但是这叫做聚类，属于非监督学习。

天知道，机器是根据什么特征把图片分开的。

你想得到的结果，是猫放在一类，狗放在另一类。