Member-only story
如何用机器学习处理二元分类任务?
图像是猫还是狗?情感是正还是负?贷还是不贷?这些问题,该如何使用合适的机器学习模型来解决呢?
问题
暑假后,又有一批研究生要开题了。这几天陆续收到他们发来的研究计划大纲。
其中好几个,打算使用机器学习做分类。
但是,从他们的文字描述来看,不少人对机器学习进行分类的方法,还是一知半解。
考虑到之前分享机器学习处理分类问题的文章,往往针对具体的任务案例。似乎对分类问题的整体步骤与注意事项,还没有详细论述过。于是我决定写这篇文章,帮他们梳理一下。
他们和你一样,也是我专栏的读者。
如果你对机器学习感兴趣,并且实际遇到了分类任务,那我解答他们遇到的一些疑问,可能对于你同样有用。
所以,我把这篇文章也分享给你。希望能有一些帮助。
监督
监督式机器学习任务很常见。主要模型,是分类与回归。
就分类问题而言,二元分类是典型应用。
例如决策辅助,你利用结构化数据,判定可否贷款给某个客户;
例如情感分析,你需要通过一段文字,来区分情感的正负极性;
例如图像识别,你得识别出图片是猫,还是狗。
今天咱们就先介绍一下,二元分类,这个最为简单和常见的机器学习应用场景。
注意要做分类,你首先得有合适的数据。
什么是合适的数据呢?
这得回到我们对机器学习的大类划分。
分类任务,属于监督式学习。
监督式学习的特点,是要有标记。
例如给你1000张猫的图片,1000张狗的图片,扔在一起,没有打标记。这样你是做不了分类的。
虽然你可以让机器学习不同图片的特征,让它把图片区分开。
但是这叫做聚类,属于非监督学习。
天知道,机器是根据什么特征把图片分开的。
你想得到的结果,是猫放在一类,狗放在另一类。