Member-only story
如何免费获得高质量标注数据?
用第一性原理,破解科研数据获取难题。
标注
自从开始了解机器学习以后,想必你已经发现,数据分析领域,标注(annotation)是很重要的。
请你再次回顾一下这张图。
我多次外出讲座时,这张图总能让与会者感到眼前一亮。
图片的原作者是华盛顿大学的 Pedro Domingos 教授。但是因为许多著名的机器学习课程争相引用,因此现在这张图已经传遍全网。
注意这里的机器学习,实际上是特指 “监督式”(supervised)。关于非监督式机器学习,你可以参考《如何用 Python 从海量文本抽取主题?》一文的介绍。
这幅图里面,下方的“Output”实际上是指标记的(annotated)输出结果(labels)。监督式机器学习,实际上就是要以输入数据和标记,来自动构造程序,从而可以被用来处理更多的新数据。
所以你看,机器模型能够学到规律,靠的就是标注。
咱们介绍过的 计算机视觉分类,便需要有人来标注物体名称。例如猫还是狗,哆啦 A 梦还是瓦力。
再比如 IMDB 影片评论数据,也需要先搞清楚究竟是正向情感,还是负向情感。
当然,上面这个 IMDB 评论可以看做是特例。回顾你在豆瓣或者淘宝打分的经验。是不是要写一条评论的同时,还得提交一个分数?
你的评论,就是文本输入。
你的打分,就是标记(Annotation)。
对,你已经帮助系统做了标注。平台就不需要再找人单独做标注了。
但是,大部分的数据标注,可没有那么简易。
你可能需要面对无标注的原始输入,一一手工做出标记。
这种工作一般很枯燥,但是并不太复杂。
例如猫狗识别,或者给车辆勾勒边缘(用于物体识别,object detection)之类的简单标记工作,都已经被外包到了低工资水平地区。