Member-only story

如何免费获得高质量标注数据?

用第一性原理,破解科研数据获取难题。

Shuyi Wang
10 min readJun 20, 2022

标注

自从开始了解机器学习以后,想必你已经发现,数据分析领域,标注(annotation)是很重要的。

请你再次回顾一下这张图。

我多次外出讲座时,这张图总能让与会者感到眼前一亮。

图片的原作者是华盛顿大学的 Pedro Domingos 教授。但是因为许多著名的机器学习课程争相引用,因此现在这张图已经传遍全网。

注意这里的机器学习,实际上是特指 “监督式”(supervised)。关于非监督式机器学习,你可以参考《如何用 Python 从海量文本抽取主题?》一文的介绍。

这幅图里面,下方的“Output”实际上是指标记的(annotated)输出结果(labels)。监督式机器学习,实际上就是要以输入数据和标记,来自动构造程序,从而可以被用来处理更多的新数据。

所以你看,机器模型能够学到规律,靠的就是标注

咱们介绍过的 计算机视觉分类,便需要有人来标注物体名称。例如猫还是狗,哆啦 A 梦还是瓦力。

再比如 IMDB 影片评论数据,也需要先搞清楚究竟是正向情感,还是负向情感。

当然,上面这个 IMDB 评论可以看做是特例。回顾你在豆瓣或者淘宝打分的经验。是不是要写一条评论的同时,还得提交一个分数?

你的评论,就是文本输入。

你的打分,就是标记(Annotation)。

对,你已经帮助系统做了标注。平台就不需要再找人单独做标注了。

但是,大部分的数据标注,可没有那么简易。

你可能需要面对无标注的原始输入,一一手工做出标记。

这种工作一般很枯燥,但是并不太复杂。

例如猫狗识别,或者给车辆勾勒边缘(用于物体识别,object detection)之类的简单标记工作,都已经被外包到了低工资水平地区。

--

--

Shuyi Wang
Shuyi Wang

Written by Shuyi Wang

PhD in Information Science. Associate Professor at Tianjin Normal University. Former Adjunct Faculty at UNT. First Prize Winner of HackNTX 2018.

No responses yet