Member-only story

文科生用机器学习做论文,该写些什么?

Shuyi Wang
19 min readOct 2, 2021

--

从“价值、必要、讨论和工具”这四个角度,把一些容易踩的坑提示给你,助你顺利完成研究论文撰写。

Photo by Alejandro Escamilla on Unsplash

挫折

我的一个三年级研究生,最近比较焦虑。

焦虑的原因,是预答辩的效果不理想。

最重要的原因,你肯定能猜到,是他拖延症犯了。不到最后一刻,也不肯交出初稿,说要继续修改(其实是一直没写完)。最后一行字刚落笔,就直接去预答辩了。装备都没配齐全,就冲入了枪林弹雨的战场,后果可想而知。

但是,他的焦虑,目前主要来自于另外一个方面,就是面对批评意见,一时有些懵。

我在文中不止一次描述过这种 “文科生” — — — 没有 IT 技术背景,本科专业属于文科类,硕士毕业论文用技术手段解决应用问题。

他的研究中,就使用了机器学习中的监督式方法,对社交媒体文本是否包含隐私内容,进行了分类训练。在验证集上,准确率和F1分数,都为60%多。

这几年,他在我的鼓励下,不断学习数据科学相关教程。

他看到了自己的进步,信心越来越强。从前认为永远无法企及的机器学习方法,现在会用了;从前面对数据无从下手,想不到解决思路,现在水到渠成。而且因为学习 MOOC,英文和数学能力也有了提升。所以,预答辩之前,他对自己论文的评价预期很高。

他没有想到,自己的论文居然存在这么多的严重问题。一时感到很是沮丧和挫折。

我把老师们给他提出的意见,在这里列出来:

  1. 你使用了机器学习的方法,但只是调用了已经标准化的工具(scikit-learn)而已。文中对工具本身和使用方法做了过于细致的描述,却并没有体现出自己的技术改进;
  2. 你对机器学习的使用,满足于做出一个分类的结果,就如同做了一个项目作业一样,缺乏深入的讨论;
  3. 你的分类效果,只有60%多的准确率,远不及人工水平。这样的结果,是否有价值?
  4. 你的流程参考了一篇英文文献对 Twitter 文本的隐私分类。人家已经探索了,在英文文本上自然语言处理可以分类隐私曝露程度。那你这份研究,无非是从英文换成了中文而已,是否还有必要性?

老师们的说法,是委婉而克制的。我翻译了一下,就是说这篇论文 “工具化、缺讨论、无价值、没必要”。

现在,你明白为什么他要焦虑了吧?

--

--

Shuyi Wang
Shuyi Wang

Written by Shuyi Wang

PhD in Information Science. Associate Professor at Tianjin Normal University. Former Adjunct Faculty at UNT. First Prize Winner of HackNTX 2018.

No responses yet