Member-only story
文科生用机器学习做论文,该写些什么?
从“价值、必要、讨论和工具”这四个角度,把一些容易踩的坑提示给你,助你顺利完成研究论文撰写。
Photo by Alejandro Escamilla on Unsplash
挫折
我的一个三年级研究生,最近比较焦虑。
焦虑的原因,是预答辩的效果不理想。
最重要的原因,你肯定能猜到,是他拖延症犯了。不到最后一刻,也不肯交出初稿,说要继续修改(其实是一直没写完)。最后一行字刚落笔,就直接去预答辩了。装备都没配齐全,就冲入了枪林弹雨的战场,后果可想而知。
但是,他的焦虑,目前主要来自于另外一个方面,就是面对批评意见,一时有些懵。
我在文中不止一次描述过这种 “文科生” — — — 没有 IT 技术背景,本科专业属于文科类,硕士毕业论文用技术手段解决应用问题。
他的研究中,就使用了机器学习中的监督式方法,对社交媒体文本是否包含隐私内容,进行了分类训练。在验证集上,准确率和F1分数,都为60%多。
这几年,他在我的鼓励下,不断学习数据科学相关教程。
他看到了自己的进步,信心越来越强。从前认为永远无法企及的机器学习方法,现在会用了;从前面对数据无从下手,想不到解决思路,现在水到渠成。而且因为学习 MOOC,英文和数学能力也有了提升。所以,预答辩之前,他对自己论文的评价预期很高。
他没有想到,自己的论文居然存在这么多的严重问题。一时感到很是沮丧和挫折。
我把老师们给他提出的意见,在这里列出来:
- 你使用了机器学习的方法,但只是调用了已经标准化的工具(scikit-learn)而已。文中对工具本身和使用方法做了过于细致的描述,却并没有体现出自己的技术改进;
- 你对机器学习的使用,满足于做出一个分类的结果,就如同做了一个项目作业一样,缺乏深入的讨论;
- 你的分类效果,只有60%多的准确率,远不及人工水平。这样的结果,是否有价值?
- 你的流程参考了一篇英文文献对 Twitter 文本的隐私分类。人家已经探索了,在英文文本上自然语言处理可以分类隐私曝露程度。那你这份研究,无非是从英文换成了中文而已,是否还有必要性?
老师们的说法,是委婉而克制的。我翻译了一下,就是说这篇论文 “工具化、缺讨论、无价值、没必要”。
现在,你明白为什么他要焦虑了吧?