Member-only story
如何用 4 行 R 语句,快速探索你的数据集?
用最简单的方式,完成探索性分析。
Photo by UX Indonesia on Unsplash
痛点
实践中,大量数据分析时间,都会花在数据清洗与探索性数据分析(Exploratory Data Analysis, EDA)。即缺失值统计处理,和变量分布可视化。
数据采集过程中,可能有缺失。
你需要了解缺失数据的多少,以及它们可能对后续分析造成的影响。
如果某个变量的缺失数据少,干脆把含有缺失值的行(观测)扔掉就算了,免得影响分析精确程度。
但如果缺失数据太多,都扔掉就不可行了。你需要考虑如何进行填补。是用0,用 “unknown” ,还是使用均值或中位数?
另外,你可能还想看看每个特征变量的分布情况。
例如定量数据是正态分布,还是幂律分布?这对你后面合理进行研究假设,都是有影响的。
即便是对于分类数据,你也要了解独特取值(unique values)的个数,以便做到心中有数。
这些工作很有必要。但是实现起来,却一直很麻烦。即便是 R 这样专门给统计工作者使用的软件,从前也需要调用若干条命令(一般跟特征变量个数成正比),才能完成。
我最近发现了一款 R 包,可以非常方便地进行数据集总结概览。只要一条语句,就帮你完成探索性数据分析中的许多步骤。
通过本文,我把它分享给你。希望对你的数据分析工作有帮助。
演示
你不需要安装任何软件。只需要点击 这个链接(http://t.cn/Rg1JFfo),就可以使用 R 编程环境了。
等准备工作完毕,你会看到,浏览器里面开启了一个 RStudio 界面。