Member-only story

如何用 4 行 R 语句,快速探索你的数据集?

Shuyi Wang
7 min readOct 1, 2021

--

用最简单的方式,完成探索性分析。

Photo by UX Indonesia on Unsplash

痛点

实践中,大量数据分析时间,都会花在数据清洗与探索性数据分析(Exploratory Data Analysis, EDA)。即缺失值统计处理,和变量分布可视化。

数据采集过程中,可能有缺失。

你需要了解缺失数据的多少,以及它们可能对后续分析造成的影响。

如果某个变量的缺失数据少,干脆把含有缺失值的行(观测)扔掉就算了,免得影响分析精确程度。

但如果缺失数据太多,都扔掉就不可行了。你需要考虑如何进行填补。是用0,用 “unknown” ,还是使用均值或中位数?

另外,你可能还想看看每个特征变量的分布情况。

例如定量数据是正态分布,还是幂律分布?这对你后面合理进行研究假设,都是有影响的。

即便是对于分类数据,你也要了解独特取值(unique values)的个数,以便做到心中有数。

这些工作很有必要。但是实现起来,却一直很麻烦。即便是 R 这样专门给统计工作者使用的软件,从前也需要调用若干条命令(一般跟特征变量个数成正比),才能完成。

我最近发现了一款 R 包,可以非常方便地进行数据集总结概览。只要一条语句,就帮你完成探索性数据分析中的许多步骤。

通过本文,我把它分享给你。希望对你的数据分析工作有帮助。

演示

你不需要安装任何软件。只需要点击 这个链接http://t.cn/Rg1JFfo),就可以使用 R 编程环境了。

等准备工作完毕,你会看到,浏览器里面开启了一个 RStudio 界面。

--

--

Shuyi Wang
Shuyi Wang

Written by Shuyi Wang

PhD in Information Science. Associate Professor at Tianjin Normal University. Former Adjunct Faculty at UNT. First Prize Winner of HackNTX 2018.

No responses yet