Member-only story

如何用 4 行 R 语句，快速探索你的数据集？

7 min readOct 1, 2021

用最简单的方式，完成探索性分析。

痛点

实践中，大量数据分析时间，都会花在数据清洗与探索性数据分析（Exploratory Data Analysis, EDA）。即缺失值统计处理，和变量分布可视化。

数据采集过程中，可能有缺失。

你需要了解缺失数据的多少，以及它们可能对后续分析造成的影响。

如果某个变量的缺失数据少，干脆把含有缺失值的行（观测）扔掉就算了，免得影响分析精确程度。

但如果缺失数据太多，都扔掉就不可行了。你需要考虑如何进行填补。是用0，用 “unknown” ，还是使用均值或中位数？

另外，你可能还想看看每个特征变量的分布情况。

例如定量数据是正态分布，还是幂律分布？这对你后面合理进行研究假设，都是有影响的。

即便是对于分类数据，你也要了解独特取值（unique values）的个数，以便做到心中有数。

这些工作很有必要。但是实现起来，却一直很麻烦。即便是 R 这样专门给统计工作者使用的软件，从前也需要调用若干条命令（一般跟特征变量个数成正比），才能完成。

我最近发现了一款 R 包，可以非常方便地进行数据集总结概览。只要一条语句，就帮你完成探索性数据分析中的许多步骤。

通过本文，我把它分享给你。希望对你的数据分析工作有帮助。

你不需要安装任何软件。只需要点击这个链接（http://t.cn/Rg1JFfo），就可以使用 R 编程环境了。