R语言探索性数据分析：快速了解一个数据框

2020-02-11 11:06:21

作者：黄天元，复旦大学博士在读，热爱数据科学与开源工具（R），致力于利用数据科学迅速积累行业经验优势和科学知识发现，涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等，著有《R语言数据高效处理指南》（《R语言数据高效处理指南》(黄天元)【摘要书评试读】- 京东图书，《R语言数据高效处理指南》(黄天元)【简介_书评_在线阅读】 - 当当图书）。知乎专栏：R语言数据挖掘。邮箱：huang.tian-yuan@qq.com.欢迎合作交流。

很多时候要做分析之前，我们对数据并不了解。为了尽快了解一个数据框的情况，就要知道它有多少行、多少列，每一列是什么数据类型，存在多少缺失，其数据在什么区间范围内等等。说R语言是数据探索性分析，一点也不过分，因为很久之前就有“R does well in EDA”的说法（EDA, Explorary Data Analysis）。今天介绍两个包，尽显R的便捷，把用户“惯坏”的特性。

推荐两个包：

CRAN - Package skimrcran.r-project.org

CRAN - Package DataExplorercran.r-project.org

简单的两个函数：

skimr::skim(iris)

DataExplorer::create_report(iris)

大家可以体会一下。

个人的话，还是倾向推荐skimr，比较轻量，不需要输出可视化报告直接了解数据框的情况，兼容性比较好一些，不过DataExplorer具有更多可视化的选择。

分享好友

分享这个小栈给你的朋友们，一起进步吧。

R语言

创建时间：2020-06-15 11:46:51

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的工具。

展开

订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅：虚拟交易，一经交易不退款；若特殊情况，可3日内客服咨询

• 专区发布评论属默认订阅所评论专区（除付费小栈外）

技术专家

查看更多

小雨滴
专家