作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言数据高效处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书,《R语言数据高效处理指南》(黄天元)【简介_书评_在线阅读】 - 当当图书)。知乎专栏:R语言数据挖掘。邮箱:huang.tian-yuan@qq.com.欢迎合作交流。
很多时候要做分析之前,我们对数据并不了解。为了尽快了解一个数据框的情况,就要知道它有多少行、多少列,每一列是什么数据类型,存在多少缺失,其数据在什么区间范围内等等。说R语言是数据探索性分析,一点也不过分,因为很久之前就有“R does well in EDA”的说法(EDA, Explorary Data Analysis)。今天介绍两个包,尽显R的便捷,把用户“惯坏”的特性。
推荐两个包:
CRAN - Package skimrCRAN - Package DataExplorer简单的两个函数:
skimr::skim(iris)
DataExplorer::create_report(iris)
大家可以体会一下。
个人的话,还是倾向推荐skimr,比较轻量,不需要输出可视化报告直接了解数据框的情况,兼容性比较好一些,不过DataExplorer具有更多可视化的选择。