绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
用一行Python代码进行数据收集探索!Python真牛逼
2019-10-17 13:15:23

简易的Pandas之路

任何使用P ython数据的人都会熟悉Pandas包。P andas是大多数行和列格式数据的go-to包。 如果你没有Pandas,请确保在终端中使用pip install安装:

pip install pandas

现在,让我们看看Pandas包中的默认方法可以做些什么:

私信小编获取更多有趣的案例教程或者源码PDF!私信01 即可

以下内容写给不知道上面发生了什么的新手:

任何Pandas数据帧都有一个 .descripe() 返回上面的输出的方法。 但是,此方法中没有注意到分类变量。 在上面的示例中,输出中完全省略了“ method ”列。

让我们看看能不能解决这个问题。

Pandas分析

如果我告诉你仅用3行Python就可以产生以下统计信息,你会怎么想?但其实,如果不计算imports的话,总体上只用1行就够。

要点 :类型,值,缺失值

分位数统计信息: 例如小值,Q1,中位数,Q3,大值,范围,四分位数范围

描述性统计数据: 例如平均值,众数,标准偏差,总和,中位数偏差,变异系数,峰度,偏度

常用值

直方图

高相关变量Spearman ,Pearson和Kendall矩阵的相关性突出显示

缺失值矩阵 ,计数,热图和缺失值树状图

(功能列表直接来自Pandas Profiling GitHub)

好吧,我们可以使用Pandas Profiling软件包!要安装Pandas Profiling软件包,只需在终端中使用pip install即可:

pip install pandas_profiling

经验丰富的数据分析人员可能会因为这些数据的松散甚至乍一看之下的“华而不实”而嗤之以鼻,但这对于快速获得数据的手印象肯定是有用的:

我们首先看到的是概述,其中提供了关于数据和变量的一些非常的统计信息,以及变量之间的高相关性、高偏态性的警告等。

但这还不算什么。向下滚动我们会发现报告有多个部分,如果只是简单地用图片展示这个1行程序的输出是不足以完全呈现这些内容的,所以我制作了一个gif:

我强烈建议大家自己去探索一下这个包的特性,毕竟,这里提到的只是一行代码,在将来 的数据分析中,这个包可能会对你非常有用。

import pandas as pd

import pandas_profiling

pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.c

分享好友

分享这个小栈给你的朋友们,一起进步吧。

应用开发
创建时间:2020-06-17 15:31:04
应用软件开发是指使用程序语言C#、java、 c++、vb等语言编写,主要是用于商业、生活应用的软件的开发。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • 栈栈
    专家
戳我,来吐槽~