分享好友

×
取消 复制
pandas 的几个查询方法
2019-07-16 14:34:10
import  os, sys
import numpyt as np
import   pandas  as pd 
读取excel 表格. 
res=pd.DataFrame(pd.read_excl(file_name))
res= pd.read_csv
写 excle   
res.to_excel(file_name) 
res.to_csv(file_name)
>>> s
0         1
1         2
2        3a
3        3b
4       03c
5    我们(无效)
dtype: object
>>> type(s)
找到指定字符的数据
>>> s.str.contains(u'(?=我们).*')
0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool
>>> s[s.str.contains(u'(?=我们).*')]
5    我们(无效)
dtype: object
>>> 
>>> s.str.contains(u'无效')
0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool
>>> s[s.str.contains(u'无效')]
5    我们(无效)
dtype: object
>>> import numpy as np
>>> n=10
>>> df = pd.DataFrame(np.random.randint(n, size=(n, 2)), columns=list('bc'))
>>> df
   b  c
0  1  6
1  3  6
2  0  9
3  2  4
4  7  5
5  7  2
6  9  7
7  1  2
8  3  7
9  3  6
数据查询条件. 
>>> df[df['b'] > 5]
   b  c
4  7  5
5  7  2
6  9  7
列之间比较. 
>>> df[df.b > df.c]
   b  c
4  7  5
5  7  2
6  9  7 
从数据集中删除筛选出来的数据集. 
>>> df2=df
>>> df2
   b  c
0  1  6
1  3  6
2  0  9
3  2  4
4  7  5
5  7  2
6  9  7
7  1  2
8  3  7
9  3  6
>>> df3=df[df.b > df.c]
>>> df3
   b  c
4  7  5
5  7  2
6  9  7
>>> df2.drop(df3.index)
   b  c
0  1  6
1  3  6
2  0  9
3  2  4
7  1  2
8  3  7
9  3  6
几个数据统计方面的方法. 
>>> df2
   b  c
0  1  6
1  3  6
2  0  9
3  2  4
4  7  5
5  7  2
6  9  7
7  1  2
8  3  7
9  3  6
>>> 
>>> df2.groupby(by='b').sum() 求和  
    c
b    
0   9
1   8
2   4
3  19
7   7
9   7
>>> df2.groupby(by='b').count()  计数,
   c
b   
0  1
1  2
2  1
3  3
7  2
9  1
>>> df2.groupby(by='b').mean()  平均值.
          c
b          
0  9.000000
1  4.000000
2  4.000000
3  6.333333
7  3.500000
9  7.000000


分享好友

分享这个小栈给你的朋友们,一起进步吧。

数据治理
创建时间:2020-06-15 14:35:35
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • 栈栈
    专家
戳我,来吐槽~