Python中用pandas对标Excel自带功能——去除重复项

2019-08-13 09:37:55

转发本文并私信我"python"，即可获得Python资料以及各种心得(持续更新的)

经常听别人说 Python 在数据领域有多厉害，结果学了很长时间，连数据处理都麻烦得要死。后来才发现，原来不是 Python 数据处理厉害，而是他有数据分析神器—— pandas

前言

有时候数据中出现重复值，可能会导致后的统计结果出现错误，因此，查找和移除重复值是数据处理中的常见操作。今天我们来看看 pandas 中是如何实现。

Excel 处理重复值

Excel 中直接提供了去除重复的功能，因此简单操作即可实现。如下：

功能卡"数据"，"数据工具"中有"删除重复项"按钮

接着可以选择以哪些列作为重复判断

除此之外，Excel 中还可以使用条件格式、筛选或函数公式实现差不多的功能

pandas 标记重复值

pandas 中同样提供一个简单方法标记出重复值，并且比 Excel 有更多灵活处理方式供你选择，我们来看看：

DataFrame.duplicated() ，生成是否为重复记录的布尔标记。默认是整行所有数据作为判断依据

结果很明显，后一行是重复行，因此标记列后一行的值是 True

我们可以指定，当有重复值时，保留哪个位置的行。如下：

默认情况下，duplicated() 的 keep 参数为 "first"，意思为"保留个"

现在我们把 keep 设置为"last"，那么保留后一个，因此现在重复的行中的行被标记为 True

除此之外，我们还可以把 keep 参数设置为 False，意思是"不保留"，如下：

现在凡是存在重复的行，都被标记 True

通过参数 subset 可以指定哪些列作为判断依据：

像 Excel 一样去除重复

其实把重复值标记后，只需要简单筛选即可得到非重复的记录。但是 pandas 中有直接的方法去除重复。如下：

调用 DataFrame.drop_duplicates() ，即可去除重复

他的参数与规则与 duplicated 一模一样。实际就是把 duplicated() 标记为 True 的行去掉而已

后

DataFrame.duplicated() ，标记出重复项。使用 subset 指定重复值判断列，keep={'first','last',False} 指定怎么判断哪些是重复项

DataFrame.drop_duplicates() ，去除重复项

分享好友

分享这个小栈给你的朋友们，一起进步吧。

展开

订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅：虚拟交易，一经交易不退款；若特殊情况，可3日内客服咨询

• 专区发布评论属默认订阅所评论专区（除付费小栈外）

查看更多