pandas :在groupby'date'中删除重复项 [英] pandas: drop duplicates in groupby 'date'

查看：160 发布时间：2020/5/23 23:16:17 python pandas duplicates unique pandas-groupby

本文介绍了 pandas :在groupby'date'中删除重复项的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

在下面的数据框中，我想消除重复的cid值，以便df.groupby('date').cid.size()的输出与df.groupby('date').cid.nunique()的输出匹配.

In the dataframe below, I would like to eliminate the duplicate cid values so the output from df.groupby('date').cid.size() matches the output from df.groupby('date').cid.nunique().

我已经看过这个

I have looked at this post but it does not seem to have a solid solution to the problem.

df = pd.read_csv('https://raw.githubusercontent.com/108michael/ms_thesis/master/crsp.dime.mpl.df')

df.groupby('date').cid.size()

date
2005       7
2006     237
2007    3610
2008    1318
2009    2664
2010     997
2011    6390
2012    2904
2013    7875
2014    3979

df.groupby('date').cid.nunique()

date
2005      3
2006     10
2007    227
2008     52
2009    142
2010     57
2011    219
2012     99
2013    238
2014    146
Name: cid, dtype: int64

我尝试过的事情:

df.groupby([df['date']]).drop_duplicates(cols='cid')给出此错误:AttributeError: Cannot access callable attribute 'drop_duplicates' of 'DataFrameGroupBy' objects, try using the 'apply' method
df.groupby(('date').drop_duplicates('cid'))给出此错误:AttributeError: 'str' object has no attribute 'drop_duplicates'

df.groupby([df['date']]).drop_duplicates(cols='cid') gives this error: AttributeError: Cannot access callable attribute 'drop_duplicates' of 'DataFrameGroupBy' objects, try using the 'apply' method
df.groupby(('date').drop_duplicates('cid')) gives this error: AttributeError: 'str' object has no attribute 'drop_duplicates'

推荐答案

您不需要groupby来基于几列删除重复项，而可以指定一个子集:

You don't need groupby to drop duplicates based on a few columns, you can specify a subset instead:

df2 = df.drop_duplicates(["date", "cid"])
df2.groupby('date').cid.size()
Out[99]: 
date
2005      3
2006     10
2007    227
2008     52
2009    142
2010     57
2011    219
2012     99
2013    238
2014    146
dtype: int64

这篇关于 pandas :在groupby'date'中删除重复项的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

pandas :在groupby'date'中删除重复项 [英] pandas: drop duplicates in groupby 'date'

问题描述

推荐答案

相关文章

Python最新文章

热门教程

热门工具

登录关闭

pandas :在groupby'date'中删除重复项 [英] pandas: drop duplicates in groupby &#39;date&#39;

问题描述

推荐答案

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

pandas :在groupby'date'中删除重复项 [英] pandas: drop duplicates in groupby 'date'

登录关闭