如何查找重复的数据行和输出 [英] how to find duplicated rows of data and output

查看:15
本文介绍了如何查找重复的数据行和输出的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

当前正在查找重复项,但数据未显示行号、名称和编号,并且输出不正确(有关预期输出,请参阅下面的内容)。

推荐答案

使用df.duplicatedkeep=False获取DUP行的布尔掩码,然后提取行:

# split name / number from your csv file
df = pd.read_csv('names_dup2.csv', quoting=1, header=None)[0] 
       .str.split('	', expand=True)

# increment index to match line number
df.index += 1

# keep duplicate entries
out = df[df[0].duplicated(keep=False)]

# export to duplicated_data.csv
out.to_csv('duplicated_data.csv', header=False)

输出文件内容:

15,ANDREW ZHAO CHONG,83091746
19,ANDREW ZHAO CHONG,83091746
26,ANDREW ZHAO CHONG,83091746
48,ANDREW ZHAO CHONG,83091746
53,KOH KANG RI,89943392
56,KOH KANG RI,89943392
63,ENOS ZHAO KANG SONG,80746554
66,ENOS ZHAO KANG SONG,80746554
80,ENOS ZHAO KANG SONG,80746554

单行版本

pd.read_csv('names_dup2.csv', quoting=1, header=None)[0] 
  .str.split('	', expand=True) 
  .assign(index=lambda x: x.index+1) 
  .set_index('index') 
  [lambda x: x[0].duplicated(keep=False)] 
  .to_csv('duplicated_data.csv', header=False)

这篇关于如何查找重复的数据行和输出的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆