这python数据如何去重?
本文介绍了这python数据如何去重?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
问 题
些了个脚本爬取了些数据。但是有很多重复的。要怎么去冲后,写入csv文件?下面是我写的代码。
with open('D:\\result3.csv','w') as f:
writer = csv.writer(f)
writer.writerow(['company_name','emails', 'website','url'])
for t in a:
company_name = t['company_name']
email = t['emails']
url = t['url']
web = t['website']
data = [(company_name,email, web, url)]
writer.writerows(data)
f.close()
譬如说如果email已经存在了,就不写入csv文件,包括company_name,url,web,都不写入csv。
像这样要如何去重,且在不打乱源数据。
解决方案
小数据可以这样写
with open('D:\result3.csv','w') as f:
writer = csv.writer(f)
writer.writerow(['company_name','emails', 'website','url'])
email_dict = {}
for t in a:
company_name = t['company_name']
email = t['emails']
url = t['url']
web = t['website']
if email in email_dict:
continue
data = [(company_name,email, web, url)]
writer.writerows(data)
email_dict[email] = 1
这篇关于这python数据如何去重?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文