这python数据如何去重?

查看:101
本文介绍了这python数据如何去重?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

些了个脚本爬取了些数据。但是有很多重复的。要怎么去冲后,写入csv文件?下面是我写的代码。

with open('D:\\result3.csv','w') as f:
    writer = csv.writer(f)
    writer.writerow(['company_name','emails', 'website','url'])
    for t in a:
        company_name = t['company_name']
        email = t['emails']
        url = t['url']
        web = t['website']

        data = [(company_name,email, web, url)]
        writer.writerows(data)
f.close()

譬如说如果email已经存在了,就不写入csv文件,包括company_name,url,web,都不写入csv。
像这样要如何去重,且在不打乱源数据。

解决方案

小数据可以这样写

with open('D:\result3.csv','w') as f:

    writer = csv.writer(f)
    writer.writerow(['company_name','emails', 'website','url'])
    
    email_dict = {}
    
    for t in a:
        company_name = t['company_name']
        email = t['emails']
        url = t['url']
        web = t['website']
        if email in email_dict:
             continue
        data = [(company_name,email, web, url)]
        writer.writerows(data)
        
        email_dict[email] = 1

这篇关于这python数据如何去重?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆