python3.x - Python Dataframe合并问题

查看：220 发布时间：2017/9/6 5:46:24 concat 数据挖掘 python python3.x pandas

本文介绍了python3.x - Python Dataframe合并问题的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

问题

用Pandas读取一个七百万条记录的微博爬虫文件，大小约1G。直接读入内存不足，于是采用chunksize=100000来分批读取。每个chunk的数据处理后得到count长这样：

            daysCount  tweetsSum
userID                          
1294588034          5        305
2277435630          4        284
1985258823          6        265
1886370740          7        265
...               ...        ...

之后我尝试把这些dataframe合并，代码如下：

count_list=[]
for chunk in data:
    ...
    count_list.append(count)
       
total_count = pd.concat(count_list, axis=0)
print(total_count.sort_value(by=['tweetsSum'],ascending=False))

结果发现汇总后的数据总是小于真正的数据量，不管是daysCount还是tweetsSum都是。而且调高chunksize，这两个值也会提高。
于是我猜想在concat的时候，遇到userID相同的，它只会取daysCount和tweetsSum的最大值，而不是值相加。
如果是这样的问题的话，那么该怎么合并dataframe，能让碰到userID相同的时候，让daysCount和tweetsSum相加呢？

解决方案

我后来解决了这个问题两个dataframe合并如果希望索引值相同的两个记录对应值相加的话应该使用add函数而不是concat

这篇关于python3.x - Python Dataframe合并问题的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

python3.x - Python Dataframe合并问题

问题描述

相关文章

Python最新文章

热门教程

热门工具

登录关闭

python3.x - Python Dataframe合并问题

问题描述

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

登录关闭