pandas-groupby相关内容

如何在具有500万行和50万组的Dask数据帧上加速groupby().sum()?

我有一个包含 的数据帧 500万行。 唯一元素数为500.000的列group_id。 名为var1、var2等的数千个其他列。var1、var2、.仅包含0和1。 我想按group_id分组,然后将它们相加。为了有更好的性能,我使用Dask。但是,此简单聚合的速度仍然较慢。 The time spent on a dataframe with 10 columns is 6. ..
发布时间:2022-02-26 21:35:34 Python

基于数据帧中数字连续出现的条件概率计算

我有一个数据框,它有一个多索引(股票代码和日期),其中有一列对每只股票进行计数,在每一行中,1或0在“Dummy&Quot;”列中出现了多少次。我有一个下面的示例。 df = pd.DataFrame( { 'stock': ['AAPL', 'AAPL', 'AAPL','AAPL', 'MSFT', 'MSFT','MSFT', 'MSFT'], 'datetime': ['2015 ..
发布时间:2022-02-26 21:25:09 Python

每小时的行数

我正在浏览自行车共享数据。 我组合了两个表:一个包含自行车共享数据,另一个包含天气数据。“开始日期”列在自行车共享数据中。“日期”列位于天气数据中。 我想对每小时的ID计数进行分组,以便可以查看天气对自行车使用的影响。 ID 开始 结束 开始日期 持续时间 日期 雨 临时 wdsp 1754125 爱广场南 Glenina 2019年1月1日00:17 00:15:02 201 ..
发布时间:2022-02-26 21:11:19 Python