pandas-groupby相关内容
我有一个数据框,如下所示 Tenancy_ID Unit_ID Unit_Create_Date Tenancy_Start_Date 1 A 2012-09-06 13:34:15 2012-09-08 11:34:14 2 A 2
..
我有以下数据并尝试按唯一ID聚合,需要在各自列的一个单元格中获取唯一名称、唯一产品、唯一价格 Unique_id Name Product Price 101 ABC Ltd A 100 102 JKL Ltd B 200 101 ABC Ltd B 200 102 JKL US
..
Suppoosedf.bun(df是Pandas DataFrame)是一个多索引(日期和名称),变量是以字符串形式写入的类别值, date name values 20170331 A122630 stock-a A123320 stock-a A152500
..
我有以下 pandas groupby对象,我想将结果转换为新的数据帧。 以下是获取条件概率的代码: bin_probs = data.groupby('season')['bin'].value_counts()/data.groupby('season')['bin'].count() 我尝试了以下代码,但返回如下。 我喜欢用season来填写每一行。我该如何做?
..
请协助。如何获取 pandas Groupby的累积和,但我的数据是布尔值0和1。我希望将每组0或1视为唯一值,并在满足新值时重置计数。 我目前有一个汇总了所有1和0的 df['grp'] = df.groupby("dir")["dir"].cumsum()) 我想要的输出 df = pd.DataFrame({"dir":[1,1,1,1,0,0,0,1,1,1,1,0
..
我有一个通过追加4个数据帧创建的数据帧(index=date)。正因为如此,我的索引中有重复项,通常同一天有3个nans和1个值。 我的目标是将此数据帧上采样到每天的频率(df = df.resample('1D)),但在此之前,我必须删除重复项。 我想删除重复的时间,但根据两个条件: 对于同一天,如果我们至少有1个值,则计算这些值的纳平均值,然后丢弃其余的。 同一天,如果我们只有N
..
我有一个数据帧(df),如下所示: month-year name a b c 2018-01 X 2 1 4 2018-01 Y 1 0 5 2018-01 X 1 6 3 2018-01 Y 4 10 7 2018-02
..
我有一个多索引数据帧,它显示每月交易的总频率。 我正在尝试每年获得一个尊重我的‘mapid’和‘service’多索引的Cumsum()。然而,我不知道如何得出这些数据 combined_df = combined_df.groupby([pd.Grouper(freq='M'), 'provider', 'mapid', 'service']).sum()
..
假设我有一个包含列‘A’、‘B’、‘C’的DataFrame DF。 我想计算‘B’列中按‘A’分组的NULL值的数量,并根据它创建一个词典: 尝试以下操作失败: df.groupby('A')['B'].isnull().sum().to_dict() 如有任何帮助,将不胜感激。 推荐答案 安装 df = pd.DataFrame(dict(A=[1, 2] * 3
..
我正在尝试使用一个组的pandas模块使用最频繁的值来计算缺失值。在查看了一些关于堆栈溢出的帖子后,我设法做到了这一点: import numpy as np import pandas as pd df = pd.DataFrame({"group": ["A", "A", "A", "A", "B", "B", "B"], "value": [1,
..
我有如下所示的数据帧 stud_name act_qtr year yr_qty qtr mov_avg_full mov_avg_2qtr_min_period 0 ABC Q2 2014 2014Q2 NaN NaN NaN 1 ABC Q1 2016 2016Q1 Q1 13.0 14.5 2 ABC Q4 2016 2
..
我要从包含列表嵌套列表作为值的现有列创建两个列。 由3个公司参与者及其角色组成的记录行: **row 1** [{'roles': [{'type': 'director'}, {'type': 'founder'}, {'type': 'owner'}, {'type': 'real_owner'}], 'life': {'name': 'Lichun Du'}}] **row 2
..
以下数据框包含一年中每小时的值(千瓦时)。 cons2016.head() Date Hour kWh Month Weekday 0 2016-01-01 00:00 71.48 January Friday 1 2016-01-01 01:00 65.32 January Friday 2 2016-01-01
..
我有一个分类列&WALLSMATERIAL_MODE&QOOT;其中包含NAN,我希望通过以下组[‘NAME_RECOVICATION_TYPE’,‘AGE_GROUP’]将其归因于NAN: NAME_EDUCATION_TYPE AGE_GROUP WALLSMATERIAL_MODE 20 Secondary / secondary special
..
在两列之间添加所有日期的行? ID Initiation_Date Step Start_Date End_Date Days P-03 29-11-2018 3 2018-11-29 2018-12-10 11.0 P-04 29-11-2018 4 2018-12-03 2018-12-07
..
我对多列和max值的group by有一些问题。 A B C D E F G H x q e m k 2 1 y x q e n l 5 2 y x w e b j 7 3 y x w e v h 3 4 y 此查询正确,并返回我需要的内容。
..
以下数据的时间间隔为5分钟,正在尝试将其分组为10分钟 数据帧名称为df: script_id DATE_TIME 打开 高 低 关闭 音量 201 2019-01-01 10:45:00 1492.9 1493.85 1492.15 1492.9 7189 201 2019-01-01 10:50:00 1492.9 1495.95 1492.2 1495.85 15440 2
..
我正在尝试计算以下数据帧的每个犯罪的百分比: Violent Murder Larceny_Theft Vehicle_Theft Year 1960 288460 3095700 1855400 328200 1961 289390 3198600 1913000 3360
..
我要创建一个相当复杂的逻辑。我有一些具有历史测试结果的客户诊所接触数据,R_DATE_TESTED、R_RESULT映射到每个P_DATE_ENCOUNTER的每个客户(P_CLIENT_ID)。
..
数据帧如图所示 Name Job Salary john painter 40000 peter engineer 50000 sam plumber 30000 john doctor 500000 john driver 20000 sam carpenter 10000 peter scientist 1
..