pandas-groupby相关内容
我尝试使用 groupby 对具有多个值的行进行分组. col val一只猫一只老虎B球蝙蝠将熊猫导入为 pddf = pd.read_csv("Inputfile.txt", sep='\t')group = df.groupby(['col'])['val'].sum() 我得到了 一只猫虎B 球棒 我想引入一个分隔符,让我的输出看起来像 一只猫虎B球棒 我试过了, group
..
我想根据 Pandas 中的 groupedby 合并数据帧中的多个字符串. 这是我目前的代码: 将pandas导入为pd从 io 导入 StringIO数据 = StringIO(""""name1","hej","2014-11-01""name1","du","2014-11-02""name1","aj","2014-12-01""name1","oj","2014-12-02""
..
尝试从 groupby 计算中创建一个新列.在下面的代码中,我得到了每个日期的正确计算值(参见下面的组),但是当我尝试用它创建一个新列 (df['Data4']) 时,我得到 NaN.所以我试图在数据框中创建一个新列,其中包含所有日期的 Data3 总和,并将其应用于每个日期行.例如,2015-05-08 有 2 行(总数为 50+5 = 55),在这个新列中,我希望两行都有 55. 将pand
..
我有一个数据框 df 并且我使用其中的几列到 groupby: df['col1','col2','col3','col4'].groupby(['col1','col2']).mean() 通过上面的方式,我几乎得到了我需要的表格(数据框).缺少的是包含每个组中行数的附加列.换句话说,我的意思是但我也想知道使用了多少个数字来获得这些平均值.例如,第一组有 8 个值,第二组有 10 个,依此类
..
我有一个熊猫数据框 df 像: a b1A2乙 5乙 5乙 4C 6 我想按第一列分组并将第二列作为行中的列表: A [1,2]乙 [5,5,4]C [6] 是否可以使用 pandas groupby 来做这样的事情? 解决方案 您可以使用 groupby 对感兴趣的列进行分组,然后 apply 列出到每个组: In [1]: df = pd.DataFrame( {'a':['
..
在按 ['Sp','Mt'] 列分组后,如何在 Pandas 数据框中查找具有 count 列最大值的所有行? 示例 1: 以下数据帧,我按 ['Sp','Mt'] 分组: Sp Mt 值计数0 MM1 S1 a **3**1 MM1 S1 n 22 MM1 S3 CB **5**3 MM2 S3 MK **8**4 MM2 S4 bg **10**5 MM2 S4 dgd 16 MM4
..
什么是枢轴? 我如何旋转? 这是一个支点吗? 长格式到宽格式? 我看过很多关于数据透视表的问题.即使他们不知道他们在询问数据透视表,他们通常也是.几乎不可能写出一个规范的问题和答案来涵盖旋转的所有方面...... ...但我要试一试. 现有问题和答案的问题在于,问题通常集中在 OP 难以概括的细微差别上,以便使用许多现有的好答案.但是,没有一个答案试图给出全面的解释(因为这
..
我正在尝试通过定义的半正弦函数计算以下数据集的距离.该函数适用于其他数据.然而,在这个特定的数据集中,我试图 groupby(df.index) 并且它给了我错误: 无法将系列转换为 我之前使用过 groupby() 和 apply() 并且没有问题.我无法理解在这种情况下发生了什么以及如何解决它. 这是数据 纬度经度日期时间356a192b7913b04c54574d18c
..
嗨,我有一个数据框如下: df = pd.DataFrame()df['Team1'] = ['A','B','C','D','E','F','A','B','C','D','E','F']df['Score1'] = [1,2,3,1,2,4,1,2,3,1,2,4]df['Team2'] = ['U','V','W','X','Y','Z','U','V','W','X','Y','Z']d
..
我想为数据帧中的每组值识别异常值,并返回一个数据帧,其中一列包含数据帧每一行的 True/False. data = {'Group':['A', 'A', 'A', 'B', 'B', 'B'], 'Age':[20, 21, 19,18, 2, 17]}df = pd.DataFrame(数据)def flag_outlier(x):lower_limit = np.mean(x) - np
..
这是我的数据框,功能: df = pd.DataFrame({'G': 'x x y y'.split(),'C': [1, 2, 1, 2],'D': [2, 2, 1, 1]})定义 CD(df):返回 df['C'] * df['D'] 这是我的数据框的样子: G C D0 × 1 21 × 2 22 年 1 13 年 2 1 当我跑步时 df.groupby('G').appl
..
我有以下数据框 X Y0 一 101 一个 92 一个 83 一个 54 乙 1005 乙 906 乙 807 乙 50 和两个非常相似的不同功能 def func1(x):如果 x.iloc[0]['X'] == 'A':x['D'] = 1别的:x['D'] = 0返回 x[['X', 'D']]def func2(x):如果 x.iloc[0]['X'] == 'A':x['D']
..
给定的数据框: dfd = pd.DataFrame({'A': [1, 1, 2,2,3,3],'B': [4, 5, 6,7,8,9],'C':['a','b','c','c','d','e']}) 我可以通过使用 找到每个A组的最后一个C值 dfd.groupby('A').last()['C'] 但是,我想将 C 值更新为 np.nan.我不知道该怎么做.方法如: def 替换
..
我正在尝试将数据帧的多行合并为一行,将具有不同值的列合并到一个列表中.有多个具有不同值的列. df.groupby('a')['b'].apply(list) 如果只需要将 1 列(在本例中为 'b')添加到列表中,则效果很好,但我不知道如何为多列做这件事. 数据框: a b c d0 1 b 1 先1 1 b 2 秒2 2 c 1 第三3 2 c 2 第四4 2 c 3 五分之一
..
是否可以指定 groupby() 调用在 apply() lambda 函数中使用组名? 类似于如果我遍历组,我可以通过以下元组分解获得组键: for group_name, subdf in temp_dataframe.groupby(level=0,axis=0):打印组名 ...有没有办法在apply函数中也得到组名,比如: temp_dataframe.groupby(lev
..
我想将 df.groupby() 与 apply() 结合使用,以将函数应用于每组的每一行. 我通常使用以下代码,它通常有效(注意,这是没有 groupby()): df.apply(myFunction, args=(arg1,)) 使用 groupby() 我尝试了以下操作: df.groupby('columnName').apply(myFunction, args=(arg1
..
我有每个设备的会话数据,如下所示 time-started:设备连接时的时间戳 持续时间(秒):连接的时间 packets:发送了多少数据包 现在我需要按 24 小时聚合(求和)每个设备分区的持续时间和数据包. 例如: 第一条记录, 设备 A,时间从 4 月 8 日凌晨 1 点 53 分开始,因此需要汇总所有在 24 小时内有效的设备 (A),直到 4 月
..
我正在使用一个 DataFrame,我想在其中找到每个元素对一个组的贡献的百分比. 例如,我有以下数据框 一个出[295]:c1 c2 c30 一个 p1 11 b p1 22 c p2 33 d p3 4 我想用 c2 得到每个组的总和,然后将 c3 除以这个总和.我可以使用 groupby 函数来获取总和: b = a.groupby('c2').aggregate({'c3':
..
我需要计算每个域中唯一的ID值. 我有数据: ID,域123, 'vk.com'123, 'vk.com'123, 'twitter.com'第456话456, 'facebook.com'第456话第456话789, 'twitter.com'第789话 我尝试 df.groupby(['domain', 'ID']).count() 但我想得到 域,计数vk.com 3推特网
..
我有一个带有集合列的 Pandas DataFrame: 将pandas导入为pddf = pd.DataFrame({'group_var': [1,1,2,2], 'sets_var': [set([0, 1]), set([1, 2]), set([3, 4]]), 设置([5, 6, 7])]})dfgroup_var sets_var0 1 {0, 1}1 1 {1, 2}2 2 {3
..