pandas-groupby相关内容

带分隔符的 Pandas groupby

我尝试使用 groupby 对具有多个值的行进行分组. col val一只猫一只老虎B球蝙蝠将熊猫导入为 pddf = pd.read_csv("Inputfile.txt", sep='\t')group = df.groupby(['col'])['val'].sum() 我得到了 一只猫虎B 球棒 我想引入一个分隔符,让我的输出看起来像 一只猫虎B球棒 我试过了, group ..
发布时间:2021-12-02 16:30:26 Python

如何从 pandas groupby().sum() 的输出创建一个新列?

尝试从 groupby 计算中创建一个新列.在下面的代码中,我得到了每个日期的正确计算值(参见下面的组),但是当我尝试用它创建一个新列 (df['Data4']) 时,我得到 NaN.所以我试图在数据框中创建一个新列,其中包含所有日期的 Data3 总和,并将其应用于每个日期行.例如,2015-05-08 有 2 行(总数为 50+5 = 55),在这个新列中,我希望两行都有 55. 将pand ..
发布时间:2021-11-30 23:57:48 Python

使用 pandas GroupBy 获取每个组的统计信息(例如计数、平均值等)?

我有一个数据框 df 并且我使用其中的几列到 groupby: df['col1','col2','col3','col4'].groupby(['col1','col2']).mean() 通过上面的方式,我几乎得到了我需要的表格(数据框).缺少的是包含每个组中行数的附加列.换句话说,我的意思是但我也想知道使用了多少个数字来获得这些平均值.例如,第一组有 8 个值,第二组有 10 个,依此类 ..
发布时间:2021-11-30 23:28:48 Python

如何旋转数据框?

什么是枢轴? 我如何旋转? 这是一个支点吗? 长格式到宽格式? 我看过很多关于数据透视表的问题.即使他们不知道他们在询问数据透视表,他们通常也是.几乎不可能写出一个规范的问题和答案来涵盖旋转的所有方面...... ...但我要试一试. 现有问题和答案的问题在于,问题通常集中在 OP 难以概括的细微差别上,以便使用许多现有的好答案.但是,没有一个答案试图给出全面的解释(因为这 ..
发布时间:2021-11-30 22:59:26 Python

Python:应用定义的正弦函数时 groupby() 和 apply() 出现问题

我正在尝试通过定义的半正弦函数计算以下数据集的距离.该函数适用于其他数据.然而,在这个特定的数据集中,我试图 groupby(df.index) 并且它给了我错误: 无法将系列转换为 我之前使用过 groupby() 和 apply() 并且没有问题.我无法理解在这种情况下发生了什么以及如何解决它. 这是数据 纬度经度日期时间356a192b7913b04c54574d18c ..
发布时间:2021-11-16 23:20:31 Python

在每个组的数据框中标记异常值

我想为数据帧中的每组值识别异常值,并返回一个数据帧,其中一列包含数据帧每一行的 True/False. data = {'Group':['A', 'A', 'A', 'B', 'B', 'B'], 'Age':[20, 21, 19,18, 2, 17]}df = pd.DataFrame(数据)def flag_outlier(x):lower_limit = np.mean(x) - np ..
发布时间:2021-11-16 23:17:17 Python

更新熊猫 groupby().last() 的列值

给定的数据框: dfd = pd.DataFrame({'A': [1, 1, 2,2,3,3],'B': [4, 5, 6,7,8,9],'C':['a','b','c','c','d','e']}) 我可以通过使用 找到每个A组的最后一个C值 dfd.groupby('A').last()['C'] 但是,我想将 C 值更新为 np.nan.我不知道该怎么做.方法如: def 替换 ..
发布时间:2021-11-16 23:06:36 Python

一次在多列上使用pandas groupby().apply(list)

我正在尝试将数据帧的多行合并为一行,将具有不同值的列合并到一个列表中.有多个具有不同值的列. df.groupby('a')['b'].apply(list) 如果只需要将 1 列(在本例中为 'b')添加到列表中,则效果很好,但我不知道如何为多列做这件事. 数据框: a b c d0 1 b 1 先1 1 b 2 秒2 2 c 1 第三3 2 c 2 第四4 2 c 3 五分之一 ..
发布时间:2021-11-16 23:04:34 Python

在应用函数pandas python中包含组名

是否可以指定 groupby() 调用在 apply() lambda 函数中使用组名? 类似于如果我遍历组,我可以通过以下元组分解获得组键: for group_name, subdf in temp_dataframe.groupby(level=0,axis=0):打印组名 ...有没有办法在apply函数中也得到组名,比如: temp_dataframe.groupby(lev ..
发布时间:2021-11-16 23:03:45 Python

按 24 小时进行分区并使用 pyspark 或 panda 进行聚合

我有每个设备的会话数据,如下所示 time-started:设备连接时的时间戳 持续时间(秒):连接的时间 packets:发送了多少数据包 现在我需要按 24 小时聚合(求和)每个设备分区的持续时间和数据包. 例如: 第一条记录, 设备 A,时间从 4 月 8 日凌晨 1 点 53 分开始,因此需要汇总所有在 24 小时内有效的设备 (A),直到 4 月 ..
发布时间:2021-11-14 22:35:34 Python

Pandas DataFrame 将单列除以列组的总和

我正在使用一个 DataFrame,我想在其中找到每个元素对一个组的贡献的百分比. 例如,我有以下数据框 一个出[295]:c1 c2 c30 一个 p1 11 b p1 22 c p2 33 d p3 4 我想用 c2 得到每个组的总和,然后将 c3 除以这个总和.我可以使用 groupby 函数来获取总和: b = a.groupby('c2').aggregate({'c3': ..
发布时间:2021-10-26 17:46:55 Python

GroupBy 和聚合集合

我有一个带有集合列的 Pandas DataFrame: 将pandas导入为pddf = pd.DataFrame({'group_var': [1,1,2,2], 'sets_var': [set([0, 1]), set([1, 2]), set([3, 4]]), 设置([5, 6, 7])]})dfgroup_var sets_var0 1 {0, 1}1 1 {1, 2}2 2 {3 ..
发布时间:2021-07-23 19:14:52 Python