pandas-groupby相关内容

列和行与另一列中的公共值串联

在下表中,我想将 Tri_gram_sents 列和 Value 列连接在一起,然后将 sentence 列中具有相同编号的所有行连接在一起代码>. Tri_gram_sents 值语句(('', ''), 'ABC') 0.161681 1(('', 'ABC'), 'ABC') 0.472973 1(('ABC', 'ABC'), 'ABC') 0.305732 1(('ABC ..
发布时间:2021-06-14 18:36:35 Python

删除两个不同关键字之间的字符

我有一个像下面这样的字符串. stg = "阿贝尔读(读)|书(外设)~Q27.8#basillary NEC~Q28.1||" 要求: 需要删除~和#两个关键字之间的字符,然后打印剩下的. 输出: “阿贝尔读(读)|书(外设)基底NEC~Q28.1||" 解决方案 使用 string.find 方法 stg = "阿贝尔读(读)|书(外设)~Q27.8#b ..
发布时间:2021-06-14 18:36:32 Python

Pandas - 使用将 2 行合并为 1 行

下面是我拥有的数据框的一个小例子.每个用户有 2 行,我想将 2 行合并为 1 行. (原始数据框) 用户详细信息团队价值JohnDoe Disponibily 建筑师 107JohnDoe 容量架构师 240JamesDean Disponibily 编码器 80JamesDean 容量编码器 110 我正在尝试用熊猫来实现这样的目标: USER TEAM Disponibily 容 ..
发布时间:2021-06-14 18:36:24 Python

如何有效地组合熊猫数据框

我有 2 个数据帧,df_oth 和 df_small. “ID"列唯一标识 df_oth 中的每一行. 另一方面,在 df_small 中,每个 ID 可能会出现多次. 我正在努力 为每个 ID 从 df_small 中提取一些列的内容 将它们转换为列表并包装在字典中 最后,存储在 df_oth 上的新列中,对应 ID 下. 在我的第一次迭代中,我将 df_row 分配 ..
发布时间:2021-06-14 18:36:21 Python

Pandas python + 值格式

这是代码: 将pandas导入为pd从熊猫导入系列,数据帧将 numpy 导入为 np导入 matplotlib.pyplot 作为 pltdf.head(3).style.format({'Budget': "€ {:,.0f}"})年份 项目 实体 参与国 预算0 2015 671650 - MMMAGIC - 5G FUNDACION IMDEA NETWORK* 参与者 西班牙 € 38 ..
发布时间:2021-06-14 18:36:18 Python

Pandas - 跨多列扩展 Z-Score

我想为 DataFrame 中的一些时间序列数据计算扩展 z 分数,但我想使用多列的均值和标准差来标准化数据,而不是每个列中的均值和标准差列分开.我相信我想使用 groupby 和 DataFrame.expanding 的某种组合,但我似乎无法弄清楚.以下是一些示例数据: 将pandas导入为pd将 numpy 导入为 npnp.random.seed(42)df = pd.DataFrame ..
发布时间:2021-06-14 18:36:15 Python

Pandas 填充按列分组的重采样数据

我正在尝试从开始日期和结束日期为多个资产 ID 创建数据框,并将其转换为开始日期和结束日期之间每个资产 ID 的半小时列表,其中填充了 some_property 的值前进. 我已经尝试从 SO 的文档和示例中进行分组和重新采样,但我很难过如何完成这项工作. 考虑示例: some_time = datetime(2018,4,2,20,20,42)start_date = datet ..
发布时间:2021-06-14 18:36:12 Python

过去 n 天的平均值 pandas

我有一个关于高尔夫球手及其在各种锦标赛中的高尔夫球回合的数据框(请参阅下面发布的 df head 字典).我需要一种快速计算方法,对于玩家进行的每一轮比赛,他在前 n 天的平均“获得的击球数"(SG),其中 n 是我决定的任何值.我会知道如何通过将数据帧转换为列表列表并迭代来做到这一点,但这会非常慢.理想情况下,我希望在 Pandas df 中有一个额外的列,标题为“过去 100 天玩家的平均 S ..
发布时间:2021-06-14 18:36:06 Python

如何将大熊猫的日历年转换为水年

这个问题已经用 R 解决了,但是我还没有看到有用的 Python 例子.我想学习如何将日历年(1/1/1990 至 12/31/2010)排放数据转换为水年数据(即 10/01/1990 至 9/31/2010).感谢您的帮助. 解决方案 你可以使用 应用并编写自己的函数来创建一个新列WY: 如果你有 df: 日期放电0 2011-10-01 00:00:00 0.01 2011 ..
发布时间:2021-06-14 18:36:01 Python

带有agg的pandas groupby无法处理多列

我正在尝试将多个列合并到一个基于 Pandas 分组的列表中.下面是我正在使用的代码 grouped_df = df.groupby(['d_id', 'time']).agg({'d_name': lambda x: tuple(x)},{'ver': lambda x: tuple(x)},{'f_name': lambda x: tuple(x)}) 这只会给我一个列表中的第一列 (d_ ..
发布时间:2021-06-14 18:35:58 Python

Python重采样无法索引的时间序列数据

这个问题的目的是了解每秒“发生"了多少笔交易(计数)以及交易的总数量(总和). 我有无法编入索引的时间序列数据(因为有多个条目具有相同的时间戳 - 可以在同一毫秒内进行多次交易),因此使用 resample 如此处所述无法工作. 另一种方法是首先按时间分组,如图所示here (稍后每秒钟重新采样).问题是分组只会导致对分组项目的一个基本算术(我只能求和/平均值/标准等),而在此数据中, ..
发布时间:2021-06-14 18:35:51 Python

在pandas中使用Groupby或pivot count函数后如何应用一些分析并获取原始数据

我有一个 15000 个村庄的数据集,对于 1 个地区,有 12 个街区/Taluka,在那个地区种植了几种作物,我必须检查该村庄的作物播种面积,并选择 10 个村庄用于以随机抽样为基础的每种作物,我的第一步是删除数据集中的 0 个播种面积的村庄,删除 0 个播种面积后我得到 6674 个村庄,接下来我检查,在一个地区,在一个街区/Taluka 中有多少村庄是剩余的,所以我使用 pivot 和 g ..
发布时间:2021-06-14 18:35:42 Python

基于列表值聚合 DataFrame

我有下一个问题. 我有一个包含字符串值的列表: a = ['word1', 'word2', 'word3', 'word4', ..., 'wordN'] 我有带值的数据框: +--------------+---------+-----------+|关键词 |印象|点击|+--------------+----------+-----------+|字 1 |1245523 |1 ..
发布时间:2021-06-14 18:35:39 Python