pandas-groupby相关内容
在下表中,我想将 Tri_gram_sents 列和 Value 列连接在一起,然后将 sentence 列中具有相同编号的所有行连接在一起代码>. Tri_gram_sents 值语句(('', ''), 'ABC') 0.161681 1(('', 'ABC'), 'ABC') 0.472973 1(('ABC', 'ABC'), 'ABC') 0.305732 1(('ABC
..
我有一个像下面这样的字符串. stg = "阿贝尔读(读)|书(外设)~Q27.8#basillary NEC~Q28.1||" 要求: 需要删除~和#两个关键字之间的字符,然后打印剩下的. 输出: “阿贝尔读(读)|书(外设)基底NEC~Q28.1||" 解决方案 使用 string.find 方法 stg = "阿贝尔读(读)|书(外设)~Q27.8#b
..
到目前为止我的代码是这样的: conn = psycopg2.connect("dbname=monty user=postgres host=localhost password=postgres")cur = conn.cursor()cur.execute("SELECT * FROM binance.zrxeth_ob_indicators;")行 = cur.fetchall()df
..
我有一个这样的数据框. mydf = pd.DataFrame({'a':[1,1,3,3],'b':[np.nan,2,3,6],'c':[1,3,3,9]})a b c0 1 南 11 1 2.0 32 3 3.0 33 3 6.0 9 我想要这样的结果数据框. myResults = pd.concat([mydf.groupby('a').apply(lambda x: (xb/xc
..
下面是我拥有的数据框的一个小例子.每个用户有 2 行,我想将 2 行合并为 1 行. (原始数据框) 用户详细信息团队价值JohnDoe Disponibily 建筑师 107JohnDoe 容量架构师 240JamesDean Disponibily 编码器 80JamesDean 容量编码器 110 我正在尝试用熊猫来实现这样的目标: USER TEAM Disponibily 容
..
我有 2 个数据帧,df_oth 和 df_small. “ID"列唯一标识 df_oth 中的每一行. 另一方面,在 df_small 中,每个 ID 可能会出现多次. 我正在努力 为每个 ID 从 df_small 中提取一些列的内容 将它们转换为列表并包装在字典中 最后,存储在 df_oth 上的新列中,对应 ID 下. 在我的第一次迭代中,我将 df_row 分配
..
这是代码: 将pandas导入为pd从熊猫导入系列,数据帧将 numpy 导入为 np导入 matplotlib.pyplot 作为 pltdf.head(3).style.format({'Budget': "€ {:,.0f}"})年份 项目 实体 参与国 预算0 2015 671650 - MMMAGIC - 5G FUNDACION IMDEA NETWORK* 参与者 西班牙 € 38
..
我想为 DataFrame 中的一些时间序列数据计算扩展 z 分数,但我想使用多列的均值和标准差来标准化数据,而不是每个列中的均值和标准差列分开.我相信我想使用 groupby 和 DataFrame.expanding 的某种组合,但我似乎无法弄清楚.以下是一些示例数据: 将pandas导入为pd将 numpy 导入为 npnp.random.seed(42)df = pd.DataFrame
..
我正在尝试从开始日期和结束日期为多个资产 ID 创建数据框,并将其转换为开始日期和结束日期之间每个资产 ID 的半小时列表,其中填充了 some_property 的值前进. 我已经尝试从 SO 的文档和示例中进行分组和重新采样,但我很难过如何完成这项工作. 考虑示例: some_time = datetime(2018,4,2,20,20,42)start_date = datet
..
我有这个数据框: person_code #CNAE增长规模0 231 32 0.54 321 233 43 0.12 3332 432 32 0.44 213 431 56 0.32 234 654 89 0.12 895 764 32 0.20 2116 434 32 0.82 90 我需要创建一个名为“top3growth"的新列.为此,我需要为每一行检查 df 的 #CNAE 并添加
..
我有一个关于高尔夫球手及其在各种锦标赛中的高尔夫球回合的数据框(请参阅下面发布的 df head 字典).我需要一种快速计算方法,对于玩家进行的每一轮比赛,他在前 n 天的平均“获得的击球数"(SG),其中 n 是我决定的任何值.我会知道如何通过将数据帧转换为列表列表并迭代来做到这一点,但这会非常慢.理想情况下,我希望在 Pandas df 中有一个额外的列,标题为“过去 100 天玩家的平均 S
..
我有一些看起来像这样的数据,名为“test_df" ID 年份值 Value20 A 2012 1 41 一个 2012 年 2 52 2013 年 4 63 2013 年 5 74 乙 2014 年 6 85 乙 2014 年 7 46 乙 2013 8 8 我希望它看起来像这样: ID Year Value_avg Value2_avgA 2012 1.5 4.52013 年 4.5
..
这个问题已经用 R 解决了,但是我还没有看到有用的 Python 例子.我想学习如何将日历年(1/1/1990 至 12/31/2010)排放数据转换为水年数据(即 10/01/1990 至 9/31/2010).感谢您的帮助. 解决方案 你可以使用 应用并编写自己的函数来创建一个新列WY: 如果你有 df: 日期放电0 2011-10-01 00:00:00 0.01 2011
..
我正在尝试将多个列合并到一个基于 Pandas 分组的列表中.下面是我正在使用的代码 grouped_df = df.groupby(['d_id', 'time']).agg({'d_name': lambda x: tuple(x)},{'ver': lambda x: tuple(x)},{'f_name': lambda x: tuple(x)}) 这只会给我一个列表中的第一列 (d_
..
所以...我有一个看起来像这样的数据框,但要大得多: 日期项目商店库存0 2018-06-06 A L001 41 2018-06-06 A L002 02 2018-06-06 A L003 43 2018-06-06 B L001 14 2018-06-06 B L002 2 您可以使用以下代码重现相同的 DataFrame: 将pandas导入为pd将 numpy 导入为 np导入
..
这个问题的目的是了解每秒“发生"了多少笔交易(计数)以及交易的总数量(总和). 我有无法编入索引的时间序列数据(因为有多个条目具有相同的时间戳 - 可以在同一毫秒内进行多次交易),因此使用 resample 如此处所述无法工作. 另一种方法是首先按时间分组,如图所示here (稍后每秒钟重新采样).问题是分组只会导致对分组项目的一个基本算术(我只能求和/平均值/标准等),而在此数据中,
..
我有以下格式的熊猫数据框: id,criteria_1,criteria_2,criteria_3,criteria_4,criteria_5,criteria_61,0,0,95,179,1,11,0,0,97,185,NaN,11,1,2,92,120,1,12,0,0,27,0,1,NaN2,1,2,90,179,1,12,2,5,111,200,1,13,1,2,91,175,1,13,
..
我有一个带日期时间索引的数据框. >>>df.head()出[6]:12004-01-02 09:00:00+11:00 0.75192004-01-02 10:00:00+11:00 0.75202004-01-02 12:00:00+11:00 0.75152004-01-02 13:00:00+11:00 0.75022004-01-02 14:00:00+11:00 0.7519
..
我有一个 15000 个村庄的数据集,对于 1 个地区,有 12 个街区/Taluka,在那个地区种植了几种作物,我必须检查该村庄的作物播种面积,并选择 10 个村庄用于以随机抽样为基础的每种作物,我的第一步是删除数据集中的 0 个播种面积的村庄,删除 0 个播种面积后我得到 6674 个村庄,接下来我检查,在一个地区,在一个街区/Taluka 中有多少村庄是剩余的,所以我使用 pivot 和 g
..
我有下一个问题. 我有一个包含字符串值的列表: a = ['word1', 'word2', 'word3', 'word4', ..., 'wordN'] 我有带值的数据框: +--------------+---------+-----------+|关键词 |印象|点击|+--------------+----------+-----------+|字 1 |1245523 |1
..