pandas-groupby相关内容
我正在按 A 列对我的数据集进行分组,然后想取 B 列中的最小值和 C 列中的相应值. data = pd.DataFrame({'A': [1, 2], 'B':[ 2, 4], 'C':[10, 4]})数据乙丙0 1 4 31 1 5 42 1 2 103 2 7 24 2 4 45 2 6 6 我想得到: A B C0 1 2 101 2 4 4 目前我按 A 分组,并创建一个值
..
我的动机是使用 pandas rolling 功能来执行滚动多因子回归(这个问题不是关于滚动多因子回归).我希望我能够在 df.rolling(2) 之后使用 apply 并获取结果 pd.DataFrame 提取 ndarray使用 .values 并执行必要的矩阵乘法.结果不是这样. 这是我发现的: 将pandas导入为pd将 numpy 导入为 npnp.random.seed([3
..
我知道这一定在某些地方得到了回答,但我就是找不到. 问题:groupby操作后对每组进行采样. 将pandas导入为pddf = pd.DataFrame({'a': [1,2,3,4,5,6,7],'b': [1,1,1,0,0,0,0]})分组 = df.groupby('b')# 现在从每组采样,例如,我想要每组的 30% 解决方案 应用 lambda 并调用 sample 带有
..
我正在尝试计算一个新列,其中包含多个组中每个组的最大值.我来自 Stata 背景,所以我知道 Stata 代码将是这样的: by group, sort: egen max = max(odds) 例如: data = {'group' : ['A', 'A', 'B','B'],“赔率":[85, 75, 60, 65]} 然后我希望它看起来像: 最大组赔率一个 85 85一个 75
..
如何通过key访问groupby对象中对应的groupby数据框? 使用以下 groupby: rand = np.random.RandomState(1)df = pd.DataFrame({'A': ['foo', 'bar'] * 3,'B': rand.randn(6),'C': rand.randint(0, 20, 6)})gb = df.groupby(['A']) 我可
..
我有以下熊猫数据框: dfalph.head()令牌年使用书籍386 xanthos 1830 3 3387 xanthos 1840 1 1388 xanthos 1840 2 2389 xanthos 1868 2 2390 xanthos 1875 1 1 我用重复的 token 和 years 聚合行,如下所示: dfalph = dfalph[['token','year','us
..
如何对熊猫数据框的值进行分组并从每组中选择最新的(按日期)? 例如,给定一个按日期排序的数据框: id 产品日期0 220 6647 2014-09-011 220 6647 2014-09-032 220 6647 2014-10-163 826 3380 2014-11-114 826 3380 2014-12-095 826 3380 2015-05-196 901 4555 20
..
考虑一个 csv 文件: 字符串、日期、数字一个字符串,2/5/11 9:16am,1.0一个字符串,3/5/11 10:44pm,2.0一个字符串,4/22/11 12:07pm,3.0一个字符串,4/22/11 12:10pm,4.0一个字符串,4/29/11 11:59am,1.0一个字符串,5/2/11 1:41pm,2.0一个字符串,5/2/11 2:02pm,3.0一个字符串,5/2
..
数据帧: c_os_family_ss c_os_major_is l_customer_id_i0 视窗 7 904181 视窗 7 904182 视窗 7 90418 代码: 打印df对于名称,在 df.groupby('l_customer_id_i').agg(lambda x: ','.join(x)) 中分组:印刷名称印刷组 我正在尝试遍历聚合数据,但出现错误: Val
..
我想在我的 Pandas 数据框中添加一个累积总和列,以便: 名称 |日 |不-----|-----------|----杰克 |星期一 |10杰克 |星期二 |20杰克 |星期二 |10杰克 |星期三 |50吉尔 |星期一 |40吉尔 |星期三 |110 变成: 杰克 |星期一 |10 |10杰克 |星期二 |30 |40杰克 |星期三 |50 |90吉尔 |星期一 |40 |40吉尔 |
..
我在 Pandas 数据帧上使用 groupby 来删除所有没有特定列最小值的行.像这样: df1 = df.groupby("item", as_index=False)["diff"].min() 但是,如果我的列多于这两列,则其他列(例如,在我的示例中为 otherstuff)将被删除.我可以使用 groupby 保留这些列,还是必须找到不同的方法来删除行? 我的数据看起来像:
..
我有一个 DataFrame 在我希望分组的列中有许多缺失值: 将pandas导入为pd将 numpy 导入为 npdf = pd.DataFrame({'a': ['1', '2', '3'], 'b': ['4', np.NaN, '6']})在 [4]: df.groupby('b').groups出[4]:{'4':[0],'6':[2]} 看到 Pandas 删除了具有 NaN 目标
..
我的第一个问题:我对 Pandas (0.12.0-4) 中 groupby 的 apply 方法的这种行为感到困惑,它似乎将函数 TWICE 应用于数据框的第一行.例如: >>>从熊猫导入系列,数据帧>>>将熊猫导入为 pd>>>df = pd.DataFrame({'class': ['A', 'B', 'C'], 'count':[1,0,2]})>>>打印(df)班级数0 一 11 乙
..
我从这样的输入数据开始 df1 = pandas.DataFrame( {"姓名": ["爱丽丝", "鲍勃", "马洛里", "马洛里", "鲍勃", "马洛里"] ,“城市":[“西雅图"、“西雅图"、“波特兰"、“西雅图"、“西雅图"、“波特兰"] } ) 打印时显示如下: 城市名称0 西雅图爱丽丝1 西雅图鲍勃2 波特兰马洛里3 西雅图马洛里4 西雅图鲍勃5 波特兰马洛里 分组很
..
我想根据列 ZZ 拆分以下数据框 df =N0_YLDF ZZ MAT0 6.286333 2 11.6690691 6.317000 6 11.6690692 6.324889 6 11.5164543 6.320667 5 11.5164544 6.325556 5 11.5164545 6.359000 6 11.5164546 6.359000 6 11.5164547 6.361111
..
这应该很简单,但我发现最接近的是这篇文章:pandas:在组内填充缺失值,我仍然可以't解决我的问题.... 假设我有以下数据框 df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3], 'name': ['A','A', 'B','B','B','B', 'C','C','C']})名称值0 一 11
..
是否有 Pandas 内置方法可以将两个不同的聚合函数 f1, f2 应用于同一列 df[“returns"],而无需调用agg() 多次? 示例数据框: 将pandas导入为pd将日期时间导入为 dt将 numpy 导入为 nppd.np.random.seed(0)df = pd.DataFrame({“日期": [dt.date(2012, x, 1) for x in range(
..
我有以下数据框: df = pd.DataFrame([(1, 1, 'term1'),(1, 2, 'term2'),(1, 1, 'term1'),(1, 1, 'term2'),(2, 2, 'term3'),(2, 3, 'term1'),(2, 2, 'term1')], columns=['id', 'group', 'term']) 我想按id和group对它进行分组,并计算这个
..
如何使用 Pandas 进行聚合? 聚合后没有 DataFrame!发生了什么? 我如何主要聚合字符串列(到 lists、tuples、strings with separator)? 如何汇总计数? 如何创建由聚合值填充的新列? 我已经看到这些反复出现的问题,这些问题询问了 Pandas 聚合功能的各个方面.今天关于聚合及其各种用例的大部分信息都分散在数十个措辞恶劣、无法搜索的帖子
..
给定以下数据框: 将pandas导入为pd将 numpy 导入为 npdf=pd.DataFrame({'A':['A','A','A','B','B','B'],'B':['a','a','b','a','a','a'],})df甲乙0 A1 A2 乙3 乙4 乙5 乙 我想创建列“C",它对 A 列和 B 列中每个组中的行进行编号,如下所示: A B C0 一 11 一个 22 AB
..