pandas相关内容
Here是它在Oracle中的工作方式。我在Pandas中寻找一个简洁的等价物,最好是与DataFrame to Python笔记本的呈现集成在一起。GROUP BY ROLLUP的要点是,如果您按多个列分组,您还将看到聚合,就好像是按这些列的子集分组一样。 推荐答案 参考此答案Pandas Pivot tables row subtotals 它使用SPIVOT_TABLE()
..
考虑以下数据: df = pd.DataFrame({"id": [1, 1, 1, 2, 2], "value": [10, 50, 90, 25, 75]}) df id value 0 1 10 1 1 50 2 1 90 3 2 25 4 2 75 如何通过id高效优雅地聚合列值考虑同一列上的多个聚合函数,例如:
..
import pandas as pd test_df =pd.DataFrame({"col1":[1,12,3,4], "col2":[3,14,5,6], "col3":[4,5,6,7]}) print(test_df) col1 col2 col3 0 1 3 4 1 12 14 5
..
在 pandas 中,是否可以只选择右侧的第一个匹配项进行左联接?示例: left = pd.DataFrame() left['age'] = [11, 12] right = pd.DataFrame() right['age'] = [10, 11, 11] right['salary'] = [ 100, 150, 200 ]
..
我使用Seborn获取了一个条形图,其中我的数据按列MONTH计算。 sns.catplot(x = 'MONTH',kind="count",data=df) 我现在想得到的是堆叠的条形图,其中数据按另一列计数TASKTYPE。此列中的条目为字符串。 我的数据帧如下所示: MONTH TASKTYPE 09/19 A 09/19 B 10/19 B 10/19 B 01/2
..
这是我的当前代码,使用的是美国境内按发生次数排列的死因数据集: `top_cause_of_death_barplot=sns.catplot(data=death, x='cause_name', y='deaths',kind='bar',ci=None,legend_out=False,height=10, aspect=1.5) plt.xlabel('Causes of Deat
..
我有以下 pandas groupby对象,我想将结果转换为新的数据帧。 以下是获取条件概率的代码: bin_probs = data.groupby('season')['bin'].value_counts()/data.groupby('season')['bin'].count() 我尝试了以下代码,但返回如下。 我喜欢用season来填写每一行。我该如何做?
..
请协助。如何获取 pandas Groupby的累积和,但我的数据是布尔值0和1。我希望将每组0或1视为唯一值,并在满足新值时重置计数。 我目前有一个汇总了所有1和0的 df['grp'] = df.groupby("dir")["dir"].cumsum()) 我想要的输出 df = pd.DataFrame({"dir":[1,1,1,1,0,0,0,1,1,1,1,0
..
我有一个通过追加4个数据帧创建的数据帧(index=date)。正因为如此,我的索引中有重复项,通常同一天有3个nans和1个值。 我的目标是将此数据帧上采样到每天的频率(df = df.resample('1D)),但在此之前,我必须删除重复项。 我想删除重复的时间,但根据两个条件: 对于同一天,如果我们至少有1个值,则计算这些值的纳平均值,然后丢弃其余的。 同一天,如果我们只有N
..
我有一个数据帧(df),如下所示: month-year name a b c 2018-01 X 2 1 4 2018-01 Y 1 0 5 2018-01 X 1 6 3 2018-01 Y 4 10 7 2018-02
..
我有一个多索引数据帧,它显示每月交易的总频率。 我正在尝试每年获得一个尊重我的‘mapid’和‘service’多索引的Cumsum()。然而,我不知道如何得出这些数据 combined_df = combined_df.groupby([pd.Grouper(freq='M'), 'provider', 'mapid', 'service']).sum()
..
假设我有一个包含列‘A’、‘B’、‘C’的DataFrame DF。 我想计算‘B’列中按‘A’分组的NULL值的数量,并根据它创建一个词典: 尝试以下操作失败: df.groupby('A')['B'].isnull().sum().to_dict() 如有任何帮助,将不胜感激。 推荐答案 安装 df = pd.DataFrame(dict(A=[1, 2] * 3
..
我正在尝试使用一个组的pandas模块使用最频繁的值来计算缺失值。在查看了一些关于堆栈溢出的帖子后,我设法做到了这一点: import numpy as np import pandas as pd df = pd.DataFrame({"group": ["A", "A", "A", "A", "B", "B", "B"], "value": [1,
..
我有如下所示的数据帧 stud_name act_qtr year yr_qty qtr mov_avg_full mov_avg_2qtr_min_period 0 ABC Q2 2014 2014Q2 NaN NaN NaN 1 ABC Q1 2016 2016Q1 Q1 13.0 14.5 2 ABC Q4 2016 2
..
我有一些时间序列数据,我想计算Pandas过去n天的GroupWise滚动回归,并将该回归的斜率存储在新列中。 我搜索了较旧的问题,它们要么没有得到回答,要么使用了Pandas OLS,我听说Pandas OLS已被弃用。 我想我可能可以将df.rolling.apply()与scipy.stats.linregress函数结合使用,但我找不出一个lambda函数来做我想做的事情。
..
我在Jupyter Notebook中使用Ploly在Python中创建了一些曲线图,不幸的是,每次我打开Jupyter Notebook时都必须重新加载数据才能在Ploly中看到这些曲线图,为什么会发生这种情况,如果我可以在每次运行Jupyter Notebook时以某种方式使曲线图自动生成? 请给我一些建议,这对我来说真的是个大问题。 例如,当我打开Jupyter Notebook时,我
..
我有两个数据框要拼接在一起,左边的数据框有信息索引by(日期,ID),右边的数据框有信息索引by(Period,ID),周期是年-月。 结束时,我对左侧帧执行了GROUP BY ID,遍历各个组,在右侧帧上选择相同的组,然后对左侧数据框中组的索引执行AND ASF操作,如下所示: def merge_func(base_df, si_df): df_list = list(
..
我正在使用请求库以流的形式下载一个Excel文件。 r = requests.get(my_url, stream=True) 我想读取这个EXCEL文件中的数据,因为我可以尝试使用 pandas 。但从我收到的回复来看,我不确定如何阅读文件。我能做些什么? 推荐答案 您可以直接使用 pandas 中的URL来读取Excel文件,而无需使用请求。 import pan
..
我无法让 pandas 的rolling函数执行我想要的操作。我想让每个FROW计算到目前为止组内的最大值。下面是一个例子: df = pd.DataFrame([[1,3], [1,6], [1,3], [2,2], [2,1]], columns=['id', 'value']) 看起来像 id value 0 1 3 1 1 6 2 1
..
我已经引用了帖子here、here和here。不要将其标记为重复。 我正在处理一个二进制分类问题,其中我的数据集具有类别列和数值列。 但是,有些分类列混合了数值和字符串值。然而,它们仅指示类别名称。 例如,我有一个名为biz_category的列,它的值类似于A,B,C,4,5等。 我猜下面的错误是由于类似4 and 5的值引发的。 因此,我尝试在下面将它们转换为catego
..