pandas-groupby相关内容
我有此DataFrame to groupby密钥: df = pd.DataFrame({ 'key': ['1', '1', '1', '2', '2', '3', '3', '4', '4', '5'], 'data1': [['A', 'B', 'C'], 'D', 'P', 'E', ['F', 'G',
..
假设我有以下数据帧: df = pd.DataFrame([['a',1, -1], ['a', 1, -1], ['b', 0, -1], ['c', -1, -1]] ,columns = ['col1', 'col2', 'col3']) df col1 col2 col3 0 a 1 -1 1 a 1 -1
..
我有一个将图形绘制为花朵的代码 代码为 import matplotlib.pyplot as plt import pandas as pd years=["ASD","MNG","KQR","MND","QST", "MNR"] dataavail={ "Jan":[20,20,30,19,10,21], "Feb":[20,13,10,18,15,30],
..
我有一个包含 的数据帧 500万行。 唯一元素数为500.000的列group_id。 名为var1、var2等的数千个其他列。var1、var2、.仅包含0和1。 我想按group_id分组,然后将它们相加。为了有更好的性能,我使用Dask。但是,此简单聚合的速度仍然较慢。 The time spent on a dataframe with 10 columns is 6.
..
在Pandas中,我有如下数据集: Value 2005-08-03 23:15:00 10.5 2005-08-03 23:30:00 10.0 2005-08-03 23:45:00 10.0 2005-08-04 00:00:00 10.5 2005-08-04 00:15:00 10.5 2005-08-04 00:30:
..
我想知道如何在同一轴上的DataFrame中绘制时间序列,每组具有不同的线条。我还想根据一些(布尔)条件更改线型。下面是一个示例: import pandas as pd import numpy as np from datetime import datetime, timedelta from dateutil.parser import parse from matplotlib i
..
我有一个按日期和时间排序的数据帧,如下所示: ID Date Time A B C abc 06/Feb 11 12 12 10 abc 06/Feb 12 14 13 5 xyz 07/Feb 1 16
..
我有一个 pandas 数据框,如下所示 df = pd.DataFrame({'sub_id': [101,101,101,102,102,103,104,104,105], 'test_id':['A1','A1','C1','A1','B1','D1','E1','A1','F1'], 'dummy':['hi
..
我有如下所示的数据帧 df = pd.DataFrame({'person_id': [101,101,101,101,202,202,202], 'person_type':['A','A','B','C','D','B','A'], 'login_date':['5/7/2013 09:27:00 AM','09
..
我想按两列对数据帧进行分组,以汇总每家商店的月平均销售额。 数据(fact pandas 数据帧): store_id sku_id date quantity city city category month 0 354 31253 2017-08-08 1 Paris Paris Shirt 8 1 354 312
..
我有一个数据框,它有一个多索引(股票代码和日期),其中有一列对每只股票进行计数,在每一行中,1或0在“Dummy&Quot;”列中出现了多少次。我有一个下面的示例。 df = pd.DataFrame( { 'stock': ['AAPL', 'AAPL', 'AAPL','AAPL', 'MSFT', 'MSFT','MSFT', 'MSFT'], 'datetime': ['2015
..
我在Pandas数据集中有一个连续的活动数据。 #sample data code user_id = [9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,4705,4705,4705,4705,4705,223,223,223,223,223,223,223,223] transaction_Value= [50,125,0,100,0,1000,473,0,4
..
与this question类似,但复杂度有所增加。 在我的示例中,我有以下数据帧: import pandas as pd df = pd.DataFrame({'col1': list('aaabbbabababbaaa'), 'col2': list('cdddccdsssssddcd'), 'val': range(0, 16)}) 输出: col1 col
..
我正试图弄清楚如何在Python的库极性中使用groupby和apply。 我的头都要碎了。 来自 pandas ,我使用的是: def get_score(df): return spearmanr(df["prediction"], df["target"]).correlation correlations = df.groupby("era").apply(get_s
..
我知道如何计算GROUP BY平均值或STD。但现在我想同时计算两者。 我的代码: df = a b c d 0 Apple 3 5 7 1 Banana 4 4 8 2 Cherry 7 1 3 3 Apple 3 4 7 xdf = df.groupby('
..
我的输入数据帧如下: 使用以下代码行生成 l = [["a", 12, 12], ["a", 12, 33.], ["b", 12.3, 12.3], ["a", 13, 1]] df = pd.DataFrame(l, columns=["a", "b", "c"]) 我目前可以按如下方式累计统计频率 使用 df['freq'] = df.groupby(by=["
..
在以下代码片断中: import pandas as pd import numpy as np df = pd.DataFrame( { "a": [1, 2, 3, 4, 5, 6, 7, 8, 9], "b": [1, np.nan, 1, np.nan, 2, 1, 2, np.nan, 1] } ) df_again = df.g
..
我正在制作标准化考试的熟练程度分组条形图。以下是我的代码: bush_prof_boy = bush.groupby(['BOY Prof'])['BOY Prof'].count() bush_prof_pct_boy = bush_prof_boy/bush['BOY Prof'].count() * 100 bush_prof_eoy = bush.groupby(['EOY Prof
..
我有如下所示的数据帧 df = pd.DataFrame({'person_id': [101,101,101,101,202,202,202], 'login_date':['5/7/2013 09:27:00 AM','09/08/2013 11:21:00 AM','06/06/2014 08:00:00 AM','06/06/2014
..
我正在浏览自行车共享数据。 我组合了两个表:一个包含自行车共享数据,另一个包含天气数据。“开始日期”列在自行车共享数据中。“日期”列位于天气数据中。 我想对每小时的ID计数进行分组,以便可以查看天气对自行车使用的影响。 ID 开始 结束 开始日期 持续时间 日期 雨 临时 wdsp 1754125 爱广场南 Glenina 2019年1月1日00:17 00:15:02 201
..