pandas-groupby相关内容
我是python的新手,我想了解如何在DataFrame中执行代码.让我们用kaggle.com(《泰坦尼克号:灾难中的机器学习》 )中的数据集中的示例进行尝试.我想用相应性别的均值()替换NaN值. IE.男士的NaN值应替换为男士年龄的平均值,反之亦然.现在我通过使用这一行代码实现了这一点 _data['new_age']=_data['new_age'].fillna(_data.gr
..
我有一个数据框,如下所示.这是医生的约会数据. B_ID No_Show Session slot_num Cumulative_no_show 1 0.4 S1 1 0.4 2 0.3 S1 2 0.7 3 0.8 S1
..
假设我的数据框看起来像这样: date,site,country_code,kind,ID,rank,votes, session,avg_score,count 2017-03-20,website1,US,0,84,226,0.0,15.0,3.370812,53.0 2017-03-21,website1,US,0,84,214,0.0, 15.0,3.370812,53.0
..
我有这个数据框: df1: drug_id疾病 lexapro。 1 HD lexapro.1 MS lexapro.2 HDED lexapro.2 MS lexapro.2 MS lexapro.3 CD lexapro.3汗水 lexapro.4 HD lexapro.5 WD lexapro.5 FN 我将首先根据drug
..
我原本有一个数据框如下所示: 行业人口农村土地百分比 国家日期 澳大利亚2017-01-01 NaN NaN $ 2016-01-01 24.327571 18.898304 12 2015-01-01 25.396251 18.835267 12 2014-01-01 27.277007 18.834835 13 美国2017-01-01 NaN NaN NaN 2016
..
CHROM POS Data01 Data02 .... 我有一个大熊猫数据框, .. 1 .................... 1 .................. 。 2 .................. 2 ............ scaf_9 .... ......... scaf_9 ............ 所以,我在做:
..
假设一个这样的数据集(最初从.csv读入): {'id':[1,2,3,1,2,3], 'time':['2017-01-01 12:00:00','2017-01-01 12:00 :00','2017-01-01 12:00:00', '2017-01-01 12:10:00','2017-01-01 12:10:00','2017- 01-01 12:10:00'], 'value':
..
我有一个数据框 df : AB 0 28 abc 1 29 def 2 30 hij 3 31 hij 4 32 abc 5 28 abc 6 28 abc 7 29 def 8 30 hij 9 28 abc 10 29 klm 11 30 nop 12 28 abc 13 29 xyz df.dtypes 对象#A是
..
idx ABCD cat J 1 2 3 1 我有这样的“sample.txt” x K 4 5 6 2 x L 7 8 9 3 y M 1 2 3 4 y N 4 5 6 5 z O 7 8 9 6 z 使用这个数据集,我想得到行和列的总和。 在行中,这不是什么大问题。 我做了这样的结果。 ###我的代码### 将pandas导入为
..
我希望能够将数据帧结果连接到内存,因为它们会经过一个函数,并最终得到一个只有结果的全新数据框。如果没有在函数之前创建一个数据框,我该怎么做?例如: 将pandas作为pd 导入numpy作为np rand_df = pd .DataFrame({'A':['x','x','y','y','z','z','z'],'B':np.random.randn(7) }) def my
..
我有一个如下所示的数据框: 每个用户有10条记录。现在,我想创建一个如下所示的数据框: userid name1 name2 ... name10 code> 这意味着我需要反转列 name 的每10条记录和追加到一个新的数据框。 那么,它是如何做到的?有什么办法可以在Pandas里做到吗? code>然后 reset_index 在每个组内一致
..
例如,我有一个熊猫数据框如下: col_1 col_2 col_3 col_4 a X 5 1 a Y 3 2 a Z 6 4 b X 7 8 b Y 4 3 b Z 6 5 我想为col_1中的每个值添加col_3和col_4(以及更多列)中与col_2对应的X和Z的值,并创建一个新行与这些值。所以输出如下: col_1 col_2 col_3 c
..
在Python Pandas中,我有一个DataFrame。我将这个DataFrame按列分组,并希望将列的最后一个值分配给另一列的所有行。 我知道我可以选择最后一行 $ b 将pandas导入为pd df = pd.DataFrame({ 'a':(1,1,2,3,3),'b':( 20,21,30,40,41)}) print(df) print(“ - ” ) res
..
我认为我在概念上缺少一些基本的东西,但我无法在文档中找到答案。 >>> df = pd.DataFrame({'a':[1,1,2,2,3,3],'b':[5,np.nan,6,np.nan,np.nan,np.nan] }) >>> df ab 0 1 5.0 1 1 NaN 2 2 6.0 3 2 NaN 4 3 NaN 5 3 NaN
..
+ --------- + - 我有一个相当大的csv,看起来像这样: -------- + | Column1 | Column2 | + --------- + --------- + | 1 | 93644 | | 2 | 63246 | | 3 | 47790 | | 3 | 39644 | | 3 | 32585 | | 1 | 19593 |
..
考虑数据框 c $ c $ d $ pre $ d $ df = list('xxxyyy'), B = [np.nan,1,2,3,4,np.nan] )) AB 0 x NaN 1 x 1.0 2 x 2.0 3 y 3.0 4 y 4.0 5 y NaN 我想得到列'A'定义的每个组的第一行和最后一行。 p> 我试过了 df.groupb
..
如何分组熊猫数据框的值并从每个组中选择最新(按日期)?例如,给定一个按日期排序的数据框: id 产品日期 0 220 6647 2014-09-01 1 220 6647 2014-09-03 2 220 6647 2014-10-16 3 826 3380 2014-11-11 4 826 3380 2014-12-09 5 826 3380 2015-
..
假设我有以下数据框: abc Sce1 Sce2 Sce3 Sce4 Sce5 Sc6 Animal Ground Dog 0.0 0.9 0.5 0.0 0.3 0.4 动物地面猫0.6 0.5 0.3 0.5 1.0 0.2 动物空气鹰1.0 0.1 0.1 0.6 0.9 0.1 动物空气猫头鹰0.3 0.1 0.5 0.3 0.5 0.9 物体金属车0.3 0.3 0.
..
我需要在每个域中计数唯一的 ID 值 我有数据 ID,域名 123,'vk.com' 123,'vk.com' 123 ,'twitter.com' 456,'vk.com' 456,'facebook.com' 456,'vk.com' 456,'google.com' 789,'twitter.com' 789,'vk.com' 我尝试 df.gr
..
我被动用pandas 滚动功能来执行滚动多因子回归(这个问题是 NOT 关于滚动多因子回归)。我希望能够在 df.rolling(2)之后使用 apply ,并将生成的 pd.DataFrame 用 .values 提取ndarray并执行必要的矩阵乘法。它没有这样做。 这是我发现的: import pandas as pd import numpy as np np.r
..