dataframe相关内容
我有一个从这样的文件中读取的数据框: 名称,积分,胜利,损失,margin joe,1,1,0,1 bill,2,3,0,4 joe,5,2,5,-2 cindy, 2,3,-2.5 等。 我想在这个数据的所有行中平均列数值,在R中是否有一个简单的方法? 例如,我想得到所有“Joe”的平均列值出现如下: joe,3,1.5,2.
..
这可能是一个简单的问题,但我仍然需要一些帮助来使用R。 我有一个data.frame(main_data),让我们说.. p> NAMES AGE LOC Jyo 23 Hyd Abid 27 Kar Ras 24 Pun Poo 25 Goa Sus 28 Kar 我希望基于列表删除几行的名字。所以说我有另一个表的列表如下: NAME
..
我有2个数据框 df1 和 df2 。 df1 df2 > df1 c1 c2 1 a 1 2 b 2 3 c 3 4 d 4 > df2 c1 c2 1 c 3 2 d 4 3 e 5 4 f 6 我需要执行这2个数据帧的设置操作。我使用 merge(df1,df2,all = TRUE)和 merge(df1,df2,all
..
我有以下数据结构(“原子向量?”)从 daply 在 plyr 中输出,我有这个功能为每个主题,条件和项目返回三种不同的措施。 x = structure(c(-0.93 ,0.39,0.88,0.63,0.86,-0.69,1.02,0.29,0.94, 0.93,-0.01,0.79,0.32,0.14,0.13,-0.07,-0.63,0.26,0.07,0.87, -0.36,
..
数据框架的最有效的方式是什么? data = 职位信 1 a 2 b 3 c 4 d 5 e 成为一个字典,如 alphabet [1:'a',2:'b',3:'c',4: 'd',5:'e'] ? 解决方案 In [9]:Series(df.Letter.values,index = df.Position).to_dict() Out
..
是否有更短的方法删除列MultiIndex级别(在我的情况下, basic_amt ),除了将其转置两次? 在[704]中:test 输出[704]: basic_amt 教师NSW QLD VIC全部 全部1 1 2 4 全职0 1 0 1 部分时间1 0 2 3 在[705]中:test.reset_index(level = 0,drop = True) 出[705]:
..
我有一个具有数字ID变量的数据帧,它从多级采样方案中识别主要,次要和极限采样单元。我想将原始ID变量分成三个新的变量,分别标识不同的抽样单位: 示例: > df [1:2,] ID Var var1 var2 var3 var4 var5 501901 9 SP.1 1 W 12.10 501901 9 SP 1. 2 W 17.68 我想要什么:
..
我有一堆熊猫代码使用元组作为索引。我最近遇到了使用 DataFrame.ix 访问DataFrame的单个元素的需要,这被元组困惑。似乎认为我的元组是我想要访问的一系列键,而不是我要访问的单个键(这恰好是一个序列)。如何提取一个元组是关键的单个行? 也许这是一个警告,不要在熊猫索引中使用序列,但在我的情况下太晚了。 import string,pandas as pd,numpy a
..
在Pandas文档和食谱(在CSV中只提及带分隔符的文本文件)中没有找到任何内容。 有没有已经定义的函数将JSON直接加载到DataFrame?如果有不同的选择,哪个是最有效的? 解决方案 与熊猫0.12: import pandas as pd d = pd.read_json('JSON File')
..
我正在使用SQL和R进行文本挖掘解决方案。 首先从我的SQL选择将数据导入到R中,而不是使用数据挖掘技术 这是我得到的: rawData = sqlQuery (dwhConnect,sqlString) a = data.frame(rawData $ ENNOTE_NEU) 如果我一个 a [[1]] [1:3] 你看到结构:
..
假设一个数据集有几行和一些列,其中一些列为0(我的意思是列中的所有值都是0)。如何筛选这些列?我尝试使用以下代码,但无效。 training_data
..
我正在尝试使一些代码工作。 我正在使用 rinterop 作为参考。 我有一个框架 ,我尝试使用 $ b $发送给R b let frame = let aSerie = Series.ofObservations [ DateTime(2013,1,1)=> 10.0 DateTime(2013,1,4)=> 20.0 D
..
所以我对这个问题的答案看了很多,但是我找不到满足我需求或者对R的理解的答案。 首先,这里有一些代码,只是让你了解我的数据集看起来像 df
..
我有一个数据框,我想计算两列事件的每个组合的发生次数(以任意顺序)。 例如说我有 df
..
我有一个数据框架'test',如下所示: session_id seller_feedback_score 1 1 282470 2 1 275258 3 1 275258 4 1 275258 5 1 37831 6 1 282470 7 1 26 8 1 138351 9 1 321350 10 1 841 11 1 138351 12
..
想知道是否有更直观的方法来合并数据框架 在[140]中:df1 = pd.DataFrame(data = [[1,2],[3,4],[10,4],[5,6]],列= ['A','B'],索引= [1,3,5,7]) 在[141]中:df1 出[141]: AB 1 1 2 3 3 4 5 10 4 7 5 6 在[142]中:df2 = pd.DataFrame
..
我有大量的数据框架,不同数量的列和行。我将搜索数据帧中的给定向量的值,并删除与该给定向量的值匹配的单元格行。我希望将其作为一个函数,因为我必须在多个可变行和列的数据框上运行它,并且我希望避免循环的。 例如 ff
..
DateOccurred CostCentre TimeDifference 03/09/2012 2073 28138 03/09/2012 6078 34844 03/09/2012 8273 31215 03/09/2012 8367 28160 03/09/2012 8959 32037 03/09/2012 9292 30118 03/09/2012 953
..
给定一个数据集,其中数值可能位于数据框中的一组列中: df
..
所以如果我有一个数据框架,如下所示: ABC rowname1 4.5 4 3.2 rowname2 3 23 9 如何让R给我这个行的名字/列包含特定的数字? ie如果我给出值3,它会返回 rowname2,A 解决方案 假设没有重复项,您可以使用 arr.ind 参数: df
..