dataframe相关内容
我需要使用三个数字列从data.frame创建一个框图,并使用分割参数将 paint 。我有一个大的data.frame,但我需要的是在下面的例子中: paint
..
当我尝试使用rmongodb和plyr包将MongoDB的数据帧转移到R时,我有一些奇怪的结果,巨大的集合集。我从这个主题的各种github和论坛拿起这个代码,并为了我的目的而适应: ##加载两者 库(rmongodb) 库(plyr) ##连接到MongoDB mongo
..
我想添加一个列到df。这个新df的值将取决于其他列的值。例如 dc = {'A':[0,9,4,5],'B':[6,0 ,10,12],'C':[1,3,15,18]} df = pd.DataFrame(dc) ABC 0 0 6 1 1 9 0 3 2 4 10 15 3 5 12 18 现在我要添加另一个列D,其值将取决于A,B,C的值。 所
..
我有一组数据,我从一个SQL数据库中获取并读入一个熊猫数据框。结果df是大约250M行,每天都在增长。因此,我想转动桌子给我一个更小的桌子(几千行)。 该表看起来像这样,但更大: 数据 report_date item_id视图类别 0 2013-06-01 2 3 a 1 2013-06-01 2 2 b 2 2013-06-01 5 16 a 3 2013-06
..
我是一个R新手,正在尝试从大量数据帧(50K行,215列)中删除重复的列。框架具有离散的连续和分类变量的混合。 我的方法是将框架中每列的表格生成一个列表,然后使用 duplicateated()函数在列表中查找重复的行,如下所示: age = 18:29 height = c(76.1,77,78.1,78.2,78.8,79.7,79.9,81.1,81.2,81.8,82.8
..
下面是一个示例会话的输出剪辑。在其中,我创建一个矩阵,使用 matrix()函数,并将其简单地转换为数据框,其中 as.data.frame()函数。在第二部分中,我也创建一个矩阵,但是通过一个不同的过程(我想要做的工作),但即使 str()给我类似的输出,转换为数据帧时,我收到错误。任何想法? 编辑:最后,我添加了一行,我(重新)将矩阵转换为矩阵,然后将其转换为数据帧。它的作品,但是我不应
..
假设我有以下数据框,我想把它分解成10个不同的数据帧。基本上,我想将最初的100行数据帧分成10行的10个数据帧。我可以执行以下操作,并获得所需的结果。 df = data.frame(one = c(rnorm(100)) ,两个= c(rnorm(100)),三= c(rnorm(100))) df1 = df [1:10,] df2 = df [ ] df3 = df
..
我在我的环境中有一系列称为EOG的数据框。 2006年至2012年期间每年有一个。像EOG2006,EOG2007 ... EOG2012。我想将它们添加为列表的元素。 首先,我想知道这是否可行。我读了官方的R指南和一些R编程手册,但我没有找到明确的例子。 其次,我想使用一个循环。不幸的是,我曾经做过这个工作的代码是错误的,我正在疯狂地解决它。 for(j in 2006 :$
..
我试图在 plyr 包中使用 daply 函数,但是我无法将其正确输出。即使组成矩阵的变量是数字,矩阵的元素也是列表,而不是变量本身。以下是数据的一小部分,例如: Month车辆样本 1 Oct-10 31057 256 2 Oct-10 31059 316 3 Oct-10 31060 348 4 Nov-10 31057 267 5 Nov-10 31059 293
..
我有一个像下面这样的数据框,我真的想删除行名,当我使用xlsx包导出到一个excel文件。 bd
..
我有一个 data.frame 对象的列表,我想将行附加到彼此,即 merge(...,all = T)。但是, merge 似乎删除了我需要保持原样的行名称。有任何想法吗?示例: x = data.frame(a = 1:2,b = 2:3,c = 3: d = 4:5,row.names = c(“row_1”,“another_row1”)) y = data.frame(a = c
..
我有以下两个数据框(示例): df1: code> name profile type strand A 4.5 1 + B 3.2 1 + C 5.5 1 + D 14.0 1 - E 45.1 1 - F 32.8 1 - G 19.9 1 + df2: 名称 A B C G 我想删
..
我正在处理一个没有检测到的数据帧,它们用'
..
尽管至少有两个 good 教程如何索引一个DataFrame在Python的 pandas 库,我仍然无法找出一个优雅的方式 SELECT 在多个列上。 p> >>> d = pd.DataFrame({'x':[1,2,3,4,5],'y':[4,5,6,7,8]}) >>> d x y 0 1 4 1 2 5 2 3 6 3 4 7 4 5 8 >>> d [d
..
上下文 我一直在尝试实现最近在本文。给定大量的文本(语料库),算法应该返回语料库的特征 n - (即,单词的序列)。用户可以在原始文件中确定适当的 n ,并且正在尝试使用 n = 2-6。换句话说,使用算法,我想提取2到6克表征语料库。 我能够根据哪些特征来识别分数来计算分数,但一直在努力消除非特色的。 数据 我有一个名为 token.df 包含五个数据帧,包括出现在语料库
..
我已经找到了这个问题的答案,因为它似乎很简单,但还没有找到任何东西。道歉,如果我错过了一些东西。我的大熊猫版本为0.10.0,我一直在尝试以下形式的数据: import pandas import numpy as np import datetime start_date = datetime.datetime(2009,3,1,6,29,59) r = pandas.dat
..
我有一个特殊的.txt文件集合。文件夹,我已经写了一个功能: 列出我想要的文件,然后为每个文件 读取文件 对数据进行子集(仅提取感兴趣的行和列) 对数据 将这些新值添加到列表中。 我最终得到的是具有以下结构的列表: > str(DataList) 列表16 $:'data.frame':14 obs。的2个变量: .. $ Sample:因子w / 14级别“Sam
..
如何选择符合特定标准的R数据框的第一行? 这是上下文: 我有一个包含五列数据框: “pixel”,“year”,“propvar” “组件”,“cumsum”。 像素和年,因为数据是根据25个学习年份的每个49个地理像素的年度时间序列计算的。在每个像素年内,我已经计算了一个给定像素年的时间序列的快速傅立叶变换的给定分量解释的总方差的总和的总和 propvar
..
有一个大数据帧,我想要采取(根据多个布尔条件)切片,然后修改这些切片中的条目,以更改原始的数据框 - 即我需要一个视图到原来。问题是,花哨的索引总是返回一个复制。思想的 .ix 方法,但使用 df.ix [] 方法的布尔索引也返回一个副本。 基本上如果 df 是我的数据框,我想查看列C,使$ C!= 0,A == 10,B
..
你好我有以下数据框。 组大小 短小 短小 中等中$ $ b中等小 高大 我想计算多少时间的频率数据框中出现同一行。 组大小时间 短小2 中等中等1 中等小1 高大1 解决方案 您可以使用groupby的 大小 : 在[11]中:df.groupby([“Group “,”Size“])。size() Out [11]: 组大小
..