dataframe相关内容

基于“行”的过滤在python大熊猫中创建数据透视表后的数据

我有一组数据,我从一个SQL数据库中获取并读入一个熊猫数据框。结果df是大约250M行,每天都在增长。因此,我想转动桌子给我一个更小的桌子(几千行)。 该表看起来像这样,但更大: 数据 report_date item_id视图类别 0 2013-06-01 2 3 a 1 2013-06-01 2 2 b 2 2013-06-01 5 16 a 3 2013-06 ..
发布时间:2017-03-26 01:17:33 Python

识别R数据帧中的重复列

我是一个R新手,正在尝试从大量数据帧(50K行,215列)中删除重复的列。框架具有离散的连续和分类变量的混合。 我的方法是将框架中每列的表格生成一个列表,然后使用 duplicateated()函数在列表中查找重复的行,如下所示: age = 18:29 height = c(76.1,77,78.1,78.2,78.8,79.7,79.9,81.1,81.2,81.8,82.8 ..
发布时间:2017-03-26 01:17:21 其他开发

将矩阵转换为数据框:在一种情况下工作,而不是另一种情况

下面是一个示例会话的输出剪辑。在其中,我创建一个矩阵,使用 matrix()函数,并将其简单地转换为数据框,其中 as.data.frame()函数。在第二部分中,我也创建一个矩阵,但是通过一个不同的过程(我想要做的工作),但即使 str()给我类似的输出,转换为数据帧时,我收到错误。任何想法? 编辑:最后,我添加了一行,我(重新)将矩阵转换为矩阵,然后将其转换为数据帧。它的作品,但是我不应 ..
发布时间:2017-03-26 01:17:09 其他开发

将大数据帧分割成更小的段

假设我有以下数据框,我想把它分解成10个不同的数据帧。基本上,我想将最初的100行数据帧分成10行的10个数据帧。我可以执行以下操作,并获得所需的结果。 df = data.frame(one = c(rnorm(100)) ,两个= c(rnorm(100)),三= c(rnorm(100))) df1 = df [1:10,] df2 = df [ ] df3 = df ..
发布时间:2017-03-26 01:16:58 其他开发

将数据帧添加为列表元素(使用for循环)

我在我的环境中有一系列称为EOG的数据框。 2006年至2012年期间每年有一个。像EOG2006,EOG2007 ... EOG2012。我想将它们添加为列表的元素。 首先,我想知道这是否可行。我读了官方的R指南和一些R编程手册,但我没有找到明确的例子。 其次,我想使用一个循环。不幸的是,我曾经做过这个工作的代码是错误的,我正在疯狂地解决它。 for(j in 2006 :$ ..
发布时间:2017-03-26 01:16:46 其他开发

将数据帧转换为具有plyr daply的矩阵

我试图在 plyr 包中使用 daply 函数,但是我无法将其正确输出。即使组成矩阵的变量是数字,矩阵的元素也是列表,而不是变量本身。以下是数据的一小部分,例如: Month车辆样本 1 Oct-10 31057 256 2 Oct-10 31059 316 3 Oct-10 31060 348 4 Nov-10 31057 267 5 Nov-10 31059 293 ..
发布时间:2017-03-26 01:16:34 其他开发

rbind两个data.frame保留行顺序和行名

我有一个 data.frame 对象的列表,我想将行附加到彼此,即 merge(...,all = T)。但是, merge 似乎删除了我需要保持原样的行名称。有任何想法吗?示例: x = data.frame(a = 1:2,b = 2:3,c = 3: d = 4:5,row.names = c(“row_1”,“another_row1”)) y = data.frame(a = c ..
发布时间:2017-03-26 01:16:01 其他开发

Python Pandas:多列的布尔索引

尽管至少有两个 good 教程如何索引一个DataFrame在Python的 pandas 库,我仍然无法找出一个优雅的方式 SELECT 在多个列上。 p> >>> d = pd.DataFrame({'x':[1,2,3,4,5],'y':[4,5,6,7,8]}) >>> d x y 0 1 4 1 2 5 2 3 6 3 4 7 4 5 8 >>> d [d ..
发布时间:2017-03-26 01:15:26 Python

加快R中大数据帧的处理

上下文 我一直在尝试实现最近在本文。给定大量的文本(语料库),算法应该返回语料库的特征 n - (即,单词的序列)。用户可以在原始文件中确定适当的 n ,并且正在尝试使用 n = 2-6。换句话说,使用算法,我想提取2到6克表征语料库。 我能够根据哪些特征来识别分数来计算分数,但一直在努力消除非特色的。 数据 我有一个名为 token.df 包含五个数据帧,包括出现在语料库 ..
发布时间:2017-03-26 01:15:14 其他开发

R - 将数据帧列表合并到一个数据帧中,并按行排列缺失值

我有一个特殊的.txt文件集合。文件夹,我已经写了一个功能: 列出我想要的文件,然后为每个文件 读取文件 对数据进行子集(仅提取感兴趣的行和列) 对数据 将这些新值添加到列表中。 我最终得到的是具有以下结构的列表: > str(DataList) 列表16 $:'data.frame':14 obs。的2个变量: .. $ Sample:因子w / 14级别“Sam ..
发布时间:2017-03-26 01:14:51 其他开发

如何选择符合特定条件的R数据帧中的第一行?

如何选择符合特定标准的R数据框的第一行? 这是上下文: 我有一个包含五列数据框: “pixel”,“year”,“propvar” “组件”,“cumsum”。 像素和年,因为数据是根据25个学习年份的每个49个地理像素的年度时间序列计算的。在每个像素年内,我已经计算了一个给定像素年的时间序列的快速傅立叶变换的给定分量解释的总方差的总和的总和 propvar ..
发布时间:2017-03-26 01:14:39 其他开发

布尔索引可以产生一个大熊猫数据框的视图?

有一个大数据帧,我想要采取(根据多个布尔条件)切片,然后修改这些切片中的条目,以更改原始的数据框 - 即我需要一个视图到原来。问题是,花哨的索引总是返回一个复制。思想的 .ix 方法,但使用 df.ix [] 方法的布尔索引也返回一个副本。 基本上如果 df 是我的数据框,我想查看列C,使$ C!= 0,A == 10,B ..
发布时间:2017-03-26 01:14:26 Python

Python:在熊猫数据框中基于两列(变量)获取频率计数

你好我有以下数据框。 组大小 短小 短小 中等中$ $ b中等小 高大 我想计算多少时间的频率数据框中出现同一行。 组大小时间 短小2 中等中等1 中等小1 高大1 解决方案 您可以使用groupby的 大小 : 在[11]中:df.groupby([“Group “,”Size“])。size() Out [11]: 组大小 ..
发布时间:2017-03-26 01:14:14 Python