dataframe相关内容

从因子变量中删除特定因子水平

我有一个数据框架,其中有几个变量具有5个因子级别。我想只删除其中一个级别。首先,我将该级别的所有实例分配给NA,然后使用“等式”命令来摆脱空白级别。 但是对于我的数据框架中的一个变量,我不想删除的一个级别没有任何意见。有没有办法去除一个特定的因素级别,而不仅仅是空的。 这是一个可重现的例子 df ..
发布时间:2017-03-26 01:26:46 其他开发

根据另一个列值更改大熊猫DataFrame列值

我有一个具有两列的数据框,每个列表示一个有机体。它们被称为ORG1和ORG2 我想将ORG2的值移动到ORG1中作为相应的索引值。 因此,如果ORG1是“A”和ORG2是'B'我想要ORG1从ORG2中取值'B'。 我已经开始工作,以确定要移动的ORG2生物体的索引,如下所示: def move_org2(x): org2_matches = Series(x.ORG2.s ..
发布时间:2017-03-26 01:26:35 Python

绘制Dataframe列 - datetime

我有一个日期时间列,时间相当随机,格式为: time -08 11:29:30 2016-07-08 11:30:02 现在我把它转换成datetime: df ['time2'] = pd.to_datetime(df ['time']) 然后我想使用matplotlib绘制,但不起作用: plt.plot(df。['time ..
发布时间:2017-03-26 01:26:22 Python

搜索数据帧中多列的最后一次发生

假设我有一个类似于以下结构的大数据框 home |离开| home_score | away_score A | B | 1 | 0 B | C | 1 | 1 C | A | 1 | 0 我想找到最后一个分数,无论家庭/家庭。例如,A,B和C组的最后一个分数分别为0,1和1,并返回原始数据框: 首页|离开| home_score | away_sco ..
发布时间:2017-03-26 01:25:49 Python

R:将数据帧(混合因子和数字)转换为R中的XTS

将混合因子和数字列的数据框转换为xts时,我的所有数据都将转换为字符串。这不是问题的因素,但它是非常烦人的数字。是否有解决方法? 例如: > x marketTimestamp价格ID 1 2010-12-17 11:38:31.100 83.89 b-0 2 2010-12-17 11:38:31.100 83.88 b-1 3 2010-12-17 11:38: ..
发布时间:2017-03-26 01:25:37 其他开发

R删除包含一定值的行

所以它有一个csv我正在读入一个R数据帧,它看起来像这样 clientx,clienty,screenx ,screeny 481,855,481,847 481,784,481,847 481,784,481,847 879,292,879,355 第一行当然是标题。所以我们有4列数字数据,范围从1到4位数。除了-1表示缺失值,集合中没有负数。 我想删 ..
发布时间:2017-03-26 01:25:25 其他开发

使用ddply进行汇总统计

我喜欢使用 ddply 编写一个函数,它基于两列 data.frame mat 。 mat 是一个大的数据。框架,列名为“metric”,“length”,“species”,“tree”,...,“index” / p> 索引是2级的因子“短”,“长” / code> “metric”,“length”,“species”,“tree” c>和其他都是连续变量 功能: ..
发布时间:2017-03-26 01:25:02 其他开发

R如何根据另一个变量的范围获得一个变量的平均值?

如果我有两个变量X和Y的一系列观察结果,那么如何根据变量X的范围来获取Y的平均值? 所以对于例如,使用一些数据,如: df = data.frame(x = runif(50,1,100),y = runif(50,300,700)) 我如何得到答案:“当X为平均值为X3.34时,当X为11-20平均值时的y为632.3等....“ 解决方案 使用 cut 然后在包 pl ..
发布时间:2017-03-26 01:24:50 其他开发

将语料库转换为R中的data.frame

我正在使用tm包来应用词干,我需要将生成的数据转换成数据帧。 可以在这里找到一个解决方案。 R tm包vcorpus,语料库到数据框,但在我的情况下,我有语料库的内容如下: [[2195]] i非常印象 而不是 [[2195]] “我很打动” 因此,如果我申请 data.frame(text = unlist(sapply(myco ..
发布时间:2017-03-26 01:24:38 其他开发

数据框中列的时间平均(滑动窗口)

我有一个data.frame有多列。其中一列是时间,因此是不减少的。其余列包含在数据框架的某行中指定的时间给出的时间记录的观察。 我想选择一个时间窗口“x”秒,并计算该窗口的相同数据框架中某些其他列中的条目的平均值(或任何函数)。 当然,由于它是一个基于时间的平均值,窗口中的条目数可以根据数据而变化。这是因为属于某个时间窗口的行数可以有所不同。 我已经使用自定义函数完成了此操作, ..
发布时间:2017-03-26 01:24:14 其他开发

在熊猫数据帧中计算某些词的出现次数

我想计算一个数据帧中某些字的出现次数。我知道使用“str.contains” a = df2 [df2 ['col1']。str.contains(“sample” )]。groupby('col2')。size() n = a.apply(lambda x:1).sum() 目前我正在使用上述代码。有没有一种匹配正则表达式并获得事件计数的方法?在我的情况下,我有一个大数据 ..
发布时间:2017-03-26 01:24:02 Python

python熊猫变换数据框

是否有一个大熊猫函数来转换这个数据,所以它将列显示为a,b,c,d,e或数据字段中的任何内容,而行数则表示有多少个字母。 pylab import * import pandas as pd import numpy as np trans = pd.read_table('output.txt',header = None,index_col = 0) print ..
发布时间:2017-03-26 01:23:39 Python

在DataFrame中使用None / null值替换空字符串

我有一个 Spark 1.5.0 DataFrame ,混合使用 null 和同一列中的空字符串。我想将所有列中的所有空字符串转换为Python中的 null ( None )。 DataFrame可能有数百列,所以我试图避免对每一列进行硬编码操作。 看到我下面的尝试,这会导致错误。 / p> 从pyspark.sql导入SQLContext sqlContext = SQLCon ..
发布时间:2017-03-26 01:23:01 Python