dataframe相关内容
我有一个数据框架,其中有几个变量具有5个因子级别。我想只删除其中一个级别。首先,我将该级别的所有实例分配给NA,然后使用“等式”命令来摆脱空白级别。 但是对于我的数据框架中的一个变量,我不想删除的一个级别没有任何意见。有没有办法去除一个特定的因素级别,而不仅仅是空的。 这是一个可重现的例子 df
..
我有一个具有两列的数据框,每个列表示一个有机体。它们被称为ORG1和ORG2 我想将ORG2的值移动到ORG1中作为相应的索引值。 因此,如果ORG1是“A”和ORG2是'B'我想要ORG1从ORG2中取值'B'。 我已经开始工作,以确定要移动的ORG2生物体的索引,如下所示: def move_org2(x): org2_matches = Series(x.ORG2.s
..
我有一个日期时间列,时间相当随机,格式为: time -08 11:29:30 2016-07-08 11:30:02 现在我把它转换成datetime: df ['time2'] = pd.to_datetime(df ['time']) 然后我想使用matplotlib绘制,但不起作用: plt.plot(df。['time
..
我正在尝试将两个 data.frames 合并在一起,基于每个名为 series_id 。这是我的合并语句: merge(test_growth_series_LUT,test_growth_series,by = intersect(series_id,series_id)) 我收到的错误是 as.vector(y)中的错误:没有找到对象'series
..
假设我有一个类似于以下结构的大数据框 home |离开| home_score | away_score A | B | 1 | 0 B | C | 1 | 1 C | A | 1 | 0 我想找到最后一个分数,无论家庭/家庭。例如,A,B和C组的最后一个分数分别为0,1和1,并返回原始数据框: 首页|离开| home_score | away_sco
..
将混合因子和数字列的数据框转换为xts时,我的所有数据都将转换为字符串。这不是问题的因素,但它是非常烦人的数字。是否有解决方法? 例如: > x marketTimestamp价格ID 1 2010-12-17 11:38:31.100 83.89 b-0 2 2010-12-17 11:38:31.100 83.88 b-1 3 2010-12-17 11:38:
..
所以它有一个csv我正在读入一个R数据帧,它看起来像这样 clientx,clienty,screenx ,screeny 481,855,481,847 481,784,481,847 481,784,481,847 879,292,879,355 第一行当然是标题。所以我们有4列数字数据,范围从1到4位数。除了-1表示缺失值,集合中没有负数。 我想删
..
我有一个数据框如下: > theDF ID代码行业类别VAR CVAR 1 1 USD现金0 0 12 2 ZAR CASH -181412.82055904 -301731.22832191 23 3 BAT SJ EQUITY财务61711.951234826 102641.162795691 34 4 HCI SJ EQUITY财务1095.16002541256
..
我喜欢使用 ddply 编写一个函数,它基于两列 data.frame mat 。 mat 是一个大的数据。框架,列名为“metric”,“length”,“species”,“tree”,...,“index” / p> 索引是2级的因子“短”,“长” / code> “metric”,“length”,“species”,“tree” c>和其他都是连续变量 功能:
..
如果我有两个变量X和Y的一系列观察结果,那么如何根据变量X的范围来获取Y的平均值? 所以对于例如,使用一些数据,如: df = data.frame(x = runif(50,1,100),y = runif(50,300,700)) 我如何得到答案:“当X为平均值为X3.34时,当X为11-20平均值时的y为632.3等....“ 解决方案 使用 cut 然后在包 pl
..
我正在使用tm包来应用词干,我需要将生成的数据转换成数据帧。 可以在这里找到一个解决方案。 R tm包vcorpus,语料库到数据框,但在我的情况下,我有语料库的内容如下: [[2195]] i非常印象 而不是 [[2195]] “我很打动” 因此,如果我申请 data.frame(text = unlist(sapply(myco
..
这是一个小例子: X1
..
我有一个data.frame有多列。其中一列是时间,因此是不减少的。其余列包含在数据框架的某行中指定的时间给出的时间记录的观察。 我想选择一个时间窗口“x”秒,并计算该窗口的相同数据框架中某些其他列中的条目的平均值(或任何函数)。 当然,由于它是一个基于时间的平均值,窗口中的条目数可以根据数据而变化。这是因为属于某个时间窗口的行数可以有所不同。 我已经使用自定义函数完成了此操作,
..
我想计算一个数据帧中某些字的出现次数。我知道使用“str.contains” a = df2 [df2 ['col1']。str.contains(“sample” )]。groupby('col2')。size() n = a.apply(lambda x:1).sum() 目前我正在使用上述代码。有没有一种匹配正则表达式并获得事件计数的方法?在我的情况下,我有一个大数据
..
我有数据框“A”,如下所示: type latw lngs late lngn 0 1000 45.457966 9.174864 45.458030 9.174907 1 1000 45.457966 9.174864 45.458030 9.174907 2 1000 45.458030 9.174864 45.458094 9.174907 3 1000 45.458
..
是否有一个大熊猫函数来转换这个数据,所以它将列显示为a,b,c,d,e或数据字段中的任何内容,而行数则表示有多少个字母。 pylab import * import pandas as pd import numpy as np trans = pd.read_table('output.txt',header = None,index_col = 0) print
..
我正在尝试使用需要2个参数的公式的rollapply。据我所知,唯一的方法(除非你从头开始创建公式)来计算kendall tau相关性,包括标准连接校正: >>>进口scipy >>>> x = [5.05,6.75,3.21,2.66] >>>> y = [1.65,26.5,5.93,7.96] >>>> z = [1.65,2.64,2.66,6.95] >>>> print
..
我正在使用rmongodb来获取特定集合中的每个文档。它的工作原理,但我正在与数百万的小文件,可能100M或更多。我正在使用作者在网站上建议的方法:cnub.org/rmongodb.ashx count
..
我有一个 Spark 1.5.0 DataFrame ,混合使用 null 和同一列中的空字符串。我想将所有列中的所有空字符串转换为Python中的 null ( None )。 DataFrame可能有数百列,所以我试图避免对每一列进行硬编码操作。 看到我下面的尝试,这会导致错误。 / p> 从pyspark.sql导入SQLContext sqlContext = SQLCon
..
很简单的问题,我已经在google和stackoverflow中快速搜索。 我在另一篇文章中发现:总计:对于因素。 df []
..