dataframe 第408页 - IT屋-程序员软件开发技术分享社区

从因子变量中删除特定因子水平

我有一个数据框架，其中有几个变量具有5个因子级别。我想只删除其中一个级别。首先，我将该级别的所有实例分配给NA，然后使用“等式”命令来摆脱空白级别。但是对于我的数据框架中的一个变量，我不想删除的一个级别没有任何意见。有没有办法去除一个特定的因素级别，而不仅仅是空的。这是一个可重现的例子 df ..

发布时间：2017-03-26 01:26:46 r dataframe levels 其他开发

根据另一个列值更改大熊猫DataFrame列值

我有一个具有两列的数据框，每个列表示一个有机体。它们被称为ORG1和ORG2 我想将ORG2的值移动到ORG1中作为相应的索引值。因此，如果ORG1是“A”和ORG2是'B'我想要ORG1从ORG2中取值'B'。我已经开始工作，以确定要移动的ORG2生物体的索引，如下所示： def move_org2（x）： org2_matches = Series（x.ORG2.s ..

发布时间：2017-03-26 01:26:35 python dataframe pandas Python

绘制Dataframe列 - datetime

我有一个日期时间列，时间相当随机，格式为： time -08 11:29:30 2016-07-08 11:30:02 现在我把它转换成datetime： df ['time2'] = pd.to_datetime（df ['time']）然后我想使用matplotlib绘制，但不起作用： plt.plot（df。['time ..

发布时间：2017-03-26 01:26:22 python datetime pandas matplotlib dataframe Python

如何在R中将两个data.frames合并在一起，引用查找表

我正在尝试将两个 data.frames 合并在一起，基于每个名为 series_id 。这是我的合并语句： merge（test_growth_series_LUT，test_growth_series，by = intersect（series_id，series_id））我收到的错误是 as.vector（y）中的错误：没有找到对象'series ..

发布时间：2017-03-26 01:26:00 r merge dataframe 其他开发

搜索数据帧中多列的最后一次发生

假设我有一个类似于以下结构的大数据框 home |离开| home_score | away_score A | B | 1 | 0 B | C | 1 | 1 C | A | 1 | 0 我想找到最后一个分数，无论家庭/家庭。例如，A，B和C组的最后一个分数分别为0,1和1，并返回原始数据框：首页|离开| home_score | away_sco ..

发布时间：2017-03-26 01:25:49 python pandas dataframe Python

R：将数据帧（混合因子和数字）转换为R中的XTS

将混合因子和数字列的数据框转换为xts时，我的所有数据都将转换为字符串。这不是问题的因素，但它是非常烦人的数字。是否有解决方法？例如： > x marketTimestamp价格ID 1 2010-12-17 11：38：31.100 83.89 b-0 2 2010-12-17 11：38：31.100 83.88 b-1 3 2010-12-17 11：38： ..

发布时间：2017-03-26 01:25:37 r dataframe xts 其他开发

R删除包含一定值的行

所以它有一个csv我正在读入一个R数据帧，它看起来像这样 clientx，clienty，screenx ，screeny 481,855,481,847 481,784,481,847 481,784,481,847 879,292,879,355 第一行当然是标题。所以我们有4列数字数据，范围从1到4位数。除了-1表示缺失值，集合中没有负数。我想删 ..

发布时间：2017-03-26 01:25:25 r dataframe 其他开发

如何测试字符数据框中的数值，并将其转换为数字？

我有一个数据框如下： > theDF ID代码行业类别VAR CVAR 1 1 USD现金0 0 12 2 ZAR CASH -181412.82055904 -301731.22832191 23 3 BAT SJ EQUITY财务61711.951234826 102641.162795691 34 4 HCI SJ EQUITY财务1095.16002541256 ..

发布时间：2017-03-26 01:25:13 r dataframe apply 其他开发

使用ddply进行汇总统计

我喜欢使用 ddply 编写一个函数，它基于两列 data.frame mat 。 mat 是一个大的数据。框架，列名为“metric”，“length”，“species”，“tree”，...，“index” / p> 索引是2级的因子“短”，“长” / code> “metric”，“length”，“species”，“tree” c>和其他都是连续变量功能： ..

发布时间：2017-03-26 01:25:02 r dataframe plyr 其他开发

R如何根据另一个变量的范围获得一个变量的平均值？

如果我有两个变量X和Y的一系列观察结果，那么如何根据变量X的范围来获取Y的平均值？所以对于例如，使用一些数据，如： df = data.frame（x = runif（50,1,100），y = runif（50,300,700））我如何得到答案：“当X为平均值为X3.34时，当X为11-20平均值时的y为632.3等....“ 解决方案使用 cut 然后在包 pl ..

发布时间：2017-03-26 01:24:50 r dataframe aggregate 其他开发

将语料库转换为R中的data.frame

我正在使用tm包来应用词干，我需要将生成的数据转换成数据帧。可以在这里找到一个解决方案。 R tm包vcorpus，语料库到数据框，但在我的情况下，我有语料库的内容如下： [[2195]] i非常印象而不是 [[2195]] “我很打动” 因此，如果我申请 data.frame（text = unlist（sapply（myco ..

发布时间：2017-03-26 01:24:38 r dataframe tm corpus 其他开发

r中的翻译（重新编码）错误

这是一个小例子： X1 ..

发布时间：2017-03-26 01:24:25 r replace dataframe 其他开发

数据框中列的时间平均（滑动窗口）

我有一个data.frame有多列。其中一列是时间，因此是不减少的。其余列包含在数据框架的某行中指定的时间给出的时间记录的观察。我想选择一个时间窗口“x”秒，并计算该窗口的相同数据框架中某些其他列中的条目的平均值（或任何函数）。当然，由于它是一个基于时间的平均值，窗口中的条目数可以根据数据而变化。这是因为属于某个时间窗口的行数可以有所不同。我已经使用自定义函数完成了此操作， ..

发布时间：2017-03-26 01:24:14 r dataframe 其他开发

在熊猫数据帧中计算某些词的出现次数

我想计算一个数据帧中某些字的出现次数。我知道使用“str.contains” a = df2 [df2 ['col1']。str.contains（“sample” ）]。groupby（'col2'）。size（） n = a.apply（lambda x：1）.sum（）目前我正在使用上述代码。有没有一种匹配正则表达式并获得事件计数的方法？在我的情况下，我有一个大数据 ..

发布时间：2017-03-26 01:24:02 python pandas dataframe Python

快速（矢量化）的方式来找到属于同样大小的矩形（由两点给出）的一个DF中的点

我有数据框“A”，如下所示： type latw lngs late lngn 0 1000 45.457966 9.174864 45.458030 9.174907 1 1000 45.457966 9.174864 45.458030 9.174907 2 1000 45.458030 9.174864 45.458094 9.174907 3 1000 45.458 ..

发布时间：2017-03-26 01:23:51 python pandas numpy dataframe parallel-processing Python

python熊猫变换数据框

是否有一个大熊猫函数来转换这个数据，所以它将列显示为a，b，c，d，e或数据字段中的任何内容，而行数则表示有多少个字母。 pylab import * import pandas as pd import numpy as np trans = pd.read_table（'output.txt'，header = None，index_col = 0） print ..

发布时间：2017-03-26 01:23:39 python pandas dataframe Python

使用在Pandas中需要2个参数的函数使用rolling_apply

我正在尝试使用需要2个参数的公式的rollapply。据我所知，唯一的方法（除非你从头开始创建公式）来计算kendall tau相关性，包括标准连接校正： >>>进口scipy >>>> x = [5.05,6.75,3.21,2.66] >>>> y = [1.65,26.5,5.93,7.96] >>>> z = [1.65,2.64,2.66,6.95] >>>> print ..

发布时间：2017-03-26 01:23:25 python numpy pandas scipy dataframe Python

使用rmongodb加快大型结果集处理速度

我正在使用rmongodb来获取特定集合中的每个文档。它的工作原理，但我正在与数百万的小文件，可能100M或更多。我正在使用作者在网站上建议的方法：cnub.org/rmongodb.ashx count ..

发布时间：2017-03-26 01:23:13 r mongodb dataframe bigdata rmongodb 其他开发

在DataFrame中使用None / null值替换空字符串

我有一个 Spark 1.5.0 DataFrame ，混合使用 null 和同一列中的空字符串。我想将所有列中的所有空字符串转换为Python中的 null （ None ）。 DataFrame可能有数百列，所以我试图避免对每一列进行硬编码操作。看到我下面的尝试，这会导致错误。 / p> 从pyspark.sql导入SQLContext sqlContext = SQLCon ..

发布时间：2017-03-26 01:23:01 python apache-spark dataframe apache-spark-sql pyspark Python

“df []” - “在R做

很简单的问题，我已经在google和stackoverflow中快速搜索。我在另一篇文章中发现：总计：对于因素。 df [] ..

发布时间：2017-03-26 01:22:39 r variables dataframe 其他开发

dataframe相关内容