r-faq相关内容
我有这样的数据,其中某些“名称"出现了 3 次以上: df
..
我想计算 mean(或任何其他长度为 1 的汇总统计数据,例如 min、max、length, sum) 在分组变量(“group")的每个级别内的数值变量(“value"). 汇总统计量应分配给与原始数据具有相同长度的新变量.也就是说,原始数据的每一行都应该有一个对应于当前组值的值——数据集不应该被折叠成每组一行.例如,考虑组 mean: 之前 id 组值1 到 102 一个 20
..
我正在尝试根据一个因素的级别创建单独的 data.frame 对象.所以如果我有: df 如何将 df 拆分为单独的 data.frame ,用于包含相应 x 的每个级别的 g> 和 y 值?我可以使用 split(df, df$g) 获得大部分方法,但我希望因子的每个级别都有自己的 data.frame. 最好的方法是什么? 解决方案 我认为 split 完全符合您的要求.
..
我有一个包含 factor 的数据框.当我使用 subset 或其他索引函数创建此数据框的子集时,会创建一个新数据框.但是,factor 变量保留其所有原始级别,即使/如果它们不存在于新数据框中. 在进行分面绘图或使用依赖因子水平的函数时,这会导致问题. 从新数据框中的因子中删除级别的最简洁方法是什么? 这是一个例子: df 解决方案 你应该做的就是在子集化后再次将 fa
..
我想删除此数据框中的行: a) 在所有列中包含 NAs. 下面是我的示例数据框. 基因 hsap mmul mmus rnor cfam1 ENSG00000208234 0 NA NA NA NA2 ENSG00000199674 0 2 2 2 23 ENSG00000221622 0 NA NA NA NA4 ENSG00000207604 0 不适用 不适用 1 25 ENSG0
..
我有一个关于 ggplot2 中的图例的问题.我设法在同一张图中绘制了三条线,并想添加一个使用三种颜色的图例.这是使用的代码 库(ggplot2)要求(RCurl)链接
..
一个非常新的问题,但说我有这样的数据: test_data 如何在同一个图形上绘制时间序列 var0 和 var1,在 x 轴上使用 date,使用 ggplot2?如果您制作 var0 和 var1 不同的颜色,并且可以包含一个图例,则可以加分! 我确定这很简单,但我找不到任何示例. 解决方案 对于少量变量,您可以自己手动构建绘图: ggplot(test_data, ae
..
我有非常大的表(3000 万行),我想在 R 中作为数据帧加载.read.table() 有很多方便的功能,但似乎有实现中有很多逻辑会减慢速度.就我而言,我假设我提前知道列的类型,该表不包含任何列标题或行名称,并且没有任何我需要担心的病理字符. 我知道使用 scan() 将表格作为列表读取可能非常快,例如: datalist
..
我有一个如下所示的数据集: 月数2009-01 122009-02 3102009-03 23792009-04 2342009-05 142009-08 12009-09 342009-10 2386 我想绘制数据(月份为 x 值,计数为 y 值).由于数据中存在空白,我想将月份的信息转换为日期.我试过了: as.Date("2009-03", "%Y-%m") 但是没有用.怎么了?似乎
..
我想根据逻辑条件从 data.frame 中过滤行.假设我有像 这样的数据框 expr_value cell_type1 5.345618 bj 成纤维细胞2 5.195871 bj 成纤维细胞3 5.247274 bj 成纤维细胞4 5.929771 赫斯克5 5.873096 赫斯克6 5.665857 赫斯克7 6.791656 臀围8 7.133673 臀围9 7.574058 臀围
..
我想匹配一个正则表达式特殊字符,\^$.?*|+()[{.我试过了: x (相当于 stringr::str_detect(x, "[") 或 stringi::stri_detect_regex(x, "[").) 将值加倍以逃避它不起作用: grepl("[[", x)## 错误:正则表达式无效 '[[', reason 'Missing ']'' 也不使用反斜杠: grep
..
假设我们有一个文件夹,其中包含多个 data.csv 文件,每个文件包含相同数量的变量,但每个都来自不同的时间.R 中有没有办法同时导入它们,而不必单独导入它们? 我的问题是我有大约 2000 个数据文件要导入,并且必须使用代码单独导入它们: read.delim(file="filename", header=TRUE, sep="\t") 效率不高. 解决方案 类似于下面的内
..
在每个主题具有多个观察结果的数据集中.对于每个主题,我想选择具有“pt"最大值的行.例如,使用以下数据集: ID
..
我想查看一个函数的源代码,看看它是如何工作的.我知道我可以通过在提示符下输入函数名称来打印函数: >吨功能 (x)使用方法(“t") 在这种情况下,UseMethod("t") 是什么意思?我如何找到实际使用的源代码,例如:t(1:10)? 当我看到 UseMethod 和看到 standardGeneric 和 showMethod
..
我想获取表单的数据 before = data.frame(attr = c(1,30,4,6), type=c('foo_and_bar','foo_and_bar_2'))属性类型1 1 foo_and_bar2 30 foo_and_bar_23 4 foo_and_bar4 6 foo_and_bar_2 并在上面的“type"列上使用 split() 以获得如下内容: attr
..
在data.frame(或data.table)中,我想“向前填充"具有最接近的先前非 NA 值的 NA.一个简单的例子,使用向量(而不是 data.frame)如下: >y 我想要一个函数 fill.NAs() 允许我构造 yy 使得: >年[1] NA NA NA 2 2 2 2 3 3 3 4 4 我需要对许多(总共约 1 Tb)小型data.frame(约 30-50 Mb)重复
..
这是一个常见问题解答问题,因此请尽可能完整.答案是社区答案,因此如果您认为缺少某些内容,请随时进行编辑. 此问题已在元上讨论并获得批准. 我正在使用 R 并尝试了 some.function 但我收到以下错误消息: 错误:找不到函数“some.function"; 这个问题经常出现.当你在 R 中遇到这种类型的错误时,你如何解决它? 解决方案 您应该检查以下几点: 你
..
我尝试安装一个包,使用 install.packages("foobarbaz") 但收到警告 警告信息:包 'foobarbaz' 不可用(对于 R 版本 x.y.z) 为什么 R 不认为该包可用? 另请参阅有关此问题的特定实例的这些问题: 我的包不适用于 R 2.15.2 包“Rbbg"不可用(对于 R版本 2.15.2) 包不可用(对于 R 版本 2.15.2) 软
..
我有一个包含许多要合并的 data.frames 的列表.这里的问题是每个 data.frame 在行数和列数方面都不同,但它们都共享关键变量(我称之为 "var1" 和 "var2" 在下面的代码中).如果 data.frames 在列方面是相同的,我只能 rbind,为此 plyr 的 rbind.fill 可以完成这项工作,但这些数据并非如此. 因为 merge 命令只对 2 个 da
..
R 提供了两种不同的方法来访问列表或 data.frame 的元素:[] 和 [[]]. 两者之间有什么区别,我什么时候应该使用一个而不是另一个? 解决方案 R 语言定义对于回答这些类型的问题非常方便: http://cran.r-project.org/doc/manuals/R-lang.html#Indexing R 有三个基本的索引操作符,语法如下例所示 x[i
..