recode相关内容

从字符串中删除/替换特定单词或短语-R

我环顾了一下这里和其他地方,发现了许多类似的问题,但没有一个能确切地回答我的问题。我需要清理命名约定,特别是替换/删除特定列/变量中的某些单词和短语,而不是整个数据集。我正在从SPSS迁移到R,下面我有一个在SPSS中执行此操作的代码示例,但我不确定如何在R中执行此操作。 EG: “Acadia Parish”-->“Acadia”(删除Parish和Parish前的空格) “第 ..
发布时间:2022-02-25 22:10:17 其他开发

规范 tidyverse 方法从查找表中更新向量的某些值

我经常需要根据查找表重新编码数据框列中的一些(不是全部!)值.我对我所知道的解决问题的方法不满意.我希望能够以一种清晰、稳定和高效的方式进行.在我编写自己的函数之前,我想确保我没有重复一些已经存在的标准. ## 玩具示例数据 = 数据帧(id = 1:7,x = c(“A"、“A"、“B"、“C"、“D"、“AA"、“."))查找 = data.frame(旧 = c(“A"、“D"、“.")、 ..
发布时间:2022-01-13 19:13:13 其他开发

如何使用表 2 中的信息(在 SAS 中)重新编码表 1 中的变量

总体目标是根据百分位数对定量变量进行分层.我想把它分成 10 个级别(例如第 10、20、...100%),如果它落入第 10 个百分位,则将其重新编码为 1,如果它落入第 20 个百分位,则重新编码为 2,等等.这种方法需要适用于我插入的任何数据集,我希望这个过程尽可能自动化.下面我生成了一些测试数据: 数据测试(drop=i);做 i=1 到 1000;a=圆形(均匀(1)*4,.01);b ..
发布时间:2022-01-08 17:16:44 其他开发

使用 dplyr 重新编码多列

我有一个数据框,我在其中重新编码了几列,以便将 999 设置为 NA dfB %变异(adhere = if_else(adhere==999,as.numeric(NA),坚持))%>%变异(参与= if_else(参与== 999,as.numeric(NA),参与))%>%变异(质量= if_else(质量== 999,as.numeric(NA),质量))%>%变异(undrstnd = ..
发布时间:2021-12-23 12:43:05 其他开发

从查找表中更新向量的某些值的规范 tidyverse 方法

我经常需要根据查找表重新编码数据框列中的一些(不是全部!)值.我对我所知道的解决问题的方法并不满意.我希望能够以清晰、稳定和高效的方式完成这项工作.在我编写自己的函数之前,我想确保我没有复制已经存在的标准. ## 玩具示例数据 = 数据.frame(id = 1:7,x = c(“A"、“A"、“B"、“C"、“D"、“AA"、“."))查找 = data.frame(old = c(“A", ..
发布时间:2021-12-23 12:36:46 其他开发

根据条件(`if`)语句替换数据框中的值

在下面编码的R数据帧中,我想替换B的所有时间与 b 一起出现. junk 这提供: nm val1 A2 乙3 厘米4天5 AE6 B f7 克8 天时9 Ai10 乙11 克12 升 我最初的尝试是使用 for 和 if 语句,如下所示: for(i injunk$nm) if(i %in% "B")junk$nm ..
发布时间:2021-12-01 20:49:02 其他开发

为给定的数值向量分配一个具有 2 个以上级别/标签的因子向量

大家.我希望你能帮助我解决我的疑问.对于表示苹果价格 ($) 的向量来说, apple 我可以分配一个因子向量,表示如果苹果的价格低于 50 美元,它是否“便宜",如果苹果的价格大于或等于 50 美元,则表示它是否“昂贵".例如,因子变量可以很容易地赋值为: price 50, labels = c("cheap", "expensive")) 但是,我对分配具有三个价格水平的因子变量一 ..
发布时间:2021-07-05 20:39:10 其他开发

用于多个类别的 ifelse 样式重新编码的习语

我经常遇到这种情况,以至于我认为必须有一个很好的习语.假设我有一个包含一系列属性的 data.frame,包括“产品".我还有一个将产品转换为品牌 + 尺寸的键.产品代码1-3为Tylenol,4-6为Advil,7-9为Bayer,10-12为Generic. 什么是最快(就人类时间而言)编码的方法? 如果有 3 个或更少的类别,我倾向于使用嵌套的 ifelse,如果超过 3 个,我 ..
发布时间:2021-06-30 19:56:06 其他开发

根据条件 (`if`) 语句替换数据框中的值

在下面编码的R数据帧中,我想替换B的所有时间与 b 一起出现. junk 这提供: nm val1 A2 乙3 厘米4天5 AE6 B f7 克8 天时9 Ai10 Bj11 克12 升 我最初的尝试是使用 for 和 if 语句,如下所示: for(i injunk$nm) if(i %in% "B")junk$nm ..
发布时间:2021-06-30 19:46:42 其他开发

根据分数汇总多个可变分数

tl; dr:我需要首先将一组变量二等分为0/1,然后将这些值求和.我需要针对14x8变量执行此操作,因此我正在寻找一种循环处理方法. 大家好, 我有一个非常具体的问题,需要您的帮助: 问题描述:在我的数据集中,我有14组,每组8个变量(例如a1到a8,b1到b8,c1到c8等),得分范围为1到6.请注意,这些变量是非连续的,字符串变量介于两者之间它们(我出于其他目的需要). ..
发布时间:2021-05-30 21:15:34 其他开发

如何重新编码数据帧值以仅保留那些满足特定集合的值,如何用“其他"替换其他值?

我正在寻找一种简洁的解决方案,最好使用 dplyr 来清理数据框列中的值,以便我可以保留它们,因为它们是与某个特定集合匹配的值,而其他则与它们不匹配不匹配将被重新编码为“其他". 示例 我有一个带有动物名字的数据框.有4个合法的动物名称,但其他行包含乱码而不是名称.我想清理该列,只保留合法的动物名称: zebra , lion , cow 或 cat . 数据 库(tidyve ..
发布时间:2021-05-02 20:54:45 其他开发

.subset2(x,i,精确=精确)中的错误:递归索引在级别2上失败

我正尝试将我的教育变量从18个等级的因子重新编码为7个等级的因子,范围从无资格-GCSE DG,GCSE A * -C- A等级-本科-研究生-其他. bes [[bes $ education]]%>%recode(“无资格" =“无资格",'GCSE D-G,CSE 2-5年级,O级D-E'='GCSE D-G',“青年培训证书,技术求职者" ="GCSE D-G",'文书和商业资格'=' ..
发布时间:2021-05-02 20:53:40 其他开发

规范dydyverse方法,用于从查找表更新矢量的某些值

我经常需要根据查找表重新编码数据帧列中的一些(不是全部!)值.我对解决问题的方法不满意.我希望能够以稳定,高效的方式进行操作.在编写自己的函数之前,我想确保我没有复制已经存在的标准. ##玩具示例数据= data.frame(id = 1:7,x = c("A","A","B","C","D","AA",“."))查找= data.frame(old = c("A","D",“."),new ..
发布时间:2021-04-28 19:38:27 其他开发

重新编码列中的观察以获取特定的ID

我有一个名为“调查"的数据集.在此,我有单独的ID行,列中有很多问题.我需要将1列中的值重新编码为NA并将观察值移至另一列. 例如: ID水果蔬菜Aaa NA葡萄bbb NA番茄ccc苹果NAddd桃NA 我想更改属于ID aaa和bbb的葡萄和番茄观察值,以将其放入水果列​​(调查受访者将其放在错误的列中),然后将NA留在后面. 外观如下: ID水果蔬菜aaa葡萄NAbb ..
发布时间:2021-04-23 18:36:43 其他开发

R:如何一次重新编码多个变量

我的数据集中有几个变量需要以完全相同的方式重新编码,而其他几个变量则需要以不同的方式重新编码。我尝试编写一个函数来解决此问题,但是遇到了麻烦。 library(dplyr) recode_liberalSupport = function(arg1){ arg1 = recode(arg1,“ 1 = -1; 2 = 1; else = NA”) return(arg1) } ..
发布时间:2020-10-26 02:43:28 其他开发

使用data.table重新编码变量

我正在尝试使用data.table重新编码一个变量。我已经用Google搜索了将近2个小时,但是找不到答案。 假设我有一个data.table,如下所示: DT V2 =字母[1:3], V4 = 1:12) 我想重新编码V1和V2。对于V1,我想将1s编码为0,将2s编码为1。 对于V2,我想将A编码为T,将B编码为K,将C编码为D。 如果我使用 dp ..
发布时间:2020-10-15 19:54:26 其他开发