missing-data相关内容
我在Clickhouse中有一个表,其结构为: x_id | y_id | z_id | rank | timestamp 1231 | 1324 | 9412 | 1 | 2021-03-12 00:13:34 121 | 5524 | 765 | 21 | 2021-03-13 15:43:21 54 | 76 | 8822 | 125 | 2021-05-14
..
我正在尝试在r中构造一个脚本,以强制它忽略找不到的对象。 我的脚本的简化版本如下 试用<;-sum(a,b,c,d,e) A-e是通过计算数据框中列的总和生成的数值向量。 我的问题是我想在多个不同的条件下使用相同的脚本(并且拥有比a-e多得多的对象)。对于这些情况中的一些,对象a-e中的一些可能不存在。因此,%r返回错误对象%d未找到。 为避免为每个条件生成唯一的
..
我想根据提交的列的值替换缺少的值。 查找以下我拥有的内容:
..
我对这个社区、r和一般的编程都是新手。(提前感谢您的耐心!)我正在做一个涉及贝叶斯网络的项目。 海峡问题。以下代码是在此站点上发布的,以回答名为“bnlearn Package R中的NA/NaN值”的问题 rm(list=ls()) ### generate random data (not simply independent binomials) set.seed(123) n
..
这是一个简单的问题,但我想不出如何做以下事情。这是我的数据: ID Time1 Time2 Time3 Time4 01 23 23 NA NA 02 21 21 21 NA 03 22 22 25 NA 04 29 29
..
我是R新手,正在解决一个问题。 我需要一个函数来根据给定大小的窗口中元素的平均值来计算向量中的缺失值。 但是,此窗口将移动,因为假设MyNA位于位置30,而我的窗口大小为10,则应计算x[20:40]的平均值。因此,对于每个找到的NA,窗口平均值将不同。 我一直在尝试: impute.to.window.mean
..
我需要加入R中的两个data.frame,它们都有两个ID候选者,但有很多丢失的数据(所以我不能只选择一个并过滤掉其余的)。 编辑两个数据集的可重现示例和所需结果: messy1
..
我正在尝试从NumPy掩码数组创建一个PandasDataFrame,我知道这是一个受支持的操作。以下是源数组的示例: a = ma.array([(1, 2.2), (42, 5.5)], dtype=[('a',int),('b',float)], mask=[(True,False),(False,True)]) 哪个输出为:
..
我需要计算每个id的可用日期之间的所有丢失日期,然后对称地上下移动以计算丢失。此外,我并不总是需要两个日期之间的平均值,例如:当我上下移动两个日期时,我只看到一个值,那么我就会计算那个值。 df1
..
我正在尝试学习如何实现MICE来输入我的数据集的缺失值。我听说过Fancyimpute的鼠标,但我也读到Sklearn的IterativeImputer类可以实现类似的结果。摘自SkLearning的文档: 我们实现IterativeImputer的灵感来自R MICE Package(链式方程的多元推算)[1],但是 与它的不同之处在于,它返回单个补偿而不是多个 推卸责任。但是,Itera
..
我的数据帧如下: df
..
我有一个包含两列的 pandas DataFrame:toy和color。color列包含缺少的值。 如何用该特定toy最频繁的color值填充缺失的color值? 以下是创建示例数据集的代码: import pandas as pd import numpy as np df = pd.DataFrame({ 'toy':['car'] * 4 + ['train']
..
我刚开始在R中打包mice,但我正在尝试计算popmis中的5个数据集,然后分别匹配lmer()模型with()和最后的pool()。 我认为mice()中的pool()函数不适用于lme4包中的lmer()调用,对吗? 如果是这样的话,有没有办法编写一个定制的函数,它的作用类似于我下面的案例pool()? library(mice) library(lme4) imp
..
我有一个这样的数据集,其中某些年份的数据丢失。 County Year Pop 12 1999 1.1 12 2001 1.2 13 1999 1.0 13 2000 1.1 我想要 County Year Pop 12 1999 1.1 12 2000 NaN 12 2001 1.2 13 1999 1.0 13
..
我有一个数据框,如下所示 Id Date Col1 Col2 Col3 Col4 30 2012-03-31 A42.2 20.46 NA 36 1996-11-15 NA V73
..
Pandasfillna()速度明显较慢,尤其是在数据帧中有大量丢失数据的情况下。 有没有比这更快的方法? (我知道如果我只删除包含Nas的一些行和/或列会有所帮助) 推荐答案 我尝试测试: np.random.seed(123) N = 60000 df = pd.DataFrame(np.random.choice(['a', None], size=(N, 20
..
我的代码运行良好: CompleteCoxObs
..
我正在使用R编程语言。我有一个既包含字符变量又包含数字变量的数据集--我正在尝试用&0&q;替换该数据中的所有NA和空值。对于连续变量,NA/Empty值应替换为数字0。对于系数变量,NA/Empty值应替换为系数0。 过去,我使用一个标准命令将所有NA替换为0(在下面的代码中,";df";表示包含数据的数据框): df[df == NA]
..
假设我有一个纵向数据集,如下所示 ID
..
如何将缺失值随机添加到模拟数据帧中的某些或每一列(例如,每列随机缺失~5%),另外,有没有更有效的方法来同时模拟具有连续列和因子列的数据帧? #Simulate some data N
..