imputation相关内容
我是R新手,正在解决一个问题。 我需要一个函数来根据给定大小的窗口中元素的平均值来计算向量中的缺失值。 但是,此窗口将移动,因为假设MyNA位于位置30,而我的窗口大小为10,则应计算x[20:40]的平均值。因此,对于每个找到的NA,窗口平均值将不同。 我一直在尝试: impute.to.window.mean
..
我的数据帧如下: df
..
我刚开始在R中打包mice,但我正在尝试计算popmis中的5个数据集,然后分别匹配lmer()模型with()和最后的pool()。 我认为mice()中的pool()函数不适用于lme4包中的lmer()调用,对吗? 如果是这样的话,有没有办法编写一个定制的函数,它的作用类似于我下面的案例pool()? library(mice) library(lme4) imp
..
这是我的代码: for col in df: if col.startswith('event'): df[col].fillna(0, inplace=True) df[col] = df[col].map(lambda x: re.sub("D","",str(x))) 我有0到10个事件列“Event_0,Event_1,...” 当我用此代
..
我正在尝试使用一个组的pandas模块使用最频繁的值来计算缺失值。在查看了一些关于堆栈溢出的帖子后,我设法做到了这一点: import numpy as np import pandas as pd df = pd.DataFrame({"group": ["A", "A", "A", "A", "B", "B", "B"], "value": [1,
..
我有一个很大的形状文件,大约有180.000个250m^2的多边形。 我想创建一个空间权重矩阵(皇后邻接性)。 因此,如果是邻居,则为1,否则为0。 但是,有几个没有任何相邻(岛屿)的多边形。 我如何才能为那些没有任何直接邻居的单元分配最近的邻居? (使用SF或SP包-在R中) ...................................................
..
我有一个分类列&WALLSMATERIAL_MODE&QOOT;其中包含NAN,我希望通过以下组[‘NAME_RECOVICATION_TYPE’,‘AGE_GROUP’]将其归因于NAN: NAME_EDUCATION_TYPE AGE_GROUP WALLSMATERIAL_MODE 20 Secondary / secondary special
..
如何将缺失值随机添加到模拟数据帧中的某些或每一列(例如,每列随机缺失~5%),另外,有没有更有效的方法来同时模拟具有连续列和因子列的数据帧? #Simulate some data N
..
我有一个数据是随着时间的推移而观察到的.不幸的是,治疗中缺少一些大的时间点差距.它们没有被编码为 NA,如果我用它们制作一个情节,它就会变得很明显. 我的数据框看起来像这样.每个时间点的样本数量是不规则的.(编辑:抱歉没有使示例可重现)s 结构(list(A = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,0L, 0L, 0L, 0L, 0L, 0L,
..
我想在 Stata 中做一个简单的加权热卡插补.在 SAS 中,等效命令如下(请注意,这是一个较新的 SAS 功能,从 2015 年左右的 SAS/STAT 14.1 开始): procsurveyimpute method=hotdeck(selection=weighted); 为了清楚起见,基本要求是: 插补大多是基于行的或同时的.如果第 1 行向第 3 行捐赠了 x,那么它也必须
..
我有一些带有文本类型列的熊猫数据.这些文本列还有一些 NaN 值.我想要做的是通过 sklearn.preprocessing.Imputer(用最频繁的值替换 NaN)来估算这些 NaN.问题出在执行上.假设有一个 Pandas 数据框 df 有 30 列,其中 10 列是分类性质的.一旦我运行: from sklearn.preprocessing import Imputerimp = I
..
我正在尝试用来自类似组的平均值替换数据中的一些缺失值. 我的数据如下所示: X Y1 x y2 x y3 不适用4 x y 我希望它看起来像这样: X Y1 x y2 x y3 年4 x y 我写了这个,它奏效了 for(i in 1:nrow(data.frame){if(is.na(data.frame$X[i]) == TRUE){data.frame$X[i]
..
我想估算一个特征的平均值,但只根据在另一列中具有相同类别/名义值的其他示例计算平均值,我想知道这是否可以使用 scikit-learn 的 Imputer 类?这样可以更轻松地添加到管道中. 例如: 使用来自 kaggle 的 Titanic 数据集:来源 我将如何计算每个 pclass 的平均 fare.其背后的想法是,不同班级的人在门票之间的成本会有很大差异. 更新:在
..
这应该很简单,但我发现最接近的是这篇文章:pandas:在组内填充缺失值,我仍然可以't解决我的问题.... 假设我有以下数据框 df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3], 'name': ['A','A', 'B','B','B','B', 'C','C','C']})名称值0 一 11
..
我有一个数据框,有些列有 NA 值. 如何用零替换这些 NA 值? 解决方案 在@gsk3 答案中查看我的评论.一个简单的例子: >m d 无需应用apply.=) 编辑 您还应该查看 norm 包.它具有许多用于缺失数据分析的不错功能.=)
..
我有一个包含一些缺失值的 Spark 数据框.我想通过用该列的平均值替换缺失值来执行简单的插补.我对 Spark 很陌生,所以我一直在努力实现这个逻辑.到目前为止,这是我设法做到的: a) 要为单个列(假设 Col A)执行此操作,这行代码似乎有效: df.withColumn("new_Col", when($"ColA".isNull, df.select(mean("ColA")).
..
我有一个包含一些缺失值的 Spark 数据框.我想通过用该列的平均值替换缺失值来执行简单的插补.我对 Spark 很陌生,所以我一直在努力实现这个逻辑.到目前为止,这是我设法做到的: a) 要为单个列(假设 Col A)执行此操作,这行代码似乎有效: df.withColumn("new_Col", when($"ColA".isNull, df.select(mean("ColA")).
..
我正在研究如何使用多重插补结果.以下是我的理解,如有错误请指出. 假设您有一个包含缺失值的数据集,并且您想要进行回归分析.您可以对 m = 5 次执行多重插补,并且对于每个插补数据集(现在是 5 个插补数据集),您运行回归分析,然后“池"执行回归分析.通过鲁宾规则(或使用 R 包“pool")从这些 m = 5 模型中估计系数. 我的问题是,在鼠标中你有一个函数complete(),手
..
我有这个包含 78 列和 5707 行的数据集.几乎每一列都有缺失值,我想用 IterativeImputer 来估算它们.如果我理解正确,它将根据其他列的信息对每一列进行“更智能"的插补. 但是,在插补时,我不希望插补值小于观察到的最小值或大于观察到的最大值.我意识到有 max_value 和 min_value 参数,但我不想对插补施加“全局"限制,相反,我希望每列都有自己的 max_v
..
我有以下问题:我有一个 Pandas 数据框,其中缺失值由字符串 na 标记.我想在其上运行一个 Imputer 以用列中的平均值替换缺失值.根据 sklearn 文档,参数 missing_values 应该可以帮助我: missing_values :整数或“NaN",可选(默认=“NaN")缺失值的占位符.所有出现的 missing_values将被推算.对于编码为 np.nan 的缺
..