imputation相关内容

用R中的滚动平均值来归因于缺失值

我是R新手,正在解决一个问题。 我需要一个函数来根据给定大小的窗口中元素的平均值来计算向量中的缺失值。 但是,此窗口将移动,因为假设MyNA位于位置30,而我的窗口大小为10,则应计算x[20:40]的平均值。因此,对于每个找到的NA,窗口平均值将不同。 我一直在尝试: impute.to.window.mean ..
发布时间:2022-09-02 15:24:11 其他开发

使用来自库MICE()的输入数据集来拟合R中的多水平模型

我刚开始在R中打包mice,但我正在尝试计算popmis中的5个数据集,然后分别匹配lmer()模型with()和最后的pool()。 我认为mice()中的pool()函数不适用于lme4包中的lmer()调用,对吗? 如果是这样的话,有没有办法编写一个定制的函数,它的作用类似于我下面的案例pool()? library(mice) library(lme4) imp ..
发布时间:2022-09-02 14:36:07 其他开发

用零蟒熊填满NaN

这是我的代码: for col in df: if col.startswith('event'): df[col].fillna(0, inplace=True) df[col] = df[col].map(lambda x: re.sub("D","",str(x))) 我有0到10个事件列“Event_0,Event_1,...” 当我用此代 ..
发布时间:2022-08-13 11:57:18 Python

如何推算空间权重矩阵的缺失邻居(皇后邻接性)

我有一个很大的形状文件,大约有180.000个250m^2的多边形。 我想创建一个空间权重矩阵(皇后邻接性)。 因此,如果是邻居,则为1,否则为0。 但是,有几个没有任何相邻(岛屿)的多边形。 我如何才能为那些没有任何直接邻居的单元分配最近的邻居? (使用SF或SP包-在R中) ................................................... ..
发布时间:2022-05-29 19:37:09 其他开发

如何在数据框中插入缺失的观察值

我有一个数据是随着时间的推移而观察到的.不幸的是,治疗中缺少一些大的时间点差距.它们没有被编码为 NA,如果我用它们制作一个情节,它就会变得很明显. 我的数据框看起来像这样.每个时间点的样本数量是不规则的.(编辑:抱歉没有使示例可重现)s 结构(list(A = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,0L, 0L, 0L, 0L, 0L, 0L, ..
发布时间:2022-01-09 12:24:34 其他开发

在 Stata 中进行加权热卡插补的简单方法?

我想在 Stata 中做一个简单的加权热卡插补.在 SAS 中,等效命令如下(请注意,这是一个较新的 SAS 功能,从 2015 年左右的 SAS/STAT 14.1 开始): procsurveyimpute method=hotdeck(selection=weighted); 为了清楚起见,基本要求是: 插补大多是基于行的或同时的.如果第 1 行向第 3 行捐赠了 x,那么它也必须 ..
发布时间:2022-01-08 17:40:39 其他开发

在 scikit-learn 中估算分类缺失值

我有一些带有文本类型列的熊猫数据.这些文本列还有一些 NaN 值.我想要做的是通过 sklearn.preprocessing.Imputer(用最频繁的值替换 NaN)来估算这些 NaN.问题出在执行上.假设有一个 Pandas 数据框 df 有 30 列,其中 10 列是分类性质的.一旦我运行: from sklearn.preprocessing import Imputerimp = I ..
发布时间:2021-12-25 14:19:35 Python

R:用向量中的项目替换 NA

我正在尝试用来自类似组的平均值替换数据中的一些缺失值. 我的数据如下所示: X Y1 x y2 x y3 不适用4 x y 我希望它看起来像这样: X Y1 x y2 x y3 年4 x y 我写了这个,它奏效了 for(i in 1:nrow(data.frame){if(is.na(data.frame$X[i]) == TRUE){data.frame$X[i] ..
发布时间:2021-12-25 09:16:09 其他开发

scikit-learn 估算另一个特征中标称值组内特征的均值

我想估算一个特征的平均值,但只根据在另一列中具有相同类别/名义值的其他示例计算平均值,我想知道这是否可以使用 scikit-learn 的 Imputer 类?这样可以更轻松地添加到管道中. 例如: 使用来自 kaggle 的 Titanic 数据集:来源 我将如何计算每个 pclass 的平均 fare.其背后的想法是,不同班级的人在门票之间的成本会有很大差异. 更新:在 ..

用平均值替换缺失值 - Spark Dataframe

我有一个包含一些缺失值的 Spark 数据框.我想通过用该列的平均值替换缺失值来执行简单的插补.我对 Spark 很陌生,所以我一直在努力实现这个逻辑.到目前为止,这是我设法做到的: a) 要为单个列(假设 Col A)执行此操作,这行代码似乎有效: df.withColumn("new_Col", when($"ColA".isNull, df.select(mean("ColA")). ..

用平均值替换缺失值 - Spark Dataframe

我有一个包含一些缺失值的 Spark 数据框.我想通过用该列的平均值替换缺失值来执行简单的插补.我对 Spark 很陌生,所以我一直在努力实现这个逻辑.到目前为止,这是我设法做到的: a) 要为单个列(假设 Col A)执行此操作,这行代码似乎有效: df.withColumn("new_Col", when($"ColA".isNull, df.select(mean("ColA")). ..

小鼠中的 complete 究竟是做什么的?

我正在研究如何使用多重插补结果.以下是我的理解,如有错误请指出. 假设您有一个包含缺失值的数据集,并且您想要进行回归分析.您可以对 m = 5 次执行多重插补,并且对于每个插补数据集(现在是 5 个插补数据集),您运行回归分析,然后“池"执行回归分析.通过鲁宾规则(或使用 R 包“pool")从这些 m = 5 模型中估计系数. 我的问题是,在鼠标中你有一个函数complete(),手 ..
发布时间:2021-08-30 18:47:41 其他开发

scikit IterativeImputer 中每列的 max_value 和 min_value

我有这个包含 78 列和 5707 行的数据集.几乎每一列都有缺失值,我想用 IterativeImputer 来估算它们.如果我理解正确,它将根据其他列的信息对每一列进行“更智能"的插补. 但是,在插补时,我不希望插补值小于观察到的最小值或大于观察到的最大值.我意识到有 max_value 和 min_value 参数,但我不想对插补施加“全局"限制,相反,我希望每列都有自己的 max_v ..
发布时间:2021-07-16 20:19:53 Python

Python - SkLearn Imputer 使用

我有以下问题:我有一个 Pandas 数据框,其中缺失值由字符串 na 标记.我想在其上运行一个 Imputer 以用列中的平均值替换缺失值.根据 sklearn 文档,参数 missing_values 应该可以帮助我: missing_values :整数或“NaN",可选(默认=“NaN")缺失值的占位符.所有出现的 missing_values将被推算.对于编码为 np.nan 的缺 ..
发布时间:2021-07-16 19:57:33 Python