imputation - IT屋-程序员软件开发技术分享社区

用R中的滚动平均值来归因于缺失值

我是R新手，正在解决一个问题。我需要一个函数来根据给定大小的窗口中元素的平均值来计算向量中的缺失值。但是，此窗口将移动，因为假设MyNA位于位置30，而我的窗口大小为10，则应计算x[20:40]的平均值。因此，对于每个找到的NA，窗口平均值将不同。我一直在尝试： impute.to.window.mean ..

发布时间：2022-09-02 15:24:11 r missing-data imputation imputets 其他开发

是否有R函数用于按组连续输入丢失的年份值？

我的数据帧如下： df ..

发布时间：2022-09-02 14:48:39 r missing-data imputation 其他开发

使用来自库MICE()的输入数据集来拟合R中的多水平模型

我刚开始在R中打包mice，但我正在尝试计算popmis中的5个数据集，然后分别匹配lmer()模型with()和最后的pool()。我认为mice()中的pool()函数不适用于lme4包中的lmer()调用，对吗？如果是这样的话，有没有办法编写一个定制的函数，它的作用类似于我下面的案例pool()？ library(mice) library(lme4) imp ..

发布时间：2022-09-02 14:36:07 r missing-data lme4 imputation r-mice 其他开发

用零蟒熊填满NaN

这是我的代码： for col in df: if col.startswith('event'): df[col].fillna(0, inplace=True) df[col] = df[col].map(lambda x: re.sub("D","",str(x))) 我有0到10个事件列“Event_0，Event_1，...” 当我用此代 ..

发布时间：2022-08-13 11:57:18 python pandas nan series imputation Python

使用最频繁的值按组填充缺失的值

我正在尝试使用一个组的pandas模块使用最频繁的值来计算缺失值。在查看了一些关于堆栈溢出的帖子后，我设法做到了这一点： import numpy as np import pandas as pd df = pd.DataFrame({"group": ["A", "A", "A", "A", "B", "B", "B"], "value": [1, ..

发布时间：2022-06-27 13:10:57 python-3.x pandas pandas-groupby nan imputation Python

如何推算空间权重矩阵的缺失邻居(皇后邻接性)

我有一个很大的形状文件，大约有180.000个250m^2的多边形。我想创建一个空间权重矩阵(皇后邻接性)。因此，如果是邻居，则为1，否则为0。但是，有几个没有任何相邻(岛屿)的多边形。我如何才能为那些没有任何直接邻居的单元分配最近的邻居？ (使用SF或SP包-在R中) ................................................... ..

发布时间：2022-05-29 19:37:09 r matrix spatial imputation neighbours 其他开发

在 pandas 中按组分配模式(处理NaN的组模式)

我有一个分类列&WALLSMATERIAL_MODE&QOOT；其中包含NAN，我希望通过以下组[‘NAME_RECOVICATION_TYPE’，‘AGE_GROUP’]将其归因于NAN： NAME_EDUCATION_TYPE AGE_GROUP WALLSMATERIAL_MODE 20 Secondary / secondary special ..

发布时间：2022-04-14 17:35:20 pandas pandas-groupby nan categorical-data imputation Python

模拟数据并将缺失的值随机添加到数据帧

如何将缺失值随机添加到模拟数据帧中的某些或每一列(例如，每列随机缺失~5%)，另外，有没有更有效的方法来同时模拟具有连续列和因子列的数据帧？ #Simulate some data N ..

发布时间：2022-04-06 22:27:24 r simulation missing-data data-manipulation imputation 其他开发

如何在数据框中插入缺失的观察值

我有一个数据是随着时间的推移而观察到的.不幸的是，治疗中缺少一些大的时间点差距.它们没有被编码为 NA，如果我用它们制作一个情节，它就会变得很明显. 我的数据框看起来像这样.每个时间点的样本数量是不规则的.(编辑:抱歉没有使示例可重现)s 结构(list(A = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,0L, 0L, 0L, 0L, 0L, 0L, ..

发布时间：2022-01-09 12:24:34 r insert missing-data data-management imputation 其他开发

在 Stata 中进行加权热卡插补的简单方法?

我想在 Stata 中做一个简单的加权热卡插补.在 SAS 中，等效命令如下(请注意，这是一个较新的 SAS 功能，从 2015 年左右的 SAS/STAT 14.1 开始): procsurveyimpute method=hotdeck(selection=weighted); 为了清楚起见，基本要求是: 插补大多是基于行的或同时的.如果第 1 行向第 3 行捐赠了 x，那么它也必须 ..

发布时间：2022-01-08 17:40:39 sas stata imputation 其他开发

我有一些带有文本类型列的熊猫数据.这些文本列还有一些 NaN 值.我想要做的是通过 sklearn.preprocessing.Imputer(用最频繁的值替换 NaN)来估算这些 NaN.问题出在执行上.假设有一个 Pandas 数据框 df 有 30 列，其中 10 列是分类性质的.一旦我运行: from sklearn.preprocessing import Imputerimp = I ..

发布时间：2021-12-25 14:19:35 python pandas scikit-learn imputation Python

R:用向量中的项目替换 NA

我正在尝试用来自类似组的平均值替换数据中的一些缺失值. 我的数据如下所示: X Y1 x y2 x y3 不适用4 x y 我希望它看起来像这样: X Y1 x y2 x y3 年4 x y 我写了这个，它奏效了 for(i in 1:nrow(data.frame){if(is.na(data.frame$X[i]) == TRUE){data.frame$X[i] ..

发布时间：2021-12-25 09:16:09 r replace missing-data imputation 其他开发

scikit-learn 估算另一个特征中标称值组内特征的均值

我想估算一个特征的平均值，但只根据在另一列中具有相同类别/名义值的其他示例计算平均值，我想知道这是否可以使用 scikit-learn 的 Imputer 类?这样可以更轻松地添加到管道中. 例如: 使用来自 kaggle 的 Titanic 数据集:来源我将如何计算每个 pclass 的平均 fare.其背后的想法是，不同班级的人在门票之间的成本会有很大差异. 更新:在 ..

发布时间：2021-12-14 10:02:35 machine-learning scikit-learn classification mean imputation AI人工智能

Pandas:按每组的平均值填充缺失值

这应该很简单，但我发现最接近的是这篇文章:pandas:在组内填充缺失值，我仍然可以't解决我的问题.... 假设我有以下数据框 df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3], 'name': ['A','A', 'B','B','B','B', 'C','C','C']})名称值0 一 11 ..

发布时间：2021-12-03 08:30:36 python pandas pandas-groupby imputation fillna Python

如何在 R 数据框中用零替换 NA 值?

我有一个数据框，有些列有 NA 值. 如何用零替换这些 NA 值? 解决方案在@gsk3 答案中查看我的评论.一个简单的例子: >m d 无需应用apply.=) 编辑您还应该查看 norm 包.它具有许多用于缺失数据分析的不错功能.=) ..

发布时间：2021-12-01 20:25:55 r dataframe na missing-data imputation 其他开发

用平均值替换缺失值 - Spark Dataframe

我有一个包含一些缺失值的 Spark 数据框.我想通过用该列的平均值替换缺失值来执行简单的插补.我对 Spark 很陌生，所以我一直在努力实现这个逻辑.到目前为止，这是我设法做到的: a) 要为单个列(假设 Col A)执行此操作，这行代码似乎有效: df.withColumn("new_Col", when($"ColA".isNull, df.select(mean("ColA")). ..

发布时间：2021-11-14 21:19:34 scala apache-spark dataframe apache-spark-sql imputation 其他开发

用平均值替换缺失值 - Spark Dataframe

我有一个包含一些缺失值的 Spark 数据框.我想通过用该列的平均值替换缺失值来执行简单的插补.我对 Spark 很陌生，所以我一直在努力实现这个逻辑.到目前为止，这是我设法做到的: a) 要为单个列(假设 Col A)执行此操作，这行代码似乎有效: df.withColumn("new_Col", when($"ColA".isNull, df.select(mean("ColA")). ..

发布时间：2021-11-12 05:34:06 scala apache-spark dataframe apache-spark-sql imputation 其他开发

小鼠中的 complete 究竟是做什么的?

我正在研究如何使用多重插补结果.以下是我的理解，如有错误请指出. 假设您有一个包含缺失值的数据集，并且您想要进行回归分析.您可以对 m = 5 次执行多重插补，并且对于每个插补数据集(现在是 5 个插补数据集)，您运行回归分析，然后“池"执行回归分析.通过鲁宾规则(或使用 R 包“pool")从这些 m = 5 模型中估计系数. 我的问题是，在鼠标中你有一个函数complete()，手 ..

发布时间：2021-08-30 18:47:41 r statistics imputation r-mice 其他开发

scikit IterativeImputer 中每列的 max_value 和 min_value

我有这个包含 78 列和 5707 行的数据集.几乎每一列都有缺失值，我想用 IterativeImputer 来估算它们.如果我理解正确，它将根据其他列的信息对每一列进行“更智能"的插补. 但是，在插补时，我不希望插补值小于观察到的最小值或大于观察到的最大值.我意识到有 max_value 和 min_value 参数，但我不想对插补施加“全局"限制，相反，我希望每列都有自己的 max_v ..

发布时间：2021-07-16 20:19:53 python pandas scikit-learn sklearn-pandas imputation Python

Python - SkLearn Imputer 使用

我有以下问题:我有一个 Pandas 数据框，其中缺失值由字符串 na 标记.我想在其上运行一个 Imputer 以用列中的平均值替换缺失值.根据 sklearn 文档，参数 missing_values 应该可以帮助我: missing_values :整数或“NaN"，可选(默认=“NaN")缺失值的占位符.所有出现的 missing_values将被推算.对于编码为 np.nan 的缺 ..

发布时间：2021-07-16 19:57:33 python scikit-learn imputation Python

imputation相关内容

用R中的滚动平均值来归因于缺失值

是否有R函数用于按组连续输入丢失的年份值？

使用来自库MICE()的输入数据集来拟合R中的多水平模型

用零蟒熊填满NaN

使用最频繁的值按组填充缺失的值

如何推算空间权重矩阵的缺失邻居(皇后邻接性)

在 pandas 中按组分配模式(处理NaN的组模式)

模拟数据并将缺失的值随机添加到数据帧

如何在数据框中插入缺失的观察值

在 Stata 中进行加权热卡插补的简单方法?

在 scikit-learn 中估算分类缺失值

R:用向量中的项目替换 NA

scikit-learn 估算另一个特征中标称值组内特征的均值

Pandas:按每组的平均值填充缺失值

如何在 R 数据框中用零替换 NA 值?

用平均值替换缺失值 - Spark Dataframe

用平均值替换缺失值 - Spark Dataframe

小鼠中的 complete 究竟是做什么的?

scikit IterativeImputer 中每列的 max_value 和 min_value

Python - SkLearn Imputer 使用