outliers相关内容

如何去除R中的异常值?

我目前正在尝试以一种非常简单的方式删除R中的离群值。我知道你可以自己创建一些函数,但我想要一些关于这个简单代码的输入,以及为什么它看起来不起作用? outliers ..
发布时间:2022-05-28 18:58:26 其他开发

在R箱图中如何准确地去除异常值,以及如何去除相同的异常值以进行进一步计算(例如,平均值)?

在boxplot中,我设置了选项outline=FALSE以删除离群值。 现在我想将points显示平均值的points包括在框图中。显然,使用mean计算的平均值包括离群值。 如何从数据框中删除完全相同的异常值,以使计算的平均值与箱图中显示的数据相对应? 我知道如何删除异常值,但是outline中的outline选项在内部使用哪些设置?遗憾的是,该手册没有做出任何澄清。 推荐答案 ..
发布时间:2022-04-17 20:37:13 其他开发

如何在用PANAS替换离群值的同时用PANAS保持行的完整?

我正在处理一个非常大的文件,需要为每列消除不同的离群值。 我已经能够找到离群值并用NaN替换它们,然而,它正在将整个行变成NaN。我肯定我错过了一些简单的东西,但我似乎找不到了。 import pandas as pd import numpy as np pd.set_option('display.max_rows', 100000) pd.set_option('displ ..
发布时间:2022-04-14 17:38:46 Python

R聚类分析病房自动删除离群值

如何在R中编码以复制在SAS中执行的聚类分析 METHOD=WARD和TRIM=10选项自动删除10%的病例作为异常值?(此数据集有45个变量,每个变量都有一些异常值响应。) 当我使用Ward的方法搜索R聚类分析时,TRIM选项被描述为缩短名称而不是删除异常值。 如果我在聚类分析之前不修剪数据集,就会出现一个大的集群,其中有许多代表离群索居的个体的单一案例“集群”。随着10%的案例自动 ..
发布时间:2022-03-22 11:50:21 其他开发

识别PANDA的统计异常值:按分组并将行减少到不同的数据帧中

我想了解如何识别数据帧组中的统计异常值。我需要按条件对行进行分组,然后将这些组减少到单个行中,然后在所有减少的行中查找离群值。 df = pd.DataFrame({'X0': {0: 1, 1: 1, 2: 1, 3: 1, 4: 0, 5: 1, 6: 1, 7: 1, 8: 0, 9: 1, 10: 0, 11: 1, 12: 0, 13: 1, 14: 1, 15: 1, 16: 0 ..

在R中的箱线图上标记异常值

我想将矩阵的每一列绘制为箱线图,然后将每个箱线图中的异常值标记为它们在矩阵中所属的行名.举个例子: vv=matrix(c(1,2,3,4,8,15,30),nrow=7,ncol=4,byrow=F)rownames(vv)=c("一","二","三","四","五","六","七")箱线图(vv) 我想将每个图中的异常值(在本例中为 30)标记为它所属的行名,因此在本例中 30 属于第 7 ..
发布时间:2022-01-25 23:08:56 其他开发

如何用R中的第5个和第95个百分位值替换异常值

我想将我相对较大的 R 数据集中的所有值替换为第 95 个百分位以上和第 5 个百分位以下的所有值,分别用这些百分位值替换.我的目标是避免简单地从数据中完全裁剪这些异常值. 任何建议都将不胜感激,我在其他任何地方都找不到有关如何执行此操作的任何信息. 解决方案 这样就可以了. fun ..
发布时间:2022-01-21 12:45:46 其他开发

如何使用隔离森林

我正在尝试检测数据集的异常值,我发现 sklearn 的 隔离森林.我无法理解如何使用它.我将我的训练数据放入其中,它返回一个带有 -1 和 1 值的向量. 谁能向我解释它是如何工作的并提供一个例子? 我怎么知道异常值是“真正的"异常值? 调整参数? 这是我的代码: clf = IsolationForest(max_samples=10000, random_state ..
发布时间:2021-12-25 14:55:22 AI人工智能

检测并排除 Pandas DataFrame 中的异常值

我有一个包含几列的 Pandas 数据框. 现在我知道某些行是基于某个列值的异常值. 例如 “Vol"列包含 12xx 附近的所有值,其中一个值为 4000(异常值). 现在我想排除那些像这样具有 Vol 列的行. 所以,本质上我需要在数据框上放置一个过滤器,以便我们选择特定列的值在平均值的 3 个标准偏差内的所有行. 实现这一目标的优雅方式是什么? 解决 ..
发布时间:2021-12-03 08:28:05 Python

如何检测 ArrayList 中的异常值

我正在想一些代码,让我可以搜索我的 ArrayList 并检测“好值"的共同范围之外的任何值. 示例:1001051021310422101 我如何编写代码来检测(在本例中)13 和 22 不在 100 左右的“良好值"范围内? 解决方案 有几个标准 用于检测异常值.最简单的,如Chauvenet 标准,使用从样本计算的均值和标准差确定值的“正常"范围.任何超出此范围的值都被视 ..
发布时间:2021-11-17 23:38:43 Java开发

删除两个时间序列中的相同异常值

我有一个关于从两个时间序列中消除异常值的问题.一个时间序列包括现货市场价格,另一个包括电力输出.这两个系列是从 2012 年到 2016 年,都是带有时间戳和值的 CSV 文件.例如功率输出:2012-01-01 00:00:00,2335.2152646951617 和价格:2012-01-01 00:00:00,17.2 因为现货市场价格波动很大,并且有很多异常值,我已经过滤掉了.对于第 ..
发布时间:2021-09-07 20:36:55 Python

Stata 在 svy 回归后确定有影响的观察结果

使用Stata svy命令时,如: svy:logistic 研究生年龄女性 i.math i.english 应该完成各种后续步骤.例如,寻找重要的异常值或高杠杆点.如果没有 'svy' 元素,以下命令将起作用: 预测 p预测标准,rsstand分散 stdres p, mlabel(snum) ylab(-4(2) 16) yline(0) 但是,当使用 svy 前言运行逻辑回归时,它 ..
发布时间:2021-09-01 19:07:57 其他开发

更改 R 数据集中所有列中 NA 的异常值

我是 R 的初学者,无法更改 R 数据集中所有列的异常值.我成功地使用 一次更改了一列 dataset$column[dataset$column %in% boxplot.stats(dataset$column)$out] 但是我有 21 列需要更改 NA 的异常值. 你会怎么做? 对于一个列范围,你会怎么做?具体列? 解决方案 您可以在列上使用 apply.示例: ..
发布时间:2021-08-30 18:46:36 其他开发

如何在 R 代码中使用异常值测试

作为数据分析工作流程的一部分,我想测试异常值,然后在有和没有这些异常值的情况下进行进一步计算. 我找到了异常值包,其中包含各种测试,但我不确定如何最好地将它们用于我的工作流程. 解决方案 我同意 Dirk 的观点,这很难.我建议先看看为什么你可能会有异常值.异常值只是有人认为可疑的数字,它不是具体的“坏"值,除非您能找到将其视为异常值的理由,否则您可能不得不忍受不确定性. 您没 ..
发布时间:2021-08-30 18:39:18 其他开发

如何在周期性或基于序列的数据上生成脉冲作为异常值,以通过异常值检测方法进行实验?

我想用 KM 方法已在此 论文.问题是我没有访问论文中的数据,但我有类似类型的数据,没有异常值,我需要以脉冲(顶部和底部)的形式人为/手动生成一些异常值,以便满足要求该论文成果如下图所示: 在最坏的情况下,我想知道我是否可以在脉冲或正弦函数的周期性完美序列上生成这样的东西,以应用于可用数据.到目前为止,我的实现仅限于这些post1、post2 和 Welch 但为了生成正确的异常值,我正在考 ..
发布时间:2021-07-16 20:41:06 Python

Python中的隔离森林

我目前正在使用 隔离检测数据集中的异常值森林在Python中,我没有完全理解scikit-learn文档中给出的示例和解释 是否可以使用 Isolation Forest 检测具有 258 行 10 列的数据集中的异常值? 我是否需要单独的数据集来训练模型?如果是,是否有必要让训练数据集没有异常值? 这是我的代码: rng = np.random.RandomState(42) ..
发布时间:2021-07-16 20:01:39 其他开发

如何从数据集中删除异常值

我有一些关于美貌与年龄的多元数据.年龄范围为 20-40 岁,间隔为 2(20、22、24....40),并且对于每条数据记录,他们被赋予一个年龄和 1-5 级的美貌评级.当我绘制这些数据的箱线图(X 轴为年龄,Y 轴为美貌评分)时,每个箱体的胡须外都绘制了一些异常值. 我想从数据框本身中删除这些异常值,但我不确定 R 如何计算其箱线图的异常值.下面是我的数据可能是什么样子的示例. 解 ..
发布时间:2021-06-30 19:50:17 其他开发