outliers相关内容
我目前正在尝试以一种非常简单的方式删除R中的离群值。我知道你可以自己创建一些函数,但我想要一些关于这个简单代码的输入,以及为什么它看起来不起作用? outliers
..
在boxplot中,我设置了选项outline=FALSE以删除离群值。 现在我想将points显示平均值的points包括在框图中。显然,使用mean计算的平均值包括离群值。 如何从数据框中删除完全相同的异常值,以使计算的平均值与箱图中显示的数据相对应? 我知道如何删除异常值,但是outline中的outline选项在内部使用哪些设置?遗憾的是,该手册没有做出任何澄清。 推荐答案
..
我正在处理一个非常大的文件,需要为每列消除不同的离群值。 我已经能够找到离群值并用NaN替换它们,然而,它正在将整个行变成NaN。我肯定我错过了一些简单的东西,但我似乎找不到了。 import pandas as pd import numpy as np pd.set_option('display.max_rows', 100000) pd.set_option('displ
..
如何在R中编码以复制在SAS中执行的聚类分析 METHOD=WARD和TRIM=10选项自动删除10%的病例作为异常值?(此数据集有45个变量,每个变量都有一些异常值响应。) 当我使用Ward的方法搜索R聚类分析时,TRIM选项被描述为缩短名称而不是删除异常值。 如果我在聚类分析之前不修剪数据集,就会出现一个大的集群,其中有许多代表离群索居的个体的单一案例“集群”。随着10%的案例自动
..
我想了解如何识别数据帧组中的统计异常值。我需要按条件对行进行分组,然后将这些组减少到单个行中,然后在所有减少的行中查找离群值。 df = pd.DataFrame({'X0': {0: 1, 1: 1, 2: 1, 3: 1, 4: 0, 5: 1, 6: 1, 7: 1, 8: 0, 9: 1, 10: 0, 11: 1, 12: 0, 13: 1, 14: 1, 15: 1, 16: 0
..
我想将矩阵的每一列绘制为箱线图,然后将每个箱线图中的异常值标记为它们在矩阵中所属的行名.举个例子: vv=matrix(c(1,2,3,4,8,15,30),nrow=7,ncol=4,byrow=F)rownames(vv)=c("一","二","三","四","五","六","七")箱线图(vv) 我想将每个图中的异常值(在本例中为 30)标记为它所属的行名,因此在本例中 30 属于第 7
..
我想在 MATLAB 中使用 LibSVM 进行一类分类. 我想训练数据并使用交叉验证,但我不知道如何标记异常值. 例如,如果我有这些数据: trainData = [1,1,1;1,1,2;1,1,1.5;1,1.5,1;20,2,3;2,20,2;2,20,5;20,2,2];labelTrainData = [-1 -1 -1 -1 0 0 0 0]; (前四个是1类的例子,
..
我正在尝试从这个嵌套数据集中删除异常值 df_join# 一个小标题:12 x 2# 组:信号 [12]信号数据1 P3FCz 2 P3Cz 3 P3Pz 4 LPPearlyFCz5 LPPearlyCz 6
..
我想将我相对较大的 R 数据集中的所有值替换为第 95 个百分位以上和第 5 个百分位以下的所有值,分别用这些百分位值替换.我的目标是避免简单地从数据中完全裁剪这些异常值. 任何建议都将不胜感激,我在其他任何地方都找不到有关如何执行此操作的任何信息. 解决方案 这样就可以了. fun
..
我正在尝试检测数据集的异常值,我发现 sklearn 的 隔离森林.我无法理解如何使用它.我将我的训练数据放入其中,它返回一个带有 -1 和 1 值的向量. 谁能向我解释它是如何工作的并提供一个例子? 我怎么知道异常值是“真正的"异常值? 调整参数? 这是我的代码: clf = IsolationForest(max_samples=10000, random_state
..
我有一个包含几列的 Pandas 数据框. 现在我知道某些行是基于某个列值的异常值. 例如 “Vol"列包含 12xx 附近的所有值,其中一个值为 4000(异常值). 现在我想排除那些像这样具有 Vol 列的行. 所以,本质上我需要在数据框上放置一个过滤器,以便我们选择特定列的值在平均值的 3 个标准偏差内的所有行. 实现这一目标的优雅方式是什么? 解决
..
我正在想一些代码,让我可以搜索我的 ArrayList 并检测“好值"的共同范围之外的任何值. 示例:1001051021310422101 我如何编写代码来检测(在本例中)13 和 22 不在 100 左右的“良好值"范围内? 解决方案 有几个标准 用于检测异常值.最简单的,如Chauvenet 标准,使用从样本计算的均值和标准差确定值的“正常"范围.任何超出此范围的值都被视
..
我有一个关于从两个时间序列中消除异常值的问题.一个时间序列包括现货市场价格,另一个包括电力输出.这两个系列是从 2012 年到 2016 年,都是带有时间戳和值的 CSV 文件.例如功率输出:2012-01-01 00:00:00,2335.2152646951617 和价格:2012-01-01 00:00:00,17.2 因为现货市场价格波动很大,并且有很多异常值,我已经过滤掉了.对于第
..
我正在尝试使用 tsoutliers 包在时间序列中查找异常值. 我使用的是经典的 Nile 数据集(您可以在这里找到:https://vincentarelbundock.github.io/Rdatasets/datasets.html) 并且我没有成功地让 tso() 函数工作. 我的代码是: nile.outliers
..
使用Stata svy命令时,如: svy:logistic 研究生年龄女性 i.math i.english 应该完成各种后续步骤.例如,寻找重要的异常值或高杠杆点.如果没有 'svy' 元素,以下命令将起作用: 预测 p预测标准,rsstand分散 stdres p, mlabel(snum) ylab(-4(2) 16) yline(0) 但是,当使用 svy 前言运行逻辑回归时,它
..
我是 R 的初学者,无法更改 R 数据集中所有列的异常值.我成功地使用 一次更改了一列 dataset$column[dataset$column %in% boxplot.stats(dataset$column)$out] 但是我有 21 列需要更改 NA 的异常值. 你会怎么做? 对于一个列范围,你会怎么做?具体列? 解决方案 您可以在列上使用 apply.示例:
..
作为数据分析工作流程的一部分,我想测试异常值,然后在有和没有这些异常值的情况下进行进一步计算. 我找到了异常值包,其中包含各种测试,但我不确定如何最好地将它们用于我的工作流程. 解决方案 我同意 Dirk 的观点,这很难.我建议先看看为什么你可能会有异常值.异常值只是有人认为可疑的数字,它不是具体的“坏"值,除非您能找到将其视为异常值的理由,否则您可能不得不忍受不确定性. 您没
..
我想用 KM 方法已在此 论文.问题是我没有访问论文中的数据,但我有类似类型的数据,没有异常值,我需要以脉冲(顶部和底部)的形式人为/手动生成一些异常值,以便满足要求该论文成果如下图所示: 在最坏的情况下,我想知道我是否可以在脉冲或正弦函数的周期性完美序列上生成这样的东西,以应用于可用数据.到目前为止,我的实现仅限于这些post1、post2 和 Welch 但为了生成正确的异常值,我正在考
..
我目前正在使用 隔离检测数据集中的异常值森林在Python中,我没有完全理解scikit-learn文档中给出的示例和解释 是否可以使用 Isolation Forest 检测具有 258 行 10 列的数据集中的异常值? 我是否需要单独的数据集来训练模型?如果是,是否有必要让训练数据集没有异常值? 这是我的代码: rng = np.random.RandomState(42)
..
我有一些关于美貌与年龄的多元数据.年龄范围为 20-40 岁,间隔为 2(20、22、24....40),并且对于每条数据记录,他们被赋予一个年龄和 1-5 级的美貌评级.当我绘制这些数据的箱线图(X 轴为年龄,Y 轴为美貌评分)时,每个箱体的胡须外都绘制了一些异常值. 我想从数据框本身中删除这些异常值,但我不确定 R 如何计算其箱线图的异常值.下面是我的数据可能是什么样子的示例. 解
..