R聚类分析病房自动删除离群值 [英] R cluster analysis Ward auto deleting outliers

查看:24
本文介绍了R聚类分析病房自动删除离群值的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

如何在R中编码以复制在SAS中执行的聚类分析 METHOD=WARD和TRIM=10选项自动删除10%的病例作为异常值?(此数据集有45个变量,每个变量都有一些异常值响应。)

当我使用Ward的方法搜索R聚类分析时,TRIM选项被描述为缩短名称而不是删除异常值。

如果我在聚类分析之前不修剪数据集,就会出现一个大的集群,其中有许多代表离群索居的个体的单一案例"集群"。随着10%的案例自动移除,出现了3到4个有意义的群集。变量和案例太多,我无法逐个删除异常值。

谢谢!

推荐答案

您尚未提供任何有关如何标识异常值的信息。假设最简单的情况是删除每个变量的顶部和底部5%的案例(即逐个变量),您可以使用quantile函数来完成此操作。

使用上面链接中的示例,您可以执行如下操作:

duration = faithful$eruptions
duration[duration <= quantile(duration,0.95) & duration > quantile(duration,0.05)]

这篇关于R聚类分析病房自动删除离群值的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆