R聚类分析病房自动删除离群值 [英] R cluster analysis Ward auto deleting outliers
本文介绍了R聚类分析病房自动删除离群值的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
当我使用Ward的方法搜索R聚类分析时,TRIM选项被描述为缩短名称而不是删除异常值。
如果我在聚类分析之前不修剪数据集,就会出现一个大的集群,其中有许多代表离群索居的个体的单一案例"集群"。随着10%的案例自动移除,出现了3到4个有意义的群集。变量和案例太多,我无法逐个删除异常值。
谢谢!
推荐答案
您尚未提供任何有关如何标识异常值的信息。假设最简单的情况是删除每个变量的顶部和底部5%的案例(即逐个变量),您可以使用quantile
函数来完成此操作。
使用上面链接中的示例,您可以执行如下操作:
duration = faithful$eruptions
duration[duration <= quantile(duration,0.95) & duration > quantile(duration,0.05)]
这篇关于R聚类分析病房自动删除离群值的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文