cluster-analysis相关内容

聚类算法的性能分析

已给我2个数据集,并希望使用KNIME对这些数据集进行聚类分析. 完成聚类后,我希望对两种不同的聚类算法进行性能比较. 关于聚类算法的性能分析,这是时间的度量(算法时间复杂度和执行数据聚类所需的时间等)还是聚类输出的有效性?(或两者都有) 还有其他角度来确定聚类算法的性能(或缺乏性能)吗? 在此先感谢 T 解决方案 这在很大程度上取决于您可用的数据. 衡 ..

R聚类-带有观察标签的轮廓

我使用R中的 cluster 包进行分层聚类.使用 silhouette 函数,可以获得任何给定高度(h)的聚类输出的轮廓图.树状图中的截止点. #运行分层聚类if(!require("cluster")){install.packages("cluster");require("cluster")}tmp ..
发布时间:2021-04-22 19:42:56 其他开发

在散点图中为每个类别绘制不同的聚类标记

我有一个散点图,其中我在绘制14个聚类,但是每个2个聚类属于同一类,它们都使用相同的标记.每50行是一个群集,每100行是两个相同类的群集.我想做的是每2个群集或100行更改标记. 数据框链接 将pandas导入为pd将numpy导入为np从matplotlib导入pyplot作为plt从matplotlib.pyplot导入图中y = [0,0,0,0,0,0,0,0,0,0,0,0,0 ..
发布时间:2021-04-22 19:42:52 Python

聚类相似的时间序列?

我有10-20k个不同的时间序列(24维数据-一天中的每个小时的一列)之间的某个地方,我对聚类的时间序列表现出大致相同的活动模式感兴趣. 我最初开始实施动态时间规整(DTW),原因是: 并非我所有的时间序列都完全对齐 出于我的目的,两个略有偏移的时间序列应被视为相似 形状相同但比例不同的两个时间序列应被视为相似 我对DTW遇到的唯一问题是,它似乎无法很好地扩展-在500x50 ..

如何在内核密度估计中找到局部最大值?

我正在尝试使用内核密度估计器(KDE)进行过滤(以消除异常值和噪声).我在3D(d = 3)数据点中应用了KDE,这给了我概率密度函数(PDF)f(x).现在我们知道密度估计的局部最大值f(x)定义了数据点簇的中心.因此,我的想法是定义适当的f(x)来确定这些簇. 我的问题是,哪种方法以及哪种方法更适合于在f(x)中找到局部最大值的目的.如果有人可以提供一些示例代码/想法,我将不胜感激. ..

从视频中聚类人脸

我运行了opencv中内置的人脸检测算法,以提取视频(以1 fps采样)的每一帧中的人脸.我还将每个脸部图像的大小调整为相同大小,并裁剪了一部分图像以消除背景噪音和头发.现在的问题是,我必须将这些面部图像聚类-每个聚类对应一个人.我实现了此处描述的算法 http://bitsearch.blogspot.in/2013/02/unsupervised-face-clustering-with-op ..

如何在python中绘制k距离图

如何在DBSCAN中绘制给定的最小点值的距离图(在python中)? 我正在寻找膝盖和相应的epsilon值. 在sklearn中,我看不到任何返回此距离的方法....我缺少什么吗? 解决方案 您可能希望使用numpy提供的矩阵运算来加快距离矩阵的计算速度. def k_distances2(x,k):dim0 = x.shape [0]dim1 = x.shape [1] ..
发布时间:2021-04-22 19:42:39 Python

DBSCAN的ELKI实现中的sample_weight选项

我的目标是在包含许多几乎重复的点的数据集中找到离群值,并且我想使用DBSCAN的ELKI实现来完成此任务. 由于我不关心集群本身而是异常值(我认为离群值相对较远),所以我想通过在网格上聚集/合并点并使用scikit中实现的概念来加快运行时间-以 ..
发布时间:2021-04-22 19:42:34 其他开发

R:K表示聚类vs社区检测算法(加权相关网络)-我使这个问题过于复杂了吗?

我有如下数据: https://imgur.com/a/1hOsFpF 第一个数据集是标准格式的数据集,其中包含人员及其财务状况的列表. 第二数据集包含“关系".在这些人之间-他们互相付了多少钱,以及他们互相欠了多少钱. 我有兴趣学习有关基于网络和图的群集的更多信息-但我试图更好地了解哪种类型的情况需要基于网络的群集,即我不想在不需要的情况下使用图群集(避免使用“方钉圆孔"类型情 ..
发布时间:2021-04-22 19:42:27 其他开发

绘图导致“错误:尺寸错误".

我正在学习有关"kohonen"的信息,R中的软件包,用于制作自组织映射(SOM,也称为Kohonen Networks-一种机器学习算法).我在这里关注该R语言教程: https://www.rpubs.com/loveb/som 我试图创建自己的数据(这次同时使用"factor"和"numeric"变量)并运行SOM算法(这次使用"supersom()"函数): #load库并调整颜 ..

一种高效的算法,可按每两点之间的距离对聚类中的点进行分组

我正在寻找一种解决以下问题的有效算法: 给出2D空间中的一组点,其中每个点由其X和Y坐标定义.需要将此点集划分为一组簇,以便如果两个任意点之间的距离小于某个阈值,则这些点必须属于同一簇: 朴素的算法可能看起来像这样: 让 R 为群集的结果列表,最初为空 让 P 为点列表,最初包含所有点 从 P 中选择随机点,并创建仅包含此点的群集 C .从 P 删除此点对于 P 中的每个点 ..

如何将文本数据聚类成多列?

我想做一个k表示用具有“标题",“类型",“评论"和“摘要"列的书本文本数据进行聚类. 我想使用“标题"作为指示符或主键进行聚类,但是我不确定如何为此使用多列. 我知道我首先必须对数据进行矢量化,但是矢量化需要输入系列数据,而不是数据帧值.所以在这里,我又一次不知道如何使用所有列. 解决方案 您可以分别矢量化各列并连接结果. 只需确保进行稀疏连接即可. 但是,用k均 ..

混合数据时如何用K-means聚类方法处理分类数据?

我正在使用k均值方法根据建筑物的能耗,面积(以平方米为单位)和所在位置的气候区对它们进行聚类.气候区是一个类别变量.值可以是A,B,C或D.应将其转换为数字1,因此有两个选择.首先是LabelEncoder,其次是get_dummies.当我使用它们时,结果是完全不同的.我想问哪种方法更正确使用? 我猜是因为"get_dummies"为每个分类变量创建了更多维度,因此应该为分类变量赋予更多决 ..
发布时间:2021-02-15 19:03:33 Python

如何解释聚类结果?

说我有一个高维数据集,我认为它可以通过某种聚类算法很好地分离.然后我运行该算法,最后得到我的集群. 是否存在某种方式(最好不是"hacky"或某种启发式)来解释“哪些特征和阈值对于使集群A的成员(例如)成为集群A的一部分很重要?" 我尝试查看聚类质心,但是对于高维数据集来说这很繁琐. 我还尝试将决策树拟合到我的集群,然后查看树以确定给定集群的大多数成员遵循的决策路径.我还尝试过将 ..
发布时间:2021-02-15 19:03:27 Python