cluster-analysis相关内容
我有一个距离/差异矩阵(3万行30K列),该矩阵是循环计算并存储在ROM中的. 我想对矩阵进行聚类.我将其导入并聚类如下: Mydata
..
已给我2个数据集,并希望使用KNIME对这些数据集进行聚类分析. 完成聚类后,我希望对两种不同的聚类算法进行性能比较. 关于聚类算法的性能分析,这是时间的度量(算法时间复杂度和执行数据聚类所需的时间等)还是聚类输出的有效性?(或两者都有) 还有其他角度来确定聚类算法的性能(或缺乏性能)吗? 在此先感谢 T 解决方案 这在很大程度上取决于您可用的数据. 衡
..
我有超过40万辆汽车的GPS位置,例如: [25.41452217,37.94879532],[25.33231735,37.93455887],[25.44327736,37.96868896],... 我需要对点之间的距离
..
我使用R中的 cluster 包进行分层聚类.使用 silhouette 函数,可以获得任何给定高度(h)的聚类输出的轮廓图.树状图中的截止点. #运行分层聚类if(!require("cluster")){install.packages("cluster");require("cluster")}tmp
..
我有一个散点图,其中我在绘制14个聚类,但是每个2个聚类属于同一类,它们都使用相同的标记.每50行是一个群集,每100行是两个相同类的群集.我想做的是每2个群集或100行更改标记. 数据框链接 将pandas导入为pd将numpy导入为np从matplotlib导入pyplot作为plt从matplotlib.pyplot导入图中y = [0,0,0,0,0,0,0,0,0,0,0,0,0
..
我有10-20k个不同的时间序列(24维数据-一天中的每个小时的一列)之间的某个地方,我对聚类的时间序列表现出大致相同的活动模式感兴趣. 我最初开始实施动态时间规整(DTW),原因是: 并非我所有的时间序列都完全对齐 出于我的目的,两个略有偏移的时间序列应被视为相似 形状相同但比例不同的两个时间序列应被视为相似 我对DTW遇到的唯一问题是,它似乎无法很好地扩展-在500x50
..
我正在尝试使用内核密度估计器(KDE)进行过滤(以消除异常值和噪声).我在3D(d = 3)数据点中应用了KDE,这给了我概率密度函数(PDF)f(x).现在我们知道密度估计的局部最大值f(x)定义了数据点簇的中心.因此,我的想法是定义适当的f(x)来确定这些簇. 我的问题是,哪种方法以及哪种方法更适合于在f(x)中找到局部最大值的目的.如果有人可以提供一些示例代码/想法,我将不胜感激.
..
我运行了opencv中内置的人脸检测算法,以提取视频(以1 fps采样)的每一帧中的人脸.我还将每个脸部图像的大小调整为相同大小,并裁剪了一部分图像以消除背景噪音和头发.现在的问题是,我必须将这些面部图像聚类-每个聚类对应一个人.我实现了此处描述的算法 http://bitsearch.blogspot.in/2013/02/unsupervised-face-clustering-with-op
..
如何在DBSCAN中绘制给定的最小点值的距离图(在python中)? 我正在寻找膝盖和相应的epsilon值. 在sklearn中,我看不到任何返回此距离的方法....我缺少什么吗? 解决方案 您可能希望使用numpy提供的矩阵运算来加快距离矩阵的计算速度. def k_distances2(x,k):dim0 = x.shape [0]dim1 = x.shape [1]
..
我的目标是在包含许多几乎重复的点的数据集中找到离群值,并且我想使用DBSCAN的ELKI实现来完成此任务. 由于我不关心集群本身而是异常值(我认为离群值相对较远),所以我想通过在网格上聚集/合并点并使用scikit中实现的概念来加快运行时间-以
..
我试图弄清楚如何轻松地访问和操作在R中创建的图形. 如果我从以下数据开始.我创建一个图形,运行一些图形聚类,然后绘制第一个聚类: #libraries图书馆(igraph)图书馆(igraphdata)数据(空手道)#簇cfg
..
我有如下数据: https://imgur.com/a/1hOsFpF 第一个数据集是标准格式的数据集,其中包含人员及其财务状况的列表. 第二数据集包含“关系".在这些人之间-他们互相付了多少钱,以及他们互相欠了多少钱. 我有兴趣学习有关基于网络和图的群集的更多信息-但我试图更好地了解哪种类型的情况需要基于网络的群集,即我不想在不需要的情况下使用图群集(避免使用“方钉圆孔"类型情
..
我正在学习有关"kohonen"的信息,R中的软件包,用于制作自组织映射(SOM,也称为Kohonen Networks-一种机器学习算法).我在这里关注该R语言教程: https://www.rpubs.com/loveb/som 我试图创建自己的数据(这次同时使用"factor"和"numeric"变量)并运行SOM算法(这次使用"supersom()"函数): #load库并调整颜
..
我正在此处关注本教程: https://www.rpubs.com/loveb/som.本教程说明如何在虹膜数据上使用Kohonen网络(也称为SOM,一种机器学习算法). 我从教程中运行了这段代码: library(kohonen)#fitting SOM库(ggplot2)#图库(GGally)#图使用预定义的调色板的library(RColorBrewer)#colorsiris_
..
我正在pyspark中尝试集群模型.我正在尝试获取适合不同K值的聚类的均方成本 def meanScore(k,df):inputCol = df.columns [:38]汇编程序= VectorAssembler(inputCols = inputCols,outputCol =“功能")kmeans = KMeans().setK(k)pipeModel2 =管道(阶段= [汇编器,km
..
我正在寻找一种解决以下问题的有效算法: 给出2D空间中的一组点,其中每个点由其X和Y坐标定义.需要将此点集划分为一组簇,以便如果两个任意点之间的距离小于某个阈值,则这些点必须属于同一簇: 朴素的算法可能看起来像这样: 让 R 为群集的结果列表,最初为空 让 P 为点列表,最初包含所有点 从 P 中选择随机点,并创建仅包含此点的群集 C .从 P 删除此点对于 P 中的每个点
..
我正在尝试使用levenshtein距离使用kmeans聚类.我很难插拔结果. # courtesy: code is borrowed from the other thread listed below with some additions of k-means clustering set.seed(1) rstr
..
我想做一个k表示用具有“标题",“类型",“评论"和“摘要"列的书本文本数据进行聚类. 我想使用“标题"作为指示符或主键进行聚类,但是我不确定如何为此使用多列. 我知道我首先必须对数据进行矢量化,但是矢量化需要输入系列数据,而不是数据帧值.所以在这里,我又一次不知道如何使用所有列. 解决方案 您可以分别矢量化各列并连接结果. 只需确保进行稀疏连接即可. 但是,用k均
..
我正在使用k均值方法根据建筑物的能耗,面积(以平方米为单位)和所在位置的气候区对它们进行聚类.气候区是一个类别变量.值可以是A,B,C或D.应将其转换为数字1,因此有两个选择.首先是LabelEncoder,其次是get_dummies.当我使用它们时,结果是完全不同的.我想问哪种方法更正确使用? 我猜是因为"get_dummies"为每个分类变量创建了更多维度,因此应该为分类变量赋予更多决
..
说我有一个高维数据集,我认为它可以通过某种聚类算法很好地分离.然后我运行该算法,最后得到我的集群. 是否存在某种方式(最好不是"hacky"或某种启发式)来解释“哪些特征和阈值对于使集群A的成员(例如)成为集群A的一部分很重要?" 我尝试查看聚类质心,但是对于高维数据集来说这很繁琐. 我还尝试将决策树拟合到我的集群,然后查看树以确定给定集群的大多数成员遵循的决策路径.我还尝试过将
..