cluster-analysis相关内容

Matlab:K-means 聚类

我有一个 A(369x10) 矩阵,我想将它分成 19 个簇.我用这个方法 [idx ctrs]=kmeans(A,19) 产生idx(369x1) 和 ctrs(19x10) 我明白了这一点.我在 A 中的所有行都聚集在 19 个集群中. 现在我有一个数组 B(49x10).我想知道这个 B 的行在给定的 19 个簇中对应的位置. 在 MATLAB 中怎么可能? 提前 ..
发布时间:2021-12-14 09:42:40 AI人工智能

在 R 中聚类非常大的数据集

我有一个由 70,000 个数值组成的数据集,代表从 0 到 50 的距离,我想对这些数字进行聚类;但是,如果我正在尝试经典的聚类方法,那么我将不得不建立一个 70,000X70,000 的距离矩阵来表示我的数据集中每两个数字之间的距离,这不适合内存,所以我想知道是否有有什么聪明的方法可以解决这个问题而无需进行分层抽样?我也在 R 中尝试过 bigmemory 和 big analytics 库, ..

如何实现 K-Means++ 算法?

我无法完全理解 K-Means++ 算法.我对第一个 k 质心是如何选择的很感兴趣,即初始化,其余的就像原始 K 均值算法. 使用的概率函数是基于距离还是基于高斯? 同时选择距离最远的点(来自其他质心)作为新质心. 我将欣赏一步一步的解释和一个例子.维基百科中的那个不够清楚.此外,一个非常好的注释源代码也会有所帮助.如果您使用的是 6 个数组,请告诉我们哪个是用于什么的. 解决 ..

数据挖掘中分类和聚类的区别?

谁能解释一下数据挖掘中分类和聚类的区别? 如果可以,请举出两者的例子来理解主要思想. 解决方案 通常,在分类中,您有一组预定义的类,并且想知道新对象属于哪个类. 聚类尝试对一组对象进行分组,并找出这些对象之间是否存在某些关系. 在机器学习的上下文中,分类是监督学习聚类是无监督学习. 另请参阅分类和聚类. ..

绘图导致“错误:维度数不正确"

我正在了解“kohonen"用于制作自组织映射(SOM,也称为 Kohonen 网络 - 一种机器学习算法)的 R 包.我在这里关注这个 R 语言教程:https://www.rpubs.com/loveb/som 我尝试创建自己的数据(这次同时使用“因子"和“数字"变量)并运行 SOM 算法(这次使用“supersom()"函数代替): #加载库并调整颜色图书馆(kohonen)#fit ..

如何在 scikit learn 中使用核密度估计作为一维聚类方法?

我需要将一个简单的单变量数据集聚类为预设数量的聚类.从技术上讲,它更接近于对数据进行分箱或排序,因为它只是一维数据,但我的老板称其为聚类,所以我将坚持使用这个名称.我使用的系统当前使用的方法是 K-means,但这似乎有点过分. 是否有更好的方法来执行此任务? 其他一些帖子的答案提到了 KDE(核密度估计),但那是一种密度估计方法,它是如何工作的? 我看到 KDE 如何返回密度, ..

Scikit Learn GridSearchCV 无需交叉验证(无监督学习)

是否可以在没有交叉验证的情况下使用 GridSearchCV?我正在尝试通过网格搜索优化 KMeans 聚类中的聚类数量,因此我不需要也不想要交叉验证. 文档 也让我感到困惑,因为在fit() 方法,它有一个无监督学习的选项(说对无监督学习使用 None).但是如果你想做无监督学习,你需要在没有交叉验证的情况下进行,而且似乎没有办法摆脱交叉验证. 解决方案 经过多方搜索,我找到了 这 ..

通过它们在 python 中的接近度对值进行聚类(机器学习?)

我有一个在一组对象上运行的算法.该算法产生一个分值,指示集合中元素之间的差异. 排序后的输出是这样的: [1,1,5,6,1,5,10,22,23,23,50,51,51,52,100,112,130,500,512,600,12000,12230] 如果您将这些值放在电子表格上,您会发现它们构成了组 [1,1,5,6,1,5] [10,22,23,23] [50,51,5 ..

是否可以使用 scikit-learn K-Means Clustering 指定您自己的距离函数?

是否可以使用 scikit-learn K-Means Clustering 指定您自己的距离函数? 解决方案 这里有一个小的 kmeans,它使用 20 多个距离中的任何一个scipy.spatial.distance 或用户函数. 欢迎评论(到目前为止只有一个用户,还不够);特别是,您的 N、dim、k、度量是多少? #!/usr/bin/env python# kmeans.py ..

在python中的数据矩阵上绘制层次聚类的结果

如何在 Python 中正确重新排序以反映聚类的值矩阵顶部绘制树状图?一个例子如下图: https://publishing-cdn.elifesciences.org/07103/elife-07103-fig6-figsupp1-v2.jpg 我使用 scipy.cluster.dendrogram 制作我的树状图并对数据矩阵执行层次聚类.然后如何将数据绘制为矩阵,其中行已重新排序 ..

理解高斯混合模型的概念

我试图通过阅读在线资源来了解 GMM.我已经使用 K-Means 实现了聚类,并看到了 GMM 与 K-means 的比较. 以下是我的理解,如果我的概念有误,请告诉我: GMM 就像 KNN,在这两种情况下都实现了聚类.但是在 GMM 中,每个集群都有自己独立的均值和协方差.此外,k-means 将数据点硬分配给集群,而在 GMM 中,我们得到一组独立的高斯分布,并且对于每个数据点, ..

具有 Levenshtein 距离的文本聚类

我有一组 (2k - 4k) 的小字符串(3-6 个字符),我想对它们进行聚类.由于我使用字符串,集群(尤其是字符串集群)如何工作?a>,告诉我 Levenshtein distance 很适合用作字符串的距离函数.另外,由于我事先不知道集群的数量,层次聚类是要走的路而不是 k 均值. 虽然我以抽象的形式理解了这个问题,但我不知道实际解决问题的简单方法是什么.例如,MATLAB 或 R 是使 ..

在 Python 中使用 scikit-learn kmeans 聚类文本文档

我需要实现 scikit-learn 的 kMeans 用于聚类文本文档.示例代码 工作正常,但是将大约 20 个新闻组数据作为输入.我想使用相同的代码来聚类文档列表,如下所示: documents = [“实验室 abc 计算机应用的人机界面",《用户对计算机系统响应时间意见的调查》,《EPS用户界面管理系统》,《EPS的系统与人体系统工程测试》,“用户感知响应时间与错误测量的关系",《随机二 ..
发布时间:2021-12-08 12:33:57 Python

具有相同聚类大小的 K-means 算法变体

我正在寻找按距离将地图上的点分组为大小相同的组的最快算法.k-means 聚类算法看起来简单而有前途,但不会产生大小相等的组. 该算法是否有变体或允许所有集群的成员数量相等的不同算法? 另见:将 n 个点分组在 k 个相等的簇中尺寸 解决方案 这可能会奏效:apply Lloyd 算法 获得 k 个质心.按数组中相关簇的降序大小对质心进行排序.对于 i = 1 到 k-1,将簇 ..
发布时间:2021-12-06 20:17:09 其他开发

地图应用聚类算法

我正在研究地图上的聚类点(纬度/经度).是否有任何关于快速且可扩展的合适算法的建议? 更具体地说,我有一系列纬度/经度坐标和一个地图视口.我正在尝试将靠近的点聚集在一起以消除混乱. 我已经有了解决问题的方法(见这里),只是我想知道是否有任何正式的算法可以有效地解决问题. 解决方案 对于虚拟地球应用程序,我使用了所描述的集群此处.它闪电般快速且易于扩展. ..

具有未知簇数的无监督聚类

我有大量的 3 维向量.我需要根据欧几里德距离对这些进行聚类,以便任何特定集群中的所有向量彼此之间的欧几里德距离小于阈值“T". 我不知道有多少集群存在.最后,可能存在不属于任何集群的单个向量,因为其欧氏距离不小于空间中的任何向量的“T". 这里应该使用哪些现有的算法/方法? 解决方案 您可以使用层次聚类.这是一种相当基本的方法,因此有很多可用的实现.例如,它包含在 Pytho ..

计算 3D 平面的 Voronoi 图

是否有代码/库可以计算 3D 平面(平行四边形)的 Voronoi 图?我检查了 Qhull,它似乎只能处理点,在它的示例中,Voro++ 可以处理不同大小的球体,但我找不到多边形的任何内容. 在此图像中(3d 中的样本平面) 平行四边形是 3D 的,因为它们具有厚度,但在这种情况下,厚度将为零. 解决方案 Voronoi 单元不是平行四边形.您在这里对您发布的图片感到困惑.Voro ..
发布时间:2021-11-25 03:02:31 C#

计算 3D 平面的 Voronoi 图

是否有代码/库可以计算 3D 平面(平行四边形)的 Voronoi 图?我检查了 Qhull,它似乎只能处理点,在它的示例中,Voro++ 可以处理不同大小的球体,但我找不到多边形的任何内容. 在此图像中(3d 中的样本平面) 平行四边形是 3D 的,因为它们具有厚度,但在这种情况下,厚度将为零. 解决方案 Voronoi 单元不是平行四边形.您在这里对您发布的图片感到困惑.Voro ..
发布时间:2021-11-25 03:00:13 C#

3D聚类算法

问题陈述:我有以下问题: 3D 空间中有超过 10 亿个点.目标是找到在给定距离R内具有最多邻居数的前N个点.另一个条件是前N个点中任意两点之间的距离必须大于R.这些点的分布是不均匀的.空间的某些区域包含很多点是很常见的. 目标:寻找一种可以很好地扩展到许多处理器并且内存要求很小的算法. 想法:由于分布不均匀,正态空间分解不足以解决此类问题.均匀划分点数的不规则空间分解可能会帮助 ..
发布时间:2021-11-25 02:05:59 C#

一维数字数组聚类

假设我有一个这样的数组: [1,1,2,3,10,11,13,67,71] 有没有一种方便的方法可以将数组分割成这样的东西? [[1,1,2,3],[10,11,13],[67,71]] 我查看了类似的问题,但大多数人建议使用 k-means 对点进行聚类,例如 scipy,对于像我这样的初学者来说使用起来非常混乱.另外我认为 k-means 更适合二维或多维聚类,对吗?有没有什么方法可以 ..