k-means相关内容

关于优化K-Means算法的更多问题

我想写一篇题为《K-Means聚类算法的优化版本》的论文。本文在此链接中:https://fedcsis.org/proceedings/2014/pliks/258.pdf。 这篇论文并不明显。我在Stackoverflow中看到@VPP Man被问到一些关于这方面问题(Optimizing K-means algorithm),但是因为我对此有额外的问题,所以我创建了新的问题页面。 我的 ..
发布时间:2022-08-15 09:05:55 AI人工智能

用R编写自己的KMeans算法

我正在尝试用R编写我自己的第一个KMeans算法。我在这个领域是新手,所以请不要因为我看不到明显的东西而评判我。 在当前状态下,该算法取两个向量x,y,计算每个数据点到簇中心的距离,并分配从其中心到数据点距离最小的簇。当分配没有变化,因此聚类中心没有变化时,算法停止。 # Sample data set.seed(100) xval ..
发布时间:2022-07-20 17:03:31 AI人工智能

如何执行K-medoid

我花了很长时间试图弄清楚如何(在纸上)执行K-medoids算法,但我不能理解如何开始和迭代。例如: 我有6个点、k、c1和c2之间的距离矩阵。 如果有人能教我如何在这个例子上执行K-medoid算法,我会很高兴的。如何开始和迭代? 谢谢 推荐答案 更多细节: 将K设置为所需的簇数,让我们使用2。 随机选择K个实体作为中间体m_1、m_2。让我们选择X_3(让 ..
发布时间:2022-07-01 20:10:34 AI人工智能

从word2vec模型获取距离矩阵和特征矩阵

我已经使用gensim为一个巨大的语料库生成了word2vec模型,我需要使用k均值聚类来对词汇表进行聚类,以满足我的需要: 余弦距离矩阵(字对字,因此矩阵的大小为字数x字数) 要素矩阵(字对要素,因此矩阵的大小是字数x要素数(200)) 对于特征矩阵,我尝试使用x=Model.wv,得到的对象类型为gensim.Models.keyedvetors.KeyedVectors,它比我 ..
发布时间:2022-04-25 21:31:31 Python

证明k-均值总是收敛的吗?

我了解k-Means算法的步骤。 然而,我不确定算法是否总是收敛?或者,观察结果是否总是可以从一个质心切换到另一个质心? 推荐答案 算法始终收敛(根据定义),但不一定收敛到全局最优。 算法可以从质心切换到质心,但这是算法的一个参数(precision或delta)。这有时被称为“循环”。算法在一段时间后循环通过质心。有两种解决方案(这两种方案都可以同时使用)。Precision参数, ..
发布时间:2022-04-25 20:50:12 其他开发

K均值簇中节点和质心之间的距离?

用于提取k均值群集中节点和质心之间距离的任何选项。 我对一个嵌入文本的数据集进行了KMeans聚类,我想知道每个集群中哪些节点远离质心,以便我可以检查各个节点的功能是否有所不同。 提前谢谢! 推荐答案 KMeans.transform()返回每个样本到群集中心的距离数组。 import numpy as np from sklearn.datasets import ..
发布时间:2022-04-25 20:42:12 其他开发

K-Means聚类-输出聚类包含相同数量的元素,但顺序不同[Python]

我遵循this tutorial对包含单个单词的列表执行K-Means聚类。这是一个基于板球的项目,所以我选择了K=3,这样以后我就可以将这三个群集区分为[击球,保龄球,防守]。但是,编译代码后,结果3个集群中的元素都相同,但顺序不同。我试着把最初的列表弄清楚,但也不能解决问题。附加下面的代码。 from sklearn.feature_extraction.text import Tfid ..
发布时间:2022-03-22 11:42:06 AI人工智能

使用PCA可视化群集结果(Python)

我有一个包含61行(用户)和26列的数据集,我使用k-means和其他算法对其进行聚类。 在对数据集进行规范化后,首先对其应用KMeans。 作为前一项任务,我在对此数据进行归一化并识别出10个群集后,对其运行k-means。 同时,我还尝试可视化这些集群,这就是我使用PCA来减少特性数量的原因。 我编写了以下代码: UserID Communication_dur Lifest ..
发布时间:2022-03-22 11:30:53 Python

将标签添加到集群

我是R的新手,我正在尝试基于行业对一些数据进行集群。我了解到K-Means不能处理因素和分类数据。我已经从我的数据集中删除了名为“行业”的因素--67个不同的观察值,但是我想在模型完成后为每个观察值分配一个标签。从本质上讲,我希望我的最终结果看起来像示例美国犯罪数据集。如有任何帮助,我们将不胜感激。 我的结果: 我的理想结果: 编码: library(tidyverse) ..
发布时间:2022-03-22 11:13:49 其他开发

如何在Python中使用K-Means聚类找到最优聚类数

我是集群算法的新手。我有一个包含200多部电影和100多个用户的电影数据集。所有用户都对至少一部电影进行了评分。值1表示好,0表示坏,如果批注器没有选择,则为空。 我想根据相似用户的评论对其进行聚类,因为将类似电影评为好的用户也可能会将未被同一群集中的任何用户评为好的电影评为好电影。我使用余弦相似性度量和k-均值聚类。CSV文件如下所示: UserID M1 ..

在k-均值聚类中,如何设置每个簇的最小观测数?

我正在尝试根据用户行为对一些产品进行集群。我最后看到的是具有非常不同观测数量的星团。 我已检查k-Means群集参数,但找不到控制每个群集的最小(或最大)观察数的参数。 例如,此处显示了观察值数量在不同群集之间的分布方式。 cluster_id num_observations 0 6 1 4 2 1 3 3 4 29 5 5 有关于如何处理此问题 ..

R kmeans 初始化

在R编程环境中,我目前使用的是kmeans算法的标准实现(类型:help(kmeans)).看来我无法初始化起始质心.我指定 kmeans 算法给我 4 个簇,我想传递起始质心的矢量坐标. 是否有 kmeans 的实现允许我传递初始质心坐标? 解决方案 是的.您提到的实现允许您指定起始位置.您通过 centers 参数传入它们 >dat ..
发布时间:2022-01-19 00:00:17 其他开发

如何对时间序列数据执行 K-means 聚类?

如何对时间序列数据进行 K 均值聚类?我理解当输入数据是一组点时这是如何工作的,但我不知道如何用 1XM 对时间序列进行聚类,其中 M 是数据长度.特别是,我不确定如何更新时间序列数据的集群平均值. 我有一组带标签的时间序列,我想使用 K-means 算法来检查我是否会得到类似的标签.我的 X 矩阵将是 N X M,其中 N 是时间序列的数量,M 是上面提到的数据长度. 有人知道怎么做 ..

sas中k-means聚类的截止点

所以我想在 SAS 中将我的数据分类为具有截止点的集群.我使用的方法是 k-means 聚类.(我不介意方法,只要它给我3组.) 我的聚类代码: proc fastclus data=maindat outseed=seeds1 maxcluster =3 maxiter=0;var 值残差;跑; 我的输出结果有问题.我希望将值的截止点包含在输出文件中.(我不想要 Resid 的截止点) ..
发布时间:2022-01-08 17:59:00 其他开发