k-means相关内容

PySpark 中的 KMeans 聚类

我有一个包含许多列的 spark 数据框“mydataframe".我试图仅在两列上运行 kmeans:纬度和经度(纬度和经度),将它们用作简单值).我想仅基于那 2 列提取 7 个集群,然后我想将集群分配附加到我的原始数据帧.我试过了: from numpy import array从数学导入 sqrt从 pyspark.mllib.clustering 导入 KMeans, KMeansMo ..

将距离矩阵传递给 sklearn 中的 k-means 聚类

根据 sklearn kmeans 文档,它说 k-means 需要一个 shape=(n_samples, n_features) 的矩阵.但是我提供了一个 shape=(n_samples,n_samples) 的距离矩阵,其中每个索引保存两个字符串之间的距离.时间序列已使用 SAX 表示转换为字符串. 当我用距离矩阵运行聚类时,它给出了很好的结果.这可能是什么原因?据我所知,K-med ..
发布时间:2021-10-26 18:46:28 Python

如何在多维数据上可视化 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法,并希望在聚类后可视化图.到目前为止,我做到了 from mnist import MNISTmndata = MNIST('数据集')X_train, y_train = mndata.load_training()#进行聚类k_means = cluster.KMeans(n_clusters=len(np.unique(y_train) ..
发布时间:2021-09-18 19:24:24 Python

应用 K 表示对 3 个暗数据进行聚类

我正在尝试在 (52,168,2) 维数据集上的 sklearn 中应用 k-means 聚类.正如预期的那样,它为估计器提供了维度错误,因为预期是 2D 数据.前进的道路应该是什么? 我在两个单独的文件中保存了一年的风力和负载数据,这两个文件的每一行中都有每周数据(一小时的分辨率).风和负载数据是相关的(即,第 1 周的风数据对应于第 2 周).我正在尝试应用 K 均值聚类来将操作时间从 ..
发布时间:2021-07-16 20:24:17 Python

'管道'对象没有属性 'get_feature_names'在 scikit-learn 中

我基本上是使用 mini_batch_kmeans 和 kmeans 算法对我的一些文档进行聚类.我只是按照教程是 scikit-learn 网站,其链接如下:http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 他们正在使用一些方法进行矢量化,其中之一是 HashingVectorizer.在 ..

如何在python中分别计算每个集群的Silhouette Score

您可以使用 1 行代码轻松提取轮廓分数,该代码对所有集群的分数求平均值,但是如何从 scikit 学习轮廓分数的实现中提取每个中间分数?我希望能够单独为每个集群提取相同的分数,而不仅仅是获得总分. metrics.silhouette_score(x, y, metric='euclidean') 解决方案 如果您的数据看起来像这样: num_clusters = 3X, y = data ..
发布时间:2021-07-16 20:08:03 Python

轮廓分数如何为负?

如果我们有一些数据点: 例如,我们使用k均值进行细分;产生的段是否不是每个点都最接近其各自簇的质心?如果是这样,那么当轮廓分数比较ai(到集群内点的平均距离)与bi(到集群外点的平均距离)进行比较时,怎么可能会出现分数为负或bi小于ai的情况呢?? 我可以看到,对于不同的分类算法,某些更复杂的分类算法可能会有所不同,或者某些点分配不正确.但是,这对于k均值是如何发生的? 解决方案 ..
发布时间:2021-05-28 19:32:42 其他开发

使用弯头法和K-均值聚类法找到最佳聚类数

我正在编写一个程序,需要对该程序对200多个300个元素的数组的数据集应用K-means聚类.有人可以给我提供代码解释的链接吗?1.通过肘法求k2.应用k均值方法并获得质心的数组 我自己搜索了上面的内容,但没有找到清楚的代码说明.P.s.我正在Google Colab上工作,因此,如果有相同的特定方法,请提出建议 我尝试了以下代码,但是,我不断收到以下错误- ----------- ..
发布时间:2021-05-12 20:04:04 Python

分组数据中的kmeans聚类

当前,我尝试在分组数据中查找聚类的中心.通过使用样本数据集和问题定义,我可以与每个组一起创建 kmeans 集群.但是,当涉及到给定组群的每个中心时,我都不知道如何获得它们. https://rdrr.io/cran/broom/man/kmeans_tidiers.html 获取示例数据来自(对添加 gr 列进行了少许修改)样本数据 库(dplyr)图书馆(扫帚)库(ggplot2)se ..
发布时间:2021-05-02 20:42:59 AI人工智能

Pyspark:在数据框的不同组上应用kmeans

使用Pyspark我想将kmeans分别应用于数据框的组,而不是一次应用于整个数据框.目前,我使用for循环在每个组上进行迭代,应用kmeans并将结果附加到另一个表.但是有很多小组会很费时间.任何人都可以帮助我吗?非常感谢! customer_list中的客户:temp_df = togroup.filter(col("customer_id")== customer)df = assembl ..
发布时间:2021-04-08 19:32:42 其他开发

如何将文本数据聚类成多列?

我想做一个k表示用具有“标题",“类型",“评论"和“摘要"列的书本文本数据进行聚类. 我想使用“标题"作为指示符或主键进行聚类,但是我不确定如何为此使用多列. 我知道我首先必须对数据进行矢量化,但是矢量化需要输入系列数据,而不是数据帧值.所以在这里,我又一次不知道如何使用所有列. 解决方案 您可以分别矢量化各列并连接结果. 只需确保进行稀疏连接即可. 但是,用k均 ..

混合数据时如何用K-means聚类方法处理分类数据?

我正在使用k均值方法根据建筑物的能耗,面积(以平方米为单位)和所在位置的气候区对它们进行聚类.气候区是一个类别变量.值可以是A,B,C或D.应将其转换为数字1,因此有两个选择.首先是LabelEncoder,其次是get_dummies.当我使用它们时,结果是完全不同的.我想问哪种方法更正确使用? 我猜是因为"get_dummies"为每个分类变量创建了更多维度,因此应该为分类变量赋予更多决 ..
发布时间:2021-02-15 19:03:33 Python

如何解释聚类结果?

说我有一个高维数据集,我认为它可以通过某种聚类算法很好地分离.然后我运行该算法,最后得到我的集群. 是否存在某种方式(最好不是"hacky"或某种启发式)来解释“哪些特征和阈值对于使集群A的成员(例如)成为集群A的一部分很重要?" 我尝试查看聚类质心,但是对于高维数据集来说这很繁琐. 我还尝试将决策树拟合到我的集群,然后查看树以确定给定集群的大多数成员遵循的决策路径.我还尝试过将 ..
发布时间:2021-02-15 19:03:27 Python