k-means 第4页 - IT屋-程序员软件开发技术分享社区

PySpark 中的 KMeans 聚类

我有一个包含许多列的 spark 数据框“mydataframe".我试图仅在两列上运行 kmeans:纬度和经度(纬度和经度)，将它们用作简单值).我想仅基于那 2 列提取 7 个集群，然后我想将集群分配附加到我的原始数据帧.我试过了: from numpy import array从数学导入 sqrt从 pyspark.mllib.clustering 导入 KMeans, KMeansMo ..

发布时间：2021-11-14 20:58:09 machine-learning pyspark k-means apache-spark-mllib apache-spark-ml AI人工智能

Spark 的 KMeans 无法处理大数据吗?

KMeans 的 training，初始化模式默认为 kmeans||.问题是它快速前进(不到 10 分钟)到前 13 个阶段，但随后完全挂起，没有产生错误！ Minimal Example 重现问题(如果我使用 1000 点或随机初始化它会成功): from pyspark.context import SparkContext从 pyspark.mllib.clustering 导入 ..

发布时间：2021-11-14 20:57:00 python apache-spark k-means apache-spark-mllib bigdata Python

Spark 的 KMeans 无法处理大数据吗?

KMeans 的 training，初始化模式默认为 kmeans||.问题是它快速前进(不到 10 分钟)到前 13 个阶段，但随后完全挂起，没有产生错误！ Minimal Example 重现问题(如果我使用 1000 点或随机初始化它会成功): from pyspark.context import SparkContext从 pyspark.mllib.clustering 导入 ..

发布时间：2021-11-12 05:38:57 python apache-spark k-means apache-spark-mllib bigdata Python

将距离矩阵传递给 sklearn 中的 k-means 聚类

根据 sklearn kmeans 文档，它说 k-means 需要一个 shape=(n_samples, n_features) 的矩阵.但是我提供了一个 shape=(n_samples,n_samples) 的距离矩阵，其中每个索引保存两个字符串之间的距离.时间序列已使用 SAX 表示转换为字符串. 当我用距离矩阵运行聚类时，它给出了很好的结果.这可能是什么原因?据我所知，K-med ..

发布时间：2021-10-26 18:46:28 python algorithm cluster-analysis k-means Python

如何在多维数据上可视化 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法，并希望在聚类后可视化图.到目前为止，我做到了 from mnist import MNISTmndata = MNIST('数据集')X_train, y_train = mndata.load_training()#进行聚类k_means = cluster.KMeans(n_clusters=len(np.unique(y_train) ..

发布时间：2021-09-18 19:24:24 python visualization k-means Python

应用 K 表示对 3 个暗数据进行聚类

我正在尝试在 (52,168,2) 维数据集上的 sklearn 中应用 k-means 聚类.正如预期的那样，它为估计器提供了维度错误，因为预期是 2D 数据.前进的道路应该是什么? 我在两个单独的文件中保存了一年的风力和负载数据，这两个文件的每一行中都有每周数据(一小时的分辨率).风和负载数据是相关的(即，第 1 周的风数据对应于第 2 周).我正在尝试应用 K 均值聚类来将操作时间从 ..

发布时间：2021-07-16 20:24:17 python scikit-learn k-means Python

'管道'对象没有属性 'get_feature_names'在 scikit-learn 中

我基本上是使用 mini_batch_kmeans 和 kmeans 算法对我的一些文档进行聚类.我只是按照教程是 scikit-learn 网站，其链接如下:http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 他们正在使用一些方法进行矢量化，其中之一是 HashingVectorizer.在 ..

发布时间：2021-07-16 20:09:42 machine-learning scikit-learn cluster-analysis k-means AI人工智能

“管道"对象在 scikit-learn 中没有属性“get_feature_names"

我基本上是使用 mini_batch_kmeans 和 kmeans 算法对我的一些文档进行聚类.我只是按照教程是 scikit-learn 网站，其链接如下:http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 他们正在使用一些方法进行矢量化，其中之一是 HashingVectorizer.在 ..

发布时间：2021-07-16 20:08:52 machine-learning scikit-learn cluster-analysis k-means AI人工智能

如何在python中分别计算每个集群的Silhouette Score

您可以使用 1 行代码轻松提取轮廓分数，该代码对所有集群的分数求平均值，但是如何从 scikit 学习轮廓分数的实现中提取每个中间分数?我希望能够单独为每个集群提取相同的分数，而不仅仅是获得总分. metrics.silhouette_score(x, y, metric='euclidean') 解决方案如果您的数据看起来像这样: num_clusters = 3X, y = data ..

发布时间：2021-07-16 20:08:03 python python-3.x scikit-learn cluster-analysis k-means Python

轮廓分数如何为负?

如果我们有一些数据点: 例如，我们使用k均值进行细分；产生的段是否不是每个点都最接近其各自簇的质心?如果是这样，那么当轮廓分数比较ai(到集群内点的平均距离)与bi(到集群外点的平均距离)进行比较时，怎么可能会出现分数为负或bi小于ai的情况呢?? 我可以看到，对于不同的分类算法，某些更复杂的分类算法可能会有所不同，或者某些点分配不正确.但是，这对于k均值是如何发生的? 解决方案 ..

发布时间：2021-05-28 19:32:42 k-means silhouette 其他开发

如何运行多个k意味着在pyspark中集群并使用groupBy

我有一个像这样的数据集: | Seq_key || Class_id ||值|Seq_key 1 Class_id 1值1Seq_key 1 Class_id 2值2Seq_key 1 Class_id 3值3Seq_key 1 Class_id 4值4Seq_key 1 Class_id 5值5Seq_key 1 Class_id 6值6Seq_key 2 Class_id 1值1Seq_k ..

发布时间：2021-05-14 18:52:55 apache-spark pyspark k-means hierarchical-clustering 其他开发

使用弯头法和K-均值聚类法找到最佳聚类数

我正在编写一个程序，需要对该程序对200多个300个元素的数组的数据集应用K-means聚类.有人可以给我提供代码解释的链接吗?1.通过肘法求k2.应用k均值方法并获得质心的数组我自己搜索了上面的内容，但没有找到清楚的代码说明.P.s.我正在Google Colab上工作，因此，如果有相同的特定方法，请提出建议我尝试了以下代码，但是，我不断收到以下错误- ----------- ..

发布时间：2021-05-12 20:04:04 python google-colaboratory k-means Python

分组数据中的kmeans聚类

当前，我尝试在分组数据中查找聚类的中心.通过使用样本数据集和问题定义，我可以与每个组一起创建 kmeans 集群.但是，当涉及到给定组群的每个中心时，我都不知道如何获得它们. https://rdrr.io/cran/broom/man/kmeans_tidiers.html 获取示例数据来自(对添加 gr 列进行了少许修改)样本数据库(dplyr)图书馆(扫帚)库(ggplot2)se ..

发布时间：2021-05-02 20:42:59 r machine-learning dplyr k-means AI人工智能

'KMeansModel'对象在apache pyspark中没有属性'computeCost'

我正在pyspark中尝试集群模型.我正在尝试获取适合不同K值的聚类的均方成本 def meanScore(k，df):inputCol = df.columns [:38]汇编程序= VectorAssembler(inputCols = inputCols，outputCol =“功能")kmeans = KMeans().setK(k)pipeModel2 =管道(阶段= [汇编器，km ..

发布时间：2021-04-08 20:05:45 python apache-spark pyspark cluster-analysis k-means Python

Pyspark:在数据框的不同组上应用kmeans

使用Pyspark我想将kmeans分别应用于数据框的组，而不是一次应用于整个数据框.目前，我使用for循环在每个组上进行迭代，应用kmeans并将结果附加到另一个表.但是有很多小组会很费时间.任何人都可以帮助我吗?非常感谢！ customer_list中的客户:temp_df = togroup.filter(col("customer_id")== customer)df = assembl ..

发布时间：2021-04-08 19:32:42 apache-spark group-by pyspark k-means 其他开发

R levenshtein距离中的聚类

我正在尝试使用levenshtein距离使用kmeans聚类.我很难插拔结果. # courtesy: code is borrowed from the other thread listed below with some additions of k-means clustering set.seed(1) rstr ..

发布时间：2021-02-15 19:03:39 r cluster-analysis k-means levenshtein-distance unsupervised-learning 其他开发

如何将文本数据聚类成多列?

我想做一个k表示用具有“标题"，“类型"，“评论"和“摘要"列的书本文本数据进行聚类. 我想使用“标题"作为指示符或主键进行聚类，但是我不确定如何为此使用多列. 我知道我首先必须对数据进行矢量化，但是矢量化需要输入系列数据，而不是数据帧值.所以在这里，我又一次不知道如何使用所有列. 解决方案您可以分别矢量化各列并连接结果. 只需确保进行稀疏连接即可. 但是，用k均 ..

发布时间：2021-02-15 19:03:36 cluster-analysis k-means data-science tfidfvectorizer 其他开发

混合数据时如何用K-means聚类方法处理分类数据?

我正在使用k均值方法根据建筑物的能耗，面积(以平方米为单位)和所在位置的气候区对它们进行聚类.气候区是一个类别变量.值可以是A，B，C或D.应将其转换为数字1，因此有两个选择.首先是LabelEncoder，其次是get_dummies.当我使用它们时，结果是完全不同的.我想问哪种方法更正确使用? 我猜是因为"get_dummies"为每个分类变量创建了更多维度，因此应该为分类变量赋予更多决 ..

发布时间：2021-02-15 19:03:33 python scikit-learn cluster-analysis k-means categorical-data Python

ValueError:具有多个元素的数组的真值不明确.使用a.any()或a.all():轮廓表现算法

我在python中实现了kmeans算法，并试图计算剪影的性能各种k值的簇的集合. 这是数据集中一小部分的几个变量. def avgdist(pt, clust): dists = [] for elem in clust: dists.append(np.linalg.norm(pt-elem)) return np.mean(dists) def ..

发布时间：2021-02-15 19:03:30 python python-3.x numpy k-means silhouette Python

如何解释聚类结果?

说我有一个高维数据集，我认为它可以通过某种聚类算法很好地分离.然后我运行该算法，最后得到我的集群. 是否存在某种方式(最好不是"hacky"或某种启发式)来解释“哪些特征和阈值对于使集群A的成员(例如)成为集群A的一部分很重要?" 我尝试查看聚类质心，但是对于高维数据集来说这很繁琐. 我还尝试将决策树拟合到我的集群，然后查看树以确定给定集群的大多数成员遵循的决策路径.我还尝试过将 ..

发布时间：2021-02-15 19:03:27 python scikit-learn cluster-analysis k-means Python

k-means相关内容