cluster-analysis相关内容

使用 WEKA API 定义用于聚类的输入数据

我想对经纬度指定的点进行聚类.我正在使用 WEKA API问题在于 Instances instances = new Instances(40.01,1.02);那么,如何在不使用 ARFF 文件的情况下指定输入数据?我只想将数组读入 Instances. import java.io.Reader;导入 weka.clusterers.ClusterEvaluation;导入 weka.cl ..
发布时间:2021-11-15 01:26:29 Java开发

如何设置 Spark Kmeans 初始中心

我使用 Spark ML 来运行 Kmeans.我有一堆数据和三个现有的中心,例如三个中心是:[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0].那么我如何表示 Kmeans 中心是上述三个向量.我看到 Kmean 对象有种子参数,但种子参数是一个长类型而不是数组.那么我如何告诉 Spark Kmeans 只使用现有的中心进行聚类. 或者说,我不明白 Spar ..

Spark KMeans 聚类:获取分配给聚类的样本数

我使用 Spark Mlib 进行 kmeans 聚类.我有一组向量,我想从中确定最可能的聚类中心.所以我将在这个集合上运行 kmeans 聚类训练,并选择分配给它的向量数量最多的集群. 因此我需要知道训练后分配给每个集群的向量数量(即 KMeans.run(...)).但是我找不到从 KMeanModel 结果中检索此信息的方法.我可能需要对所有训练向量运行 predict 并计算出现最多 ..

为什么 Spark Mllib KMeans 算法非常慢?

我遇到了与此帖子相同的问题,但是我没有足够的积分在那里添加评论.我的数据集有 100 万行,100 列.我也在使用 Mllib KMeans,它非常慢.事实上,这项工作永远不会完成,我必须杀死它.我在谷歌云(dataproc)上运行它.如果我要求较少数量的集群(k=1000),它就会运行,但仍然需要超过 35 分钟.我需要它运行 k~5000.我不知道为什么它这么慢.考虑到工作人员/节点的数量和 ..

将距离矩阵传递给 sklearn 中的 k-means 聚类

根据 sklearn kmeans 文档,它说 k-means 需要一个 shape=(n_samples, n_features) 的矩阵.但是我提供了一个 shape=(n_samples,n_samples) 的距离矩阵,其中每个索引保存两个字符串之间的距离.时间序列已使用 SAX 表示转换为字符串. 当我用距离矩阵运行聚类时,它给出了很好的结果.这可能是什么原因?据我所知,K-med ..
发布时间:2021-10-26 18:46:28 Python

使用 elasticsearch 进行文档聚类的便捷方法是什么?

我在 elasticsearch 索引中存储了很多来自不同来源的 RSS 提要的新闻文章.在我进行搜索查询的那一刻,它会针对一个查询返回很多类似的新闻文章,因为许多 RSS 源都涵盖了相同的新闻主题. 相反,我想做的是只返回一组文章中的一篇新闻文章到同一主题.因此,我需要以某种方式识别哪些文章是关于同一主题的,将这些文档聚类并仅从此类聚类中返回“最佳"文章. 解决这个问题最方便的方法是 ..
发布时间:2021-10-26 18:40:44 其他开发

层次聚类树状图中的节点索引

我想注释一个层次聚类树状图,但我在关联由 scipy.cluster 生成的节点索引.绘制时,hierarchy.dendrogram 到原始链接矩阵中的节点索引(例如使用 scipy.cluster.hierarchy.linkage). 例如,假设我们有以下示例(改编自 SO 问题), 将 numpy 导入为 np从 scipy.cluster.hierarchy 导入树状图,链接从 ..
发布时间:2021-09-09 19:36:43 AI人工智能

对一维数据进行聚类并在 matplotlib 直方图上表示聚类

我有以下格式的一维数据: areas = ...plt.figure(figsize=(10, 10))plt.hist(区域,bins = 80)plt.show() 这个情节看起来像这样: 现在我希望能够对这些数据进行聚类.我知道我可以选择 核密度估计或 K-Means.但是一旦我有了这些值,我如何在直方图上表示这些集群? 解决方案 您只需要弄清楚集群分配,然后单独绘制数据的 ..

'管道'对象没有属性 'get_feature_names'在 scikit-learn 中

我基本上是使用 mini_batch_kmeans 和 kmeans 算法对我的一些文档进行聚类.我只是按照教程是 scikit-learn 网站,其链接如下:http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 他们正在使用一些方法进行矢量化,其中之一是 HashingVectorizer.在 ..

如何在python中分别计算每个集群的Silhouette Score

您可以使用 1 行代码轻松提取轮廓分数,该代码对所有集群的分数求平均值,但是如何从 scikit 学习轮廓分数的实现中提取每个中间分数?我希望能够单独为每个集群提取相同的分数,而不仅仅是获得总分. metrics.silhouette_score(x, y, metric='euclidean') 解决方案 如果您的数据看起来像这样: num_clusters = 3X, y = data ..
发布时间:2021-07-16 20:08:03 Python

scikit-learn 中是否有任何类型的子空间聚类包可用

scikit-learn 中是否有任何类型的子空间聚类包可用. 解决方案 如果有人仍然感兴趣.是的,有一个使用 scikit-learn:子空间聚类.它是一个用于大规模子空间聚类的工具箱.聚类算法实现为两个类 ElasticNetSubspaceClustering 和 SparseSubspaceClusteringOMP,它们具有拟合函数来学习聚类.它们的使用方式可能与 sklearn ..

有没有一种特殊的方法可以将 3-d 数组转换为 2-d 数组以进行聚类?

我有一个 shape=(3, 60000, 10) 的 3-d 数组,它需要是 2-D 以便在聚类时能够对其进行可视化. 我计划实现从 scikit-learn 到 3-d 数组的 k-means 聚类,并读到它只需要 2-D 形状,我只是想要一些关于是否有正确方法的建议它 ?我正计划制作 (60000,30) ,但在我继续之前想要澄清. 解决方案 我的理解是你有 10 个特征,每个 ..
发布时间:2021-06-10 19:27:46 Python

2个阵列上的成对Wasserstein距离

我尝试比较运动形式,因此需要比较点(x,y)坐标的相似分布最终如何将它们聚类.我正在使用以下形式的3D阵列: 导入scipy.spatial.distance作为距离从scipy.optimize导入linear_sum_assignment从sklearn.metrics导入pairwise_distances将numpy导入为np数据= np.array([[[[1,2],[3,4],[1, ..
发布时间:2021-04-30 20:54:58 Python

排列方形2向列联表(矩阵)的列以最大化其对角线

进行聚类后,找到的标签毫无意义.可以计算一个列联表,以查看哪些标签与原始类别最相关. 我想自动排列列联表的列以使其对角线最大化.例如: #真实标签c1 = c(1,1,1,1,1,2,2,2,3,3,3,3,3,3,3)#找到标签c2 = c(3,3,3,3,1,1,1,1,2,2,2,3,2,2,1)#找到标签但正确重命名c3 = c(1,1,1,1,2,2,2,2,3,3,3,1,3, ..
发布时间:2021-04-22 19:44:15 其他开发

2个树状图和凝聚态相关矩阵的热图

我尝试创建如下所示的内容:对ontop层次聚类的结果进行分析数据在python中的矩阵 不幸的是,当我尝试执行代码时,收到以下警告: 警告(来自警告模块):文件"C:\ Users \ USER1 \ Desktop \ test.py",第15行Y = sch.linkage(D,method ='centroid')ClusterWarning:scipy.cluster:对称的非负空 ..
发布时间:2021-04-22 19:44:12 Python

集群中没有观测值

我在Mclust/GMM的生产中实施了集群解决方案.该算法正在初始数据上运行,并且该解决方案将应用于看不见的数据(predict.Mclust).它运行良好,现在当我对相同数据使用相同种子运行函数时,它为我提供了不同的解决方案.有其中没有观测值的星团.怎么会这样非常感谢您的帮助.先感谢您.如果您需要更多详细信息,请告诉我 解决方案 此问题与从R-3.6开始的 sample()函数的更改有关 ..
发布时间:2021-04-22 19:44:09 其他开发