cluster-analysis 第5页 - IT屋-程序员软件开发技术分享社区

使用 WEKA API 定义用于聚类的输入数据

我想对经纬度指定的点进行聚类.我正在使用 WEKA API问题在于 Instances instances = new Instances(40.01,1.02);那么，如何在不使用 ARFF 文件的情况下指定输入数据?我只想将数组读入 Instances. import java.io.Reader;导入 weka.clusterers.ClusterEvaluation;导入 weka.cl ..

发布时间：2021-11-15 01:26:29 java api cluster-analysis weka Java开发

如何设置 Spark Kmeans 初始中心

我使用 Spark ML 来运行 Kmeans.我有一堆数据和三个现有的中心，例如三个中心是:[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0].那么我如何表示 Kmeans 中心是上述三个向量.我看到 Kmean 对象有种子参数，但种子参数是一个长类型而不是数组.那么我如何告诉 Spark Kmeans 只使用现有的中心进行聚类. 或者说，我不明白 Spar ..

发布时间：2021-11-14 21:02:53 apache-spark machine-learning cluster-analysis k-means apache-spark-mllib AI人工智能

Spark KMeans 聚类:获取分配给聚类的样本数

我使用 Spark Mlib 进行 kmeans 聚类.我有一组向量，我想从中确定最可能的聚类中心.所以我将在这个集合上运行 kmeans 聚类训练，并选择分配给它的向量数量最多的集群. 因此我需要知道训练后分配给每个集群的向量数量(即 KMeans.run(...)).但是我找不到从 KMeanModel 结果中检索此信息的方法.我可能需要对所有训练向量运行 predict 并计算出现最多 ..

发布时间：2021-11-14 21:02:15 apache-spark pyspark cluster-analysis k-means apache-spark-mllib 其他开发

DBSCAN on spark:哪个实现

我想在 Spark 上做一些 DBSCAN.我目前找到了 2 个实现: https://github.com/irvingc/dbscan-on-spark https://github.com/alitouka/spark_dbscan 我已经使用其 github 中给出的 sbt 配置测试了第一个，但是: jar 中的函数与文档或 github 上的源中的函数不同.比如我在 ..

发布时间：2021-11-14 21:00:52 scala apache-spark cluster-analysis apache-spark-mllib dbscan 其他开发

为什么 Spark Mllib KMeans 算法非常慢?

我遇到了与此帖子相同的问题，但是我没有足够的积分在那里添加评论.我的数据集有 100 万行，100 列.我也在使用 Mllib KMeans，它非常慢.事实上，这项工作永远不会完成，我必须杀死它.我在谷歌云(dataproc)上运行它.如果我要求较少数量的集群(k=1000)，它就会运行，但仍然需要超过 35 分钟.我需要它运行 k~5000.我不知道为什么它这么慢.考虑到工作人员/节点的数量和 ..

发布时间：2021-11-14 21:00:13 apache-spark cluster-analysis data-mining k-means apache-spark-mllib AI人工智能

将距离矩阵传递给 sklearn 中的 k-means 聚类

根据 sklearn kmeans 文档，它说 k-means 需要一个 shape=(n_samples, n_features) 的矩阵.但是我提供了一个 shape=(n_samples,n_samples) 的距离矩阵，其中每个索引保存两个字符串之间的距离.时间序列已使用 SAX 表示转换为字符串. 当我用距离矩阵运行聚类时，它给出了很好的结果.这可能是什么原因?据我所知，K-med ..

发布时间：2021-10-26 18:46:28 python algorithm cluster-analysis k-means Python

使用 elasticsearch 进行文档聚类的便捷方法是什么?

我在 elasticsearch 索引中存储了很多来自不同来源的 RSS 提要的新闻文章.在我进行搜索查询的那一刻，它会针对一个查询返回很多类似的新闻文章，因为许多 RSS 源都涵盖了相同的新闻主题. 相反，我想做的是只返回一组文章中的一篇新闻文章到同一主题.因此，我需要以某种方式识别哪些文章是关于同一主题的，将这些文档聚类并仅从此类聚类中返回“最佳"文章. 解决这个问题最方便的方法是 ..

发布时间：2021-10-26 18:40:44 algorithm elasticsearch cluster-analysis 其他开发

层次聚类树状图中的节点索引

我想注释一个层次聚类树状图，但我在关联由 scipy.cluster 生成的节点索引.绘制时，hierarchy.dendrogram 到原始链接矩阵中的节点索引(例如使用 scipy.cluster.hierarchy.linkage). 例如，假设我们有以下示例(改编自 SO 问题), 将 numpy 导入为 np从 scipy.cluster.hierarchy 导入树状图，链接从 ..

发布时间：2021-09-09 19:36:43 python machine-learning tree scipy cluster-analysis AI人工智能

对一维数据进行聚类并在 matplotlib 直方图上表示聚类

我有以下格式的一维数据: areas = ...plt.figure(figsize=(10, 10))plt.hist(区域，bins = 80)plt.show() 这个情节看起来像这样: 现在我希望能够对这些数据进行聚类.我知道我可以选择核密度估计或 K-Means.但是一旦我有了这些值，我如何在直方图上表示这些集群? 解决方案您只需要弄清楚集群分配，然后单独绘制数据的 ..

发布时间：2021-07-16 20:19:47 python-3.x matplotlib scikit-learn histogram cluster-analysis 其他开发

'管道'对象没有属性 'get_feature_names'在 scikit-learn 中

我基本上是使用 mini_batch_kmeans 和 kmeans 算法对我的一些文档进行聚类.我只是按照教程是 scikit-learn 网站，其链接如下:http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 他们正在使用一些方法进行矢量化，其中之一是 HashingVectorizer.在 ..

发布时间：2021-07-16 20:09:42 machine-learning scikit-learn cluster-analysis k-means AI人工智能

“管道"对象在 scikit-learn 中没有属性“get_feature_names"

我基本上是使用 mini_batch_kmeans 和 kmeans 算法对我的一些文档进行聚类.我只是按照教程是 scikit-learn 网站，其链接如下:http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 他们正在使用一些方法进行矢量化，其中之一是 HashingVectorizer.在 ..

发布时间：2021-07-16 20:08:52 machine-learning scikit-learn cluster-analysis k-means AI人工智能

如何在python中分别计算每个集群的Silhouette Score

您可以使用 1 行代码轻松提取轮廓分数，该代码对所有集群的分数求平均值，但是如何从 scikit 学习轮廓分数的实现中提取每个中间分数?我希望能够单独为每个集群提取相同的分数，而不仅仅是获得总分. metrics.silhouette_score(x, y, metric='euclidean') 解决方案如果您的数据看起来像这样: num_clusters = 3X, y = data ..

发布时间：2021-07-16 20:08:03 python python-3.x scikit-learn cluster-analysis k-means Python

scikit-learn 中是否有任何类型的子空间聚类包可用

scikit-learn 中是否有任何类型的子空间聚类包可用. 解决方案如果有人仍然感兴趣.是的，有一个使用 scikit-learn:子空间聚类.它是一个用于大规模子空间聚类的工具箱.聚类算法实现为两个类 ElasticNetSubspaceClustering 和 SparseSubspaceClusteringOMP，它们具有拟合函数来学习聚类.它们的使用方式可能与 sklearn ..

发布时间：2021-07-16 20:05:35 python machine-learning scikit-learn cluster-analysis AI人工智能

matplotlib 在散点图中不显示图例

我正在尝试解决一个聚类问题，为此我需要为我的聚类绘制散点图. %matplotlib 内联导入 matplotlib.pyplot 作为 pltdf = pd.merge(dataframe,actual_cluster)plt.scatter(df['x'], df['y'], c=df['cluster'])plt.legend()plt.show() df['cluster'] 是实际的 ..

发布时间：2021-06-18 19:05:47 python matplotlib plot cluster-analysis Python

有没有一种特殊的方法可以将 3-d 数组转换为 2-d 数组以进行聚类?

我有一个 shape=(3, 60000, 10) 的 3-d 数组，它需要是 2-D 以便在聚类时能够对其进行可视化. 我计划实现从 scikit-learn 到 3-d 数组的 k-means 聚类，并读到它只需要 2-D 形状，我只是想要一些关于是否有正确方法的建议它 ?我正计划制作 (60000,30) ，但在我继续之前想要澄清. 解决方案我的理解是你有 10 个特征，每个 ..

发布时间：2021-06-10 19:27:46 python arrays numpy scikit-learn cluster-analysis Python

2个阵列上的成对Wasserstein距离

我尝试比较运动形式，因此需要比较点(x，y)坐标的相似分布最终如何将它们聚类.我正在使用以下形式的3D阵列: 导入scipy.spatial.distance作为距离从scipy.optimize导入linear_sum_assignment从sklearn.metrics导入pairwise_distances将numpy导入为np数据= np.array([[[[1，2]，[3，4]，[1， ..

发布时间：2021-04-30 20:54:58 python numpy scikit-learn cluster-analysis distance Python

fviz_cluster()不接受k-medoid(PAM)结果

尝试使用 fviz_cluster()可视化k-medoid(PAM)簇结果，但是函数不接受它们. 它在?fviz_clust 内声明"object arguments =类" partition"的对象；由群集包中的 pam()， clara()或 fanny()函数创建" 我尝试通过其他方式访问聚类向量； pam_gower_2 $ clusteringpam_gower_2 ..

发布时间：2021-04-29 19:04:45 r cluster-analysis data-visualization pam 其他开发

排列方形2向列联表(矩阵)的列以最大化其对角线

进行聚类后，找到的标签毫无意义.可以计算一个列联表，以查看哪些标签与原始类别最相关. 我想自动排列列联表的列以使其对角线最大化.例如: #真实标签c1 = c(1,1,1,1,1,2,2,2,3,3,3,3,3,3,3)#找到标签c2 = c(3,3,3,3,1,1,1,1,2,2,2,3,2,2,1)#找到标签但正确重命名c3 = c(1,1,1,1,2,2,2,2,3,3,3,1,3, ..

发布时间：2021-04-22 19:44:15 r matrix cluster-analysis crosstab contingency 其他开发

2个树状图和凝聚态相关矩阵的热图

我尝试创建如下所示的内容:对ontop层次聚类的结果进行分析数据在python中的矩阵不幸的是，当我尝试执行代码时，收到以下警告: 警告(来自警告模块):文件"C:\ Users \ USER1 \ Desktop \ test.py"，第15行Y = sch.linkage(D，method ='centroid')ClusterWarning:scipy.cluster:对称的非负空 ..

发布时间：2021-04-22 19:44:12 python scipy cluster-analysis Python

集群中没有观测值

我在Mclust/GMM的生产中实施了集群解决方案.该算法正在初始数据上运行，并且该解决方案将应用于看不见的数据(predict.Mclust).它运行良好，现在当我对相同数据使用相同种子运行函数时，它为我提供了不同的解决方案.有其中没有观测值的星团.怎么会这样非常感谢您的帮助.先感谢您.如果您需要更多详细信息，请告诉我解决方案此问题与从R-3.6开始的 sample()函数的更改有关 ..

发布时间：2021-04-22 19:44:09 r cluster-analysis mclust 其他开发

cluster-analysis相关内容