cluster-analysis相关内容
我想对经纬度指定的点进行聚类.我正在使用 WEKA API问题在于 Instances instances = new Instances(40.01,1.02);那么,如何在不使用 ARFF 文件的情况下指定输入数据?我只想将数组读入 Instances. import java.io.Reader;导入 weka.clusterers.ClusterEvaluation;导入 weka.cl
..
我使用 Spark ML 来运行 Kmeans.我有一堆数据和三个现有的中心,例如三个中心是:[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0].那么我如何表示 Kmeans 中心是上述三个向量.我看到 Kmean 对象有种子参数,但种子参数是一个长类型而不是数组.那么我如何告诉 Spark Kmeans 只使用现有的中心进行聚类. 或者说,我不明白 Spar
..
我使用 Spark Mlib 进行 kmeans 聚类.我有一组向量,我想从中确定最可能的聚类中心.所以我将在这个集合上运行 kmeans 聚类训练,并选择分配给它的向量数量最多的集群. 因此我需要知道训练后分配给每个集群的向量数量(即 KMeans.run(...)).但是我找不到从 KMeanModel 结果中检索此信息的方法.我可能需要对所有训练向量运行 predict 并计算出现最多
..
我想在 Spark 上做一些 DBSCAN.我目前找到了 2 个实现: https://github.com/irvingc/dbscan-on-spark https://github.com/alitouka/spark_dbscan 我已经使用其 github 中给出的 sbt 配置测试了第一个,但是: jar 中的函数与文档或 github 上的源中的函数不同.比如我在
..
我遇到了与此帖子相同的问题,但是我没有足够的积分在那里添加评论.我的数据集有 100 万行,100 列.我也在使用 Mllib KMeans,它非常慢.事实上,这项工作永远不会完成,我必须杀死它.我在谷歌云(dataproc)上运行它.如果我要求较少数量的集群(k=1000),它就会运行,但仍然需要超过 35 分钟.我需要它运行 k~5000.我不知道为什么它这么慢.考虑到工作人员/节点的数量和
..
根据 sklearn kmeans 文档,它说 k-means 需要一个 shape=(n_samples, n_features) 的矩阵.但是我提供了一个 shape=(n_samples,n_samples) 的距离矩阵,其中每个索引保存两个字符串之间的距离.时间序列已使用 SAX 表示转换为字符串. 当我用距离矩阵运行聚类时,它给出了很好的结果.这可能是什么原因?据我所知,K-med
..
我在 elasticsearch 索引中存储了很多来自不同来源的 RSS 提要的新闻文章.在我进行搜索查询的那一刻,它会针对一个查询返回很多类似的新闻文章,因为许多 RSS 源都涵盖了相同的新闻主题. 相反,我想做的是只返回一组文章中的一篇新闻文章到同一主题.因此,我需要以某种方式识别哪些文章是关于同一主题的,将这些文档聚类并仅从此类聚类中返回“最佳"文章. 解决这个问题最方便的方法是
..
我想注释一个层次聚类树状图,但我在关联由 scipy.cluster 生成的节点索引.绘制时,hierarchy.dendrogram 到原始链接矩阵中的节点索引(例如使用 scipy.cluster.hierarchy.linkage). 例如,假设我们有以下示例(改编自 SO 问题), 将 numpy 导入为 np从 scipy.cluster.hierarchy 导入树状图,链接从
..
我有以下格式的一维数据: areas = ...plt.figure(figsize=(10, 10))plt.hist(区域,bins = 80)plt.show() 这个情节看起来像这样: 现在我希望能够对这些数据进行聚类.我知道我可以选择 核密度估计或 K-Means.但是一旦我有了这些值,我如何在直方图上表示这些集群? 解决方案 您只需要弄清楚集群分配,然后单独绘制数据的
..
我基本上是使用 mini_batch_kmeans 和 kmeans 算法对我的一些文档进行聚类.我只是按照教程是 scikit-learn 网站,其链接如下:http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 他们正在使用一些方法进行矢量化,其中之一是 HashingVectorizer.在
..
我基本上是使用 mini_batch_kmeans 和 kmeans 算法对我的一些文档进行聚类.我只是按照教程是 scikit-learn 网站,其链接如下:http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 他们正在使用一些方法进行矢量化,其中之一是 HashingVectorizer.在
..
您可以使用 1 行代码轻松提取轮廓分数,该代码对所有集群的分数求平均值,但是如何从 scikit 学习轮廓分数的实现中提取每个中间分数?我希望能够单独为每个集群提取相同的分数,而不仅仅是获得总分. metrics.silhouette_score(x, y, metric='euclidean') 解决方案 如果您的数据看起来像这样: num_clusters = 3X, y = data
..
scikit-learn 中是否有任何类型的子空间聚类包可用. 解决方案 如果有人仍然感兴趣.是的,有一个使用 scikit-learn:子空间聚类.它是一个用于大规模子空间聚类的工具箱.聚类算法实现为两个类 ElasticNetSubspaceClustering 和 SparseSubspaceClusteringOMP,它们具有拟合函数来学习聚类.它们的使用方式可能与 sklearn
..
我正在尝试解决一个聚类问题,为此我需要为我的聚类绘制散点图. %matplotlib 内联导入 matplotlib.pyplot 作为 pltdf = pd.merge(dataframe,actual_cluster)plt.scatter(df['x'], df['y'], c=df['cluster'])plt.legend()plt.show() df['cluster'] 是实际的
..
我有一个 shape=(3, 60000, 10) 的 3-d 数组,它需要是 2-D 以便在聚类时能够对其进行可视化. 我计划实现从 scikit-learn 到 3-d 数组的 k-means 聚类,并读到它只需要 2-D 形状,我只是想要一些关于是否有正确方法的建议它 ?我正计划制作 (60000,30) ,但在我继续之前想要澄清. 解决方案 我的理解是你有 10 个特征,每个
..
我尝试比较运动形式,因此需要比较点(x,y)坐标的相似分布最终如何将它们聚类.我正在使用以下形式的3D阵列: 导入scipy.spatial.distance作为距离从scipy.optimize导入linear_sum_assignment从sklearn.metrics导入pairwise_distances将numpy导入为np数据= np.array([[[[1,2],[3,4],[1,
..
尝试使用 fviz_cluster()可视化k-medoid(PAM)簇结果,但是函数不接受它们. 它在?fviz_clust 内声明"object arguments =类" partition"的对象;由群集包中的 pam(), clara()或 fanny()函数创建" 我尝试通过其他方式访问聚类向量; pam_gower_2 $ clusteringpam_gower_2
..
进行聚类后,找到的标签毫无意义.可以计算一个列联表,以查看哪些标签与原始类别最相关. 我想自动排列列联表的列以使其对角线最大化.例如: #真实标签c1 = c(1,1,1,1,1,2,2,2,3,3,3,3,3,3,3)#找到标签c2 = c(3,3,3,3,1,1,1,1,2,2,2,3,2,2,1)#找到标签但正确重命名c3 = c(1,1,1,1,2,2,2,2,3,3,3,1,3,
..
我尝试创建如下所示的内容:对ontop层次聚类的结果进行分析数据在python中的矩阵 不幸的是,当我尝试执行代码时,收到以下警告: 警告(来自警告模块):文件"C:\ Users \ USER1 \ Desktop \ test.py",第15行Y = sch.linkage(D,method ='centroid')ClusterWarning:scipy.cluster:对称的非负空
..
我在Mclust/GMM的生产中实施了集群解决方案.该算法正在初始数据上运行,并且该解决方案将应用于看不见的数据(predict.Mclust).它运行良好,现在当我对相同数据使用相同种子运行函数时,它为我提供了不同的解决方案.有其中没有观测值的星团.怎么会这样非常感谢您的帮助.先感谢您.如果您需要更多详细信息,请告诉我 解决方案 此问题与从R-3.6开始的 sample()函数的更改有关
..