cluster-analysis相关内容

使用平均链接对`hclust;和`agnes;的不同结果

我正在对一个定制的模拟相似性矩阵应用一个简单的聚类过程。(https://github.com/ewouddt/Files/blob/master/sim_col.RData) 但是,我注意到在使用平均链接时hclust和agnes过程之间的差异(注意:我也观察到了完整链接的相同行为) load("sim_col.RData") # A 606 x 606 similarity mat ..
发布时间:2022-08-07 14:30:16 其他开发

Python集群纯度指标

我正在使用Gaussian Mixture Model (GMM)中的sklearn.mixture对我的数据集执行群集。 我可以使用函数score()来计算该模型下的对数概率。 但是,我正在寻找this article中定义的名为‘PURITY’的指标。 如何在Python中实现它?我当前的实现如下所示: from sklearn.mixture import GMM ..
发布时间:2022-08-07 14:20:03 Python

如何在自组织映射中重新关联到原始数据点

我正在使用R Kohonen包来实现SOM。我发现将自组织映射产生的代码向量与原始数据点关联起来很麻烦。我试着在训练过程中加入没有重量的标签,但结果令人费解。 培训过程完成后,有没有办法引用每个节点的原始数据点? 推荐答案 您将从 获取中心值和缩放值 x= attr(som_model$data,"scaled:center") y= attr(som_model$data ..

如何执行K-medoid

我花了很长时间试图弄清楚如何(在纸上)执行K-medoids算法,但我不能理解如何开始和迭代。例如: 我有6个点、k、c1和c2之间的距离矩阵。 如果有人能教我如何在这个例子上执行K-medoid算法,我会很高兴的。如何开始和迭代? 谢谢 推荐答案 更多细节: 将K设置为所需的簇数,让我们使用2。 随机选择K个实体作为中间体m_1、m_2。让我们选择X_3(让 ..
发布时间:2022-07-01 20:10:34 AI人工智能

蟒蛇k-均值,质心被放置在集群的外部

我正在尝试使用k-Means算法执行混合数据的聚类:chemical_1,chemical_2-数值,season-分类。 已将season列转换为虚拟对象,以便在K-Means算法中使用它。 我已使用plt.scatter(centers[:,0], centers[:,1], marker="x", color='r')添加了群集中心,但它将它们放在了错误的位置,位于群集之外。 我应该 ..
发布时间:2022-07-01 19:59:17 Python

R聚类分析病房自动删除离群值

如何在R中编码以复制在SAS中执行的聚类分析 METHOD=WARD和TRIM=10选项自动删除10%的病例作为异常值?(此数据集有45个变量,每个变量都有一些异常值响应。) 当我使用Ward的方法搜索R聚类分析时,TRIM选项被描述为缩短名称而不是删除异常值。 如果我在聚类分析之前不修剪数据集,就会出现一个大的集群,其中有许多代表离群索居的个体的单一案例“集群”。随着10%的案例自动 ..
发布时间:2022-03-22 11:50:21 其他开发

如何聚集PostgreSQL表中与输入值或来自任何其他匹配行的值匹配的行?

我的PostgreSQL数据库中有一个如下所示的表 如果群集中的每个联系人与群集中的另一个联系人共享Contact_id_a或Contact_id_b值(或两者),我如何带回该群集中的联系人? 在上面屏幕截图图像中的示例中,第1-6行将位于同一群集中,而第8行将不属于任何群集。 如何将SQL查询或SQL查询与Java代码结合使用来实现此目的? 对于上下文,此表列出了联系人列表中 ..
发布时间:2022-03-22 11:47:01 Java开发

K-Means聚类-输出聚类包含相同数量的元素,但顺序不同[Python]

我遵循this tutorial对包含单个单词的列表执行K-Means聚类。这是一个基于板球的项目,所以我选择了K=3,这样以后我就可以将这三个群集区分为[击球,保龄球,防守]。但是,编译代码后,结果3个集群中的元素都相同,但顺序不同。我试着把最初的列表弄清楚,但也不能解决问题。附加下面的代码。 from sklearn.feature_extraction.text import Tfid ..
发布时间:2022-03-22 11:42:06 AI人工智能

基于边权重的图聚类

我使用networkx构建了一个图,这是一个以人为节点、消息频率为边权重的社交网络。我想把这个网络分成不同的人群。经常互相发信息的人往往是同一群人。我该怎么做呢?我应该使用哪种群集算法?另外,我如何将分组可视化为树状图树? 提前感谢!:d 附言:我曾尝试使用python-Louvain进行分区,但结果不准确,例如它将两个用户划分为不同的组,即使他们的消息传递频率相当高 推荐答案 ..
发布时间:2022-03-22 11:32:40 Python

使用PCA可视化群集结果(Python)

我有一个包含61行(用户)和26列的数据集,我使用k-means和其他算法对其进行聚类。 在对数据集进行规范化后,首先对其应用KMeans。 作为前一项任务,我在对此数据进行归一化并识别出10个群集后,对其运行k-means。 同时,我还尝试可视化这些集群,这就是我使用PCA来减少特性数量的原因。 我编写了以下代码: UserID Communication_dur Lifest ..
发布时间:2022-03-22 11:30:53 Python

计算R中群集之间的平方和总和

我的目标是比较我使用过的两种聚类方法cluster_method_1和cluster_method_2中的哪一种在聚类平方和之间最大,以便确定哪种方法实现了更好的分离。 我基本上是在寻找一种有效的方法来计算群集1的每个点与群集2、3、4的所有点之间的距离,依此类推。 示例数据帧: structure(list(x1 = c(0.01762376, -1.147739752, 1. ..
发布时间:2022-03-22 11:27:09 其他开发

带图的树状图-如何设置层次聚类的自定义链接方法

我对Plot还不熟悉,需要绘制具有组平均链接的树形图。 我知道distfun中有一个distfun参数,但我不知道要向该参数传递什么才能获得Group Average Linkage。distfun参数显然必须是可调用的。我应该向它传递什么函数? 作为附注,我有一个成对距离矩阵示例 0 13 0 2 14 0 17 1 18 0 当我传递给create_dendrogram()方法时,它似 ..

两组数据点之间的聚类-Python

我希望使用k-means聚类来绘制并返回每个集群的质心位置。下面将两组XY散点分组为6个群集。 使用下面的df,A和B和C和D中的坐标被绘制为散点。我希望绘制并返回每个群集的质心。 import pandas as pd import matplotlib.pyplot as plt import numpy as np from sklearn.cluster import KMeans ..
发布时间:2022-03-22 11:20:31 Python