cluster-analysis相关内容
我正在对一个定制的模拟相似性矩阵应用一个简单的聚类过程。(https://github.com/ewouddt/Files/blob/master/sim_col.RData) 但是,我注意到在使用平均链接时hclust和agnes过程之间的差异(注意:我也观察到了完整链接的相同行为) load("sim_col.RData") # A 606 x 606 similarity mat
..
我在R:中有一个热图,如下所示 col
..
我正在使用Gaussian Mixture Model (GMM)中的sklearn.mixture对我的数据集执行群集。 我可以使用函数score()来计算该模型下的对数概率。 但是,我正在寻找this article中定义的名为‘PURITY’的指标。 如何在Python中实现它?我当前的实现如下所示: from sklearn.mixture import GMM
..
我正在使用R Kohonen包来实现SOM。我发现将自组织映射产生的代码向量与原始数据点关联起来很麻烦。我试着在训练过程中加入没有重量的标签,但结果令人费解。 培训过程完成后,有没有办法引用每个节点的原始数据点? 推荐答案 您将从 获取中心值和缩放值 x= attr(som_model$data,"scaled:center") y= attr(som_model$data
..
我花了很长时间试图弄清楚如何(在纸上)执行K-medoids算法,但我不能理解如何开始和迭代。例如: 我有6个点、k、c1和c2之间的距离矩阵。 如果有人能教我如何在这个例子上执行K-medoid算法,我会很高兴的。如何开始和迭代? 谢谢 推荐答案 更多细节: 将K设置为所需的簇数,让我们使用2。 随机选择K个实体作为中间体m_1、m_2。让我们选择X_3(让
..
我使用Scipy库执行层次聚类并创建树形图。以下是简单的代码和生成的树状图: import numpy as np from scipy.cluster.hierarchy import dendrogram, linkage from matplotlib import pyplot as plt X = np.array([[5, 3], [10, 15],
..
我正在尝试使用k-Means算法执行混合数据的聚类:chemical_1,chemical_2-数值,season-分类。 已将season列转换为虚拟对象,以便在K-Means算法中使用它。 我已使用plt.scatter(centers[:,0], centers[:,1], marker="x", color='r')添加了群集中心,但它将它们放在了错误的位置,位于群集之外。 我应该
..
我正在尝试在Bokeh仪表板中构建一个功能,该功能允许用户对数据进行集群。我使用以下示例作为模板,以下是链接:- Clustering in Bokeh example 以下是本例中的代码:- import numpy as np from sklearn import cluster, datasets from sklearn.preprocessing import Standa
..
以下是设置群集问题的一些代码: import numpy as np import matplotlib.pyplot as plt # KMeans # # Class=2 # Center(2.5,2.5), r1 = 2, r2 = 1 X1 = np.zeros(500*4) X2 = np.zeros(500*4) r1 = 2; r2 = 1; a = 2.5; b = 2.
..
如何在R中编码以复制在SAS中执行的聚类分析 METHOD=WARD和TRIM=10选项自动删除10%的病例作为异常值?(此数据集有45个变量,每个变量都有一些异常值响应。) 当我使用Ward的方法搜索R聚类分析时,TRIM选项被描述为缩短名称而不是删除异常值。 如果我在聚类分析之前不修剪数据集,就会出现一个大的集群,其中有许多代表离群索居的个体的单一案例“集群”。随着10%的案例自动
..
我的PostgreSQL数据库中有一个如下所示的表 如果群集中的每个联系人与群集中的另一个联系人共享Contact_id_a或Contact_id_b值(或两者),我如何带回该群集中的联系人? 在上面屏幕截图图像中的示例中,第1-6行将位于同一群集中,而第8行将不属于任何群集。 如何将SQL查询或SQL查询与Java代码结合使用来实现此目的? 对于上下文,此表列出了联系人列表中
..
我遵循this tutorial对包含单个单词的列表执行K-Means聚类。这是一个基于板球的项目,所以我选择了K=3,这样以后我就可以将这三个群集区分为[击球,保龄球,防守]。但是,编译代码后,结果3个集群中的元素都相同,但顺序不同。我试着把最初的列表弄清楚,但也不能解决问题。附加下面的代码。 from sklearn.feature_extraction.text import Tfid
..
我正在尝试使用MCLUST对我的经验数据进行聚类。使用以下非常简单的代码时: library(reshape2) library(mclust) data
..
我使用networkx构建了一个图,这是一个以人为节点、消息频率为边权重的社交网络。我想把这个网络分成不同的人群。经常互相发信息的人往往是同一群人。我该怎么做呢?我应该使用哪种群集算法?另外,我如何将分组可视化为树状图树? 提前感谢!:d 附言:我曾尝试使用python-Louvain进行分区,但结果不准确,例如它将两个用户划分为不同的组,即使他们的消息传递频率相当高 推荐答案
..
我有一个包含61行(用户)和26列的数据集,我使用k-means和其他算法对其进行聚类。 在对数据集进行规范化后,首先对其应用KMeans。 作为前一项任务,我在对此数据进行归一化并识别出10个群集后,对其运行k-means。 同时,我还尝试可视化这些集群,这就是我使用PCA来减少特性数量的原因。 我编写了以下代码: UserID Communication_dur Lifest
..
我的目标是比较我使用过的两种聚类方法cluster_method_1和cluster_method_2中的哪一种在聚类平方和之间最大,以便确定哪种方法实现了更好的分离。 我基本上是在寻找一种有效的方法来计算群集1的每个点与群集2、3、4的所有点之间的距离,依此类推。 示例数据帧: structure(list(x1 = c(0.01762376, -1.147739752, 1.
..
我有一个包含2个元素组合的列表,如下所示。 cbnl
..
我对Plot还不熟悉,需要绘制具有组平均链接的树形图。 我知道distfun中有一个distfun参数,但我不知道要向该参数传递什么才能获得Group Average Linkage。distfun参数显然必须是可调用的。我应该向它传递什么函数? 作为附注,我有一个成对距离矩阵示例 0 13 0 2 14 0 17 1 18 0 当我传递给create_dendrogram()方法时,它似
..
我希望使用k-means聚类来绘制并返回每个集群的质心位置。下面将两组XY散点分组为6个群集。 使用下面的df,A和B和C和D中的坐标被绘制为散点。我希望绘制并返回每个群集的质心。 import pandas as pd import matplotlib.pyplot as plt import numpy as np from sklearn.cluster import KMeans
..
输入数据集如下所示: {"666": ["abc", "xyz"], "888": ["xxxo", "xxxo"], "007": ["abc"]} 我们首先使用以下函数创建词袋模型: def associate_terms_with_user(unique_term_set, all_users_terms_dict):
..