hierarchical-clustering相关内容

带图的树状图-如何设置层次聚类的自定义链接方法

我对Plot还不熟悉,需要绘制具有组平均链接的树形图。 我知道distfun中有一个distfun参数,但我不知道要向该参数传递什么才能获得Group Average Linkage。distfun参数显然必须是可调用的。我应该向它传递什么函数? 作为附注,我有一个成对距离矩阵示例 0 13 0 2 14 0 17 1 18 0 当我传递给create_dendrogram()方法时,它似 ..

sas中k-means聚类的截止点

所以我想在 SAS 中将我的数据分类为具有截止点的集群.我使用的方法是 k-means 聚类.(我不介意方法,只要它给我3组.) 我的聚类代码: proc fastclus data=maindat outseed=seeds1 maxcluster =3 maxiter=0;var 值残差;跑; 我的输出结果有问题.我希望将值的截止点包含在输出文件中.(我不想要 Resid 的截止点) ..
发布时间:2022-01-08 17:59:00 其他开发

我如何获得由 scipy.cluster.hierarchy 制作的树状图的子树

我对这个模块 (scipy.cluster.hierarchy) 感到困惑……但仍然有一些! 例如,我们有以下树状图: 我的问题是如何以一种很好的格式(例如 SIF 格式)提取彩色子树(每个子树代表一个集群)?现在得到上图的代码是: 导入scipy将 scipy.cluster.hierarchy 导入为 sch导入 matplotlib.pylab 作为 pltscipy.rand ..
发布时间:2021-12-31 12:09:11 Python

scipy.cluster.hierarchy 教程

我试图了解如何操作层次结构集群,但文档太......技术性?......我无法理解它是如何工作的. 是否有任何教程可以帮助我开始,逐步解释一些简单的任务? 假设我有以下数据集: a = np.array([[0, 0 ],[1, 0 ],[0, 1],[1, 1 ],[0.5, 0 ],[0, 0.5],[0.5, 0.5],[2, 2 ],[2, 3],[3, 2],[3, 3 ] ..
发布时间:2021-12-31 12:01:25 Python

如何在scipy创建的树状图中获得与颜色簇对应的平面聚类

使用发布的代码 这里,我创建了一个很好的层次聚类: 假设左侧的树状图是通过执行类似操作创建的 Y = sch.linkage(D, method='average') # D 是距离矩阵截止 = 0.5*max(Y[:,2])Z = sch.dendrogram(Y,orientation='right',color_threshold=cutoff) 现在我如何获得每个彩色簇成员的索引 ..

具有 Levenshtein 距离的文本聚类

我有一组 (2k - 4k) 的小字符串(3-6 个字符),我想对它们进行聚类.由于我使用字符串,集群(尤其是字符串集群)如何工作?a>,告诉我 Levenshtein distance 很适合用作字符串的距离函数.另外,由于我事先不知道集群的数量,层次聚类是要走的路而不是 k 均值. 虽然我以抽象的形式理解了这个问题,但我不知道实际解决问题的简单方法是什么.例如,MATLAB 或 R 是使 ..

如何根据标签对用户进行聚类

我想根据用户观看的节目的类别或标签对他们进行聚类.执行此操作的最简单/最佳算法是什么? 假设我有大约 20,000 个标签和数百万个监视事件可以用作信号,是否有我可以使用 Pig/hadoop/mortar 或在 neo4j 上实现的算法? 就数据而言,我有用户、他们看过的节目以及节目的标签(通常每个节目大约有 10 个标签). 我希望在最后有 k 个集群(可能是一打?)或广泛的 ..

稀疏观测矩阵上的分层聚类

我正在尝试对大型稀疏观察矩阵执行层次聚类.该矩阵表示多个用户的电影评分.我的目标是根据他们的电影偏好对相似的用户进行聚类.但是,我需要一个树状图,而不是单一的部门.为了做到这一点,我尝试使用 SciPy: R = dok_matrix((nrows, ncols), dtype=np.float32)对于评分中的用户:对于评分中的项目[用户]:R[item, user] = ratings[用户 ..
发布时间:2021-07-16 20:56:04 Python

如何在python中提取树状图中的点之间的距离?

我在 python 中执行分层聚类,并获得树状图.我想知道是否有一种方法可以提取最近点之间的距离,例如这里:7 和 8 之间的距离(最近的一个),然后是 0 和 1 之间的距离等等,为了生成我使用的图: linkage_matrix= links(dfP, method=“single")cluster_dict = 树状图(linkage_matrix) 解决方案 什么时候做 Z =hi ..
发布时间:2021-07-16 20:15:53 Python

在Pheatmap和Heatmaply R程序包中聚类

我正在使用R heatmaply包来生成交互式热图.我喜欢该软件,但是我想从中获得与使用pheatmap包相同的群集(行和列的顺序).因此,我希望这两个命令产生相同的输出: heatmaply(比例(mtcars))秘谱图(比例(mtcars)) 有没有办法做到这一点?提前致谢.阿图罗 P.S.我最近问了另一个关于颜色输出的类似问题,即不是聚类输出,在这里得到了很好的回答: 和 ..
发布时间:2021-05-14 18:52:52 其他开发

从scipy树状图检索假色

我无法从 在此示例中,手动进行颜色分配似乎很容易,但是我正在处理庞大的数据集,因此,直到我们在字典中获得此新功能(颜色叶子)之前,我都会尝试以某种方式将其推断为包含在其中的当前信息.字典,但到目前为止我还没有主意.谁能帮我吗? 谢谢. 解决方案 以下方法似乎有效.由树状图返回的字典包含带有链接颜色的"color_list".再加上 x 的"icoord"和"dcoord". y ..
发布时间:2021-05-14 18:52:49 Python

Sklearn聚集聚类自定义亲和力

我试图将聚集聚类与自定义距离度量(即亲和力)一起使用,因为我想通过序列相似性而不是无意义的欧几里德距离对整数序列进行聚类. 我的数据看起来像这样 >>数据值数组([[860,261,240,...,300,241,1],[860、840、860,...,860、240、1],[260、860、260,...,260、220、1],...,[260,260,260,...,260,260,1 ..
发布时间:2021-05-14 18:52:46 Python