cluster-analysis相关内容

R:M3C库-重复的row.names错误消息

我正在尝试使用R中的M3C库运行共识聚类.我的数据集包含451个样本和〜2500个基因.行名称是基因的ENTREZ ID(数值).我已经使用"any(duplicated(colnames(MyData)))"命令对数据集进行了交叉检查,以确保行名中没有重复的条目.我运行以下命令以使用M3C库执行共识性聚类: res ..
发布时间:2021-04-22 19:44:06 其他开发

围绕一个单独点的密度聚类-Python

我的目标是根据xy点的邻近程度对其进行聚类.具体来说,是将彼此靠近的分组点进行分组.我也希望使用一个单独的参考点来对数据进行聚类. 注意:我有多组数据需要独立集群.例如,使用下面的代码, Item 中的每个唯一值表示一组不同的数据.我可以有多个唯一的数据集,它们的稀疏性各不相同.因此,任何通过预定数量簇的技术都是不现实的,因为我每次都必须手动检查拟合并调整适当的参数. 正因为如此,到目 ..
发布时间:2021-04-22 19:44:00 Python

R:计算数据框的行方向相似度,并根据该相似度对数据进行排序

伙计们,对不起,但我对行明智的相似性比较心存疑虑.我有几百个运行的聚类结果表.他们看起来像这样 %mutate(相似度= row_cf(row_1,row_2,df1))%&%filter(row_1!= row_2)%&%;%group_by(row_1)%>%切片(which.max(相似性))#加入已知数据表df1%>%mutate(row_1 = 1:n())%&%left_join(Si ..
发布时间:2021-04-22 19:43:57 其他开发

FactomineR:补充个体的簇

我正在使用MCA上的FactomineR进行层次聚类分析.一切运行都很好. 我在MCA中添加了一些补充人员.但是我想知道它们将位于哪些群集中.目前,我只对活动的个体(使用 res.hcpc $ data.clust 或 res.hcpc $ call $ X )获得结果 您知道怎么可能知道所有补充人员都在哪个集群中吗? 谢谢 解决方案 据我所知,集群中没有等效的补充人员. ..
发布时间:2021-04-22 19:43:54 其他开发

聚类多元时间序列-有关距离矩阵的问题

我正在尝试使用R对气象站进行群集.这些站按小时间隔提供温度,风速,湿度等数据.我可以使用tsclust库轻松地对单变量时间序列进行聚类,但是当我对多变量序列进行聚类时会出现错误. 我有一个数据作为列表,所以每个列表元素都是一个矩阵,其中一个站的时间序列数据(变量是列,行是不同的时间戳). 如果我运行: tsclust(data,k = 2,距离='Euclidean',种子= 32 ..
发布时间:2021-04-22 19:43:51 其他开发

scikit-learn中的SpectralClustering与Spectrum_Clustering

我注意到sklearn.cluster库中有两个不同的谱聚类函数: SpectralClustering 和 spectral_clustering .尽管它们在某些细节上有所不同,但它们都进行频谱聚类,并且它们的大多数参数重叠.我很困惑为什么sklearn中有两种方法如此相似? 我注意到了一些差异: 在SpectralClustering中,参数 affinity 同时包含字符串和数 ..
发布时间:2021-04-22 19:43:48 Python

多元高斯分布公式的实现

在实现用于检测异常的多元高斯分布时,我遇到了一个问题. 我已经参考了吴国栋笔记中的公式 http://www.holehouse.org/mlclass/15_Anomaly_Detection.html 以下是我面临的问题 假设我有一个具有2个特征和m个训练集的数据集,即n = 2,并且想确定我的多元高斯概率p(x; mu; sigma),它应该是[m * 1]矩阵,因为通过 ..

使用R进行层次聚类

请考虑几点: A =(1,2.5),B =(5,10),C =(23,34),D =(45,47),E =(4,17),F =(18,4) 如何使用R对它们执行分层聚类? 我已经阅读过此示例集群分析,但是我不确定如何输入这些值而不是常规数字. 当我这样做 x ..
发布时间:2021-04-22 19:43:39 其他开发

马氏距离,每组有多个观测值

我想计算以下物种组之间的 Mahalanobis距离> i)有两个以上的组(两个以上的物种). ii)有多个变量(此类物种的特征)需要考虑. iii)每组有多个观察值(在数据框中,这意味着每个物种有多于一行). 我试图了解如何运行 HDMD 软件包: #dataa = structure(list(Sp = structure(c(1L,2L,2L,3L,4L,1L,1L,3L,4 ..
发布时间:2021-04-22 19:43:36 其他开发

手动定义集群中心

在进行Kmeans聚类分析时,如何手动定义某个聚类中心?例如,我想说我的聚类中心是[1,2,3]和[3,4,5],现在我想将向量聚类到预定义的中心. 类似于 kmeans.cluster_centers_ = [[1,2,3],[3,4,5]] 吗? 要解决我的问题,这就是我在atm所做的事情: clusters的数量= len(vec)kmeans = KMeans(number ..
发布时间:2021-04-22 19:43:33 Python

R:在图的顶部叠加聚类

我正在使用R编程语言.我创建了一些数据,并为此数据制作了KNN图.然后,我对该图进行了聚类.现在,我想将聚类叠加在图的顶部. 这是我编造的一个示例(来源: https://michael.hahsler.net/SMU/EMIS8331/material/jpclust.html )-假设我们有一个包含3个变量的数据集:房屋的经度,房屋的纬度和房屋的价格(因为“价格"和“多头/空头"的单位不 ..
发布时间:2021-04-22 19:43:30 其他开发

在R中找到合适的软件包进行聚类分析

我正在尝试在R中找到一个包,在其中我可以找到数据集中超过给定阈值的聚类. 我想知道的是群集持续时间/大小以及每个群集的各个值. 例如(一个简单的例子): 我有一个数据向量, 10 8 6 14 14 7 14 5 11 12 8 11 11 16 20 6 8 8 6 15 大于 9 的集群以粗体定义 10 8 6 14 14 7 14 5 11 12 8 11 ..
发布时间:2021-04-22 19:43:27 其他开发

如何避免内存不足的python?

我是python和ubuntu的新手.我在运行python代码后被 killed 杀死.我用于代码的文件大约是2.7 GB,并且我有16 GB的RAM,有一兆的硬位……应该怎么做才能避免此问题,因为我正在搜索并发现它似乎内存不足问题 我用了这个命令 免费-mh 我知道了 总共可用的免费共享buff/缓存可用内存:15G 2.5G 9.7G 148M 3.3G 12G掉期:4.0G 2 ..

从Rpy2向R聚类的进给距离矩阵

我在numpy/scipy中具有以下定制的NxN距离矩阵: dist_matrix = array([array([5,4,2,3,2,3]),数组([4,5,2,3,2,2]),数组([2,2,5,5,2,2,1]),数组([3,3,2,5,5,4,2]),数组([2,2,2,4,4,5,1]),数组([3,2,1,2,1,1,5])]) 如何使用此矩阵进行分层聚类并在R/ggplot2 ..
发布时间:2021-04-22 19:43:21 Python

如何使用Networkx在Python中计算图中每个节点的聚类系数

我想使用python和Networkx函数计算图中每个节点的聚类系数.我知道可能为此目的有一个内置函数,但是我想自己计算,但是我的代码无法正常工作.有人可以指出错误吗? 我尝试测试和调试代码.每个节点的邻居数,即计算n_neighbors似乎还可以,但是下一个代码不知何故没有运行或出现了一些我无法检测到的错误. 将matplotlib导入为mpl导入matplotlib.pyplot作为p ..
发布时间:2021-04-22 19:43:15 Python

scikit-learn中聚类的混淆矩阵

我有一组带有已知标签的数据.我想尝试聚类,看看是否可以获得与已知标签相同的聚类.为了测量准确性,我需要获得一个混淆矩阵之类的东西. 我知道对于分类问题的测试集,我可以很容易地得到一个混淆矩阵.我已经尝试过此. 但是,它不能用于群集,因为它期望列和行都具有相同的标签集,这对于分类问题是有意义的.但是对于群集问题,我希望是这样的. 行-实际标签 列-新的集群名称(即cluste ..
发布时间:2021-04-22 19:43:11 Python

GMM/EM时间序列集群

根据纸张,它应该可以工作.但是作为scikit-learn软件包的学习者.所有示例代码均按此处. 我真的很想知道如何通过不同的模式对以下图进行聚类... 0 -3是特定时间段内的功率平均值(分为4),而4、5、6分别对应于年份,工作日/周末的差异,冬季/夏季的差异.因此ylabel不一定满足4,5,6. 如果我使用可用的示例代码进行绘图,则它返回的内容完全不可思议,不值得共享.我虽然对 ..