cluster-analysis相关内容
我想为几个数据框调用NbClust()函数.我这样做是通过包含NbClust()函数调用的for循环“全部"发送它们. 代码如下: #combos of just all columns from df variations = unlist(lapply(seq_along(df), function(x) combn(df, x, simplify=FALSE)), recursive=
..
我的环境:带有Ubuntu 14.04,Solr 4.3.1,胡萝卜2Workbench 3.10.0的8GB Ram笔记本 我的Solr索引:15980个文档 我的问题:使用kmeans算法对所有文档进行聚类 当我放下胡萝卜2工作台中的查询(查询::)时,当使用超过1000个结果时,总是会收到Java堆大小错误.我用-Xms256m -Xmx6g启动了Solr,但是它仍然会发生
..
我有一组具有50个特征(c1,c2,c3 ...)的数据,具有超过8万行. 每行都包含归一化的数值(范围为0-1).它实际上是一个归一化的伪变量,其中某些行仅具有3-4个很少的功能(即,如果没有值,则分配0).大多数行具有大约10-20个功能. 我使用KMeans对数据进行聚类,总是导致具有大量成员的聚类.经过分析,我注意到具有少于4个特征的行趋于聚集在一起,这不是我想要的. 总
..
Scikit文档指出: 初始化方法 "k-means ++":以一种明智的方式为k-mean聚类选择初始聚类中心,以加快收敛速度.有关更多详细信息,请参见k_init中的注释部分. 如果通过ndarray,则其形状应为n_clusters,n_features,并给出初始中心. 我的数据有10个(预测的)群集和7个功能.但是,我想传递10 x 6形状的数组,即我想由我预
..
我们一直在使用Kmeans对日志进行聚类. 典型的数据集有10密耳.具有100k +功能的样本. 要找到最佳k-我们并行运行多个Kmeans,然后选择轮廓分数最高的那个.在90%的情况下,我们得出的k在2到100之间. 当前,我们正在使用scikit-learn Kmeans. 对于这样的数据集,在具有32个内核和244 RAM的ec2实例上,聚类大约需要24小时. 我目前正在研究一种
..
我正在使用sklearn.cluster KMeans软件包.完成聚类后,如果我需要知道将哪些值分组在一起,该怎么做? 说我有100个数据点,而KMeans给了我5个群集. 现在,我想知道群集5中的哪些数据点.我该怎么做. 是否有一个提供群集ID的函数,它将列出该群集中的所有数据点? 解决方案 我有一个类似的要求,我正在使用pandas创建一个以数据集的索引和标签为列的新数据框
..
我已经运行了Seaborn的clustermap,并将结果保存到名为"test"的ClusterGrid对象中.但是由于某种未知的原因,尽管"test"不是空的,但是除非我再次运行它,否则该命令不会显示集群映射.它确实是一个ClusterGrid对象. 那么自从我保存之后,是否有任何简单的方法来显示/绘制ClusterGrid?我尝试了plt.plot,但是没有用. 解决方案 键入d
..
在sklearn kmeans聚类之后,是否有任何简单的方法可以返回最远的离群值? 本质上,我想列出负载最大的离群值列表。不幸的是,由于分配,我需要使用sklearn.cluster.KMeans。 解决方案 K-means不适用于“离群值”检测。 k均值有将离群值变成一个单元素簇的趋势。然后离群值具有最小可能的距离,并且不会被检测到。 当数据中存在离群值时,K均值不够鲁
..
我想将我的数据聚类为5个聚类,那么我们需要从所有数据中选择50个具有最相似关系的个体。这意味着如果群集1包含100,两个包含200,三个包含400,四个包含200,以及五个100,则我必须从第一个群集中选择5 +从第二个群集中选择10 +从第三个群集中选择20 +从第四个群集中选择10 +从第五名到第五名。 数据示例: mydata
..
关于另一个问题的提示使我很困惑。 我做了一个练习,实际上是更大练习的一部分: 使用hclust(完成)聚类一些数据 给出一个全新的向量,找出您要对哪个集群进行进来1就是最接近的。 根据练习,应该在很短的时间内完成。 但是,几周后我不知道这是否可以完成,因为我从hclust那里真正得到的只是一棵树,而不是我想象的许多簇。 我想我还不清楚: 例如,我要输入一个包含
..
我正在使用sklearn的内置数据集虹膜进行聚类。在KMeans中,我预先设置了群集数,但对于DBSCAN而言并非如此。如果您不预先设置簇数,该如何训练模型? 我尝试过: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns #%matpl
..
请参阅我的上一个问题,以获取与用于创建树状图的测试数据和命令有关的详细信息: 这是我制作树状图的命令的快速摘要: un_exprs
..
我想使用胡萝卜2工作台对数据集进行聚类。我有一个包含 65536 文档的xml输入文件。我正在使用Lingo聚类算法。 但是,当我开始该过程时,工作台将在几秒钟内将所有文档归入“其他主题”集群,并返回结果。 我检查了具有较小数据集的聚类,并且得到了结果。 解决方案 Carrot2 Lingo算法是为小数据集(最多一千个文档)设计的。对于较大的数据集,您可能需要尝试STC,这样可
..
我正在尝试找到一种按组对单变量数据进行聚类的方法。例如,在下面的数据中,每个分组我都有两个故障代码(a和b)以及6个数据点。在该图中,您可以看到每个故障代码都有2个不同的故障时间群集。手动执行此操作还不错,但是我无法弄清楚如何使用更大的数据集(约10万行和约30个代码)来实现此目的。我希望最终结果能为我提供每个群集的medoid以及该群集中的代码数。 library( ggplot2) 失
..
我已经使用Doc2vec将文档转换为向量,之后,我将这些向量用于聚类,并找出与每个聚类的质心最接近/最相似的5个文档。现在,我需要找到这些文档中最主要或最重要的术语,以便找出每个群集的特征。 我的问题是,有什么方法可以找出Doc2vec中文档中最主要或最相似的术语/单词。我在Doc2vec实现中使用python的gensim包 解决方案 要找出群集中最主要的单词,可以使用任何这两种经典方
..
这可能是我要提出的幼稚问题。我有一个标记化的语料库,在上面训练了Gensim的Word2vec模型。代码如下 site = Article(“ http://www.datasciencecentral.com/profiles/blogs/blockchain- and-artificial-intelligence-1“) site.download() site.parse()
..
给出一组点(x,y,'热'), 在[15]中:df.head () Out [15]: xy热量 0 0.660055 0.395942 2.368304 1 0.126268 0.187978 6.760261 2 0.174857 0.637188 1.025078 3 0.460085 0.759171 2.635334 4 0.689242 0.173868 4.
..
R版本:3.2.4 RStudio版本:0.99.893 Windows 7 Intel i7 480 GB RAM str(df) 161976 obs。的11个变量 我是R的相对新手,并且没有软件编程背景。我的任务是对数据集执行聚类。 变量已缩放并居中。我正在使用以下代码来找到最佳的群集数量: d
..
我已经用python编写了实现DBSCAN集群算法的代码。 我的数据集包含14000个用户,每个用户由10个要素表示。 我无法确定将Min_samples和epsilon的值确切保留为输入 我应该如何确定呢? 相似性度量是欧几里德距离。(因此,它变得更加难以确定。)是否有指针? 解决方案 DBSCAN通常很难估计其参数。 您是否考虑过OPTICS算法?在这种情况下,您只需要M
..
我有8000x100尺寸的数据。我需要将这8000个项目聚类。我对这些物品的订购更感兴趣。对于较小的数据,我可以从上面的代码中获得所需的结果,但对于较大的维度,我不断收到运行时错误“ RuntimeError:获取对象的str时超出了最大递归深度”。有没有另一种方法可以从“ Z”中获取重新排序的列。 从hcluster import pdist,linkage和dendrogram im
..