cluster-analysis相关内容

尝试通过胡萝卜2集群15980个文档时出现Java堆大小错误

我的环境:带有Ubuntu 14.04,Solr 4.3.1,胡萝卜2Workbench 3.10.0的8GB Ram笔记本 我的Solr索引:15980个文档 我的问题:使用kmeans算法对所有文档进行聚类 当我放下胡萝卜2工作台中的查询(查询::)时,当使用超过1000个结果时,总是会收到Java堆大小错误.我用-Xms256m -Xmx6g启动了Solr,但是它仍然会发生 ..
发布时间:2021-02-15 19:03:21 其他开发

KMeans聚类不平衡数据

我有一组具有50个特征(c1,c2,c3 ...)的数据,具有超过8万行. 每行都包含归一化的数值(范围为0-1).它实际上是一个归一化的伪变量,其中某些行仅具有3-4个很少的功能(即,如果没有值,则分配0).大多数行具有大约10-20个功能. 我使用KMeans对数据进行聚类,总是导致具有大量成员的聚类.经过分析,我注意到具有少于4个特征的行趋于聚集在一起,这不是我想要的. 总 ..

为scikit学习K均值聚类部分定义初始质心

Scikit文档指出: 初始化方法 "k-means ++":以一种明智的方式为k-mean聚类选择初始聚类中心,以加快收敛速度​​.有关更多详细信息,请参见k_init中的注释部分. 如果通过ndarray,则其形状应为n_clusters,n_features,并给出初始中心. 我的数据有10个(预测的)群集和7个功能.但是,我想传递10 x 6形状的数组,即我想由我预 ..

借助GPU支持,在高维数据上实现更快的Kmeans聚类

我们一直在使用Kmeans对日志进行聚类. 典型的数据集有10密耳.具有100k +功能的样本. 要找到最佳k-我们并行运行多个Kmeans,然后选择轮廓分数最高的那个.在90%的情况下,我们得出的k在2到100之间. 当前,我们正在使用scikit-learn Kmeans. 对于这样的数据集,在具有32个内核和244 RAM的ec2实例上,聚类大约需要24小时. 我目前正在研究一种 ..

如何获得每个聚类中的样本?

我正在使用sklearn.cluster KMeans软件包.完成聚类后,如果我需要知道将哪些值分组在一起,该怎么做? 说我有100个数据点,而KMeans给了我5个群集. 现在,我想知道群集5中的哪些数据点.我该怎么做. 是否有一个提供群集ID的函数,它将列出该群集中的所有数据点? 解决方案 我有一个类似的要求,我正在使用pandas创建一个以数据集的索引和标签为列的新数据框 ..
发布时间:2021-02-15 19:02:19 Python

如何在Jupyter笔记本中显示Seaborn Clustermap Insider

我已经运行了Seaborn的clustermap,并将结果保存到名为"test"的ClusterGrid对象中.但是由于某种未知的原因,尽管"test"不是空的,但是除非我再次运行它,否则该命令不会显示集群映射.它确实是一个ClusterGrid对象. 那么自从我保存之后,是否有任何简单的方法来显示/绘制ClusterGrid?我尝试了plt.plot,但是没有用. 解决方案 键入d ..
发布时间:2021-02-14 19:34:14 其他开发

返回kmeans聚类中最远的离群值?

在sklearn kmeans聚类之后,是否有任何简单的方法可以返回最远的离群值? 本质上,我想列出负载最大的离群值列表。不幸的是,由于分配,我需要使用sklearn.cluster.KMeans。 解决方案 K-means不适用于“离群值”检测。 k均值有将离群值变成一个单元素簇的趋势。然后离群值具有最小可能的距离,并且不会被检测到。 当数据中存在离群值时,K均值不够鲁 ..
发布时间:2020-10-03 02:23:38 Python

使用聚类分析选择最相异的人

我想将我的数据聚类为5个聚类,那么我们需要从所有数据中选择50个具有最相似关系的个体。这意味着如果群集1包含100,两个包含200,三个包含400,四个包含200,以及五个100,则我必须从第一个群集中选择5 +从第二个群集中选择10 +从第三个群集中选择20 +从第四个群集中选择10 +从第五名到第五名。 数据示例: mydata ..
发布时间:2020-10-03 02:23:34 其他开发

聚类-如何找到离聚类最近的

关于另一个问题的提示使我很困惑。 我做了一个练习,实际上是更大练习的一部分: 使用hclust(完成)聚类一些数据 给出一个全新的向量,找出您要对哪个集群进行进来1就是最接近的。 根据练习,应该在很短的时间内完成。 但是,几周后我不知道这是否可以完成,因为我从hclust那里真正得到的只是一棵树,而不是我想象的许多簇。 我想我还不清楚: 例如,我要输入一个包含 ..
发布时间:2020-10-03 02:23:31 其他开发

使用DBSCAN进行集群:如果不预先设置集群数,如何训练模型?

我正在使用sklearn的内置数据集虹膜进行聚类。在KMeans中,我预先设置了群集数,但对于DBSCAN而言并非如此。如果您不预先设置簇数,该如何训练模型? 我尝试过: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns #%matpl ..

Carrot2工作台无法处理大数据

我想使用胡萝卜2工作台对数据集进行聚类。我有一个包含 65536 文档的xml输入文件。我正在使用Lingo聚类算法。 但是,当我开始该过程时,工作台将在几秒钟内将所有文档归入“其他主题”集群,并返回结果。 我检查了具有较小数据集的聚类,并且得到了结果。 解决方案 Carrot2 Lingo算法是为小数据集(最多一千个文档)设计的。对于较大的数据集,您可能需要尝试STC,这样可 ..
发布时间:2020-10-03 02:22:22 其他开发

R单变量按组聚类

我正在尝试找到一种按组对单变量数据进行聚类的方法。例如,在下面的数据中,每个分组我都有两个故障代码(a和b)以及6个数据点。在该图中,您可以看到每个故障代码都有2个不同的故障时间群集。手动执行此操作还不错,但是我无法弄清楚如何使用更大的数据集(约10万行和约30个代码)来实现此目的。我希望最终结果能为我提供每个群集的medoid以及该群集中的代码数。 library( ggplot2) 失 ..
发布时间:2020-10-03 02:22:19 其他开发

如何在doc2vec中找到文档中最相似的术语/单词?

我已经使用Doc2vec将文档转换为向量,之后,我将这些向量用于聚类,并找出与每个聚类的质心最接近/最相似的5个文档。现在,我需要找到这些文档中最主要或最重要的术语,以便找出每个群集的特征。 我的问题是,有什么方法可以找出Doc2vec中文档中最主要或最相似的术语/单词。我在Doc2vec实现中使用python的gensim包 解决方案 要找出群集中最主要的单词,可以使用任何这两种经典方 ..
发布时间:2020-10-03 02:22:16 Python

如何让R在PC上利用更多的处理能力?

R版本:3.2.4 RStudio版本:0.99.893 Windows 7 Intel i7 480 GB RAM str(df) 161976 obs。的11个变量 我是R的相对新手,并且没有软件编程背景。我的任务是对数据集执行聚类。 变量已缩放并居中。我正在使用以下代码来找到最佳的群集数量: d ..
发布时间:2020-10-03 02:20:07 其他开发

确定DBSCAN算法的输入值

我已经用python编写了实现DBSCAN集群算法的代码。 我的数据集包含14000个用户,每个用户由10个要素表示。 我无法确定将Min_samples和epsilon的值确切保留为输入 我应该如何确定呢? 相似性度量是欧几里德距离。(因此,它变得更加难以确定。)是否有指针? 解决方案 DBSCAN通常很难估计其参数。 您是否考虑过OPTICS算法?在这种情况下,您只需要M ..
发布时间:2020-10-03 02:20:04 Python

Python查找树状图的替代方法

我有8000x100尺寸的数据。我需要将这8000个项目聚类。我对这些物品的订购更感兴趣。对于较小的数据,我可以从上面的代码中获得所需的结果,但对于较大的维度,我不断收到运行时错误“ RuntimeError:获取对象的str时超出了最大递归深度”。有没有另一种方法可以从“ Z”中获取重新排序的列。 从hcluster import pdist,linkage和dendrogram im ..