cluster-analysis 第8页 - IT屋-程序员软件开发技术分享社区

r:在for()循环中部署NbClust()调用时发生错误-"if((res [ncP-min_nc + 1，15]< = resCritical [ncP-min_nc +:''的错误

我想为几个数据框调用NbClust()函数.我这样做是通过包含NbClust()函数调用的for循环“全部"发送它们. 代码如下: #combos of just all columns from df variations = unlist(lapply(seq_along(df), function(x) combn(df, x, simplify=FALSE)), recursive= ..

发布时间：2021-02-15 19:03:24 r cluster-analysis k-means hclust 其他开发

尝试通过胡萝卜2集群15980个文档时出现Java堆大小错误

我的环境:带有Ubuntu 14.04，Solr 4.3.1，胡萝卜2Workbench 3.10.0的8GB Ram笔记本我的Solr索引:15980个文档我的问题:使用kmeans算法对所有文档进行聚类当我放下胡萝卜2工作台中的查询(查询::)时，当使用超过1000个结果时，总是会收到Java堆大小错误.我用-Xms256m -Xmx6g启动了Solr，但是它仍然会发生 ..

发布时间：2021-02-15 19:03:21 solr cluster-analysis k-means workbench carrot 其他开发

KMeans聚类不平衡数据

我有一组具有50个特征(c1，c2，c3 ...)的数据，具有超过8万行. 每行都包含归一化的数值(范围为0-1).它实际上是一个归一化的伪变量，其中某些行仅具有3-4个很少的功能(即，如果没有值，则分配0).大多数行具有大约10-20个功能. 我使用KMeans对数据进行聚类，总是导致具有大量成员的聚类.经过分析，我注意到具有少于4个特征的行趋于聚集在一起，这不是我想要的. 总 ..

发布时间：2021-02-15 19:03:03 python cluster-analysis k-means data-science feature-engineering Python

为scikit学习K均值聚类部分定义初始质心

Scikit文档指出: 初始化方法 "k-means ++":以一种明智的方式为k-mean聚类选择初始聚类中心，以加快收敛速度.有关更多详细信息，请参见k_init中的注释部分. 如果通过ndarray，则其形状应为n_clusters，n_features，并给出初始中心. 我的数据有10个(预测的)群集和7个功能.但是，我想传递10 x 6形状的数组，即我想由我预 ..

发布时间：2021-02-15 19:02:45 python machine-learning scikit-learn cluster-analysis k-means AI人工智能

借助GPU支持，在高维数据上实现更快的Kmeans聚类

我们一直在使用Kmeans对日志进行聚类. 典型的数据集有10密耳.具有100k +功能的样本. 要找到最佳k-我们并行运行多个Kmeans，然后选择轮廓分数最高的那个.在90％的情况下，我们得出的k在2到100之间. 当前，我们正在使用scikit-learn Kmeans. 对于这样的数据集，在具有32个内核和244 RAM的ec2实例上，聚类大约需要24小时. 我目前正在研究一种 ..

发布时间：2021-02-15 19:02:39 tensorflow machine-learning pyspark cluster-analysis k-means AI人工智能

如何获得每个聚类中的样本?

我正在使用sklearn.cluster KMeans软件包.完成聚类后，如果我需要知道将哪些值分组在一起，该怎么做? 说我有100个数据点，而KMeans给了我5个群集. 现在，我想知道群集5中的哪些数据点.我该怎么做. 是否有一个提供群集ID的函数，它将列出该群集中的所有数据点? 解决方案我有一个类似的要求，我正在使用pandas创建一个以数据集的索引和标签为列的新数据框 ..

发布时间：2021-02-15 19:02:19 python scikit-learn cluster-analysis k-means Python

如何在Jupyter笔记本中显示Seaborn Clustermap Insider

我已经运行了Seaborn的clustermap，并将结果保存到名为"test"的ClusterGrid对象中.但是由于某种未知的原因，尽管"test"不是空的，但是除非我再次运行它，否则该命令不会显示集群映射.它确实是一个ClusterGrid对象. 那么自从我保存之后，是否有任何简单的方法来显示/绘制ClusterGrid?我尝试了plt.plot，但是没有用. 解决方案键入d ..

发布时间：2021-02-14 19:34:14 cluster-analysis jupyter seaborn 其他开发

返回kmeans聚类中最远的离群值？

在sklearn kmeans聚类之后，是否有任何简单的方法可以返回最远的离群值？本质上，我想列出负载最大的离群值列表。不幸的是，由于分配，我需要使用sklearn.cluster.KMeans。解决方案 K-means不适用于“离群值”检测。 k均值有将离群值变成一个单元素簇的趋势。然后离群值具有最小可能的距离，并且不会被检测到。当数据中存在离群值时，K均值不够鲁 ..

发布时间：2020-10-03 02:23:38 python scikit-learn cluster-analysis Python

使用聚类分析选择最相异的人

我想将我的数据聚类为5个聚类，那么我们需要从所有数据中选择50个具有最相似关系的个体。这意味着如果群集1包含100，两个包含200，三个包含400，四个包含200，以及五个100，则我必须从第一个群集中选择5 +从第二个群集中选择10 +从第三个群集中选择20 +从第四个群集中选择10 +从第五名到第五名。数据示例： mydata ..

发布时间：2020-10-03 02:23:34 r cluster-analysis 其他开发

聚类-如何找到离聚类最近的

关于另一个问题的提示使我很困惑。我做了一个练习，实际上是更大练习的一部分：使用hclust（完成）聚类一些数据给出一个全新的向量，找出您要对哪个集群进行进来1就是最接近的。根据练习，应该在很短的时间内完成。但是，几周后我不知道这是否可以完成，因为我从hclust那里真正得到的只是一棵树，而不是我想象的许多簇。我想我还不清楚：例如，我要输入一个包含 ..

发布时间：2020-10-03 02:23:31 r cluster-analysis hierarchical-clustering 其他开发

使用DBSCAN进行集群：如果不预先设置集群数，如何训练模型？

我正在使用sklearn的内置数据集虹膜进行聚类。在KMeans中，我预先设置了群集数，但对于DBSCAN而言并非如此。如果您不预先设置簇数，该如何训练模型？我尝试过： import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns ＃％matpl ..

发布时间：2020-10-03 02:23:28 python machine-learning scikit-learn cluster-analysis dbscan AI人工智能

如何使R输出有关树状图对象的文本详细信息？

请参阅我的上一个问题，以获取与用于创建树状图的测试数据和命令有关的详细信息：这是我制作树状图的命令的快速摘要： un_exprs ..

发布时间：2020-10-03 02:23:26 r cluster-analysis dendrogram 其他开发

Carrot2工作台无法处理大数据

我想使用胡萝卜2工作台对数据集进行聚类。我有一个包含 65536 文档的xml输入文件。我正在使用Lingo聚类算法。但是，当我开始该过程时，工作台将在几秒钟内将所有文档归入“其他主题”集群，并返回结果。我检查了具有较小数据集的聚类，并且得到了结果。解决方案 Carrot2 Lingo算法是为小数据集（最多一千个文档）设计的。对于较大的数据集，您可能需要尝试STC，这样可 ..

发布时间：2020-10-03 02:22:22 xml cluster-analysis carrot2 其他开发

R单变量按组聚类

我正在尝试找到一种按组对单变量数据进行聚类的方法。例如，在下面的数据中，每个分组我都有两个故障代码（a和b）以及6个数据点。在该图中，您可以看到每个故障代码都有2个不同的故障时间群集。手动执行此操作还不错，但是我无法弄清楚如何使用更大的数据集（约10万行和约30个代码）来实现此目的。我希望最终结果能为我提供每个群集的medoid以及该群集中的代码数。 library（ ggplot2）失 ..

发布时间：2020-10-03 02:22:19 r cluster-analysis 其他开发

如何在doc2vec中找到文档中最相似的术语/单词？

我已经使用Doc2vec将文档转换为向量，之后，我将这些向量用于聚类，并找出与每个聚类的质心最接近/最相似的5个文档。现在，我需要找到这些文档中最主要或最重要的术语，以便找出每个群集的特征。我的问题是，有什么方法可以找出Doc2vec中文档中最主要或最相似的术语/单词。我在Doc2vec实现中使用python的gensim包解决方案要找出群集中最主要的单词，可以使用任何这两种经典方 ..

发布时间：2020-10-03 02:22:16 python cluster-analysis gensim word2vec doc2vec Python

Python：基于word2vec聚类相似词

这可能是我要提出的幼稚问题。我有一个标记化的语料库，在上面训练了Gensim的Word2vec模型。代码如下 site = Article（“ http://www.datasciencecentral.com/profiles/blogs/blockchain- and-artificial-intelligence-1“） site.download（） site.parse（） ..

发布时间：2020-10-03 02:22:14 python nlp cluster-analysis word2vec topic-modeling Python

如何在Python中创建热图矩阵并生成基于“热”的区域？

给出一组点（x，y，'热'），在[15]中：df.head （） Out [15]： xy热量 0 0.660055 0.395942 2.368304 1 0.126268 0.187978 6.760261 2 0.174857 0.637188 1.025078 3 0.460085 0.759171 2.635334 4 0.689242 0.173868 4. ..

发布时间：2020-10-03 02:21:10 python matplotlib cluster-analysis heatmap Python

如何让R在PC上利用更多的处理能力？

R版本：3.2.4 RStudio版本：0.99.893 Windows 7 Intel i7 480 GB RAM str（df） 161976 obs。的11个变量我是R的相对新手，并且没有软件编程背景。我的任务是对数据集执行聚类。变量已缩放并居中。我正在使用以下代码来找到最佳的群集数量： d ..

发布时间：2020-10-03 02:20:07 r cpu cluster-analysis 其他开发

确定DBSCAN算法的输入值

我已经用python编写了实现DBSCAN集群算法的代码。我的数据集包含14000个用户，每个用户由10个要素表示。我无法确定将Min_samples和epsilon的值确切保留为输入我应该如何确定呢？相似性度量是欧几里德距离。（因此，它变得更加难以确定。）是否有指针？解决方案 DBSCAN通常很难估计其参数。您是否考虑过OPTICS算法？在这种情况下，您只需要M ..

发布时间：2020-10-03 02:20:04 python cluster-analysis dbscan Python

Python查找树状图的替代方法

我有8000x100尺寸的数据。我需要将这8000个项目聚类。我对这些物品的订购更感兴趣。对于较小的数据，我可以从上面的代码中获得所需的结果，但对于较大的维度，我不断收到运行时错误“ RuntimeError：获取对象的str时超出了最大递归深度”。有没有另一种方法可以从“ Z”中获取重新排序的列。从hcluster import pdist，linkage和dendrogram im ..

发布时间：2020-10-03 02:20:01 python cluster-analysis data-mining hierarchical-clustering dendrogram AI人工智能

cluster-analysis相关内容