cluster-analysis 第2页 - IT屋-程序员软件开发技术分享社区

将标签添加到集群

我是R的新手，我正在尝试基于行业对一些数据进行集群。我了解到K-Means不能处理因素和分类数据。我已经从我的数据集中删除了名为“行业”的因素--67个不同的观察值，但是我想在模型完成后为每个观察值分配一个标签。从本质上讲，我希望我的最终结果看起来像示例美国犯罪数据集。如有任何帮助，我们将不胜感激。我的结果：我的理想结果：编码： library(tidyverse) ..

发布时间：2022-03-22 11:13:49 r cluster-analysis k-means factoextra 其他开发

随机指标函数(聚类性能评估)

据我所知，Python中没有针对Rand Index的软件包，而对于调整后的Rand Index，您可以选择使用sklearn.metrics.adjusted_rand_score(labels_true, labels_pred)。我为Rand Score编写了代码，我将把它作为帖子的答案与其他人分享。推荐答案 from scipy.misc import comb from ..

发布时间：2022-03-22 11:11:44 python cluster-analysis precision unsupervised-learning Python

DBSCAN算法是否可以创建小于minPts的集群？

我刚刚编写了DBSCAN算法，我想知道DBSCAN算法是否允许群集中的点数少于使用的minPts参数。我一直在使用http://people.cs.nctu.edu.tw/~rsliang/dbscan/testdatagen.html验证我的实现，它似乎工作正常，只是遇到了这个问题。我正在对一个样本数据集运行一些模拟，我一直在使用minPts为3。DBSCAN算法通常会从数据集创 ..

发布时间：2022-03-22 11:06:17 machine-learning data-mining cluster-analysis dbscan AI人工智能

Python SCRICKIT-了解丢失数据的群集

我希望对缺少列的数据进行群集。手动操作时，我会在缺少列的情况下简单地计算距离，而不需要此列。使用SCRICKIT-LEARN，不可能丢失数据。也没有机会指定用户距离函数。是否有机会群集丢失的数据？示例数据： n_samples = 1500 noise = 0.05 X, _ = make_swiss_roll(n_samples, noise) rnd = n ..

发布时间：2022-03-22 11:02:24 python scikit-learn cluster-analysis missing-data Python

如何在Python中使用K-Means聚类找到最优聚类数

我是集群算法的新手。我有一个包含200多部电影和100多个用户的电影数据集。所有用户都对至少一部电影进行了评分。值1表示好，0表示坏，如果批注器没有选择，则为空。我想根据相似用户的评论对其进行聚类，因为将类似电影评为好的用户也可能会将未被同一群集中的任何用户评为好的电影评为好电影。我使用余弦相似性度量和k-均值聚类。CSV文件如下所示： UserID M1 ..

发布时间：2022-03-22 10:59:52 python cluster-analysis k-means euclidean-distance cosine-similarity Python

K表示聚类-值错误：N_Samples=1应为>；=n_cluster

我正在用三个具有不同特性的时间序列数据集进行实验，其格式如下。 0.086206438,10 0.086425551,12 0.089227066,20 0.089262508,24 0.089744425,30 0.090036815,40 0.090054172,28 0.090377569,28 0.0905140 ..

发布时间：2022-03-22 10:58:23 python-3.x machine-learning scikit-learn cluster-analysis k-means AI人工智能

在卫星数据集上进行光谱聚类后使用Networkx绘制图形的步骤

我已经生成了包含20个点的卫星数据集，并对其进行了光谱聚类。我想在Networkx的帮助下使用最近邻居=3来形成一个图。其中数据点是节点，聚类后生成的亲和度矩阵是不同节点之间的边上的权重。我还需要帮助更改两个群集的节点的颜色和形状，以便将一个群集的节点与另一个群集的节点区分开来。代码如下所示。下面给出了输出图像。我只想使用近邻=3在输出图像的节点之间绘制一个图。 import numpy a ..

发布时间：2022-03-02 11:20:58 python machine-learning data-science cluster-analysis networkx AI人工智能

如何解决错误：存储错误。mode(X)<；-"；Double&Quot；：'；List'；对象不能强制为类型'；Double'；

您好，我正在尝试运行SOM和KMeans分析。但是我解不出来，因为有一个错误代码。 storage.mode(X)<；-"；DOUBLE&QOOT；中出错：无法将‘LIST’对象强制为类型‘DOUBLE’ 如何解决此问题？ cdata ..

发布时间：2022-02-26 12:15:59 r syntax-error cluster-analysis k-means som 其他开发

树状图中的关联标签 - MATLAB

我在 stations.dat 文件中存储了以下一组数据: A站 305.2 321.1 420.9 383.5 311.7 197.1 160.2 113.9 60.5 60.5 64.8 154.3B站 281.1 304.0 353.1 231.9 84.6 20.9 11.7 11.9 31.1 75.8 133.0 235.3C站 312.3 342.2 366.2 335.2 20 ..

发布时间：2022-01-25 22:28:37 matlab plot label cluster-analysis dendrogram 其他开发

R中传单中聚类标记的聚合加权线串

我正在尝试绘制位置和加权连接线串.当我放大或缩小标记的聚类时，可以很好地调整.显示的集群标签是标记的聚合 node_val. 我想对线串做类似的事情，这样该图不显示连接单个标记的蓝线，而是显示连接标记簇的线，并且连接标记簇的新线串的宽度根据 wgt 变量进行自定义. 我希望下面的代码能说明问题: 库(dplyr)图书馆(传单)图书馆(旧金山)set.seed(123)N ..

发布时间：2022-01-12 18:28:42 r leaflet cluster-analysis sf 其他开发

如何对时间序列数据执行 K-means 聚类?

如何对时间序列数据进行 K 均值聚类?我理解当输入数据是一组点时这是如何工作的，但我不知道如何用 1XM 对时间序列进行聚类，其中 M 是数据长度.特别是，我不确定如何更新时间序列数据的集群平均值. 我有一组带标签的时间序列，我想使用 K-means 算法来检查我是否会得到类似的标签.我的 X 矩阵将是 N X M，其中 N 是时间序列的数量，M 是上面提到的数据长度. 有人知道怎么做 ..

发布时间：2022-01-11 09:37:27 matlab time-series cluster-analysis data-mining k-means AI人工智能

如何使用 KNN/K-means 在数据框中对时间序列进行聚类

假设一个数据框包含 1000 行.每行代表一个时间序列. 然后我构建了一个 DTW 算法来计算 2 行之间的距离. 我不知道接下来要做什么来为数据帧完成无监督分类任务. 如何标注数据框的所有行? 解决方案定义 KNN 算法 = K-最近邻分类算法 K-means = 基于质心的聚类算法 DTW = Dynamic Time Warping 一种用于时间 ..

发布时间：2022-01-11 09:28:28 python time-series cluster-analysis Python

在 OpenCV 中使用 k-means 进行颜色分类

我想用 K-Means 算法对大量图像进行聚类.我想设置集群，以便每个集群代表图像的主色或色调.我在论文使用 K-Means 的彩色图像聚类中读到了一些相关内容有人有想法在 OpenCV 中执行此操作吗? 也许我可以比较每张图片的直方图.但是如果我有很多照片，那需要很长时间解决方案您可以对图像进行矢量化，使每一行都是一组 RGB，然后使用 cv::kmeans 进行聚 ..

发布时间：2022-01-09 18:36:14 opencv computer-vision cluster-analysis 其他开发

SAS中的自动分组，最小化组内差异

所以我尝试构建自动分组.目标是选择方差最小的分组设置. 也就是说，我想为下面找到x和y，x,y是自然数，第 1 组:1997 - x第 2 组:x+1 - y第 3 组:y+1 - 1994 使得 (variance(Responsein Group1),variance(Response in Group2),variance(Response in Group3)的和) 最小化. ..

发布时间：2022-01-08 17:59:13 sas cluster-analysis datastep 其他开发

sas中k-means聚类的截止点

所以我想在 SAS 中将我的数据分类为具有截止点的集群.我使用的方法是 k-means 聚类.(我不介意方法，只要它给我3组.) 我的聚类代码: proc fastclus data=maindat outseed=seeds1 maxcluster =3 maxiter=0;var 值残差；跑; 我的输出结果有问题.我希望将值的截止点包含在输出文件中.(我不想要 Resid 的截止点) ..

发布时间：2022-01-08 17:59:00 sas cluster-analysis k-means hierarchical-clustering 其他开发

有效地将相似的数字分组在一起

可能的重复: 一维数字数组聚类我有一个数字数组，例如 [1, 20, 300, 45, 5, 60, 10, 270, 3].基于接近度将这些数字分组在一起的有效算法是什么?在这种情况下，我希望像 [1, 3, 5], [20, 45, 60] 和 [270, 300] 之类的东西>. 解决方案您要问的最困难的部分是如何实际定义接近度.您希望 [5,10,15,20] 的输出是 ..

发布时间：2022-01-08 00:01:29 algorithm math language-agnostic statistics cluster-analysis 其他开发

我对 Davies-Bouldin 索引的 Python 实现是否正确?

我正在尝试计算 Davies-Bouldin 指数Python. 以下是代码尝试重现的步骤. 5 个步骤: 对于每个集群，计算每个点到质心的欧几里德距离对于每个集群，计算这些距离的平均值对于每对集群，计算它们的质心之间的欧几里德距离那么，对于每对聚类，求到它们各自质心的平均距离之和(在第 2 步计算)，然后除以它们之间的距离(在第 3 步计算). 最 ..

发布时间：2022-01-07 23:41:07 python statistics cluster-analysis metrics data-science Python

k-means:每次执行相同的集群

是否有可能为特定数据集的每次执行获得相同的 kmeans 集群.就像对于随机值一样，我们可以使用固定种子.是否可以停止聚类的随机性? 解决方案是的.在进行聚类之前，使用 set.seed 为随机值设置种子. 使用kmeans中的例子: set.seed(1)x 测试相等性: 相同(XX, YY)[1] 真 ..

发布时间：2022-01-07 23:40:09 r statistics cluster-analysis k-means 其他开发

给定轮班列表，创建时间表的摘要描述

假设我有一个事件的轮班列表(格式为开始日期/时间、结束日期/时间) - 是否有某种算法可以用来创建日程的概括摘要?大多数轮班陷入某种常见的重复模式(即星期一上午 9:00 到下午 1:00，星期二上午 10:00 到下午 3:00 等)是很常见的.但是，此规则可以(并且将会)有例外(例如，其中一个班次在假期发生并被重新安排在第二天).最好从我的“摘要"中排除那些，因为我希望提供一个更一般的答案，说 ..

发布时间：2022-01-07 23:13:49 c# vb.net statistics cluster-analysis C#/.NET

计算 k 均值的方差度量百分比?

在维基百科页面上，描述了一种肘部方法，用于确定在k-均值.构建-in scipy 方法提供了一个实现，但我不确定我是否理解他们所说的失真是如何计算的. 更准确地说，如果你用图表来解释方差的百分比集群与集群数量的对比，第一个集群将添加很多信息(解释很多差异)，但在某些时候边际增益会下降，在图中给出一个角度. 假设我有以下点及其关联的质心，计算此度量的好方法是什么? points = ..

发布时间：2022-01-07 23:11:16 python numpy statistics cluster-analysis k-means Python

cluster-analysis相关内容