cluster-analysis相关内容
我是R的新手,我正在尝试基于行业对一些数据进行集群。我了解到K-Means不能处理因素和分类数据。我已经从我的数据集中删除了名为“行业”的因素--67个不同的观察值,但是我想在模型完成后为每个观察值分配一个标签。从本质上讲,我希望我的最终结果看起来像示例美国犯罪数据集。如有任何帮助,我们将不胜感激。 我的结果: 我的理想结果: 编码: library(tidyverse)
..
据我所知,Python中没有针对Rand Index的软件包,而对于调整后的Rand Index,您可以选择使用sklearn.metrics.adjusted_rand_score(labels_true, labels_pred)。 我为Rand Score编写了代码,我将把它作为帖子的答案与其他人分享。 推荐答案 from scipy.misc import comb from
..
我刚刚编写了DBSCAN算法,我想知道DBSCAN算法是否允许群集中的点数少于使用的minPts参数。 我一直在使用http://people.cs.nctu.edu.tw/~rsliang/dbscan/testdatagen.html验证我的实现,它似乎工作正常,只是遇到了这个问题。 我正在对一个样本数据集运行一些模拟,我一直在使用minPts为3。DBSCAN算法通常会从数据集创
..
我希望对缺少列的数据进行群集。手动操作时,我会在缺少列的情况下简单地计算距离,而不需要此列。 使用SCRICKIT-LEARN,不可能丢失数据。也没有机会指定用户距离函数。 是否有机会群集丢失的数据? 示例数据: n_samples = 1500 noise = 0.05 X, _ = make_swiss_roll(n_samples, noise) rnd = n
..
我是集群算法的新手。我有一个包含200多部电影和100多个用户的电影数据集。所有用户都对至少一部电影进行了评分。值1表示好,0表示坏,如果批注器没有选择,则为空。 我想根据相似用户的评论对其进行聚类,因为将类似电影评为好的用户也可能会将未被同一群集中的任何用户评为好的电影评为好电影。我使用余弦相似性度量和k-均值聚类。CSV文件如下所示: UserID M1
..
我正在用三个具有不同特性的时间序列数据集进行实验,其格式如下。 0.086206438,10 0.086425551,12 0.089227066,20 0.089262508,24 0.089744425,30 0.090036815,40 0.090054172,28 0.090377569,28 0.0905140
..
我已经生成了包含20个点的卫星数据集,并对其进行了光谱聚类。我想在Networkx的帮助下使用最近邻居=3来形成一个图。其中数据点是节点,聚类后生成的亲和度矩阵是不同节点之间的边上的权重。我还需要帮助更改两个群集的节点的颜色和形状,以便将一个群集的节点与另一个群集的节点区分开来。代码如下所示。下面给出了输出图像。我只想使用近邻=3在输出图像的节点之间绘制一个图。 import numpy a
..
您好,我正在尝试运行SOM和KMeans分析。 但是我解不出来,因为有一个错误代码。 storage.mode(X)<;-";DOUBLE&QOOT;中出错:无法将‘LIST’对象强制为类型‘DOUBLE’ 如何解决此问题? cdata
..
我在 stations.dat 文件中存储了以下一组数据: A站 305.2 321.1 420.9 383.5 311.7 197.1 160.2 113.9 60.5 60.5 64.8 154.3B站 281.1 304.0 353.1 231.9 84.6 20.9 11.7 11.9 31.1 75.8 133.0 235.3C站 312.3 342.2 366.2 335.2 20
..
我正在尝试绘制位置和加权连接线串.当我放大或缩小标记的聚类时,可以很好地调整.显示的集群标签是标记的聚合 node_val. 我想对线串做类似的事情,这样 该图不显示连接单个标记的蓝线,而是显示连接标记簇的线,并且 连接标记簇的新线串的宽度根据 wgt 变量进行自定义. 我希望下面的代码能说明问题: 库(dplyr)图书馆(传单)图书馆(旧金山)set.seed(123)N
..
如何对时间序列数据进行 K 均值聚类?我理解当输入数据是一组点时这是如何工作的,但我不知道如何用 1XM 对时间序列进行聚类,其中 M 是数据长度.特别是,我不确定如何更新时间序列数据的集群平均值. 我有一组带标签的时间序列,我想使用 K-means 算法来检查我是否会得到类似的标签.我的 X 矩阵将是 N X M,其中 N 是时间序列的数量,M 是上面提到的数据长度. 有人知道怎么做
..
假设一个数据框包含 1000 行.每行代表一个时间序列. 然后我构建了一个 DTW 算法来计算 2 行之间的距离. 我不知道接下来要做什么来为数据帧完成无监督分类任务. 如何标注数据框的所有行? 解决方案 定义 KNN 算法 = K-最近邻分类算法 K-means = 基于质心的聚类算法 DTW = Dynamic Time Warping 一种用于时间
..
我想用 K-Means 算法对大量图像进行聚类.我想设置集群,以便每个集群代表图像的主色或色调.我在论文 使用 K-Means 的彩色图像聚类 中读到了一些相关内容 有人有想法在 OpenCV 中执行此操作吗? 也许我可以比较每张图片的直方图.但是如果我有很多照片,那需要很长时间 解决方案 您可以对图像进行矢量化,使每一行都是一组 RGB,然后使用 cv::kmeans 进行聚
..
所以我尝试构建自动分组.目标是选择方差最小的分组设置. 也就是说,我想为下面找到x和y,x,y是自然数, 第 1 组:1997 - x第 2 组:x+1 - y第 3 组:y+1 - 1994 使得 (variance(Responsein Group1),variance(Response in Group2),variance(Response in Group3)的和) 最小化.
..
所以我想在 SAS 中将我的数据分类为具有截止点的集群.我使用的方法是 k-means 聚类.(我不介意方法,只要它给我3组.) 我的聚类代码: proc fastclus data=maindat outseed=seeds1 maxcluster =3 maxiter=0;var 值残差;跑; 我的输出结果有问题.我希望将值的截止点包含在输出文件中.(我不想要 Resid 的截止点)
..
可能的重复: 一维数字数组聚类 我有一个数字数组,例如 [1, 20, 300, 45, 5, 60, 10, 270, 3].基于接近度将这些数字分组在一起的有效算法是什么?在这种情况下,我希望像 [1, 3, 5], [20, 45, 60] 和 [270, 300] 之类的东西>. 解决方案 您要问的最困难的部分是如何实际定义接近度.您希望 [5,10,15,20] 的输出是
..
我正在尝试计算 Davies-Bouldin 指数Python. 以下是代码尝试重现的步骤. 5 个步骤: 对于每个集群,计算每个点到质心的欧几里德距离 对于每个集群,计算这些距离的平均值 对于每对集群,计算它们的质心之间的欧几里德距离 那么, 对于每对聚类,求到它们各自质心的平均距离之和(在第 2 步计算),然后除以它们之间的距离(在第 3 步计算). 最
..
是否有可能为特定数据集的每次执行获得相同的 kmeans 集群.就像对于随机值一样,我们可以使用固定种子.是否可以停止聚类的随机性? 解决方案 是的.在进行聚类之前,使用 set.seed 为随机值设置种子. 使用kmeans中的例子: set.seed(1)x 测试相等性: 相同(XX, YY)[1] 真
..
假设我有一个事件的轮班列表(格式为开始日期/时间、结束日期/时间) - 是否有某种算法可以用来创建日程的概括摘要?大多数轮班陷入某种常见的重复模式(即星期一上午 9:00 到下午 1:00,星期二上午 10:00 到下午 3:00 等)是很常见的.但是,此规则可以(并且将会)有例外(例如,其中一个班次在假期发生并被重新安排在第二天).最好从我的“摘要"中排除那些,因为我希望提供一个更一般的答案,说
..
在维基百科页面上,描述了一种肘部方法,用于确定在k-均值.构建-in scipy 方法 提供了一个实现,但我不确定我是否理解他们所说的失真是如何计算的. 更准确地说,如果你用图表来解释方差的百分比集群与集群数量的对比,第一个集群将添加很多信息(解释很多差异),但在某些时候边际增益会下降,在图中给出一个角度. 假设我有以下点及其关联的质心,计算此度量的好方法是什么? points =
..