cluster-analysis 第7页 - IT屋-程序员软件开发技术分享社区

是否可以运行具有分块距离矩阵的聚类算法?

我有一个距离/差异矩阵(3万行30K列)，该矩阵是循环计算并存储在ROM中的. 我想对矩阵进行聚类.我将其导入并聚类如下: Mydata ..

发布时间：2021-04-22 19:43:06 r cluster-analysis hclust 其他开发

聚类算法的性能分析

已给我2个数据集，并希望使用KNIME对这些数据集进行聚类分析. 完成聚类后，我希望对两种不同的聚类算法进行性能比较. 关于聚类算法的性能分析，这是时间的度量(算法时间复杂度和执行数据聚类所需的时间等)还是聚类输出的有效性?(或两者都有) 还有其他角度来确定聚类算法的性能(或缺乏性能)吗? 在此先感谢 T 解决方案这在很大程度上取决于您可用的数据. 衡 ..

发布时间：2021-04-22 19:43:03 machine-learning data-mining cluster-analysis knime AI人工智能

聚类经纬度gps数据

我有超过40万辆汽车的GPS位置，例如: [25.41452217，37.94879532]，[25.33231735，37.93455887]，[25.44327736，37.96868896]，... 我需要对点之间的距离 ..

发布时间：2021-04-22 19:42:59 python scikit-learn cluster-analysis Python

R聚类-带有观察标签的轮廓

我使用R中的 cluster 包进行分层聚类.使用 silhouette 函数，可以获得任何给定高度(h)的聚类输出的轮廓图.树状图中的截止点. #运行分层聚类if(！require("cluster")){install.packages("cluster");require("cluster")}tmp ..

发布时间：2021-04-22 19:42:56 r plot cluster-analysis 其他开发

在散点图中为每个类别绘制不同的聚类标记

我有一个散点图，其中我在绘制14个聚类，但是每个2个聚类属于同一类，它们都使用相同的标记.每50行是一个群集，每100行是两个相同类的群集.我想做的是每2个群集或100行更改标记. 数据框链接将pandas导入为pd将numpy导入为np从matplotlib导入pyplot作为plt从matplotlib.pyplot导入图中y = [0，0，0，0，0，0，0，0，0，0，0，0，0 ..

发布时间：2021-04-22 19:42:52 python matplotlib cluster-analysis scatter-plot Python

聚类相似的时间序列?

我有10-20k个不同的时间序列(24维数据-一天中的每个小时的一列)之间的某个地方，我对聚类的时间序列表现出大致相同的活动模式感兴趣. 我最初开始实施动态时间规整(DTW)，原因是: 并非我所有的时间序列都完全对齐出于我的目的，两个略有偏移的时间序列应被视为相似形状相同但比例不同的两个时间序列应被视为相似我对DTW遇到的唯一问题是，它似乎无法很好地扩展-在500x50 ..

发布时间：2021-04-22 19:42:49 python machine-learning time-series cluster-analysis dtw AI人工智能

如何在内核密度估计中找到局部最大值?

我正在尝试使用内核密度估计器(KDE)进行过滤(以消除异常值和噪声).我在3D(d = 3)数据点中应用了KDE，这给了我概率密度函数(PDF)f(x).现在我们知道密度估计的局部最大值f(x)定义了数据点簇的中心.因此，我的想法是定义适当的f(x)来确定这些簇. 我的问题是，哪种方法以及哪种方法更适合于在f(x)中找到局部最大值的目的.如果有人可以提供一些示例代码/想法，我将不胜感激. ..

发布时间：2021-04-22 19:42:46 python machine-learning cluster-analysis kernel-density AI人工智能

我运行了opencv中内置的人脸检测算法，以提取视频(以1 fps采样)的每一帧中的人脸.我还将每个脸部图像的大小调整为相同大小，并裁剪了一部分图像以消除背景噪音和头发.现在的问题是，我必须将这些面部图像聚类-每个聚类对应一个人.我实现了此处描述的算法 http://bitsearch.blogspot.in/2013/02/unsupervised-face-clustering-with-op ..

发布时间：2021-04-22 19:42:42 opencv computer-vision cluster-analysis face-recognition feature-extraction 其他开发

如何在python中绘制k距离图

如何在DBSCAN中绘制给定的最小点值的距离图(在python中)? 我正在寻找膝盖和相应的epsilon值. 在sklearn中，我看不到任何返回此距离的方法....我缺少什么吗? 解决方案您可能希望使用numpy提供的矩阵运算来加快距离矩阵的计算速度. def k_distances2(x，k):dim0 = x.shape [0]dim1 = x.shape [1] ..

发布时间：2021-04-22 19:42:39 python cluster-analysis dbscan Python

DBSCAN的ELKI实现中的sample_weight选项

我的目标是在包含许多几乎重复的点的数据集中找到离群值，并且我想使用DBSCAN的ELKI实现来完成此任务. 由于我不关心集群本身而是异常值(我认为离群值相对较远)，所以我想通过在网格上聚集/合并点并使用scikit中实现的概念来加快运行时间-以 ..

发布时间：2021-04-22 19:42:34 cluster-analysis dbscan elki 其他开发

在R中设置图形格式

我试图弄清楚如何轻松地访问和操作在R中创建的图形. 如果我从以下数据开始.我创建一个图形，运行一些图形聚类，然后绘制第一个聚类: #libraries图书馆(igraph)图书馆(igraphdata)数据(空手道)#簇cfg ..

发布时间：2021-04-22 19:42:32 r graph data-visualization cluster-analysis nodes 其他开发

R:K表示聚类vs社区检测算法(加权相关网络)-我使这个问题过于复杂了吗?

我有如下数据: https://imgur.com/a/1hOsFpF 第一个数据集是标准格式的数据集，其中包含人员及其财务状况的列表. 第二数据集包含“关系".在这些人之间-他们互相付了多少钱，以及他们互相欠了多少钱. 我有兴趣学习有关基于网络和图的群集的更多信息-但我试图更好地了解哪种类型的情况需要基于网络的群集，即我不想在不需要的情况下使用图群集(避免使用“方钉圆孔"类型情 ..

发布时间：2021-04-22 19:42:27 r graph cluster-analysis nodes edges 其他开发

绘图导致“错误:尺寸错误".

我正在学习有关"kohonen"的信息，R中的软件包，用于制作自组织映射(SOM，也称为Kohonen Networks-一种机器学习算法).我在这里关注该R语言教程: https://www.rpubs.com/loveb/som 我试图创建自己的数据(这次同时使用"factor"和"numeric"变量)并运行SOM算法(这次使用"supersom()"函数): #load库并调整颜 ..

发布时间：2021-04-22 19:42:23 r machine-learning data-visualization cluster-analysis data-manipulation AI人工智能

通过颜色识别点

我正在此处关注本教程: https://www.rpubs.com/loveb/som.本教程说明如何在虹膜数据上使用Kohonen网络(也称为SOM，一种机器学习算法). 我从教程中运行了这段代码: library(kohonen)#fitting SOM库(ggplot2)#图库(GGally)#图使用预定义的调色板的library(RColorBrewer)#colorsiris_ ..

发布时间：2021-04-22 19:42:20 r machine-learning data-visualization cluster-analysis data-manipulation AI人工智能

'KMeansModel'对象在apache pyspark中没有属性'computeCost'

我正在pyspark中尝试集群模型.我正在尝试获取适合不同K值的聚类的均方成本 def meanScore(k，df):inputCol = df.columns [:38]汇编程序= VectorAssembler(inputCols = inputCols，outputCol =“功能")kmeans = KMeans().setK(k)pipeModel2 =管道(阶段= [汇编器，km ..

发布时间：2021-04-08 20:05:45 python apache-spark pyspark cluster-analysis k-means Python

一种高效的算法，可按每两点之间的距离对聚类中的点进行分组

我正在寻找一种解决以下问题的有效算法: 给出2D空间中的一组点，其中每个点由其X和Y坐标定义.需要将此点集划分为一组簇，以便如果两个任意点之间的距离小于某个阈值，则这些点必须属于同一簇: 朴素的算法可能看起来像这样: 让 R 为群集的结果列表，最初为空让 P 为点列表，最初包含所有点从 P 中选择随机点，并创建仅包含此点的群集 C .从 P 删除此点对于 P 中的每个点 ..

发布时间：2021-04-02 20:36:09 algorithm machine-learning cluster-analysis data-mining AI人工智能

R levenshtein距离中的聚类

我正在尝试使用levenshtein距离使用kmeans聚类.我很难插拔结果. # courtesy: code is borrowed from the other thread listed below with some additions of k-means clustering set.seed(1) rstr ..

发布时间：2021-02-15 19:03:39 r cluster-analysis k-means levenshtein-distance unsupervised-learning 其他开发

如何将文本数据聚类成多列?

我想做一个k表示用具有“标题"，“类型"，“评论"和“摘要"列的书本文本数据进行聚类. 我想使用“标题"作为指示符或主键进行聚类，但是我不确定如何为此使用多列. 我知道我首先必须对数据进行矢量化，但是矢量化需要输入系列数据，而不是数据帧值.所以在这里，我又一次不知道如何使用所有列. 解决方案您可以分别矢量化各列并连接结果. 只需确保进行稀疏连接即可. 但是，用k均 ..

发布时间：2021-02-15 19:03:36 cluster-analysis k-means data-science tfidfvectorizer 其他开发

混合数据时如何用K-means聚类方法处理分类数据?

我正在使用k均值方法根据建筑物的能耗，面积(以平方米为单位)和所在位置的气候区对它们进行聚类.气候区是一个类别变量.值可以是A，B，C或D.应将其转换为数字1，因此有两个选择.首先是LabelEncoder，其次是get_dummies.当我使用它们时，结果是完全不同的.我想问哪种方法更正确使用? 我猜是因为"get_dummies"为每个分类变量创建了更多维度，因此应该为分类变量赋予更多决 ..

发布时间：2021-02-15 19:03:33 python scikit-learn cluster-analysis k-means categorical-data Python

如何解释聚类结果?

说我有一个高维数据集，我认为它可以通过某种聚类算法很好地分离.然后我运行该算法，最后得到我的集群. 是否存在某种方式(最好不是"hacky"或某种启发式)来解释“哪些特征和阈值对于使集群A的成员(例如)成为集群A的一部分很重要?" 我尝试查看聚类质心，但是对于高维数据集来说这很繁琐. 我还尝试将决策树拟合到我的集群，然后查看树以确定给定集群的大多数成员遵循的决策路径.我还尝试过将 ..

发布时间：2021-02-15 19:03:27 python scikit-learn cluster-analysis k-means Python

cluster-analysis相关内容