machine-learning相关内容

Matlab中的KNN算法

我正在研究拇指识别系统.我需要实现KNN算法对我的图像进行分类.根据此,它只有2个测量值,通过它可以计算距离以找到最近的邻居,但在我的情况下,我有400张25 X 42的图像,其中200张用于训练,200张用于测试.我正在搜索几个小时,但找不到找到两点之间距离的方法. 编辑: 我将第一个200张图像重塑为1 X 1050,并将它们存储在200 X 1050的矩阵trainingData中.类 ..
发布时间:2020-04-26 11:02:07 AI人工智能

寻找K近邻及其实现

我正在使用欧氏距离的KNN对简单数据进行分类.我已经看到了一个示例,该示例说明了如何使用MATLAB knnsearch函数完成此操作,如下所示: load fisheriris x = meas(:,3:4); gscatter(x(:,1),x(:,2),species) newpoint = [5 1.45]; [n,d] = knnsearch(x,newpoint,'k',10) ..
发布时间:2020-04-26 11:01:51 AI人工智能

了解KMeans算法的质量

在阅读 KMeans的不平衡因数之后,我试图了解其工作原理.我的意思是,从我的示例中,我可以看到该因子的值越小,KMeans聚类的质量就越好,即其聚类越平衡.但是对此因素的赤裸裸的数学解释是什么?这是已知数量还是什么? 这是我的例子: C1 = 10 C2 = 100 pdd = [(C1,10), (C2, 100)] n = 2 ..

如何与itertools进行列明智的相交

当我计算(m)个训练示例的每个训练数据之间的jaccard相似度时,每个具有6个特征(年龄,职业,性别,Product_range,Product_cat和Product)形成一个(m * m)相似度矩阵. 对于矩阵我得到了不同的结果.我已经确定了问题的根源,但没有针对该问题提出优化的解决方案. 找到以下数据集的样本: ID AGE Occupation Ge ..

如何设置Spark Kmeans初始中心

我正在使用Spark ML运行Kmeans.我有大量数据和三个现有中心,例如,三个中心是:[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0]. 因此,我如何指示Kmeans中心是上述三个向量. 我看到Kmean对象具有种子参数,但是种子参数是长类型而不是数组.因此,如何告诉Spark Kmeans仅使用现有的中心进行聚类. 或者说,我不明白种子在Spark K ..

kmeans和kmeans2在scipy之间有什么区别?

我是机器学习的新手,我想知道kmeans和kmeans2在scipy中的区别.根据文档,他们两个都使用"k-means"算法,但是如何选择它们呢? 解决方案 根据文档,kmeans2似乎是标准的k均值算法,一直运行到收敛到局部最优值为止-并允许您更改种子初始化. kmeans函数将根据缺乏更改而提前终止,因此它甚至可能无法达到局部最优值.此外,其目的是生成用于将特征向量映射到的码本. ..
发布时间:2020-04-26 10:24:12 AI人工智能

关于“优化K-均值算法"的更多问题得到解决.

我想实现一篇论文,标题为"K-Means聚类算法的优化版本".本文在此链接中: https://fedcsis.org/proceedings/2014/pliks /258.pdf . 本文不明显.我在stackoverflow中看到@Vpp Man在问这个问题(优化K-means算法 ),但由于对此我还有其他疑问,因此我创建了新的问题页面. 我的问题: 1)算法2是否充满算法,或者 ..
发布时间:2020-04-26 10:24:05 AI人工智能

Python K表示集群

我正在尝试在此网站上实施代码,以估计我应将哪些K值用于我的K均值聚类. https://datasciencelab.wordpress.com/2014/01/21/selection-of-k-in-k-means-clustering-reloaded/ 但是我没有获得任何成功-特别是我试图获得f(k)与簇数k的关系图,我可以用它来获取要使用的k的理想值. 我的数据格式如下 ..
发布时间:2020-04-26 10:23:38 AI人工智能

优化K均值算法

我正在尝试遵循名为 K-Means算法的优化版本.我对K均值算法工作原理有一个想法.也就是说,将元组/点分组为簇并更新质心. 正在尝试实现上述论文中提到的方法.他们提出的算法是这样的: 所以我的疑问在于第二步.我不知道那里正在做什么!在论文中说,我们根据e的值将数据分组为更宽的间隔,这样以后我们就可以避免遍历整个数据集.那么,实际上我们如何将其存储在I(间隔)中?我们应该定义一个多维数 ..
发布时间:2020-04-26 10:23:18 AI人工智能

如何使用除欧几里德距离以外的其他距离公式以k表示

我正在处理纬度经度数据.我必须根据两点之间的距离进行聚类.现在两个不同点之间的距离是=ACOS(SIN(lat1)*SIN(lat2)+COS(lat1)*COS(lat2)*COS(lon2-lon1))*6371 我想在R中使用k均值.在此过程中,有什么方法可以覆盖距离计算? 解决方案 K均值不是基于距离的 它基于方差最小化.方差之和公式等于欧几里得距离的平方和,但其他距离 ..

相互最远的k个元素(聚类?)

我有一个简单的机器学习问题: 我有n(〜110)个元素,以及所有成对距离的矩阵.我想选择距离最远的10个元素.也就是说,我想 Maximize: Choose 10 different elements. Return min distance over (all pairings within the 10). 我的距离度量是对称的,并且考虑到三角形不等式. 我可以 ..

什么是“种子"?在Weka的SimpleKMeans群集器中?

我正在使用Weka的SimpleKMeans集群器处理一组数据. 但是我不确定种子值是什么,它的作用或如何影响数据. 即相对于默认值10,较高或较低的种子值如何影响结果? 解决方案 种子只是一个随机数种子.种子固定后,即使是随机算法也可以确定性地运行. KMeans不是确定性的,因此,如果您想要可重复的结果-可以固定种子.但是,种子的精确值与KMeans聚类结果完全没有关系. ..
发布时间:2020-04-26 10:22:10 AI人工智能

kmeans是否需要三角不等式?

我想知道kmeans中使用的距离度量是否需要三角不等式. 解决方案 k-means是针对 Euclidean 距离设计的, 使用其他距离功能存在风险,因为它可能会停止收敛.但是,原因不是 三角不等式,而是平均值可能不会使距离函数最小化. (算术平均最小化平方和,而不是任意距离!) 对于k均值,有更快的方法可以利用三角形不等式来避免重新计算.但是,如果您坚持使用经典的MacQueen ..

是什么使k-medoid中的距离度量“更好"?比k均值?

我正在阅读k-均值聚类和k-medoid聚类之间的区别. 据推测,在k-medoid算法中使用成对距离度量,而不是更熟悉的平方欧几里德距离类型度量之和来评估我们用k-均值发现的方差,是有优势的.显然,这种不同的距离度量可以以某种方式减少噪声和离群值. 我已经看过这种说法,但是对于这种说法背后的数学,我还没有看到任何很好的推理. 是什么使k-medoid中常用的成对距离度量更好?更 ..

Scikit Learn-K均值-肘部-标准

今天,我正在尝试学习有关K-means的知识.我已经了解了算法,而且我知道它是如何工作的.现在,我正在寻找正确的k ...我发现了肘部判据作为检测正确的k的方法,但是我不知道如何在scikit learning中使用它?在scikit中学习,我就是通过这种方式对事物进行聚类 kmeans = KMeans(init='k-means++', n_clusters=n_clusters, n_ ..

如何在Python中的相似性或重叠性方面比较两个集群分组?

我要做的事情的简化示例: 假设我有3个数据点A,B和C.我对该数据运行KMeans聚类,得到2个聚类[(A,B),(C)].然后,我对该数据运行MeanShift聚类,并得到2个聚类[(A),(B,C)].显然,这两种聚类方法以不同的方式对数据进行聚类.我希望能够量化这种差异.换句话说,我可以使用什么度量来确定从两种算法获得的两个聚类分组之间的相似性/重叠百分比?这是可能给出的分数范围: ..