k-means相关内容
假设,我有连续10天对应于5个类别的每小时数据,创建为: library(xts) set.seed(123) timestamp
..
我正在寻找有关将pmml模型文件导入r的指导. PMML是一种预测性模型标记语言,它允许在一个系统中构建的模型部署在另一个系统中.我有几种模型已经在spss上进行了训练,并使用pmml保存为xml格式.它们是Logistic回归和k均值模型. 我已经详尽搜索了导入pmml的r功能,发现在诸如Arules for Association模型之类的软件包中,到处都只有很少的功能. R对于导出而不
..
我正在尝试实现用于文本聚类的k-means,特别是英语句子.到目前为止,我对每个文档都有一个频率矩阵术语(句子).我对文本数据中k-means的实际实现有些困惑.这是我对它应该如何工作的猜测. 计算出所有句子中唯一词的数量(数量很多,称为n). 创建k n维向量(簇),并用一些随机数填充k向量的值(我如何确定这些数字的边界是什么?) 确定从每个q句子到随机k簇,重新定位簇等的欧几
..
可能重复: 在使用k-means聚类时如何确定k? 如何确定k均值算法的K值(簇数)? 解决方案 有时. 有多种方法,通常需要尝试不同的k值并测量最有效的方法. 以下是您遗漏的一些重复问题: 如何在K中优化K-均值算法 K均值算法 Kmeans却不知道簇数? K表示当肘部曲线为平滑曲线时找到肘部
..
在阅读 KMeans的不平衡因数之后,我试图了解其工作原理.我的意思是,从我的示例中,我可以看到该因子的值越小,KMeans聚类的质量就越好,即其聚类越平衡.但是对此因素的赤裸裸的数学解释是什么?这是已知数量还是什么? 这是我的例子: C1 = 10 C2 = 100 pdd = [(C1,10), (C2, 100)] n = 2
..
我有两个距离矩阵,每个矩阵都是232 * 232,其中列和行的标签是相同的.因此,这将是两者的缩写形式,其中A,B,C和D是要测量距离的点的名称: A B C D ... A B C D ... A 0 1 5 3 A 0 5 3 9 B 4 0 4 1 B 2 0 7 8 C 2 6 0 3 C 2
..
我正在使用MATLAB2015.我想减少图像颜色数量. RGB图像将使用k-means算法进行分割.然后,平均颜色将替换为我拥有的颜色. 颜色是(10), 黑色-[255,255,255], 黄色-[255,255,0], 橙色-[255,128,0], 白色-[255,255,255], 粉红色-[255,153,255], 薰衣草-[120,102,2
..
文档对此有些含糊而我本以为这将是一件非常简单的事情. 应用于MNIST数字数据集的k_mean算法会输出10个具有一定编号的区域,尽管它不是该区域中包含的大多数数字所代表的数字. 我确实有我的ground_truth标签表. 如何使k_mean算法生成的每个区域最终都被标记为最有可能被覆盖的数字? 昨天我花了几个小时来编写此代码,但这仍然是不完整的: # TODO:
..
如何有效评估标准matlab k-means实现的性能. 例如,我有一个矩阵X X = [1 2; 3 4; 2 5; 83 76; 97 89] 对于每一点,我都有一个黄金标准聚类.假设(83,76),(97,89)是第一个聚类,而(1,2),(3,4),(2,5)是第二个聚类.然后我们运行matlab idx = kmean
..
当我计算(m)个训练示例的每个训练数据之间的jaccard相似度时,每个具有6个特征(年龄,职业,性别,Product_range,Product_cat和Product)形成一个(m * m)相似度矩阵. 对于矩阵我得到了不同的结果.我已经确定了问题的根源,但没有针对该问题提出优化的解决方案. 找到以下数据集的样本: ID AGE Occupation Ge
..
我想使用R中的k个均值来聚类一些数据,如下所示. ADP NS CNTR PP2V EML PP1V ADDPS FB PP1D ADR ISV PP2D ADSEM SUMALL CONV 2 0 0 1 0 0 0 0 0 12 0 12 0 53 0 2 0 0 1 0 0
..
当我尝试这样使用kmeans时: int K = 4; Mat labels; Mat centers; std::vector values; // (put a bunch of values into "values" here...) kmeans(values, K, labels, TermCriteria(TermCriteria::COUNT + TermC
..
我已使用nltk进行k个均值聚类,因为我想将距离度量更改为余弦距离.但是,如何获得所有聚类的质心? kclusterer = KMeansClusterer(8, distance = nltk.cluster.util.cosine_distance, repeats = 1) predict = kclusterer.cluster(features, assign_clusters =
..
如何可视化SPSS中kmeans算法的效果?我确实没有看到任何其他图形选项,但我想我已经看到了SPSS中kmeans结果的一些可视化效果,这些结果似乎专用于kmeans过程.我想形象化集群中心的值. 解决方案 对于任何聚类方法,您可能会对STATS CLUS SIL扩展命令中可用的聚类轮廓图感兴趣.需要SPSS Community网站(www.ibm.com/developerworks/
..
所以我想将数据分类为具有SAS截止点的群集.我使用的方法是k均值聚类. (我不介意这种方法,只要能给我3组即可.) 我的集群代码: proc fastclus data=maindat outseed=seeds1 maxcluster =3 maxiter=0; var value resid; run; 我的输出结果有问题.我希望该值的截止点包含在输出文件中. (我不需要Res
..
在大学课程中,我具有图像的某些功能(如 text 文件).我必须根据它们的多样性对这些图像进行排名.# 我想到的想法是为k-均值分类器提供图像,然后计算从群集中的图像到群集中心的欧氏距离.然后在簇之间进行旋转,并始终获取(下一个)最接近中心的图像.也就是说,返回最接近中心1的位置,然后最接近中心2的位置,然后返回3 ....然后第二最接近中心1、2、3的位置,依此类推. 第一个问题:这
..
上下文 我想使用Weka聚类算法XMeans.但是我无法弄清楚如何从GUI of Weka获取群集分配. 目前,我只能看到集群ID的列表以及分配给每个集群的条目的百分比. 问题 有任何方法可以保存每个条目中的群集分配,例如CSV格式? 解决方案 在“预处理面板"中执行所有操作. 这是执行此操作的一种方法: 加载数据文件. 删除任何分类属性或标识符
..
我正在尝试实现功能包模型. 给出属于初始数据集的描述符矩阵对象(代表图像),计算其直方图很容易,因为我们已经从k均值中知道了每个描述符向量属于哪个群集. 但是,如果我们要计算查询矩阵的直方图怎么办?我唯一想到的解决方案是计算每个矢量描述符到每个k簇质心的距离. 这可能是低效的:假设k=100(即100个质心),那么我们有一个通过1000个SIFT描述符表示的查询图像,因此是一个矩
..
我要创建预测函数,以预测观察结果属于哪个聚类 data(iris) mydata=iris m=mydata[1:4] train=head(m,100) xNew=head(m,10) rownames(train)
..
我正在将Matlab的常规kmeans算法与L2归一化特征矩阵上的'Distance','cosine','EmptyAction','drop'配合使用,但遇到了问题. Matlab生成的输出只是将每个数据点分配给群集1.00000,即使k = 20,并且C中的所有质心都是NaN.有人对导致此问题的原因有任何建议吗? 矩阵的布局为([0,1,...,1,0,1],[...],[0,1,..
..