Spark MLLib 中 Kmeans++ 中的初始化步骤参数究竟是什么? [英] What exactly is the initializationSteps parameter in Kmeans++ in Spark MLLib?

查看:20
本文介绍了Spark MLLib 中 Kmeans++ 中的初始化步骤参数究竟是什么?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我知道 k-means 是什么,我也知道 k-means++ 算法是什么.我相信唯一的变化是找到初始 K 中心的方式.

I know what k-means is and I also understand what k-means++ algorithm is. I believe the only change is the way the initial K centers are found.

在 ++ 版本中,我们最初选择一个中心,然后使用概率分布选择剩余的 k-1 个中心.

In the ++ version we initially choose a center and using a probability distribution we choose the remaining k-1 centers.

在 k-means 的 MLLib 算法中,initializationSteps 参数是什么?

In the MLLib algorithm for k-means what is the initializationSteps parameter?

推荐答案

准确地说,k-means++ 是一种选择初始中心的算法,它并没有描述整个训练过程.

To be precise k-means++ is an algorithm for choosing initial centers and it doesn't describe a whole training process.

MLLib k-means 正在使用 k-means||用于初始化,它是 ++ 的分布式变体.对于迭代次数,它采样的不是一个,而是多个点.

MLLib k-means is using k-means|| for initialization which is a distributed variant of ++. It samples not one, but multiple points for number of iterations.

initializationSteps 对应迭代次数,根据原始论文 应该大约是 O(log n).

initializationSteps corresponds to the number of iterations and according to the original paper should be roughly O(log n).

这篇关于Spark MLLib 中 Kmeans++ 中的初始化步骤参数究竟是什么?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆