如何选择eps和minPts(DBSCAN算法的两个参数)以获得有效结果? [英] How can I choose eps and minPts (two parameters for DBSCAN algorithm) for efficient results?

查看:1620
本文介绍了如何选择eps和minPts(DBSCAN算法的两个参数)以获得有效结果?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我应该使用哪种例程或算法向DBSCAN算法提供eps和minPts参数以获得有效结果?

What routine or algorithm should I use to provide eps and minPts parameters to DBSCAN algorithm for efficient results?

推荐答案

DBSCAN论文建议根据维数选择minPts,根据k距离图中的肘部选择eps。

The DBSCAN paper suggests to choose minPts based on the dimensionality, and eps based on the elbow in the k-distance graph.

在最近的出版物中


Schubert,E.,Sander,J.,Ester,M.,Kriegel,HP,& Xu,X.(2017)。
重新审视DBSCAN:为什么和如何(仍)使用DBSCAN。
数据库系统上的ACM事务(TODS),42(3),19。

Schubert, E., Sander, J., Ester, M., Kriegel, H. P., & Xu, X. (2017).
DBSCAN Revisited, Revisited: Why and How You Should (Still) Use DBSCAN.
ACM Transactions on Database Systems (TODS), 42(3), 19.

作者建议对较大且嘈杂的数据集使用较大的分钟数,并根据是否获得的簇数过大来调整epsilon(减小epsilon)或噪声太大(增加ε)。群集需要迭代。

the authors suggest to use a larger minpts for large and noisy data sets, and to adjust epsilon depending on whether you get too large clusters (decrease epsilon) or too much noise (increase epsilon). Clustering requires iterations.

那篇论文很有趣,因为它表明如果不查看数据,可能会出错。人们对性能指标过于痴迷,而忘记查看实际数据。

That paper was an interesting read, because it shows what can go wrong if you don't look at your data. People are too obsesses with performance metrics, and forget to look at the actual data.

这篇关于如何选择eps和minPts(DBSCAN算法的两个参数)以获得有效结果?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆