2014-11-03 115 views
0

在DBSCAN中,核心点被定义为在Eps中具有多于MinPts。在DBSCAN中,如何确定边界点?

因此,如果MinPts = 4,Eps中共有5个点的点肯定是一个核心点。 如何在Eps中获得4分(包括自己)?它是核心点还是边界点?

回答

1

边界点是是(在DBSCAN)的群集的一部分点,但不密实本身(即每个集群成员是核心点)。

在后续算法HDBSCAN中,边界点的概念被丢弃。

Campello,R.J.G.B.; Moulavi,D。 Sander,J。 (2013年)。
基于密度的聚类分层密度估计。
第17届亚太地区数据库知识发现会议论文集,PAKDD 2013.计算机科学讲义7819。 160. DOI:10.1007/978-3-642-37456-2_14

其中规定:

我们新的定义与集群的统计解释为电平设置的连接部件更一致密度边界物体在技术上不属于水平集(其估计密度低于阈值)。

0

这在很大程度上取决于实施。最好的方法是自己玩游戏。

在原始DBSCAN 论文中,核心点条件为N_Eps> = MinPts,其中N_Eps是某个数据点的Epsilon邻域,它从它自己的N_Eps中排除。

按照你的例子,如果MinPts = 4和N_Eps = 3(或者你自己说的话包括4),那么它们不会根据原始文件形成一个簇。另一方面,否则DBSCAN的实施工作就会发挥作用,这意味着它可以成为一个组织。因此,对于MinPts = 4,总共需要四个点来形成一个集群。

[1] Ester,Martin;克里格尔,汉斯 - 彼得; Sander,Jörg;徐小伟(1996)。 “一种基于密度的算法,用于发现噪声较大的空间数据库中的群集。”

[2] http://scikit-learn.org

0

其实我只是重读了原文,而定义1使它看起来像是属于它自己的eps附近的核心点。所以如果minPts是4,那么一个点在它的eps邻域至少需要3个其他的。

请注意,在定义1中他们说NEps(p)= {q∈D| dist(p,q)≤Eps}。如果这个点被排除在它的eps邻域之外,那么它会说NEps(p)= {q∈D| dist(p,q)≤Eps和p!= q}。 Where!=是“不等于”。

这一点也得到DBSCAN的光学元件,论文作者在图4钢筋http://fogo.dbs.ifi.lmu.de/Publikationen/Papers/OPTICS.pdf

所以我觉得SciKit解释是正确的,维基百科说明在http://en.wikipedia.org/wiki/DBSCAN

误导