日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

瓦爾德法是什么聚類方法 聚類方法


瓦爾德法是什么聚類方法 聚類方法


無監(jiān)督機器學(xué)習(xí)本身就非常強大,而聚類是迄今為止這類問題中最常見的表達方式 。
本文簡要介紹機器學(xué)習(xí)中三種最流行的聚類算法,以及每種算法最適合哪種情況 。每個算法都有其特點,具體取決于您要完成的任務(wù) 。
分層聚類
假設(shè)有一些你感興趣的k clusters 。您所知道的是,您可以將數(shù)據(jù)集分解為頂級的許多不同組,但您可能也對組內(nèi)的組或這些組內(nèi)的組感興趣 。為了獲得這種結(jié)構(gòu),我們使用分層聚類 。
我們從n個不同的點和我們想要發(fā)現(xiàn)的k個不同的聚類開始; 就我們而言,n = 4,k = 2 。
首先將每個點視為自己的cluster 。
然后,我們開始使用最接近的聚類將每個單點聚類合并為更大的聚類 。我們找到距成對距離矩陣的最小距離 – 這只是每個cluster與每個其他cluster的距離的表 。
這被初始化為每個點之間的歐幾里德距離,但在此之后,我們切換到測量cluster距離的各種不同方式之一 。
無論如何,我們開始合并最接近的clusters 。假設(shè)我們知道x1和x3最接近 。然后我們將這兩個合并到一個新的cluster中,ca 。
我們現(xiàn)在重新計算ca與其他聚類之間的距離,使用前面提到的方法 。然后我們重復(fù),一遍又一遍地合并我們的聚類,直到得到k個頂級聚類——在我們的示例中,是兩個clusters 。假設(shè)x2更接近于ca而不是x4 。
我們現(xiàn)在有兩個頂級聚類,cb和x4(請記住,每個點都以其自己的cluster開始) 。我們現(xiàn)在可以搜索我們創(chuàng)建的樹結(jié)構(gòu)來搜索sub-clusters,在我們原來的2-D視圖中看起來像這樣:
基于密度的聚類
分層聚類有助于理解數(shù)據(jù)中的任何隱藏結(jié)構(gòu),但它有一個主要的缺陷 。在上面顯示的版本中,我們假設(shè)每個數(shù)據(jù)點都是相關(guān)的 – 在現(xiàn)實世界中幾乎不是這種情況 。
基于密度的聚類方法提供安全閥 。我們只關(guān)注緊密堆積的點并假設(shè)其他一切都是噪聲,而不是假設(shè)每個點都是某個cluster的一部分 。
該方法需要兩個參數(shù):半徑ε和鄰域密度Σ 。對于每個點,我們計算Neps(x) – 距離x最多ε的點數(shù) 。如果Neps(x)≥Σ,不計算x,那么x被認為是核心點 。如果一個點不是核心點,但它是核心點鄰域的成員,那么它被認為是邊界點 。其他一切都被認為是噪音 。
基于密度的聚類的最常見的實現(xiàn)之一,實際上,是基于密度的有噪聲的應(yīng)用程序的空間聚類,稱為DBSCAN 。DBSCAN的工作原理是跨不同的核心點運行連通分量算法 。如果兩個核心點共享邊界點,或者核心點是另一個核心點鄰域中的邊界點,那么它們就是相同連通分量的一部分,這組成了一個聚類 。
假設(shè)我們有一個相對較小的ε和一個相當大的Σ 。我們可能會結(jié)束這樣的聚類:
那兩個孤獨的點距離兩個clusters很遠,而且他們真的沒有什么意義 – 所以它們只是噪音 。
請注意,我們也能夠以這種方式發(fā)現(xiàn)非凸簇(參見橙色?。?。很簡約!
我們不需要為基于密度的聚類指定一些我們感興趣的聚類 – 它會根據(jù)您的ε和Σ自動發(fā)現(xiàn)一些聚類 。當您希望所有群集具有相似的密度時,這尤其有用 。
K-Means聚類
分層聚類擅長于發(fā)現(xiàn)數(shù)據(jù)中的嵌入式結(jié)構(gòu),而基于密度的方法在尋找具有相似密度的未知數(shù)量的聚類方面表現(xiàn)優(yōu)異 。但是,兩者都無法在整個數(shù)據(jù)集中找到“共識” 。分層聚類可以將看起來很接近的聚類放在一起,但不考慮其他點的信息 ?;诿芏鹊姆椒▋H查看附近點的小鄰域,同樣無法考慮完整數(shù)據(jù)集 。
這就是K-means聚類的用武之地 。從某種意義上說,K-means考慮數(shù)據(jù)集中的每個點,并使用該信息在一系列迭代中進化聚類 。

推薦閱讀