日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

層次聚類算法有哪些 聚類分析模型屬于什么模型

在數(shù)據(jù)建模過程中,尤其是通過線性回歸、邏輯回歸等傳統(tǒng)機器學習算法進行模型訓練之前,往往需要對樣本數(shù)據(jù)進行清洗,其中缺失值處理是一種常用方法 。根據(jù)特征的類別屬性與缺失特點,采用合適的方法進行缺失處理,可以有效提升模型擬合的效果,甚至在某些場景下,缺失值處理是作為模型擬合樣本的前提步驟 。
對于缺失值的處理方式,從難易程度可以分為“簡單”和“復(fù)雜”兩個方面,“簡單”主要是指根據(jù)常用的統(tǒng)計指標進行缺失值填充,例如平均值、最大值、最小值、眾數(shù)、中位數(shù)等;“復(fù)雜”主要是結(jié)合相關(guān)算法進行處理,例如極大似然估計、貝葉斯估計、決策樹模型等,具體使用哪一種方法都是需要根據(jù)樣本數(shù)據(jù)情況而定,但在實際業(yè)務(wù)中,經(jīng)常采用的是“簡單”方式,即采用平均值、眾數(shù)等指標進行填充 。
1、原理邏輯描述
當采用常規(guī)方法實現(xiàn)缺失值的處理后,雖然達到了關(guān)于數(shù)據(jù)清洗的需求,但是在很多場景下對數(shù)據(jù)樣本的實際分布會產(chǎn)生較大偏差 ?,F(xiàn)舉個例子進行說明,樣本數(shù)據(jù)如圖1所示,共包含10個樣本(ID01~ID10),work_type是指工作屬性(1代表有工作,0代表無工作),social_security是指社保金額(元) 。

層次聚類算法有哪些 聚類分析模型屬于什么模型


編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
圖1 缺失值處理前
對于樣例1字段social_security的缺失情況,假設(shè)采用平均值進行填充,若直接對字段全量平均值處理,則ID02與ID09的填充結(jié)果如下所示:
層次聚類算法有哪些 聚類分析模型屬于什么模型


編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
圖2 缺失值處理后1
針對缺失值處理結(jié)果(圖2),對于ID02用戶的social_security=4000,但這里要注意到,該用戶特征work_type(是否有工作)為0,說明用戶是無工作的,那social_security(社保金額)的結(jié)果顯然是不合理的,正常情況應(yīng)為0才準確 。在這種情況下,為了更符合實際業(yè)務(wù)理解,應(yīng)對用戶群體進行分類(聚類思想),即將用戶分為有無工作2個類別(work_type=0/1),然后根據(jù)不同群體的平均值進行填充,實現(xiàn)結(jié)果如圖3所示 。
層次聚類算法有哪些 聚類分析模型屬于什么模型


編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
圖3 缺失值處理后2
從圖3最終的缺失值處理結(jié)果可以直觀看出,對于樣本ID02用戶(有工作)的social_security(社保金額)為5333,而樣本ID09用戶(無工作)的social_security(社保金額)為0,這個結(jié)果顯然是更符合實際情況 。同樣是采用平均值填充,但通過特征聚類后的處理方式在實際業(yè)務(wù)中更為合理 。
2、案例實操介紹
前邊的舉例描述中,特征聚類的思想僅僅是從單個字段的業(yè)務(wù)含義直接進行分類判斷的,在實際工作場景中,樣本數(shù)據(jù)往往會包含多個特征,而且通過業(yè)務(wù)經(jīng)驗是無法區(qū)分類別的,因此必然需要借助于相關(guān)聚類算法進行實現(xiàn) 。常用的聚類算法包括K-means、DBSCAN等,都可以有效劃分樣本的類別屬性 。下面我們結(jié)合一個具體場景案例,并采用基于密度的聚類算法DBSCAN,給大家詳細介紹下特征聚類后的缺失值處理過程 。
(1)樣本數(shù)據(jù)
現(xiàn)有一份樣本數(shù)據(jù),包含2000條樣本和5個特征,各字段的標簽含義分別為客戶訂單(主鍵)、年齡、月收入、信用等級、消費等級,取數(shù)據(jù)集前10條樣本具體如圖4所示 。
層次聚類算法有哪些 聚類分析模型屬于什么模型

推薦閱讀