亚洲中文字幕日产无码成人片,成全电影大全免费观看在线播放视频

在數(shù)據(jù)建模過程中，尤其是通過線性回歸、邏輯回歸等傳統(tǒng)機器學習算法進行模型訓練之前，往往需要對樣本數(shù)據(jù)進行清洗，其中缺失值處理是一種常用方法。根據(jù)特征的類別屬性與缺失特點，采用合適的方法進行缺失處理，可以有效提升模型擬合的效果，甚至在某些場景下，缺失值處理是作為模型擬合樣本的前提步驟。
對于缺失值的處理方式，從難易程度可以分為“簡單”和“復(fù)雜”兩個方面，“簡單”主要是指根據(jù)常用的統(tǒng)計指標進行缺失值填充，例如平均值、最大值、最小值、眾數(shù)、中位數(shù)等；“復(fù)雜”主要是結(jié)合相關(guān)算法進行處理，例如極大似然估計、貝葉斯估計、決策樹模型等，具體使用哪一種方法都是需要根據(jù)樣本數(shù)據(jù)情況而定，但在實際業(yè)務(wù)中，經(jīng)常采用的是“簡單”方式，即采用平均值、眾數(shù)等指標進行填充。
1、原理邏輯描述
當采用常規(guī)方法實現(xiàn)缺失值的處理后，雖然達到了關(guān)于數(shù)據(jù)清洗的需求，但是在很多場景下對數(shù)據(jù)樣本的實際分布會產(chǎn)生較大偏差 ?，F(xiàn)舉個例子進行說明，樣本數(shù)據(jù)如圖1所示，共包含10個樣本（ID01~ID10），work_type是指工作屬性（1代表有工作，0代表無工作），social_security是指社保金額（元）。

編輯切換為居中
添加圖片注釋，不超過 140 字（可選）
圖1 缺失值處理前
對于樣例1字段social_security的缺失情況，假設(shè)采用平均值進行填充，若直接對字段全量平均值處理，則ID02與ID09的填充結(jié)果如下所示：

編輯切換為居中
添加圖片注釋，不超過 140 字（可選）
圖2 缺失值處理后1
針對缺失值處理結(jié)果（圖2），對于ID02用戶的social_security=4000，但這里要注意到，該用戶特征work_type（是否有工作）為0，說明用戶是無工作的，那social_security（社保金額）的結(jié)果顯然是不合理的，正常情況應(yīng)為0才準確。在這種情況下，為了更符合實際業(yè)務(wù)理解，應(yīng)對用戶群體進行分類（聚類思想），即將用戶分為有無工作2個類別（work_type=0/1），然后根據(jù)不同群體的平均值進行填充，實現(xiàn)結(jié)果如圖3所示。

編輯切換為居中
添加圖片注釋，不超過 140 字（可選）
圖3 缺失值處理后2
從圖3最終的缺失值處理結(jié)果可以直觀看出，對于樣本ID02用戶（有工作）的social_security（社保金額）為5333，而樣本ID09用戶（無工作）的social_security（社保金額）為0，這個結(jié)果顯然是更符合實際情況。同樣是采用平均值填充，但通過特征聚類后的處理方式在實際業(yè)務(wù)中更為合理。
2、案例實操介紹
前邊的舉例描述中，特征聚類的思想僅僅是從單個字段的業(yè)務(wù)含義直接進行分類判斷的，在實際工作場景中，樣本數(shù)據(jù)往往會包含多個特征，而且通過業(yè)務(wù)經(jīng)驗是無法區(qū)分類別的，因此必然需要借助于相關(guān)聚類算法進行實現(xiàn) 。常用的聚類算法包括K-means、DBSCAN等，都可以有效劃分樣本的類別屬性。下面我們結(jié)合一個具體場景案例，并采用基于密度的聚類算法DBSCAN，給大家詳細介紹下特征聚類后的缺失值處理過程。
（1）樣本數(shù)據(jù)
現(xiàn)有一份樣本數(shù)據(jù)，包含2000條樣本和5個特征，各字段的標簽含義分別為客戶訂單（主鍵）、年齡、月收入、信用等級、消費等級，取數(shù)據(jù)集前10條樣本具體如圖4所示。