日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

層次聚類算法有哪些 聚類分析模型屬于什么模型( 二 )



編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
圖4 樣本數據前10
對樣本特征的缺失情況進行統(tǒng)計匯總,python代碼實現與結果輸出分別如圖5、圖6所示 。

層次聚類算法有哪些 聚類分析模型屬于什么模型


編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
圖5 缺失情況匯總
層次聚類算法有哪些 聚類分析模型屬于什么模型


編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
圖6 特征缺失分布
從特征缺失情況可知,字段“年齡”與“月收入”均存在缺失,且缺失比例較低,分別為2.3%和3.7%,這種情況可以采用平均值進行填充 。為了使得填充后效果更符合實際業(yè)務,我們首先需要選取字段進行聚類,這里需要特別注意的是,聚類字段必須是非缺失字段,至于字段數量多少沒有限定,但最好是選取區(qū)分度較好,且業(yè)務解釋意義較強的特征 。本例根據以上描述分析,則采用剩余2個分析字段進行聚類,即“信用等級”與“消費等級” 。
(2)特征工程
從圖4樣本可知,字段“信用等級”與“消費等級”均屬于字符型,需要將其轉換為數值型,可以采用標簽編碼實現此過程 。另外,由于聚類算法DBSCAN是基于樣本的距離進行模型訓練的,因此為了排除各特征量綱的影響,還需要對特征進行標準化,這里采用z-score標準化(歸一化) 。具體實現代碼如圖7所示,輸出結果如圖8所示 。
層次聚類算法有哪些 聚類分析模型屬于什么模型


編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
圖7 特征工程代碼
層次聚類算法有哪些 聚類分析模型屬于什么模型


編輯
添加圖片注釋,不超過 140 字(可選)
圖8 數據處理結果
(3)特征聚類
根據特征標準化后的數據,采用K-means算法對特征“信用等級”與“消費等級”進行聚類分析,模型的聚類數量設置為3,具體代碼與結果分別如圖9-11所示 。
層次聚類算法有哪些 聚類分析模型屬于什么模型


編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
圖9 特征K-means聚類
層次聚類算法有哪些 聚類分析模型屬于什么模型


編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
圖10 特征聚類結果
層次聚類算法有哪些 聚類分析模型屬于什么模型


編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
圖11 聚類特征均值
(4)缺失填充
通過特征聚類分析,將樣本數據劃分為3個類別,并輸出每類群體的特征分布指標,即“年齡”與“月收入”的平均值(圖11) 。從結果來看,對于每類用戶群體,在“信用等級”和“消費等級”指標相似的情況下,平均“年齡”和平均“月收入”還是有著較明顯差異,尤其是“月收入”指標,類別1與類別2相差較大 。接下來我們根據不同樣本類別的分布情況,針對性進行字段缺失值填充,具體代碼的實現過程如圖12所示 。
層次聚類算法有哪些 聚類分析模型屬于什么模型


編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
圖12 特征缺失填充
【層次聚類算法有哪些 聚類分析模型屬于什么模型】經過以上分析與處理,我們采用了特征聚類下的缺失值處理方法,通過結果可以說明這種思路顯然比直接填充的效果更好,從樣本數據分布與業(yè)務場景理解,都是更貼近實際情況,對于數據分析或數據建模等工作的有效開展都有較好的支撐效果 。

推薦閱讀