日韩av一级中文字幕,挺进邻居人妻雪白的身体韩国电影

編輯切換為居中
添加圖片注釋，不超過 140 字（可選）
圖4 樣本數據前10
對樣本特征的缺失情況進行統(tǒng)計匯總，python代碼實現與結果輸出分別如圖5、圖6所示。

編輯切換為居中
添加圖片注釋，不超過 140 字（可選）
圖5 缺失情況匯總

編輯切換為居中
添加圖片注釋，不超過 140 字（可選）
圖6 特征缺失分布
從特征缺失情況可知，字段“年齡”與“月收入”均存在缺失，且缺失比例較低，分別為2.3%和3.7%，這種情況可以采用平均值進行填充。為了使得填充后效果更符合實際業(yè)務，我們首先需要選取字段進行聚類，這里需要特別注意的是，聚類字段必須是非缺失字段，至于字段數量多少沒有限定，但最好是選取區(qū)分度較好，且業(yè)務解釋意義較強的特征。本例根據以上描述分析，則采用剩余2個分析字段進行聚類，即“信用等級”與“消費等級” 。
（2）特征工程
從圖4樣本可知，字段“信用等級”與“消費等級”均屬于字符型，需要將其轉換為數值型，可以采用標簽編碼實現此過程。另外，由于聚類算法DBSCAN是基于樣本的距離進行模型訓練的，因此為了排除各特征量綱的影響，還需要對特征進行標準化，這里采用z-score標準化（歸一化）。具體實現代碼如圖7所示，輸出結果如圖8所示。

編輯切換為居中
添加圖片注釋，不超過 140 字（可選）
圖7 特征工程代碼

編輯
添加圖片注釋，不超過 140 字（可選）
圖8 數據處理結果
（3）特征聚類
根據特征標準化后的數據，采用K-means算法對特征“信用等級”與“消費等級”進行聚類分析，模型的聚類數量設置為3，具體代碼與結果分別如圖9-11所示。

編輯切換為居中
添加圖片注釋，不超過 140 字（可選）
圖9 特征K-means聚類

編輯切換為居中
添加圖片注釋，不超過 140 字（可選）
圖10 特征聚類結果

編輯切換為居中
添加圖片注釋，不超過 140 字（可選）
圖11 聚類特征均值
（4）缺失填充
通過特征聚類分析，將樣本數據劃分為3個類別，并輸出每類群體的特征分布指標，即“年齡”與“月收入”的平均值（圖11）。從結果來看，對于每類用戶群體，在“信用等級”和“消費等級”指標相似的情況下，平均“年齡”和平均“月收入”還是有著較明顯差異，尤其是“月收入”指標，類別1與類別2相差較大。接下來我們根據不同樣本類別的分布情況，針對性進行字段缺失值填充，具體代碼的實現過程如圖12所示。

編輯切換為居中
添加圖片注釋，不超過 140 字（可選）
圖12 特征缺失填充
【層次聚類算法有哪些聚類分析模型屬于什么模型】經過以上分析與處理，我們采用了特征聚類下的缺失值處理方法，通過結果可以說明這種思路顯然比直接填充的效果更好，從樣本數據分布與業(yè)務場景理解，都是更貼近實際情況，對于數據分析或數據建模等工作的有效開展都有較好的支撐效果。