一決高低是四字詞語(yǔ)嗎一決高低 _生活百科

一決高低

文章插圖

作者 | LAVANYA
譯者 | 陸離
責(zé)編 | Jane
出品 | AI科技大本營(yíng)（ID: rgznai100）
【導(dǎo)讀】XGBoost、LightGBM 和 Catboost 是三個(gè)基于 GBDT（Gradient Boosting Decision Tree）代表性的算法實(shí)現(xiàn)，今天，我們將在三輪 Battle 中，一決高低也決生死，根據(jù)生死訓(xùn)練和預(yù)測(cè)的時(shí)間、預(yù)測(cè)得分和可解釋性等評(píng)測(cè)指標(biāo)，讓三個(gè)算法一決高下！

一言不合就 Battle

GBDT 是機(jī)器學(xué)習(xí)中的一個(gè)非常流行并且有效的算法模型，2014 年陳天奇博士提出的 XGBoost 算法就是 GBDT 一個(gè)重要實(shí)現(xiàn) 。但在大訓(xùn)練樣本和高維度特征的數(shù)據(jù)環(huán)境下，一決高低是成語(yǔ)嗎，GBDT 算法的性能以及準(zhǔn)確性卻面臨了極大的挑戰(zhàn)，隨后，2017 年 LightGBM 應(yīng)勢(shì)而生，由微軟開源的一個(gè)機(jī)器學(xué)習(xí)框架；同年，俄羅斯的搜索字巨頭 Yandex 開源 Catboost 框架。
XGBoost（eXtreme Gradient Boosting）特點(diǎn)是計(jì)算速度快，模型表現(xiàn)好，可以用于分英文類和回歸問(wèn)題中，號(hào)稱“比賽奪冠的必備殺器” 。LightGBM（Light Gradient Boosting Machine）的訓(xùn)練速度和效率更快、使用的內(nèi)存更低、準(zhǔn)確率更高、并且支持并行化學(xué)習(xí)與處理大規(guī)模數(shù)據(jù)，一決高低下一句。Catboost（ Categorical Features+Gradient Boosting）采用的策略在降低過(guò)擬合的同時(shí)保證所有數(shù)據(jù)集都可用于學(xué)習(xí) 。性能卓越、魯棒性與通用性更好、易于使用而且更實(shí)用。據(jù)其介紹 Catboost 的性能可以匹敵任何先進(jìn)的機(jī)器學(xué)習(xí)算法高下。
三個(gè)都是基于 GBDT 最具代表性的算法，都說(shuō)自己的性能表現(xiàn)、效率及準(zhǔn)確率很優(yōu)秀，究竟它們誰(shuí)更勝一籌呢？為了 PK 這三種算法之間的高低，我們給它們安排了一場(chǎng)“最浪漫的 Battle”，一決高低意思，通過(guò)三輪 Battle 讓 XGBoost、Catboost 和 LightGBM 一絕高下！
Round 1：分類模型，按照數(shù)據(jù)集Fashion MNIST把圖像分類（60000行數(shù)據(jù)，784個(gè)特征）；Round 2：回歸模型，預(yù)測(cè)紐約出租車的票價(jià)（60000行數(shù)據(jù)，7個(gè)特征）；Round 3：通過(guò)是一海量數(shù)據(jù)集，預(yù)測(cè)紐約出租車票價(jià)（200萬(wàn)行數(shù)據(jù)，7個(gè)特征）；

Battle 規(guī)則

在每一輪 PK 中，一決高低，我們都遵循以下步驟造句:
1、訓(xùn)練 XGBoost、Catboost、LightGBM 三種算法的基準(zhǔn)模型，每個(gè)模型使用相同的參數(shù)進(jìn)行訓(xùn)練；
【一決高低是四字詞語(yǔ)嗎一決高低】
2、使用超參數(shù)高自動(dòng)搜索模塊 GridSearchCV 來(lái)訓(xùn)練 XGBoost、Catboost 和 LightGBM 三種算法的微調(diào)整模型；
3、衡量指標(biāo):
a.是什么訓(xùn)練和預(yù)測(cè)的時(shí)間；
b.預(yù)測(cè)得分；
c.可解釋性（包括：特征重要性，SHAP 值，可視化樹）；

文章插圖

PK 結(jié)果揭曉

（一）運(yùn)行時(shí)間& 準(zhǔn)確度得分
Top 1：LightGBM
Top 2：CatBoost
Top 3：XGBoost

文章插圖

在訓(xùn)練和預(yù)測(cè)是什么時(shí)間兩方面，一決高低的反義詞，LightGBM 都是明顯的獲勝者，CatBoost 則一句緊隨其后，而 XGBoost 的訓(xùn)練時(shí)間相對(duì)更久，但預(yù)測(cè)時(shí)間與其它兩個(gè)算法的差距沒(méi)有訓(xùn)練時(shí)間那么大。

在增強(qiáng)樹（boosted trees）中進(jìn)行訓(xùn)練的時(shí)間復(fù)雜度介于(log)和一決(2)之間，而對(duì)于預(yù)測(cè)，時(shí)間復(fù)雜度為(log2 )，其中 = 訓(xùn)練實(shí)例決的數(shù)量，= 特征數(shù)量，以及 = 決策樹的深度。

Round 1 ~ 3