一決高低

文章插圖
作者 | LAVANYA
譯者 | 陸離
責(zé)編 | Jane
出品 | AI科技大本營(yíng)(ID: rgznai100)
【導(dǎo)讀】XGBoost、LightGBM 和 Catboost 是三個(gè)基于 GBDT(Gradient Boosting Decision Tree)代表性的算法實(shí)現(xiàn),今天,我們將在三輪 Battle 中,一決高低也決生死,根據(jù)生死訓(xùn)練和預(yù)測(cè)的時(shí)間、預(yù)測(cè)得分和可解釋性等評(píng)測(cè)指標(biāo),讓三個(gè)算法一決高下!
一言不合就 Battle
GBDT 是機(jī)器學(xué)習(xí)中的一個(gè)非常流行并且有效的算法模型,2014 年陳天奇博士提出的 XGBoost 算法就是 GBDT 一個(gè)重要實(shí)現(xiàn) 。但在大訓(xùn)練樣本和高維度特征的數(shù)據(jù)環(huán)境下,一決高低是成語(yǔ)嗎,GBDT 算法的性能以及準(zhǔn)確性卻面臨了極大的挑戰(zhàn),隨后,2017 年 LightGBM 應(yīng)勢(shì)而生,由微軟開源的一個(gè)機(jī)器學(xué)習(xí)框架;同年,俄羅斯的搜索字巨頭 Yandex 開源 Catboost 框架 。
XGBoost(eXtreme Gradient Boosting) 特點(diǎn)是計(jì)算速度快,模型表現(xiàn)好,可以用于分英文類和回歸問(wèn)題中,號(hào)稱“比賽奪冠的必備殺器” 。LightGBM(Light Gradient Boosting Machine)的訓(xùn)練速度和效率更快、使用的內(nèi)存更低、準(zhǔn)確率更高、并且支持并行化學(xué)習(xí)與處理大規(guī)模數(shù)據(jù),一決高低下一句 。Catboost( Categorical Features+Gradient Boosting)采用的策略在降低過(guò)擬合的同時(shí)保證所有數(shù)據(jù)集都可用于學(xué)習(xí) 。性能卓越、魯棒性與通用性更好、易于使用而且更實(shí)用 。據(jù)其介紹 Catboost 的性能可以匹敵任何先進(jìn)的機(jī)器學(xué)習(xí)算法高下 。
三個(gè)都是基于 GBDT 最具代表性的算法,都說(shuō)自己的性能表現(xiàn)、效率及準(zhǔn)確率很優(yōu)秀,究竟它們誰(shuí)更勝一籌呢?為了 PK 這三種算法之間的高低,我們給它們安排了一場(chǎng)“最浪漫的 Battle”,一決高低意思,通過(guò)三輪 Battle 讓 XGBoost、Catboost 和 LightGBM 一絕高下!
Round 1:分類模型,按照數(shù)據(jù)集Fashion MNIST把圖像分類(60000行數(shù)據(jù),784個(gè)特征);Round 2:回歸模型,預(yù)測(cè)紐約出租車的票價(jià)(60000行數(shù)據(jù),7個(gè)特征);Round 3:通過(guò)是一海量數(shù)據(jù)集,預(yù)測(cè)紐約出租車票價(jià)(200萬(wàn)行數(shù)據(jù),7個(gè)特征);
Battle 規(guī)則
在每一輪 PK 中,一決高低,我們都遵循以下步驟造句:
1、訓(xùn)練 XGBoost、Catboost、LightGBM 三種算法的基準(zhǔn)模型,每個(gè)模型使用相同的參數(shù)進(jìn)行訓(xùn)練;
【一決高低是四字詞語(yǔ)嗎 一決高低】
2、使用超參數(shù)高自動(dòng)搜索模塊 GridSearchCV 來(lái)訓(xùn)練 XGBoost、Catboost 和 LightGBM 三種算法的微調(diào)整模型;
3、衡量指標(biāo):
a.是什么訓(xùn)練和預(yù)測(cè)的時(shí)間;
b.預(yù)測(cè)得分;
c.可解釋性(包括:特征重要性,SHAP 值,可視化樹);

文章插圖
PK 結(jié)果揭曉
(一)運(yùn)行時(shí)間& 準(zhǔn)確度得分
Top 1:LightGBM
Top 2:CatBoost
Top 3:XGBoost

文章插圖
在訓(xùn)練和預(yù)測(cè)是什么時(shí)間兩方面,一決高低的反義詞,LightGBM 都是明顯的獲勝者,CatBoost 則一句緊隨其后,而 XGBoost 的訓(xùn)練時(shí)間相對(duì)更久,但預(yù)測(cè)時(shí)間與其它兩個(gè)算法的差距沒(méi)有訓(xùn)練時(shí)間那么大 。
在增強(qiáng)樹(boosted trees)中進(jìn)行訓(xùn)練的時(shí)間復(fù)雜度介于(log)和一決(2)之間,而對(duì)于預(yù)測(cè),時(shí)間復(fù)雜度為(log2 ),其中 = 訓(xùn)練實(shí)例決的數(shù)量,= 特征數(shù)量,以及 = 決策樹的深度 。
Round 1 ~ 3

文章插圖
相關(guān)經(jīng)驗(yàn)推薦
- 中國(guó)朝代順序表 隋唐五代是哪五代
- 生殖器皰疹的潛伏期是多久
- uniqlo是什么牌子的衣服 uniqlo是什么牌子
- 形容自己傻的經(jīng)典句子 諷刺自己傻的句子 形容自己傻的經(jīng)典句子
- 冬天哪些人不宜吃生姜 冬天為什么不宜吃生姜
- 番茄面膜的做法與功效視頻 番茄面膜的做法與功效
- 墻上非常小的蟲子是什么 墻上的小蟲子是什么蟲子
- 岫讀什么音? 岫讀什么音
- 抵押型REITs的特點(diǎn)是 抵押型REITs的特點(diǎn)是
- 桂枝配丹參的作用 桂枝配丹參的作用是什么
