日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

TensorFlow在美團推薦系統(tǒng)中的分布式訓練優(yōu)化實踐( 四 )


該優(yōu)化所帶來的提升具備普適性且效果明顯 , 在美團內(nèi)部某業(yè)務(wù)模型上 , 通過β熱點去除可以帶來9%左右的性能提升 。此外 , 由于擺脫了對β的全局依賴 , 該優(yōu)化還能提高PS架構(gòu)的可擴展性 , 在擴增Worker數(shù)量的時候相比之前會帶來更好的加速比 。
3.3 通信優(yōu)化
通過2.2章節(jié)的分析可知 , 系統(tǒng)的通信壓力也非常大 , 我們主要基于RDMA做了通信優(yōu)化的工作 。首先簡單介紹一下RDMA , 相比較于傳統(tǒng)基于套接字TCP/IP協(xié)議棧的通信過程 , RDMA具有零拷貝、內(nèi)核旁路的優(yōu)勢 , 不僅降低了網(wǎng)絡(luò)的延遲 , 同時也降低了CPU的占用率 , RDMA更適合深度學習模型的相關(guān)通信過程 。
RDMA主要包括三種協(xié)議Infiniband、RoCE(V1, V2)、iWARP 。在美團內(nèi)部的深度學習場景中 , RDMA通信協(xié)議使用的是RoCE V2協(xié)議 。目前在深度學習訓練領(lǐng)域 , 尤其是在稠密模型訓練場景(NLP、CV等) , RDMA已經(jīng)是大規(guī)模分布式訓練的標配 。然而 , 在大規(guī)模稀疏模型的訓練中 , 開源系統(tǒng)對于RDMA的支持非常有限 , TensorFlow Verbs[4]通信模塊已經(jīng)很長時間沒有更新了 , 通信效果也并不理想 , 我們基于此之上進行了很多的改進工作 。
經(jīng)過優(yōu)化后的版本 , 在1TB Click Logs[5]公開數(shù)據(jù)集、DLRM[6]模型、100個Worker以上的訓練 , 性能提升了20%~40% 。在美團的多個業(yè)務(wù)模型上 , 對比TensorFlow Seastar[7]改造的通信層實現(xiàn)也有10%~60%的速度提升 。同時也把我們的工作回饋給了社區(qū) 。
3.3.1 Memory Registration優(yōu)化
RDMA有三種數(shù)據(jù)傳輸?shù)姆绞絊END/RECV、WRITE、READ , 其中WRITE、READ類似于數(shù)據(jù)發(fā)送方直接在遠程Memory進行讀寫 , Receiver無法感知 , WRITE和READ適用于批量數(shù)據(jù)傳輸 。在TensorFlow內(nèi)部 , 基于RDMA的數(shù)據(jù)傳輸方式使用的是WRITE單邊通信模式 。

TensorFlow在美團推薦系統(tǒng)中的分布式訓練優(yōu)化實踐


圖8 RDMA傳輸方式
在RDMA傳輸數(shù)據(jù)時 , 需要提前開辟內(nèi)存空間并將其注冊到網(wǎng)卡設(shè)備上(Memory Registration過程 , 下稱MR) , 使得這片空間可以被網(wǎng)卡直接操作 。開辟新的內(nèi)存并注冊到設(shè)備上 , 整個過程是比較耗時的 。下圖9展示了不同大小的內(nèi)存綁定到網(wǎng)卡設(shè)備上的耗時 , 可以看到隨著注冊內(nèi)存的增大 , 綁定MR的耗時迅速增加 。

TensorFlow在美團推薦系統(tǒng)中的分布式訓練優(yōu)化實踐


圖9 MR過程開銷
社區(qū)版Tensorflow RDMA實現(xiàn) , Tensor創(chuàng)建依舊沿用了統(tǒng)一的BFC Allocator , 并將所有創(chuàng)建的Tensor都注冊到MR上 。正如上面所提到的 , MR的注冊綁定具有性能開銷 , 高頻、大空間的MR注冊會帶來顯著的性能下降 。而訓練過程中的Tensor , 只有那些涉及到跨節(jié)點通信的Tensor有必要進行MR , 其余Tensor并不需要注冊到MR 。因此 , 優(yōu)化的方法也就比較直接了 , 我們識別并管理那些通信Tensor , 僅對這些跨節(jié)點通信的Tensor進行MR注冊就好了 。
3.3.2 RDMA靜態(tài)分配器
RDMA靜態(tài)分配器是上一個MR注冊優(yōu)化的延伸 。通過Memory Registration優(yōu)化 , 去除非傳輸Tensor的MR注冊 , 我們降低了MR注冊數(shù)量 。但是在稀疏場景大規(guī)模的訓練下 , 并行訓練的Worker常有幾百上千個 , 這會帶來新的問題:

推薦閱讀