可以打开看的操逼视频网,亚洲色大成影网站www永久,中文字幕第一视频一区二区三区

該優(yōu)化所帶來的提升具備普適性且效果明顯，在美團內(nèi)部某業(yè)務(wù)模型上，通過β熱點去除可以帶來9%左右的性能提升。此外，由于擺脫了對β的全局依賴，該優(yōu)化還能提高PS架構(gòu)的可擴展性，在擴增Worker數(shù)量的時候相比之前會帶來更好的加速比。
3.3 通信優(yōu)化
通過2.2章節(jié)的分析可知，系統(tǒng)的通信壓力也非常大，我們主要基于RDMA做了通信優(yōu)化的工作。首先簡單介紹一下RDMA ，相比較于傳統(tǒng)基于套接字TCP/IP協(xié)議棧的通信過程， RDMA具有零拷貝、內(nèi)核旁路的優(yōu)勢，不僅降低了網(wǎng)絡(luò)的延遲，同時也降低了CPU的占用率， RDMA更適合深度學習模型的相關(guān)通信過程。
RDMA主要包括三種協(xié)議Infiniband、RoCE(V1, V2)、iWARP 。在美團內(nèi)部的深度學習場景中， RDMA通信協(xié)議使用的是RoCE V2協(xié)議。目前在深度學習訓練領(lǐng)域，尤其是在稠密模型訓練場景（NLP、CV等）， RDMA已經(jīng)是大規(guī)模分布式訓練的標配。然而，在大規(guī)模稀疏模型的訓練中，開源系統(tǒng)對于RDMA的支持非常有限， TensorFlow Verbs[4]通信模塊已經(jīng)很長時間沒有更新了，通信效果也并不理想，我們基于此之上進行了很多的改進工作。
經(jīng)過優(yōu)化后的版本，在1TB Click Logs[5]公開數(shù)據(jù)集、DLRM[6]模型、100個Worker以上的訓練，性能提升了20%~40% 。在美團的多個業(yè)務(wù)模型上，對比TensorFlow Seastar[7]改造的通信層實現(xiàn)也有10%~60%的速度提升。同時也把我們的工作回饋給了社區(qū) 。
3.3.1 Memory Registration優(yōu)化
RDMA有三種數(shù)據(jù)傳輸?shù)姆绞絊END/RECV、WRITE、READ ，其中WRITE、READ類似于數(shù)據(jù)發(fā)送方直接在遠程Memory進行讀寫， Receiver無法感知， WRITE和READ適用于批量數(shù)據(jù)傳輸。在TensorFlow內(nèi)部，基于RDMA的數(shù)據(jù)傳輸方式使用的是WRITE單邊通信模式。

圖8 RDMA傳輸方式

在RDMA傳輸數(shù)據(jù)時，需要提前開辟內(nèi)存空間并將其注冊到網(wǎng)卡設(shè)備上（Memory Registration過程，下稱MR），使得這片空間可以被網(wǎng)卡直接操作。開辟新的內(nèi)存并注冊到設(shè)備上，整個過程是比較耗時的。下圖9展示了不同大小的內(nèi)存綁定到網(wǎng)卡設(shè)備上的耗時，可以看到隨著注冊內(nèi)存的增大，綁定MR的耗時迅速增加。

圖9 MR過程開銷

社區(qū)版Tensorflow RDMA實現(xiàn) ， Tensor創(chuàng)建依舊沿用了統(tǒng)一的BFC Allocator ，并將所有創(chuàng)建的Tensor都注冊到MR上。正如上面所提到的， MR的注冊綁定具有性能開銷，高頻、大空間的MR注冊會帶來顯著的性能下降。而訓練過程中的Tensor ，只有那些涉及到跨節(jié)點通信的Tensor有必要進行MR ，其余Tensor并不需要注冊到MR 。因此，優(yōu)化的方法也就比較直接了，我們識別并管理那些通信Tensor ，僅對這些跨節(jié)點通信的Tensor進行MR注冊就好了。
3.3.2 RDMA靜態(tài)分配器
RDMA靜態(tài)分配器是上一個MR注冊優(yōu)化的延伸。通過Memory Registration優(yōu)化，去除非傳輸Tensor的MR注冊，我們降低了MR注冊數(shù)量。但是在稀疏場景大規(guī)模的訓練下，并行訓練的Worker常有幾百上千個，這會帶來新的問題：