白筒袜嫩萝双腿之间乳白液体,日本精品一区二区三区在线视频

總第481篇2021年第051篇美團(tuán)內(nèi)部深度定制的TensorFlow版本，基于原生TensorFlow1.x架構(gòu)與接口，從大規(guī)模稀疏參數(shù)的支持、訓(xùn)練模式、分布式通信優(yōu)化、流水線優(yōu)化、算子優(yōu)化融合等多維度進(jìn)行了深度優(yōu)化。在推薦系統(tǒng)場景中，分布式擴(kuò)
總第481篇
2021年第051篇

TensorFlow在美團(tuán)推薦系統(tǒng)中的分布式訓(xùn)練優(yōu)化實踐

美團(tuán)內(nèi)部深度定制的TensorFlow版本，基于原生TensorFlow 1.x架構(gòu)與接口，從大規(guī)模稀疏參數(shù)的支持、訓(xùn)練模式、分布式通信優(yōu)化、流水線優(yōu)化、算子優(yōu)化融合等多維度進(jìn)行了深度優(yōu)化。在推薦系統(tǒng)場景中，分布式擴(kuò)展性提升10倍以上，單位算力性能也有顯著提升，并在美團(tuán)內(nèi)部業(yè)務(wù)中大量使用，本文介紹了相關(guān)的優(yōu)化與實踐工作。1 背景
2 大規(guī)模訓(xùn)練優(yōu)化挑戰(zhàn)
2.1 業(yè)務(wù)迭代帶來的挑戰(zhàn)
2.2 系統(tǒng)負(fù)載分析
3 優(yōu)化實踐
3.1 大規(guī)模稀疏參數(shù)介紹
3.2 分布式負(fù)載均衡優(yōu)化
3.3 通信優(yōu)化
3.4 延遲優(yōu)化
3.5 單實例PS并發(fā)優(yōu)化
3.6 單位算力吞吐優(yōu)化
4 大規(guī)模稀疏算法建模
5 總結(jié)與展望
1 背景
TensorFlow（下文簡稱TF）是谷歌推出的一個開源深度學(xué)習(xí)框架，在美團(tuán)推薦系統(tǒng)場景中得到了廣泛的使用。但TensorFlow官方版本對工業(yè)級場景的支持，目前做得并不是特別的完善。美團(tuán)在大規(guī)模生產(chǎn)落地的過程中，遇到了以下幾方面的挑戰(zhàn)：
所有參數(shù)都是用Variable表達(dá) ，對于百億以上的稀疏參數(shù)開辟了大量的內(nèi)存，造成了資源的浪費(fèi)；只支持百級別Worker的分布式擴(kuò)展，對上千Worker的擴(kuò)展性較差；由于不支持大規(guī)模稀疏參數(shù)動態(tài)添加、刪除，增量導(dǎo)出，導(dǎo)致無法支持Online Learning；大規(guī)模集群運(yùn)行時，會遇到慢機(jī)和宕機(jī)；由于框架層不能處理，導(dǎo)會致任務(wù)運(yùn)行異常。
以上這些問題，并不是TensorFlow設(shè)計的問題，更多是底層實現(xiàn)的問題 ?？紤]到美團(tuán)大量業(yè)務(wù)的使用習(xí)慣以及社區(qū)的兼容性，我們基于原生TensorFlow 1.x架構(gòu)與接口，從大規(guī)模稀疏參數(shù)的支持、訓(xùn)練模式、分布式通信優(yōu)化、流水線優(yōu)化、算子優(yōu)化融合等多維度進(jìn)行了深度定制，從而解決了該場景的核心痛點問題。
首先新系統(tǒng)在支持能力層面，目前可以做到千億參數(shù)模型，上千Worker分布式訓(xùn)練的近線性加速，全年樣本數(shù)據(jù)能夠1天內(nèi)完成訓(xùn)練，并支持Online Learning的能力。同時，新系統(tǒng)的各種架構(gòu)和接口更加友好，美團(tuán)內(nèi)部包括美團(tuán)外賣、美團(tuán)優(yōu)選、美團(tuán)搜索、廣告平臺、大眾點評Feeds等業(yè)務(wù)部門都在使用。本文將重點介紹大規(guī)模分布式訓(xùn)練優(yōu)化的工作，希望對大家能夠有所幫助或啟發(fā) 。
2 大規(guī)模訓(xùn)練優(yōu)化挑戰(zhàn)
2.1 業(yè)務(wù)迭代帶來的挑戰(zhàn)
隨著美團(tuán)業(yè)務(wù)的發(fā)展，推薦系統(tǒng)模型的規(guī)模和復(fù)雜度也在快速增長，具體表現(xiàn)如下：
訓(xùn)練數(shù)據(jù)：訓(xùn)練樣本從到百億增長到千億，增長了近10倍。稀疏參數(shù)：個數(shù)從幾百到幾千，也增長了近10倍；總參數(shù)量從幾億增長到百億，增長了10~20倍。模型復(fù)雜度：越來越復(fù)雜，模型單步計算時間增長10倍以上。
對于大流量業(yè)務(wù) ，一次訓(xùn)練實驗，從幾個小時增長到了幾天，而此場景一次實驗保持在1天之內(nèi)是基本的需求。

TensorFlow在美團(tuán)推薦系統(tǒng)中的分布式訓(xùn)練優(yōu)化實踐

推薦閱讀

4g獨(dú)顯和8g獨(dú)顯的區(qū)別獨(dú)立顯卡8g和4g區(qū)別

要離婚了，分房子，離婚怎么分

中空玻璃充氬氣的作用

電視劇《玲瓏》劇情簡介，玲瓏更新時間表提前看大結(jié)局

玉蠶絲是什么面料

紅米note10pro怎么關(guān)閉5g 在哪里開啟關(guān)閉設(shè)置5g網(wǎng)絡(luò)

溧水屬于南京嗎溧水區(qū)是屬于南京嗎

蒸箱螃蟹蒸多久最佳時間

羚羊絨與山羊絨的區(qū)別是什么

四大古都分別是什么

從前有座靈劍山電視劇結(jié)局是什么

開天辟地第一回，破3底層升級android 10

海信電視3A和3D的區(qū)別海信電視3A和3D的區(qū)別是什么

在新的歷史條件下開展勞動教育機(jī)遇與挑戰(zhàn)分別是什么

我來分享oppo reno z創(chuàng)建兩個微信的詳細(xì)操作流程。

教你酷米客公交設(shè)置上下班路線的具體操作流程。