日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

TensorFlow在美團(tuán)推薦系統(tǒng)中的分布式訓(xùn)練優(yōu)化實踐

總第481篇2021年第051篇美團(tuán)內(nèi)部深度定制的TensorFlow版本 , 基于原生TensorFlow1.x架構(gòu)與接口 , 從大規(guī)模稀疏參數(shù)的支持、訓(xùn)練模式、分布式通信優(yōu)化、流水線優(yōu)化、算子優(yōu)化融合等多維度進(jìn)行了深度優(yōu)化 。在推薦系統(tǒng)場景中 , 分布式擴(kuò)
總第481篇
2021年 第051篇

TensorFlow在美團(tuán)推薦系統(tǒng)中的分布式訓(xùn)練優(yōu)化實踐



美團(tuán)內(nèi)部深度定制的TensorFlow版本 , 基于原生TensorFlow 1.x架構(gòu)與接口 , 從大規(guī)模稀疏參數(shù)的支持、訓(xùn)練模式、分布式通信優(yōu)化、流水線優(yōu)化、算子優(yōu)化融合等多維度進(jìn)行了深度優(yōu)化 。在推薦系統(tǒng)場景中 , 分布式擴(kuò)展性提升10倍以上 , 單位算力性能也有顯著提升 , 并在美團(tuán)內(nèi)部業(yè)務(wù)中大量使用 , 本文介紹了相關(guān)的優(yōu)化與實踐工作 。1 背景
2 大規(guī)模訓(xùn)練優(yōu)化挑戰(zhàn)
2.1 業(yè)務(wù)迭代帶來的挑戰(zhàn)
2.2 系統(tǒng)負(fù)載分析
3 優(yōu)化實踐
3.1 大規(guī)模稀疏參數(shù)介紹
3.2 分布式負(fù)載均衡優(yōu)化
3.3 通信優(yōu)化
3.4 延遲優(yōu)化
3.5 單實例PS并發(fā)優(yōu)化
3.6 單位算力吞吐優(yōu)化
4 大規(guī)模稀疏算法建模
5 總結(jié)與展望
1 背景
TensorFlow(下文簡稱TF)是谷歌推出的一個開源深度學(xué)習(xí)框架 , 在美團(tuán)推薦系統(tǒng)場景中得到了廣泛的使用 。但TensorFlow官方版本對工業(yè)級場景的支持 , 目前做得并不是特別的完善 。美團(tuán)在大規(guī)模生產(chǎn)落地的過程中 , 遇到了以下幾方面的挑戰(zhàn):
所有參數(shù)都是用Variable表達(dá) ,  對于百億以上的稀疏參數(shù)開辟了大量的內(nèi)存 , 造成了資源的浪費(fèi);只支持百級別Worker的分布式擴(kuò)展 , 對上千Worker的擴(kuò)展性較差;由于不支持大規(guī)模稀疏參數(shù)動態(tài)添加、刪除 , 增量導(dǎo)出 , 導(dǎo)致無法支持Online Learning;大規(guī)模集群運(yùn)行時 , 會遇到慢機(jī)和宕機(jī);由于框架層不能處理 , 導(dǎo)會致任務(wù)運(yùn)行異常 。
以上這些問題 , 并不是TensorFlow設(shè)計的問題 , 更多是底層實現(xiàn)的問題 ??紤]到美團(tuán)大量業(yè)務(wù)的使用習(xí)慣以及社區(qū)的兼容性 , 我們基于原生TensorFlow 1.x架構(gòu)與接口 , 從大規(guī)模稀疏參數(shù)的支持、訓(xùn)練模式、分布式通信優(yōu)化、流水線優(yōu)化、算子優(yōu)化融合等多維度進(jìn)行了深度定制 , 從而解決了該場景的核心痛點問題 。
首先新系統(tǒng)在支持能力層面 , 目前可以做到千億參數(shù)模型 , 上千Worker分布式訓(xùn)練的近線性加速 , 全年樣本數(shù)據(jù)能夠1天內(nèi)完成訓(xùn)練 , 并支持Online Learning的能力 。同時 , 新系統(tǒng)的各種架構(gòu)和接口更加友好 , 美團(tuán)內(nèi)部包括美團(tuán)外賣、美團(tuán)優(yōu)選、美團(tuán)搜索、廣告平臺、大眾點評Feeds等業(yè)務(wù)部門都在使用 。本文將重點介紹大規(guī)模分布式訓(xùn)練優(yōu)化的工作 , 希望對大家能夠有所幫助或啟發(fā) 。
2 大規(guī)模訓(xùn)練優(yōu)化挑戰(zhàn)
2.1 業(yè)務(wù)迭代帶來的挑戰(zhàn)
隨著美團(tuán)業(yè)務(wù)的發(fā)展 , 推薦系統(tǒng)模型的規(guī)模和復(fù)雜度也在快速增長 , 具體表現(xiàn)如下:
訓(xùn)練數(shù)據(jù):訓(xùn)練樣本從到百億增長到千億 , 增長了近10倍 。稀疏參數(shù):個數(shù)從幾百到幾千 , 也增長了近10倍;總參數(shù)量從幾億增長到百億 , 增長了10~20倍 。模型復(fù)雜度:越來越復(fù)雜 , 模型單步計算時間增長10倍以上 。
對于大流量業(yè)務(wù) , 一次訓(xùn)練實驗 , 從幾個小時增長到了幾天 , 而此場景一次實驗保持在1天之內(nèi)是基本的需求 。

推薦閱讀