日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

機器學(xué)習(xí)為什么需要訓(xùn)練,模型訓(xùn)練( 二 )


在為期六個月的過程中,研究人員共訓(xùn)練了該模型的4789個不同版本,折合單GPU運行時長為9998天(超過27年) ??紤]到所有因素,研究人員們估計,該模型的構(gòu)建過程將產(chǎn)生約7萬8000磅二氧化碳,超過美國成年人兩年的平均二氧化碳排放量 。而到這里,我們討論的還僅僅是機器學(xué)習(xí)模型的訓(xùn)練部分 。而訓(xùn)練只能算是模型生命周期的開始;在訓(xùn)練完成之后,我們還需要在現(xiàn)實環(huán)境中使用這些模型 。
在現(xiàn)實環(huán)境中部署并運行AI模型(即推理過程),所帶來的能源消耗量甚至高于訓(xùn)練過程 。實際上,英偉達公司估計,神經(jīng)網(wǎng)絡(luò)全部算力成本中的80%到90%來自推理階段,而非訓(xùn)練階段 。例如,我們可以考慮自動駕駛汽車中的AI模型 。我們需要首先對該神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,教會它駕駛技巧 。在訓(xùn)練完成并部署至車輛上之后,該模型將持續(xù)不斷地進行推理以實現(xiàn)環(huán)境導(dǎo)航——只要汽車仍在行駛,模型的推理過程就將不間斷地進行 。
毋庸置疑,模型中包含的參數(shù)量越大,推理階段所帶來的電力需求就越夸張 。能源使用與碳排放要探討這個問題,我們先要找到能源使用與碳排放之間的對應(yīng)關(guān)系 。那么,該如何準(zhǔn)確判斷這種對應(yīng)關(guān)系?根據(jù)美國環(huán)保署(EPA)公布的數(shù)據(jù),在美國,一千瓦時電力平均對應(yīng)0.954磅二氧化碳排放量 。這一平均值反映了碳足跡變化以及美國電網(wǎng)當(dāng)中的不同電力來源(包括可再生能源、核能、天然氣以及煤炭等)的客觀比例 。
如上所述,Strubell在分析中采用了美國本土的電力碳排放平均值,以根據(jù)不同AI模型的能源需求計算對應(yīng)的碳排放量 。這個假設(shè)已經(jīng)相當(dāng)合理,因為Amazon Web Services的電力組合就一致符合美國整體的發(fā)電來源結(jié)構(gòu),而目前的大多數(shù)AI模型都會選擇在公有云端進行訓(xùn)練 。當(dāng)然,如果盡可能使用可再生能源產(chǎn)生的電力進行AI模型訓(xùn)練,其碳足跡必將有所降低 。
例如,與AWS相比,Google Cloud Platform的電力結(jié)構(gòu)中可再生能源的比例更高(根據(jù)Strubell的論文,AWS的可再生能源占比17%,谷歌方面則占比56%) 。我們也可以再舉個例子,由于所在地區(qū)擁有豐富的清潔水電資源,因此大西洋西北部區(qū)域的硬件設(shè)施在訓(xùn)練模型時所產(chǎn)生的碳排放將低于全美平均水平 。
值得一提的是,目前各大云服務(wù)供應(yīng)商都在強調(diào)其在碳排放控制方面做出的努力 。但總體來說,Strubell認為美國的整體電力組合仍然具有充分的說服力,可用于大體準(zhǔn)確地估算出AI模型的碳足跡 。收益遞減模型體量與模型性能之間的關(guān)系,則能幫助我們了解提升模型規(guī)模到底能夠給AI技術(shù)發(fā)展帶來怎樣的幫助 。這方面數(shù)據(jù)倒是非常明確:模型體量的持續(xù)增加,最終會導(dǎo)致性能回報急劇下降 。
我們用實例來證明這個觀點 。ResNet是一套于2015年發(fā)布的知名計算機視覺模型 。該模型的改進版本名為ResNeXt,于2017年問世 。與ResNet相比,ResNeXt需要的計算資源提升了35%(按總浮點運算量計算),但精度卻只增長了0.5% 。在艾倫人工智能研究所2019年發(fā)表的論文中,我們可以看到更詳盡的比較數(shù)據(jù),其中記錄了不同任務(wù)、模型與AI子領(lǐng)域的模型規(guī)模收益遞減情況 。
與GPT-2相比,最新發(fā)布的超大型GPT-3模型也出現(xiàn)了顯著的收益遞減跡象 。如果AI社區(qū)繼續(xù)沿著當(dāng)前的道路前進,那么研究人員們必然需要花費更多精力構(gòu)建起越來越大的模型,但由此帶來的性能提升卻越來越小 。這意味著成本/收益率將變得愈發(fā)不相稱 。既然收益遞減客觀存在,為什么人們還在不斷推出越來越大的模型呢?一大主要原因,在于AI社區(qū)當(dāng)下仍過于關(guān)注能在性能基準(zhǔn)測試中創(chuàng)下新高的“最新”紀錄 。

推薦閱讀