日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

機(jī)器學(xué)習(xí)為什么需要訓(xùn)練,模型訓(xùn)練

為什么機(jī)器學(xué)習(xí)模型會(huì)消耗那么多能源?

機(jī)器學(xué)習(xí)為什么需要訓(xùn)練,模型訓(xùn)練


人腦是一種效率極高的智能來(lái)源,但目前的AI還達(dá)不到這樣的水平 。本月早些時(shí)候,OpenAI宣布已經(jīng)構(gòu)建起有史以來(lái)規(guī)模最大的AI模型 。這套驚人的模型名為GPT-3,已經(jīng)成為令人印象深刻的偉大技術(shù)成就 。但在這輝煌的背后,也凸顯出人工智能領(lǐng)域一種令人擔(dān)憂的負(fù)面趨勢(shì)——更可怕的是,主流輿論對(duì)此尚未給予足夠的關(guān)注 。
現(xiàn)代AI模型需要消耗大量電力,而且對(duì)電力的需求正以驚人的速度增長(zhǎng) 。在深度學(xué)習(xí)時(shí)代,構(gòu)建一流AI模型所需要的計(jì)算資源平均每3.4個(gè)月翻一番;換句話說(shuō),從2012年到2018年間,AI計(jì)算資源消耗量增長(zhǎng)了30萬(wàn)倍 。而GPT-3,只是這股潮流的最新體現(xiàn) ??偠灾珹I技術(shù)帶來(lái)的碳排放已經(jīng)不容忽視;如果行業(yè)趨勢(shì)繼續(xù)下去,那么情況將很快失去控制 。
除非我們?cè)敢庵匦略u(píng)估并改革當(dāng)今的AI研究議程,否則人工智能領(lǐng)域很可能在不久的未來(lái)成為引發(fā)氣候變化的罪魁禍?zhǔn)?。更大并不一定更好在當(dāng)今以深度學(xué)習(xí)為中心的研究范式當(dāng)中,人工智能的主要進(jìn)步主要依賴于模型的規(guī)?;瘮U(kuò)展:數(shù)據(jù)集更大、模型更大、計(jì)算資源更大 。GPT-3就很好地說(shuō)明了這種現(xiàn)象 。這套模型中包含多達(dá)1750億個(gè)參數(shù) 。
為了幫助大家更直觀地理解這個(gè)數(shù)字,其前身GPT-2模型(在去年發(fā)布時(shí),同樣創(chuàng)下了體量層面的紀(jì)錄)只有15億個(gè)參數(shù) 。去年的GPT-2在擁有千萬(wàn)億次算力的設(shè)備上訓(xùn)練了幾十天;相比之下,GPT-3的訓(xùn)練時(shí)長(zhǎng)將增長(zhǎng)至數(shù)千天 。這種靠“每況愈大”模型推動(dòng)AI技術(shù)進(jìn)步的問(wèn)題在于,這類模型的構(gòu)建與部署都需要消耗大量能源,并由此產(chǎn)生巨量碳排放 。
在2019年的一項(xiàng)廣泛研究當(dāng)中,由Emma Strubell牽頭的一組研究人員估計(jì),訓(xùn)練一套深度學(xué)習(xí)模型可能產(chǎn)生高達(dá)62萬(wàn)6155磅的二氧化碳排放量——大約相當(dāng)于五輛汽車從出廠到報(bào)廢的總二氧化碳排放規(guī)模 。如果這還不夠直觀,那么每個(gè)美國(guó)人每年平均產(chǎn)生3萬(wàn)6156磅二氧化碳排放量 。可以肯定的是,這項(xiàng)估算主要針對(duì)那些高度依賴于能源的模型 。
畢竟結(jié)合當(dāng)前現(xiàn)實(shí),機(jī)器學(xué)習(xí)模型的平均訓(xùn)練過(guò)程絕不至于產(chǎn)生60多萬(wàn)磅二氧化碳 。同樣值得注意的是,在進(jìn)行這項(xiàng)分析時(shí),GPT-2仍然是研究領(lǐng)域規(guī)模最大的模型,研究人員也將其視為深度學(xué)習(xí)模型的極限 。但僅僅一年之后,GPT-2就成了“纖細(xì)瘦小”的代名詞,下代模型的體量超過(guò)其百倍 。為什么機(jī)器學(xué)習(xí)模型會(huì)消耗那么多能源?最重要的原因,就是訓(xùn)練這些模型的數(shù)據(jù)集本身也在快速增肥 。
在使用包含30億個(gè)單詞的數(shù)據(jù)集進(jìn)行訓(xùn)練之后,BERT模型在2018年實(shí)現(xiàn)了同類最佳的自然語(yǔ)言處理(NLP)性能 。而在利用包含320億個(gè)單詞的訓(xùn)練集完成訓(xùn)練之后,XLNet又超越了BERT 。不久之后,GPT-2開(kāi)始在包含400億個(gè)單詞的數(shù)據(jù)集上接受訓(xùn)練 。最終是我們前面提到的GPT-3,它使用的是一套包含約5000億個(gè)單詞的加權(quán)數(shù)據(jù)集 。
在訓(xùn)練過(guò)程中,神經(jīng)網(wǎng)絡(luò)需要為每一條數(shù)據(jù)執(zhí)行一整套冗長(zhǎng)的數(shù)學(xué)運(yùn)算(正向傳播與反向傳播),并以復(fù)雜的方式更新模型參數(shù) 。因此,數(shù)據(jù)集規(guī)模越大,與之對(duì)應(yīng)的算力與能源需求也在飛速增長(zhǎng) 。導(dǎo)致AI模型大量消耗能源的另一個(gè)理由,在于模型開(kāi)發(fā)過(guò)程中所需要的大量實(shí)驗(yàn)與調(diào)整 。目前,機(jī)器學(xué)習(xí)在很大程度上仍是一個(gè)反復(fù)實(shí)驗(yàn)試錯(cuò)的流程 。
從業(yè)人員通常會(huì)在訓(xùn)練過(guò)程中為當(dāng)前模型構(gòu)建數(shù)百個(gè)版本,并通過(guò)不斷嘗試各類神經(jīng)架構(gòu)與超參數(shù)確定最佳設(shè)計(jì)方案 。之前提到的2019年論文中還包含一項(xiàng)案例研究,研究人員們選擇了一個(gè)體量適中的模型(顯然要比GPT-3這樣的龐然大物小得多),并對(duì)訓(xùn)練其最終版本所需要的電力、以及生產(chǎn)最終版本所需要的試運(yùn)行總量進(jìn)行了統(tǒng)計(jì) 。

推薦閱讀