日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

從大煉模型到煉大模型,預(yù)訓(xùn)練模型( 二 )


在之前的研究中,兩種策略在預(yù)訓(xùn)練期間使用相同的目標(biāo)函數(shù),利用單向語言模型來學(xué)習(xí)通用語言表征 。本論文作者(即 Google AI Language 團(tuán)隊(duì)的研究人員)認(rèn)為現(xiàn)有的技術(shù)嚴(yán)重制約了預(yù)訓(xùn)練表征的能力,微調(diào)策略尤其如此 。其主要局限在于標(biāo)準(zhǔn)語言模型是單向的,這限制了可以在預(yù)訓(xùn)練期間使用的架構(gòu)類型 。例如,OpenAI GPT 使用的是從左到右的架構(gòu),其中每個 token 只能注意 Transformer 自注意力層中的先前 token 。
這些局限對于句子層面的任務(wù)而言不是最佳選擇,對于 token 級任務(wù)(如 SQuAD 問答)則可能是毀滅性的,因?yàn)樵谶@種任務(wù)中,結(jié)合兩個方向的語境至關(guān)重要 。本文通過 BERT(Bidirectional Encoder Representations from Transformers)改進(jìn)了基于微調(diào)的策略 。
【從大煉模型到煉大模型,預(yù)訓(xùn)練模型】BERT 提出一種新的預(yù)訓(xùn)練目標(biāo)——遮蔽語言模型(masked language model,MLM),來克服上文提到的單向局限 。MLM 的靈感來自 Cloze 任務(wù)(Taylor, 1953) 。MLM 隨機(jī)遮蔽輸入中的一些 token,,目標(biāo)在于僅基于遮蔽詞的語境來預(yù)測其原始詞匯 id 。與從左到右的語言模型預(yù)訓(xùn)練不同,MLM 目標(biāo)允許表征融合左右兩側(cè)的語境,從而預(yù)訓(xùn)練一個深度雙向 Transformer 。
除了 MLM,我們還引入了一個「下一句預(yù)測」(next sentence prediction)任務(wù),該任務(wù)聯(lián)合預(yù)訓(xùn)練文本對表征 。本文貢獻(xiàn)如下:展示了雙向預(yù)訓(xùn)練語言表征的重要性 。不同于 Radford 等人(2018)使用單向語言模型進(jìn)行預(yù)訓(xùn)練,BERT 使用 MLM 預(yù)訓(xùn)練深度雙向表征 。本研究與 Peters 等人(2018)的研究也不同,后者使用的是獨(dú)立訓(xùn)練的從左到右和從右到左 LM 的淺層級聯(lián) 。
證明了預(yù)訓(xùn)練表征可以消除對許多精心設(shè)計的任務(wù)特定架構(gòu)的需求 。BERT 是首個在大批句子層面和 token 層面任務(wù)中取得當(dāng)前最優(yōu)性能的基于微調(diào)的表征模型,其性能超越許多使用任務(wù)特定架構(gòu)的系統(tǒng) 。BERT 刷新了 11 項(xiàng) NLP 任務(wù)的當(dāng)前最優(yōu)性能記錄 。本論文還報告了 BERT 的模型簡化測試(ablation study),證明該模型的雙向特性是最重要的一項(xiàng)新貢獻(xiàn) 。
代碼和預(yù)訓(xùn)練模型將發(fā)布在 goo.gl/language/bert 。論文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding論文地址:https://arxiv.org/pdf/1810.04805.pdf摘要:本文介紹了一種新的語言表征模型 BERT,意為來自 Transformer 的雙向編碼器表征(Bidirectional Encoder Representations from Transformers) 。
與最近的語言表征模型(Peters et al., 2018; Radford et al., 2018)不同,BERT 旨在基于所有層的左、右語境來預(yù)訓(xùn)練深度雙向表征 。因此,預(yù)訓(xùn)練的 BERT 表征可以僅用一個額外的輸出層進(jìn)行微調(diào),進(jìn)而為很多任務(wù)(如問答和語言推斷任務(wù))創(chuàng)建當(dāng)前最優(yōu)模型,無需對任務(wù)特定架構(gòu)做出大量修改 。
BERT 的概念很簡單,但實(shí)驗(yàn)效果很強(qiáng)大 。它刷新了 11 個 NLP 任務(wù)的當(dāng)前最優(yōu)結(jié)果,包括將 GLUE 基準(zhǔn)提升至 80.4%(7.6% 的絕對改進(jìn))、將 MultiNLI 的準(zhǔn)確率提高到 86.7%(5.6% 的絕對改進(jìn)),以及將 SQuAD v1.1 的問答測試 F1 得分提高至 93.2 分(提高 1.5 分)——比人類表現(xiàn)還高出 2 分 。
BERT本節(jié)介紹 BERT 及其實(shí)現(xiàn)細(xì)節(jié) 。模型架構(gòu)BERT 的模型架構(gòu)是一個多層雙向 Transformer 編碼器,基于 Vaswani 等人 (2017) 描述的原始實(shí)現(xiàn),在 tensor2tensor 庫中發(fā)布 。由于 Transformer 的使用最近變得很普遍,而且我們的實(shí)現(xiàn)與原始版本實(shí)際相同,我們將不再贅述模型架構(gòu)的背景 。
在本文中,我們將層數(shù)(即 Transformer 塊)表示為 L,將隱藏尺寸表示為 H、自注意力頭數(shù)表示為 A 。在所有實(shí)驗(yàn)中,我們將前饋/濾波器尺寸設(shè)置為 4H,即 H=768 時為 3072,H=1024 時為 4096 。我們主要報告在兩種模型尺寸上的結(jié)果:BERTBASE: L=12, H=768, A=12, 總參數(shù)=110M BERTLARGE: L=24, H=1024, A=16, 總參數(shù)=340M為了比較,BERTBASE 的模型尺寸與 OpenAI GPT 相當(dāng) 。

推薦閱讀