777米奇色狠狠俺去啦,精品亚洲一区二区三区在线观看

在之前的研究中，兩種策略在預(yù)訓(xùn)練期間使用相同的目標(biāo)函數(shù)，利用單向語言模型來學(xué)習(xí)通用語言表征。本論文作者（即 Google AI Language 團(tuán)隊(duì)的研究人員）認(rèn)為現(xiàn)有的技術(shù)嚴(yán)重制約了預(yù)訓(xùn)練表征的能力，微調(diào)策略尤其如此。其主要局限在于標(biāo)準(zhǔn)語言模型是單向的，這限制了可以在預(yù)訓(xùn)練期間使用的架構(gòu)類型。例如，OpenAI GPT 使用的是從左到右的架構(gòu)，其中每個 token 只能注意 Transformer 自注意力層中的先前 token 。
這些局限對于句子層面的任務(wù)而言不是最佳選擇，對于 token 級任務(wù)（如 SQuAD 問答）則可能是毀滅性的，因?yàn)樵谶@種任務(wù)中，結(jié)合兩個方向的語境至關(guān)重要。本文通過 BERT（Bidirectional Encoder Representations from Transformers）改進(jìn)了基于微調(diào)的策略。
【從大煉模型到煉大模型,預(yù)訓(xùn)練模型】BERT 提出一種新的預(yù)訓(xùn)練目標(biāo)——遮蔽語言模型（masked language model，MLM），來克服上文提到的單向局限。MLM 的靈感來自 Cloze 任務(wù)（Taylor, 1953）。MLM 隨機(jī)遮蔽輸入中的一些 token，，目標(biāo)在于僅基于遮蔽詞的語境來預(yù)測其原始詞匯 id 。與從左到右的語言模型預(yù)訓(xùn)練不同，MLM 目標(biāo)允許表征融合左右兩側(cè)的語境，從而預(yù)訓(xùn)練一個深度雙向 Transformer 。
除了 MLM，我們還引入了一個「下一句預(yù)測」（next sentence prediction）任務(wù)，該任務(wù)聯(lián)合預(yù)訓(xùn)練文本對表征。本文貢獻(xiàn)如下：展示了雙向預(yù)訓(xùn)練語言表征的重要性。不同于 Radford 等人（2018）使用單向語言模型進(jìn)行預(yù)訓(xùn)練，BERT 使用 MLM 預(yù)訓(xùn)練深度雙向表征。本研究與 Peters 等人（2018）的研究也不同，后者使用的是獨(dú)立訓(xùn)練的從左到右和從右到左 LM 的淺層級聯(lián) 。
證明了預(yù)訓(xùn)練表征可以消除對許多精心設(shè)計的任務(wù)特定架構(gòu)的需求。BERT 是首個在大批句子層面和 token 層面任務(wù)中取得當(dāng)前最優(yōu)性能的基于微調(diào)的表征模型，其性能超越許多使用任務(wù)特定架構(gòu)的系統(tǒng) 。BERT 刷新了 11 項(xiàng) NLP 任務(wù)的當(dāng)前最優(yōu)性能記錄。本論文還報告了 BERT 的模型簡化測試（ablation study），證明該模型的雙向特性是最重要的一項(xiàng)新貢獻(xiàn) 。
代碼和預(yù)訓(xùn)練模型將發(fā)布在 goo.gl/language/bert 。論文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding論文地址：https://arxiv.org/pdf/1810.04805.pdf摘要：本文介紹了一種新的語言表征模型 BERT，意為來自 Transformer 的雙向編碼器表征（Bidirectional Encoder Representations from Transformers）。
與最近的語言表征模型（Peters et al., 2018; Radford et al., 2018）不同，BERT 旨在基于所有層的左、右語境來預(yù)訓(xùn)練深度雙向表征。因此，預(yù)訓(xùn)練的 BERT 表征可以僅用一個額外的輸出層進(jìn)行微調(diào)，進(jìn)而為很多任務(wù)（如問答和語言推斷任務(wù)）創(chuàng)建當(dāng)前最優(yōu)模型，無需對任務(wù)特定架構(gòu)做出大量修改。
BERT 的概念很簡單，但實(shí)驗(yàn)效果很強(qiáng)大。它刷新了 11 個 NLP 任務(wù)的當(dāng)前最優(yōu)結(jié)果，包括將 GLUE 基準(zhǔn)提升至 80.4%（7.6% 的絕對改進(jìn)）、將 MultiNLI 的準(zhǔn)確率提高到 86.7%（5.6% 的絕對改進(jìn)），以及將 SQuAD v1.1 的問答測試 F1 得分提高至 93.2 分（提高 1.5 分）——比人類表現(xiàn)還高出 2 分。
BERT本節(jié)介紹 BERT 及其實(shí)現(xiàn)細(xì)節(jié) 。模型架構(gòu)BERT 的模型架構(gòu)是一個多層雙向 Transformer 編碼器，基于 Vaswani 等人 (2017) 描述的原始實(shí)現(xiàn)，在 tensor2tensor 庫中發(fā)布。由于 Transformer 的使用最近變得很普遍，而且我們的實(shí)現(xiàn)與原始版本實(shí)際相同，我們將不再贅述模型架構(gòu)的背景。
在本文中，我們將層數(shù)（即 Transformer 塊）表示為 L，將隱藏尺寸表示為 H、自注意力頭數(shù)表示為 A 。在所有實(shí)驗(yàn)中，我們將前饋/濾波器尺寸設(shè)置為 4H，即 H=768 時為 3072，H=1024 時為 4096 。我們主要報告在兩種模型尺寸上的結(jié)果：BERTBASE: L=12, H=768, A=12, 總參數(shù)=110M BERTLARGE: L=24, H=1024, A=16, 總參數(shù)=340M為了比較，BERTBASE 的模型尺寸與 OpenAI GPT 相當(dāng) 。

從大煉模型到煉大模型,預(yù)訓(xùn)練模型( 二 )

推薦閱讀

古劍奇譚系列主角實(shí)力排名及個人分析三代主角誰最強(qiáng)

拘役和有期徒刑的區(qū)別

如何評價花樣滑冰運(yùn)動員張昊

如何查詢手機(jī)wifi密碼手機(jī)wifi密碼如何查看

腈綸面料童裝耐曬嗎

懶人提拉米蘇蛋糕的做法

如何做檸檬素

孕婦能吃苦瓜嗎孕婦能吃苦瓜嗎

11月5日：江民播報--謹(jǐn)防QQ大盜竊取QQ隱私

什么梯形叫做等腰梯形

死神有什么網(wǎng)頁游戲,火影和死神的網(wǎng)頁游戲手機(jī)版

人妖犯了罪，該關(guān)進(jìn)男監(jiān)獄還是女監(jiān)獄

木頭上油用什么油，木頭表面打磨用什么工具好

辛集招聘，辛集哪些地方招工

公路邊的芒果可以吃嗎

52歲的斯琴格日樂無夫無子斯琴格日樂老公