日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

從大煉模型到煉大模型,預(yù)訓練模型( 三 )


然而,BERT Transformer 使用雙向自注意力機制,而 GPT Transformer 使用受限的自注意力機制,導致每個 token 只能關(guān)注其左側(cè)的語境 。我們注意到,雙向 Transformer 在文獻中通常稱為「Transformer 編碼器」,而只關(guān)注左側(cè)語境的版本則因能用于文本生成而被稱為「Transformer 解碼器」 。
圖 1 直觀顯示了 BERT、OpenAI GPT 和 ELMo 的比較結(jié)果 。圖 1:預(yù)訓練模型架構(gòu)之間的區(qū)別 。BERT 使用雙向 Transformer,OpenAI GPT 使用從左到右的 Transformer,ELMo 使用獨立訓練的從左到右和從右到左 LSTM 的級聯(lián)來生成下游任務(wù)的特征 。三種模型中,只有 BERT 表征會基于所有層中的左右兩側(cè)語境 。
預(yù)訓練任務(wù)與 Peters 等人 (2018) 和 Radford 等人 (2018) 不同,我們不使用傳統(tǒng)的從左到右或從右到左的語言模型來預(yù)訓練 BERT,而是使用兩個新型無監(jiān)督預(yù)測任務(wù) 。任務(wù) #1:Masked LM為了訓練深度雙向表征,我們采取了一個直接的方法,隨機遮蔽輸入 token 的某些部分,然后預(yù)測被遮住的 token 。
我們將這一步驟稱為「masked LM」(MLM),不過它在文獻中通常被稱為 Cloze 任務(wù) (Taylor, 1953) 。在這種情況下,對應(yīng)遮蔽 token 的最終隱藏向量會輸入到 softmax 函數(shù)中,并如標準 LM 中那樣預(yù)測所有詞匯的概率 。在所做的所有實驗中,我們隨機遮住了每個序列中 15% 的 WordPiece token 。
與去噪自編碼器 (Vincent et al., 2008) 相反,我們僅預(yù)測遮蔽單詞而非重建整個輸入 。任務(wù) #2:下一句預(yù)測很多重要的下游任務(wù)(如問答(QA)和自然語言推斷(NLI))基于對兩個文本句子之間關(guān)系的理解,這種關(guān)系并非通過語言建模直接獲得 。為了訓練一個理解句子關(guān)系的模型,我們預(yù)訓練了一個二值化下一句預(yù)測任務(wù),該任務(wù)可以從任意單語語料庫中輕松生成 。
具體來說,選擇句子 A 和 B 作為預(yù)訓練樣本:B 有 50% 的可能是 A 的下一句,也有 50% 的可能是來自語料庫的隨機句子 。實驗這部分,我們將展示 BERT 在 11 個 NLP 任務(wù)上的微調(diào)結(jié)果 。圖 3:我們的任務(wù)特定模型是由向 BERT 添加了一個額外的輸出層而形成的,因此一小部分參數(shù)需要從頭開始學習 。
在眾多任務(wù)中,(a) 和 (b) 任務(wù)是序列級任務(wù),(c) 和 (d) 是 token 級任務(wù),圖中 E 表示輸入嵌入,T_i 表示 token i 的語境表征,[CLS] 是分類輸出的特殊符號,[SEP] 是分割非連續(xù) token 序列的特殊符號 。表 1:GLUE 測試結(jié)果,評分由 GLUE 評估服務(wù)器得到 。
每個任務(wù)下面的數(shù)字表示訓練樣本的數(shù)量 ?!窤verage」列與 GLUE 官方分數(shù)略微不同,因為我們排除了有問題的 WNLI 集 。OpenAI GPT = (L=12, H=768, A=12);BERT_BASE = (L=12, H=768, A=12);BERT_LARGE = (L=24, H=1024, A=16) 。
BERT 和 OpenAI GPT 是單個模型、單個任務(wù) 。所有結(jié)果來自于以下地址:https://gluebenchmark.com/leaderboard 和 https://blog.openai. com/language-unsupervised/ 。表 2:SQuAD 結(jié)果 。BERT 集成是使用不同預(yù)訓練檢查點和微調(diào)種子(fine-tuning seed)的 7x 系統(tǒng) 。
飛行員手拿飛機模型在地面“比劃”是干啥呢?

從大煉模型到煉大模型,預(yù)訓練模型


兔哥回答:我們經(jīng)常從電視畫面中看到飛行員手持小飛機模型,三三兩兩聚在一起模擬飛行動作進行地面訓練,時而伴飛,時而追逐,時而多機編隊…… 。這是飛行員相互交流飛行中的機動動作,是熟悉了解空中飛行時相互配合的地面預(yù)演 。這種訓練方式也是飛行員的主要工作任務(wù)之一,各國的飛行員都采用這種傳統(tǒng)的訓練手段 ?!暗孛婵嗑殻罩芯w”是我軍的優(yōu)良傳統(tǒng),這個傳統(tǒng)統(tǒng)被一代代飛行員傳承至今,很多優(yōu)秀的飛行員就是通過這樣的地面模擬演練逐步成長為翱翔藍天的空中驕子 。

推薦閱讀