日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

從大煉模型到煉大模型,預(yù)訓(xùn)練模型

不同于Radford等人(2018)使用單向語言模型進(jìn)行預(yù)訓(xùn)練,BERT使用MLM預(yù)訓(xùn)練深度雙向表征 。代碼和預(yù)訓(xùn)練模型將發(fā)布在goo.gl/language/bert 。與從左到右的語言模型預(yù)訓(xùn)練不同,MLM目標(biāo)允許表征融合左右兩側(cè)的語境,從而預(yù)訓(xùn)練一個深度雙向Transformer 。
自然語言處理有預(yù)訓(xùn)練好的模型么?

從大煉模型到煉大模型,預(yù)訓(xùn)練模型


在計(jì)算機(jī)視覺領(lǐng)域,我們知道有很多預(yù)訓(xùn)練權(quán)重,例如vgg、resnet、densenet、mobilenet、shufflenet等等 。在NLP領(lǐng)域,這方面的預(yù)訓(xùn)練模型目前并不是很多,不過很多NLP領(lǐng)域的開發(fā)人員也正在嘗試完善該方向 。目前也取得了一些成果,例如ELMo、ULMFiT 和 OpenAI Transformer,它們通過預(yù)訓(xùn)練語言模型在很多NLP的任務(wù)中取得了很不錯的效果 。
下面依次介紹這幾個模型 。ELMoELMo是一種深度語境化的詞匯表征模型,它既對詞所使用的復(fù)雜特征(例如語法和語義)進(jìn)行建模,也建模了當(dāng)這些詞使用在不同的上下文(即模型一詞多義)時(shí)的情形 。這些詞向量是深度雙向語言模型(biLM)內(nèi)部狀態(tài)的學(xué)習(xí)函數(shù),該模型在大型文本語料庫上進(jìn)行預(yù)訓(xùn)練 。它們可以很容易地添加到現(xiàn)有的模型中,并且顯著地提高了NLP在實(shí)際中的效果,包括問題回答、文本蘊(yùn)含和文本情感分析 。
ELMo官方網(wǎng)站:https://allennlp.org/elmoELMo github地址:https://github.com/allenai/allennlpOpenAI Transformer在OpenAI Transformer中也用到了預(yù)訓(xùn)練模型,他們通過無監(jiān)督學(xué)習(xí)提高語言理解能力,已經(jīng)在一系列不同的語言任務(wù)中獲得了很不錯的結(jié)果 。
方法是兩種現(xiàn)有思想的結(jié)合:transformers和無監(jiān)督的預(yù)訓(xùn)練 。研究人員在大量數(shù)據(jù)上訓(xùn)練一個transformer模型,利用語言建模作為訓(xùn)練信號,然后在稍小的監(jiān)督數(shù)據(jù)集上對模型進(jìn)行微調(diào),以幫助解決特殊任務(wù) 。OpenAI Transformer github地址:https://github.com/openai/finetune-transformer-lmOpenAI Transformer論文介紹地址:https://blog.openai.com/language-unsupervised/#contentULMFiTULMFiT認(rèn)為可以在大型的語料庫上預(yù)訓(xùn)練語言模型(例如維基百科),然后創(chuàng)建分類器 。
但是我們的文本數(shù)據(jù)可能跟模型訓(xùn)練的文本數(shù)據(jù)有著一些差異,所以我們需要對其中的參數(shù)進(jìn)行一些微調(diào),將這些差異能夠加入到模型中 。然后,在語言模型的頂層添加一個分類圖層,并且只訓(xùn)練這個圖層 。項(xiàng)目地址:http://nlp.fast.ai/category/classification.html論文介紹地址:http://nlp.fast.ai/classification/2018/05/15/introducting-ulmfit.html 。
NLP預(yù)訓(xùn)練模型的研究進(jìn)展有哪些?
從大煉模型到煉大模型,預(yù)訓(xùn)練模型


本文介紹了一種新的語言表征模型 BERT——來自 Transformer 的雙向編碼器表征 。與最近的語言表征模型不同,BERT 旨在基于所有層的左、右語境來預(yù)訓(xùn)練深度雙向表征 。BERT 是首個在大批句子層面和 token 層面任務(wù)中取得當(dāng)前最優(yōu)性能的基于微調(diào)的表征模型,其性能超越許多使用任務(wù)特定架構(gòu)的系統(tǒng),刷新了 11 項(xiàng) NLP 任務(wù)的當(dāng)前最優(yōu)性能記錄 。
近日,谷歌 AI 的一篇NLP論文引起了社區(qū)極大的關(guān)注與討論,被認(rèn)為是 NLP 領(lǐng)域的極大突破 。如谷歌大腦研究科學(xué)家 Thang Luong Twitter 表示這是 NLP 領(lǐng)域的新時(shí)代 。Twitter 上也有眾多研究者參與討論、轉(zhuǎn)發(fā)了這篇論文:這篇刷新了 11 項(xiàng) NLP 任務(wù)的論文不久之前已經(jīng)上線,讓我們一睹為快:研究證明語言模型預(yù)訓(xùn)練可以有效改進(jìn)許多自然語言處理任務(wù),包括自然語言推斷、復(fù)述(paraphrasing)等句子層面的任務(wù),以及命名實(shí)體識別、SQuAD 問答等 token 層面的任務(wù) 。
前者通過對句子進(jìn)行整體分析來預(yù)測句子之間的關(guān)系,后者則要生成 token 級別的細(xì)粒度輸出 。目前將預(yù)訓(xùn)練語言表征應(yīng)用于下游任務(wù)存在兩種策略:基于特征的策略和微調(diào)策略(fine-tuning) 。基于特征的策略(如 ELMo)使用將預(yù)訓(xùn)練表征作為額外特征的任務(wù)專用架構(gòu) 。微調(diào)策略(如生成預(yù)訓(xùn)練 Transformer (OpenAI GPT))引入了任務(wù)特定最小參數(shù),通過簡單地微調(diào)預(yù)訓(xùn)練參數(shù)在下游任務(wù)中進(jìn)行訓(xùn)練 。

推薦閱讀