午夜激成人免费视频在线观看 ,一区二区三区日韩小视频,日本免费全黄少妇一区二区三区

不同于Radford等人（2018）使用單向語言模型進(jìn)行預(yù)訓(xùn)練，BERT使用MLM預(yù)訓(xùn)練深度雙向表征。代碼和預(yù)訓(xùn)練模型將發(fā)布在goo.gl/language/bert 。與從左到右的語言模型預(yù)訓(xùn)練不同，MLM目標(biāo)允許表征融合左右兩側(cè)的語境，從而預(yù)訓(xùn)練一個深度雙向Transformer 。
自然語言處理有預(yù)訓(xùn)練好的模型么？

在計(jì)算機(jī)視覺領(lǐng)域，我們知道有很多預(yù)訓(xùn)練權(quán)重，例如vgg、resnet、densenet、mobilenet、shufflenet等等。在NLP領(lǐng)域，這方面的預(yù)訓(xùn)練模型目前并不是很多，不過很多NLP領(lǐng)域的開發(fā)人員也正在嘗試完善該方向。目前也取得了一些成果，例如ELMo、ULMFiT 和 OpenAI Transformer，它們通過預(yù)訓(xùn)練語言模型在很多NLP的任務(wù)中取得了很不錯的效果。
下面依次介紹這幾個模型。ELMoELMo是一種深度語境化的詞匯表征模型，它既對詞所使用的復(fù)雜特征(例如語法和語義)進(jìn)行建模，也建模了當(dāng)這些詞使用在不同的上下文(即模型一詞多義)時(shí)的情形。這些詞向量是深度雙向語言模型(biLM)內(nèi)部狀態(tài)的學(xué)習(xí)函數(shù)，該模型在大型文本語料庫上進(jìn)行預(yù)訓(xùn)練。它們可以很容易地添加到現(xiàn)有的模型中，并且顯著地提高了NLP在實(shí)際中的效果，包括問題回答、文本蘊(yùn)含和文本情感分析。
ELMo官方網(wǎng)站：https://allennlp.org/elmoELMo github地址：https://github.com/allenai/allennlpOpenAI Transformer在OpenAI Transformer中也用到了預(yù)訓(xùn)練模型，他們通過無監(jiān)督學(xué)習(xí)提高語言理解能力，已經(jīng)在一系列不同的語言任務(wù)中獲得了很不錯的結(jié)果。
方法是兩種現(xiàn)有思想的結(jié)合:transformers和無監(jiān)督的預(yù)訓(xùn)練。研究人員在大量數(shù)據(jù)上訓(xùn)練一個transformer模型，利用語言建模作為訓(xùn)練信號，然后在稍小的監(jiān)督數(shù)據(jù)集上對模型進(jìn)行微調(diào)，以幫助解決特殊任務(wù) 。OpenAI Transformer github地址：https://github.com/openai/finetune-transformer-lmOpenAI Transformer論文介紹地址：https://blog.openai.com/language-unsupervised/#contentULMFiTULMFiT認(rèn)為可以在大型的語料庫上預(yù)訓(xùn)練語言模型（例如維基百科），然后創(chuàng)建分類器。
但是我們的文本數(shù)據(jù)可能跟模型訓(xùn)練的文本數(shù)據(jù)有著一些差異，所以我們需要對其中的參數(shù)進(jìn)行一些微調(diào)，將這些差異能夠加入到模型中。然后，在語言模型的頂層添加一個分類圖層，并且只訓(xùn)練這個圖層。項(xiàng)目地址：http://nlp.fast.ai/category/classification.html論文介紹地址：http://nlp.fast.ai/classification/2018/05/15/introducting-ulmfit.html 。
NLP預(yù)訓(xùn)練模型的研究進(jìn)展有哪些？

本文介紹了一種新的語言表征模型 BERT——來自 Transformer 的雙向編碼器表征。與最近的語言表征模型不同，BERT 旨在基于所有層的左、右語境來預(yù)訓(xùn)練深度雙向表征。BERT 是首個在大批句子層面和 token 層面任務(wù)中取得當(dāng)前最優(yōu)性能的基于微調(diào)的表征模型，其性能超越許多使用任務(wù)特定架構(gòu)的系統(tǒng)，刷新了 11 項(xiàng) NLP 任務(wù)的當(dāng)前最優(yōu)性能記錄。
近日，谷歌 AI 的一篇NLP論文引起了社區(qū)極大的關(guān)注與討論，被認(rèn)為是 NLP 領(lǐng)域的極大突破。如谷歌大腦研究科學(xué)家 Thang Luong Twitter 表示這是 NLP 領(lǐng)域的新時(shí)代。Twitter 上也有眾多研究者參與討論、轉(zhuǎn)發(fā)了這篇論文：這篇刷新了 11 項(xiàng) NLP 任務(wù)的論文不久之前已經(jīng)上線，讓我們一睹為快：研究證明語言模型預(yù)訓(xùn)練可以有效改進(jìn)許多自然語言處理任務(wù)，包括自然語言推斷、復(fù)述（paraphrasing）等句子層面的任務(wù)，以及命名實(shí)體識別、SQuAD 問答等 token 層面的任務(wù) 。
前者通過對句子進(jìn)行整體分析來預(yù)測句子之間的關(guān)系，后者則要生成 token 級別的細(xì)粒度輸出。目前將預(yù)訓(xùn)練語言表征應(yīng)用于下游任務(wù)存在兩種策略：基于特征的策略和微調(diào)策略（fine-tuning）。基于特征的策略（如 ELMo）使用將預(yù)訓(xùn)練表征作為額外特征的任務(wù)專用架構(gòu) 。微調(diào)策略（如生成預(yù)訓(xùn)練 Transformer (OpenAI GPT)）引入了任務(wù)特定最小參數(shù)，通過簡單地微調(diào)預(yù)訓(xùn)練參數(shù)在下游任務(wù)中進(jìn)行訓(xùn)練。