中文字幕在线观看亚洲,又粗又粗又黄又硬又深色的

你如何理解transformer模型？

Transformer是Google在2017年發(fā)表的論文《Attention is all you need》中提出的模型。其中使用了self-attention來替代此前的RNN和CNN對序列的編碼方式，從而實現(xiàn)更快的并行訓(xùn)練以及更優(yōu)的序列表示。模型中有以下幾個特點：1）為了能夠捕獲序列中的絕對位置和相對位置關(guān)系，在對序列的表示中加入了位置編碼，其編碼公示如下：其中pos表示序列的位置，dmodel為表示維度。
這里使用了三角函數(shù)來表示是因為pos k的位置編碼可以由pos的線形變換表示出來，從而蘊涵了相對位置信息，計算公式如下。2）Multi-head的Self-Attention 。Self-Attention能夠?qū)渥舆M(jìn)行編碼，其中的self指的就是Q=K=V，即序列自己對自己進(jìn)行Attention的編碼，從而能捕獲到序列中的語義信息，計算的公式如下。
這里加入了multi-head的做法是基于一個詞語會存在諸多語義，而在不同的語義空間中，對句子的編碼結(jié)果也會顯著不同。因此在進(jìn)行self-attention之前先對輸入做線形變換，然后按照編碼維度切分成h份，分別進(jìn)行序列編碼，再將結(jié)果拼接在一起。3）為加速網(wǎng)絡(luò)的訓(xùn)練，還在模型中加入了Layer Normalization以及殘差連接。
【Transformer,transformer】此外為了防止模型出現(xiàn)過擬合，還引入了dropout以及l(fā)abel smoothing，從而讓模型更具魯棒性。4）Transformer相比于RNN和CNN的計算復(fù)雜度更低，而且利用self-attention使得在對序列進(jìn)行編碼時，最大的長度僅為1，避免了長程依賴的問題。而RNN則序列的長度n，CNN也得受限于卷積的感受野。

Transformer,transformer

推薦閱讀

支付寶支付寶如何取消愛奇藝自動續(xù)費？

上海共有產(chǎn)權(quán)房申請需滿足哪些條件

木繡球花期是什么時候中華木繡球花期一年開幾次

華盛頓在南美洲嗎

退班生是什么意思

在遠(yuǎn)方姚遠(yuǎn)和路曉鷗在一起了嗎在遠(yuǎn)方男女主結(jié)局

原味煮羊肉的詳細(xì)步驟

雞肝火鍋做法?

熱梗百科“網(wǎng)易云八級”是什么梗？

家長對班級的建議家長對班級的建議和意見

stem課程是什么意思,語文課程形態(tài)是什么意思

莫尼諾是什么酒

數(shù)據(jù)庫附加總是出錯

汽車淹水熄火二次啟動危害大嗎，汽車淹水熄火后二次啟動車子能走嗎

小米手機(jī)新款2021 2021年4月

學(xué)習(xí)高鐵專業(yè)需要帶什么東西，高鐵學(xué)生票網(wǎng)上訂票要帶什么東西去去票