日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

Transformer,transformer


你如何理解transformer模型?

Transformer,transformer


Transformer是Google在2017年發(fā)表的論文《Attention is all you need》中提出的模型 。其中使用了self-attention來替代此前的RNN和CNN對序列的編碼方式,從而實現(xiàn)更快的并行訓(xùn)練以及更優(yōu)的序列表示 。模型中有以下幾個特點:1)為了能夠捕獲序列中的絕對位置和相對位置關(guān)系,在對序列的表示中加入了位置編碼,其編碼公示如下:其中pos表示序列的位置,dmodel為表示維度 。
這里使用了三角函數(shù)來表示是因為pos k的位置編碼可以由pos的線形變換表示出來,從而蘊涵了相對位置信息,計算公式如下 。2)Multi-head的Self-Attention 。Self-Attention能夠?qū)渥舆M(jìn)行編碼,其中的self指的就是Q=K=V,即序列自己對自己進(jìn)行Attention的編碼,從而能捕獲到序列中的語義信息,計算的公式如下 。
這里加入了multi-head的做法是基于一個詞語會存在諸多語義,而在不同的語義空間中,對句子的編碼結(jié)果也會顯著不同 。因此在進(jìn)行self-attention之前先對輸入做線形變換,然后按照編碼維度切分成h份,分別進(jìn)行序列編碼,再將結(jié)果拼接在一起 。3)為加速網(wǎng)絡(luò)的訓(xùn)練,還在模型中加入了Layer Normalization以及殘差連接 。
【Transformer,transformer】此外為了防止模型出現(xiàn)過擬合,還引入了dropout以及l(fā)abel smoothing,從而讓模型更具魯棒性 。4)Transformer相比于RNN和CNN的計算復(fù)雜度更低,而且利用self-attention使得在對序列進(jìn)行編碼時,最大的長度僅為1,避免了長程依賴的問題 。而RNN則序列的長度n,CNN也得受限于卷積的感受野 。

    推薦閱讀