日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

JS散度和Wasserstein距離,交叉熵

交叉熵的計算公式:相對熵的計算公式:可以發(fā)現(xiàn)兩者在計算方式上類似 , 但表示的含義卻不同:交叉熵表示了用非真實(shí)分布對真實(shí)分布進(jìn)行編碼所需的平均碼長;相對熵則是用真實(shí)分布進(jìn)行編碼所需的平均編碼長度和交叉熵之間的差值 ??梢钥闯鲈谛问缴贤徊骒氐挠嬎愎交绢愃?。
為什么交叉熵cross-entropy可以用于計算代價?

JS散度和Wasserstein距離,交叉熵


交叉熵在機(jī)器學(xué)習(xí)中時一種的衡量損失的函數(shù) , 即衡量預(yù)測值和目標(biāo)值之間的差距 , 常常作為分類問題最小化的指標(biāo) 。那么為什么這里會用交叉熵呢?這里先從機(jī)器學(xué)習(xí)是如何發(fā)揮作用的說起 。我們都知道機(jī)器學(xué)習(xí)是通過數(shù)據(jù)來進(jìn)行學(xué)習(xí)的 , 那機(jī)器學(xué)習(xí)模型從數(shù)據(jù)中學(xué)習(xí)到了什么 , 才能實(shí)現(xiàn)對新數(shù)據(jù)的預(yù)測呢 。一種從概率角度的解釋是:機(jī)器學(xué)習(xí)實(shí)際是在學(xué)習(xí)數(shù)據(jù)的分布 。
這里假設(shè)數(shù)據(jù)的是從某一真實(shí)分布P(real)中獨(dú)立采樣出來的 , 也就是我們觀察到了的數(shù)據(jù) 。但是 , 這些數(shù)據(jù)由于數(shù)目的不足以及采樣過程中的噪聲 , 使得數(shù)據(jù)并不能完全表示出真實(shí)分布 。于是 , 這里我們用P(data)來表示數(shù)據(jù)的分布 , 而且P(data)~P(real) 。而機(jī)器學(xué)習(xí)利用數(shù)據(jù)進(jìn)行反復(fù)訓(xùn)練 , 模型學(xué)習(xí)到的數(shù)據(jù)分布用P(model)來表示 。
機(jī)器學(xué)習(xí)算法的設(shè)計就是要讓P(model)盡可能的與P(data)相近 , 從而接近真實(shí)分布P(real) 。那么在了解了上述過程之后 , 就有了一個新的問題 , 我們該如何度量兩種分布之間的相似度呢?在概率統(tǒng)計中 , 衡量分布之間差異的方法有兩種分別是相對熵和交叉熵 。交叉熵的計算公式:相對熵的計算公式:可以發(fā)現(xiàn)兩者在計算方式上類似 , 但表示的含義卻不同:交叉熵表示了用非真實(shí)分布對真實(shí)分布進(jìn)行編碼所需的平均碼長;相對熵則是用真實(shí)分布進(jìn)行編碼所需的平均編碼長度和交叉熵之間的差值 。
【JS散度和Wasserstein距離,交叉熵】同時 , 對兩者進(jìn)行最小化都能達(dá)到拉近分布之間距離的目的 , 此外交叉熵從形式上更為簡潔 。因此就將交叉熵作為衡量分布之間差異性的損失函數(shù) 。在機(jī)器學(xué)習(xí)二分類問題中實(shí)際使用的交叉熵?fù)p失函數(shù)為:其中y表示真實(shí)標(biāo)簽(通常為0-1) , a表示實(shí)際輸出標(biāo)簽 。可以看出在形式上同交叉熵的計算公式基本類似 。通過最小化交叉熵?fù)p失 , 這樣也就能使得P(model)和P(data)的分布盡可能接近 , 從而讓模型能學(xué)習(xí)到真實(shí)分布P(real) , 擁有更好的泛化能力 。

    推薦閱讀