
雷鋒網(wǎng) AI 科技評論按:「熵」大概是統(tǒng)計學(xué)、信息學(xué)里最讓初學(xué)者愁腸百結(jié)的基本概念之一 。我們都知道熵可以用來描述含有的信息豐富程度的多少,但是具體是怎么回事呢?這篇文章中雷鋒網(wǎng) AI 科技評論將帶大家重新系統(tǒng)認識一下「熵」倒是在講什么 。
病人 A 知道他自己有 95% 的可能會患病 。對于病人 B,患病概率為 30%,病人 C 的患病未患病的概率都為 50% 。
首先我們專注于一個簡單的問題 。在其他條件都相同的情況下,這三個病人中的哪個面臨著最大的不確定性?
這個問題的答案是顯而易見的,病人 C 。他所面臨的是在這種情況下可能呢存在的最大程度的不確定性:就像醫(yī)療版本的拋硬幣試驗一樣 。
對于病人 A 來說,雖然他的情況不容樂觀,但是至少他對于是否患病這個問題有最小的不確定性 。對于病人 B,他的不確定性在病人 A 和病人 C 之間 。
這就是為什么要引入熵這個概念的原因:描述一個狀況下的不確定性為在xx和xx之間,在日常生活環(huán)境下這種精細程度可能足夠了 , 但是對于機器學(xué)習(xí)任務(wù)來說 , 這種描述太寬泛了 。
不確定性度量熵允許我們對于生活中的一個重要問題:事情最終會發(fā)展到什么樣的結(jié)果,進行精確度量和計算 。
換種說法,熵是一種不確定性的度量 。
在本篇文章中,熵都是指代香農(nóng)熵(Shannon entropy) 。其實還有幾種其他類型的熵,但是在自然語言處理或者機器學(xué)習(xí)領(lǐng)域中,我們提到的熵都是香農(nóng)熵 。
所以在沒有特意說明的情況下,下面就是熵的公式 。對于事件X,有n種可能結(jié)果,且概率分別為p_1, ... p_n,公式為:
基本性質(zhì)如果你是第一次看到這個公式,你可能會提出一個問題:為什么要用對數(shù)?為什么這個公式就能夠度量不確定性?當(dāng)然,還有為什么要用字母H來表示熵?(表面上這個英文字母H是從希臘大寫字母Eta上演變過來的,但實際上為什么采用了字母H來表示,還是有一段復(fù)雜的歷史的,感興趣的可以看這個問題:Why use H for entropy?)
對于很多情況下的問題,我認為從以下兩點切入是很好的選擇:(1)我所面對的這個數(shù)學(xué)結(jié)構(gòu)有那些理想的屬性?(2)是否有其他結(jié)構(gòu)也能夠滿足所有這些理想的屬性?
對于香農(nóng)熵作為不確定性的度量來說,這兩個問題的答案分別是:(1)很多,(2)沒有 。
我們來一個一個看我們希望熵的公式應(yīng)該具有哪些性質(zhì) 。
基本性質(zhì)1:均勻分布具有最大的不確定性如果你的目標(biāo)是減小不確定性,那么一定要遠離均勻概率分布 。
簡單回顧一下概率分布:概率分布是一個函數(shù),對于每個可能的結(jié)果都有一個概率 , 且所有的概率相加等于 1 。當(dāng)所有可能的結(jié)果具有相同的可能性時 , 該分布為均勻分布 。例如:拋硬幣實驗(50% 和 50% 的概率), 均勻的骰子(每個面朝上的概率都為六分之一) 。
一個好的不確定性度量會在均勻分布時達到最大的值 。熵滿足這個要求 。給定 n 個可能的結(jié)果,最大的熵在所有結(jié)果的概率相同時得到 。
推薦閱讀
- 荷花定律是什么意思 荷花定律告訴我們的人生哲理
- 長尾定律是什么意思 長尾定律
- op第一定律是什么梗
- 牛頓三大定律內(nèi)容是什么 牛頓三大定律內(nèi)容是什么意思
- 圍巾和圍脖的區(qū)別 送圍巾必分手定律
- 27歲定律是什么 27歲定律是什么意思
- 摩爾定律是什么意思 摩爾定律是什么
- 紅米Note13Turbo現(xiàn)身:四等深+5800mAh,逃不過真香定律
- 醫(yī)療損害鑒定律師費參考價格是多少
- 醫(yī)療事故鑒定律師費標(biāo)準 醫(yī)療事故鑒定律師費標(biāo)準是多少
