什么是啞變量


什么是啞變量


什么是啞變量
啞變量
啞變量(Dummy Variable),又稱為虛擬變量、虛設變量或名義變量,從名稱上看就知道,它是人為虛設的變量,通常取值為0或1,來反映某個變量的不同屬性 。對于有n個分類屬性的自變量,通常需要選取1個分類作為參照,因此可以產生n-1個啞變量 。
在構建回歸模型時,如果自變量X為連續性變量,回歸系數β可以解釋為:在其他自變量不變的條件下 , X每改變一個單位,所引起的因變量Y的平均變化量;如果自變量X為二分類變量,例如是否飲酒(1=是,0=否),則回歸系數β可以解釋為:其他自變量不變的條件下 , X=1(飲酒者)與X=0(不飲酒者)相比 , 所引起的因變量Y的平均變化量 。
但是,當自變量X為多分類變量時 , 例如職業、學歷、血型、疾病嚴重程度等等,此時僅用一個回歸系數來解釋多分類變量之間的變化關系,及其對因變量的影響,就顯得太不理想 。
此時 , 我們通常會將原始的多分類變量轉化為啞變量,每個啞變量只代表某兩個級別或若干個級別間的差異,通過構建回歸模型,每一個啞變量都能得出一個估計的回歸系數,從而使得回歸的結果更易于解釋,更具有實際意義 。
將啞變量引入回歸模型 , 雖然使模型變得較為復雜,但可以更直觀地反映出該自變量的不同屬性對于因變量的影響,提高了模型的精度和準確度 。
舉一個例子,如職業因素,假設分為學生、農民、工人、公務員、其他共5個分類 , 其中以“其他職業”作為參照,此時需要設定4啞變量X1-X4 , 如下所示:
X1=1,學生;X1=0,非學生;
X2=1,農民;X2=0,非農民;
X3=1 , 工人;X3=0,非工人;
X4=1,公務員;X4=0,非公務員;
那么對于每一種職業分類,其賦值就可以轉化為以下形式:
什么情況下需要設置啞變量
1. 對于無序多分類變量,引入模型時需要轉化為啞變量
舉一個例子,如血型,一般分為A、B、O、AB四個類型,為無序多分類變量 , 通常情況下在錄入數據的時候,為了使數據量化,我們常會將其賦值為1、2、3、4 。
從數字的角度來看,賦值為1、2、3、4后,它們是具有從小到大一定的順序關系的 , 而實際上,四種血型之間并沒有這種大小關系存在,它們之間應該是相互平等獨立的關系 。如果按照1、2、3、4賦值并帶入到回歸模型中是不合理的 , 此時我們就需要將其轉化為啞變量 。
2. 對于有序多分類變量,引入模型時需要酌情考慮
例如疾病的嚴重程度,一般分為輕、中、重度,可認為是有序多分類變量,通常情況下我們也常會將其賦值為1、2、3(等距)或1、2、4(等比)等形式,通過由小到大的數字關系,來體現疾病嚴重程度之間一定的等級關系 。
但需要注意的是,一旦賦值為上述等距或等比的數值形式,這在某種程度上是認為疾病的嚴重程度也呈現類似的等距或等比的關系 。而事實上由于疾病在臨床上的復雜性,不同的嚴重程度之間并非是嚴格的等距或等比關系 , 因此再賦值為上述形式就顯得不太合理,此時可以將其轉化為啞變量進行量化 。
3. 對于連續性變量,進行變量轉化時可以考慮設定為啞變量
對于連續性變量,很多人認為可以直接將其帶入到回歸模型中即可 , 但有時我們還需要結合實際的臨床意義,對連續性變量作適當的轉換 。例如年齡,以連續性變量帶入模型時,其解釋為年齡每增加一歲時對于因變量的影響 。但往往年齡增加一歲 , 其效應是很微弱的,并沒有太大的實際意義 。

推薦閱讀