
監(jiān)督學(xué)習(xí)(Supervised Learning)包括分類算法(Classification)和回歸算法(Regression)兩種,它們是根據(jù)類別標(biāo)簽分布的類型來定義的 ?;貧w算法用于連續(xù)型的數(shù)據(jù)預(yù)測,分類算法用于離散型的分布預(yù)測 ?;貧w算法作為統(tǒng)計學(xué)中最重要的工具之一,它通過建立一個回歸方程用來預(yù)測目標(biāo)值,并求解這個回歸方程的回歸系數(shù) 。
一.回歸1.什么是回歸回歸(Regression)最早是英國生物統(tǒng)計學(xué)家高爾頓和他的學(xué)生皮爾遜在研究父母和子女的身高遺傳特性時提出的 。1855年,他們在《遺傳的身高向平均數(shù)方向的回歸》中這樣描述“子女的身高趨向于高于父母的身高的平均值,但一般不會超過父母的身高”,首次提出來回歸的概念 ?,F(xiàn)在的回歸分析已經(jīng)和這種趨勢效應(yīng)沒有任何瓜葛了,它只是指源于高爾頓工作,用一個或多個自變量來預(yù)測因變量的數(shù)學(xué)方法 。
圖1是一個簡單的回歸模型,X坐標(biāo)是質(zhì)量,Y坐標(biāo)是用戶滿意度,從圖中可知,產(chǎn)品的質(zhì)量越高其用戶評價越好 , 這可以擬合一條直線來預(yù)測新產(chǎn)品的用戶滿意度 。
在回歸模型中,我們需要預(yù)測的變量叫做因變量 , 比如產(chǎn)品質(zhì)量;選取用來解釋因變量變化的變量叫做自變量,比如用戶滿意度 ?;貧w的目的就是建立一個回歸方程來預(yù)測目標(biāo)值,整個回歸的求解過程就是求這個回歸方程的回歸系數(shù) 。
簡言之,回歸最簡單的定義就是:
給出一個點集,構(gòu)造一個函數(shù)來擬合這個點集 , 并且盡可能的讓該點集與擬合函數(shù)間的誤差最小 , 如果這個函數(shù)曲線是一條直線,那就被稱為線性回歸,如果曲線是一條三次曲線,就被稱為三次多項回歸 。
2.線性回歸首先,作者引用類似于斯坦福大學(xué)機(jī)器學(xué)習(xí)公開課線性回歸的例子,給大家講解線性回歸的基礎(chǔ)知識和應(yīng)用,方便大家的理解 。同時,作者強(qiáng)烈推薦大家學(xué)習(xí)原版Andrew Ng教授的斯坦福機(jī)器學(xué)習(xí)公開課,會讓您非常受益 。
假設(shè)存在表1的數(shù)據(jù)集 , 它是某企業(yè)的成本和利潤數(shù)據(jù)集 。數(shù)據(jù)集中2002年到2016年的數(shù)據(jù)集稱為訓(xùn)練集 , 整個訓(xùn)練集共15個樣本數(shù)據(jù) 。重點是成本和利潤兩個變量 , 成本是輸入變量或一個特征 , 利潤是輸出變量或目標(biāo)變量,整個回歸模型如圖2所示 。
現(xiàn)建立模型,x表示企業(yè)成本,y表示企業(yè)利潤 , h(Hypothesis)表示將輸入變量映射到輸出變量y的函數(shù) , 對應(yīng)一個因變量的線性回歸(單變量線性回歸)公式如下:
那么 , 現(xiàn)在要解決的問題是如何求解的兩個參數(shù)和 。我們的構(gòu)想是選取的參數(shù)和使得函數(shù)盡可能接近y值 , 這里提出了求訓(xùn)練集(x,y)的平方誤差函數(shù)(Squared Error Function)或最小二乘法 。
在回歸方程里,最小化誤差平方和方法是求特征對應(yīng)回歸系數(shù)的最佳方法 。誤差是指預(yù)測y值和真實y值之間的差值 , 使用誤差的簡單累加將使得正差值和負(fù)差值相互抵消,所采用的平方誤差(最小二乘法)如下:
在數(shù)學(xué)上,求解過程就轉(zhuǎn)化為求一組值使上式取到最小值,最常見的求解方法是梯度下降法(Gradient Descent) 。根據(jù)平方誤差,定義該線性回歸模型的損耗函數(shù)(Cost Function)為,公式如下:
推薦閱讀
- 醫(yī)保查詢+參保登記+繳費 肇慶粵醫(yī)保小程序操作指南
- 青海大學(xué)附屬醫(yī)院單管核酸報告在哪里查詢?
- 微信怎么查看銀行卡余額 微信怎么查看銀行卡余額查詢
- 可以查詢別人的社保嗎? 可以查詢別人的社保嗎怎么查
- 常州社保查詢個人賬戶繳費明細(xì)
- 男人約你動機(jī)查詢表 男人約會動機(jī)查詢表
- 收到違章短信但是12123上查詢不到 12123上查詢不到違章信息講解
- 招行信用卡賬單怎么查詢 招行信用卡賬單怎么查詢不到
- 上海大眾4s店 上海大眾4s店地址查詢
- 常州社保查詢個人賬戶
