日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

by28777 by28777域名查詢( 六 )


# -*- coding: utf-8 -*-# By:Eastmount CSDN 2021-07-03from sklearn.linear_model import LinearRegressionfrom sklearn.preprocessing import PolynomialFeaturesimport matplotlib.pyplot as pltimport numpy as np#X表示企業(yè)成本 Y表示企業(yè)利潤X = [[400], [450], [486], [500], [510], [525], [540], [549], [558], [590], [610], [640], [680], [750], [900]]Y = [[80], [89], [92], [102], [121], [160], [180], [189], [199], [203], [247], [250], [259], [289], [356]]print('數(shù)據(jù)集X: ', X)print('數(shù)據(jù)集Y: ', Y)#第一步 線性回歸分析clf = LinearRegression()clf.fit(X, Y)X2 = [[400], [750], [950]]Y2 = clf.predict(X2)print(Y2)res = clf.predict(np.array([1200]).reshape(-1, 1))[0]print('預(yù)測成本1200元的利潤:$%.1f' % res)plt.plot(X, Y, 'ks') #繪制訓(xùn)練數(shù)據(jù)集散點(diǎn)圖plt.plot(X2, Y2, 'g-') #繪制預(yù)測數(shù)據(jù)集直線#第二步 多項(xiàng)式回歸分析xx = np.linspace(350,950,100)quadratic_featurizer = PolynomialFeatures(degree = 5)x_train_quadratic = quadratic_featurizer.fit_transform(X)X_test_quadratic = quadratic_featurizer.transform(X2)regressor_quadratic = LinearRegression()regressor_quadratic.fit(x_train_quadratic, Y)#把訓(xùn)練好X值的多項(xiàng)式特征實(shí)例應(yīng)用到一系列點(diǎn)上,形成矩陣xx_quadratic = quadratic_featurizer.transform(xx.reshape(xx.shape[0], 1))plt.plot(xx, regressor_quadratic.predict(xx_quadratic), "r--",label="$y = ax^2 + bx + c$",linewidth=2)plt.legend()plt.show()print('1 r-squared', clf.score(X, Y))print('5 r-squared', regressor_quadratic.score(x_train_quadratic, Y))# ('1 r-squared', 0.9118311887769025)# ('5 r-squared', 0.98087802460869788)
輸出如下所示,其中紅色虛線為五次多項(xiàng)式曲線,它更加接近真實(shí)數(shù)據(jù)集的分布情況,而綠色直線為一元線性回歸方程,顯然相較于五次多項(xiàng)式曲線 , 線性方程擬合的結(jié)果更差 。同時(shí),五次多項(xiàng)式曲線的R方值為98.08%,非常準(zhǔn)確的預(yù)測了數(shù)據(jù)趨勢 。

最后補(bǔ)充一點(diǎn),建議多項(xiàng)式回歸的階數(shù)不要太高,否則會出現(xiàn)過擬合現(xiàn)象 。
四.邏輯回歸1.基礎(chǔ)原理在前面講述的回歸模型中,處理的因變量都是數(shù)值型區(qū)間變量,建立的模型描述是因變量的期望與自變量之間的線性關(guān)系或多項(xiàng)式曲線關(guān)系 。比如常見的線性回歸模型:

而在采用回歸模型分析實(shí)際問題中,所研究的變量往往不全是區(qū)間變量而是順序變量或?qū)傩宰兞?nbsp;, 比如二項(xiàng)分布問題 。通過分析年齡、性別、體質(zhì)指數(shù)、平均血壓、疾病指數(shù)等指標(biāo),判斷一個(gè)人是否換糖尿??,Y=0表示未患??,Y=1表示患?。?這里的響應(yīng)變量是一個(gè)兩點(diǎn)(0或1)分布變量 , 它就不能用h函數(shù)連續(xù)的值來預(yù)測因變量Y(Y只能取0或1) 。
總之,線性回歸或多項(xiàng)式回歸模型通常是處理因變量為連續(xù)變量的問題,如果因變量是定性變量 , 線性回歸模型就不再適用了,此時(shí)需采用邏輯回歸模型解決 。
邏輯回歸(Logistic Regression)是用于處理因變量為分類變量的回歸問題,常見的是二分類或二項(xiàng)分布問題,也可以處理多分類問題,它實(shí)際上是屬于一種分類方法 。

二分類問題的概率與自變量之間的關(guān)系圖形往往是一個(gè)S型曲線,如圖17.10所示,采用的Sigmoid函數(shù)實(shí)現(xiàn) 。這里我們將該函數(shù)定義如下:

函數(shù)的定義域?yàn)槿w實(shí)數(shù),值域在[0,1]之間,x軸在0點(diǎn)對應(yīng)的結(jié)果為0.5 。當(dāng)x取值足夠大的時(shí)候,可以看成0或1兩類問題 , 大于0.5可以認(rèn)為是1類問題,反之是0類問題 , 而剛好是0.5,則可以劃分至0類或1類 。對于0-1型變量,y=1的概率分布公式定義如下:

推薦閱讀