線性回歸
![]() |
線性回歸(Linear regression)是利用稱為線性回歸方程的最小二乘函數對一個或多個自變量和因變量之間關係進行建模的一種回歸分析。其表達形式為y = w'x+e,e為誤差服從均值為0的正態分布。
回歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關係,則稱為多元線性回歸分析。
目錄
基礎定義
在統計學中,線性回歸(Linear Regression)是利用稱為線性回歸方程的最小平方函數對一個或多個自變量和因變量之間關係進行建模的一種回歸分析。這種函數是一個或多個稱為回歸係數的模型參數的線性組合。只有一個自變量的情況稱為簡單回歸,大於一個自變量情況的叫做多元回歸。(這反過來又應當由多個相關的因變量預測的多元線性回歸區別,而不是一個單一的標量變量。)
回歸分析中有多個自變量
這裡有一個原則問題,這些自變量的重要性,究竟誰是最重要,誰是比較重要,誰是不重要。所以,spss線性回歸有一個和逐步判別分析的等價的設置。
原理
是F檢驗。spss中的操作是「分析」~「回歸」~「線性」主對話框方法框中需先選定「逐步」方法~「選項」子對話框
如果是選擇「用F檢驗的概率值」,越小代表這個變量越容易進入方程。原因是這個變量的F檢驗的概率小,說明它顯著,也就是這個變量對回歸方程的貢獻越大,進一步說就是該變量被引入回歸方程的資格越大。究其根本,就是零假設分水嶺,例如要是把進入設為0.05,大於它說明接受零假設,這個變量對回歸方程沒有什麼重要性,但是一旦小於0.05,說明,這個變量很重要應該引起注意。這個0.05就是進入回歸方程的通行證。
下一步:
「移除」選項:如果一個自變量F檢驗的P值也就是概率值大於移除中所設置的值,這個變量就要被移除回歸方程。spss回歸分析也就是把自變量作為一組待選的商品,高於這個價就不要,低於一個比這個價小一些的就買來。所以「移除」中的值要大於「進入」中的值,默認「進入」值為0.05,「移除」值為0.10
如果,使用「採用F值」作為判據,整個情況就顛倒了,「進入」值大於「移除」值,並且是自變量的進入值需要大於設定值才能進入回歸方程。這裡的原因就是F檢驗原理的計算公式。所以才有這樣的差別。
結果
如同判別分析的逐步方法,表格中給出所有自變量進入回歸方程情況。這個表格的標誌是,第一列寫着擬合步驟編號,第二列寫着每步進入回歸方程的編號,第三列寫着從回歸方程中剔除的自變量。第四列寫着自變量引入或者剔除的判據,下面跟着一堆文字[1]。
這種設置的根本目的:挑選符合的變量,剔除不符合的變量。
注意:
spss中還有一個設置,「在等式中包含常量」,它的作用是如果不選擇它,回歸模型經過原點,如果選擇它,回歸方程就有常數項。這個選項選和不選是不一樣的。
在線性回歸中,數據使用線性預測函數來建模,並且未知的模型參數也是通過數據來估計。這些模型被叫做線性模型。最常用的線性回歸建模是給定X值的y的條件均值是X的仿射函數。不太一般的情況,線性回歸模型可以是一個中位數或一些其他的給定X的條件下y的條件分布的分位數作為X的線性函數表示。像所有形式的回歸分析一樣,線性回歸也把焦點放在給定X值的y的條件概率分布,而不是X和y的聯合概率分布(多元分析領域)。
線性回歸是回歸分析中第一種經過嚴格研究並在實際應用中廣泛使用的類型。這是因為線性依賴於其未知參數的模型比非線性依賴於其位置參數的模型更容易擬合,而且產生的估計的統計[2]特性也更容易確定。
線性回歸模型經常用最小二乘逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化「擬合缺陷」在一些其他規範里(比如最小絕對誤差回歸),或者在橋回歸中最小化最小二乘損失函數的懲罰。相反,最小二乘逼近可以用來擬合那些非線性的模型。因此,儘管「最小二乘法」和「線性模型」是緊密相連的,但他們是不能劃等號的。
參考文獻
- ↑ 關於語言文字規範化知識,你知道多少?,搜狐,2019-04-26
- ↑ 【統計科普】判斷經濟形勢最常用的統計指標有哪些 ,搜狐,2023-04-07