開啟主選單

求真百科

相關回歸分析

  相關回歸分析

在統計學中,回歸分析(regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關係類型,可分為線性回歸分析和非線性回歸分析。

目錄

簡介

在大數據分析中,回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關係。這種技術通常用於預測分析,時間序列模型以及發現變量之間的因果關係。例如,司機的魯莽駕駛與道路交通事故數量之間的關係,最好的研究方法就是回歸。有各種各樣的回歸技術用於預測。這些技術主要有三個度量(自變量的個數,因變量的類型以及回歸線的形狀)。它是最為人熟知的建模技術之一。線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中,因變量是連續的,自變量可以是連續的也可以是離散的,回歸線的性質是線性的。因為在這裡使用的是的二項分布(因變量),需要選擇一個對於這個分布最佳的連結函數。它就是Logit函數。在上述方程中,通過觀測樣本的極大似然估計值來選擇參數,而不是最小化平方和誤差(如在普通回歸使用的)。

評價

上面所示的例子是簡單的一個自變量的線性回歸問題,在數據分析的時候,也可以將此推廣到多個自變量的多元回歸,具體的回歸過程和意義請參考相關的統計學書籍。此外,在SPSS的結果輸出里,還可以匯報R2,F檢驗值和T檢驗值。R2又稱為方程的確定性係數(coefficient of determination),表示方程中變量X對Y的解釋程度。R2取值在0到1之間,越接近1,表明方程中X對Y的解釋能力越強。通常將R2乘以100%來表示回歸方程解釋Y變化的百分比。F檢驗是通過方差分析表輸出的,通過顯著性水平(significance level)檢驗回歸方程的線性關係是否顯著。一般來說,顯著性水平在0.05以上,均有意義。當F檢驗通過時,意味着方程中至少有一個回歸係數是顯著的,但是並不一定所有的回歸係數都是顯著的,這樣就需要通過T檢驗來驗證回歸係數的顯著性。同樣地,T檢驗可以通過顯著性水平或查表來確定。在上面所示的例子中,各參數的意義如下表所示。[1]

參考文獻