Logistic回歸檢視原始碼討論檢視歷史
Logistic回歸 |
Logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用於數據挖掘,疾病自動診斷,經濟預測等領域。例如,探討引發疾病的危險因素,並根據危險因素預測疾病發生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體徵與生活方式等。因此因變量就為是否胃癌,值為"是"或"否",自變量就可以包括很多了,如年齡、性別、飲食習慣、幽門螺桿菌感染等。自變量既可以是連續的,也可以是分類的。然後通過logistic回歸分析,可以得到自變量的權重,從而可以大致了解到底哪些因素是胃癌的危險因素。同時根據該權值可以根據危險因素預測一個人患癌症的可能性。
簡介
logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同,都具有 w'x+b,其中w和b是待求參數,其區別在於他們的因變量不同,多重線性回歸直接將w'x+b作為因變量,即y =w'x+b,而logistic回歸則通過函數L將w'x+b對應一個隱狀態p,p =L(w'x+b),然後根據p 與1-p的大小決定因變量的值。如果L是logistic函數,就是logistic回歸,如果L是多項式函數就是多項式回歸。
logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,多類可以使用softmax方法進行處理。實際中最為常用的就是二分類的logistic回歸。
Logistic回歸模型的適用條件
1 因變量為二分類的分類變量或某事件的發生率,並且是數值型變量。但是需要注意,重複計數現象指標不適用於Logistic回歸。
2 殘差和因變量都要服從二項分布。二項分布對應的是分類變量,所以不是正態分布,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題。
3 自變量和Logistic概率是線性關係
4 各觀測對象間相互獨立。
原理:如果直接將線性回歸的模型扣到Logistic回歸中,會造成方程二邊取值區間不同和普遍的非直線關係。因為Logistic中因變量為二分類變量,某個概率作為方程的因變量估計值取值範圍為0-1,但是,方程右邊取值範圍是無窮大或者無窮小。所以,才引入Logistic回歸。
Logistic回歸實質:發生概率除以沒有發生概率再取對數。就是這個不太繁瑣的變換改變了取值區間的矛盾和因變量自變量間的曲線關係。究其原因,是發生和未發生的概率成為了比值 ,這個比值就是一個緩衝,將取值範圍擴大,再進行對數變換,整個因變量改變。不僅如此,這種變換往往使得因變量和自變量之間呈線性關係,這是根據大量實踐而總結。所以,Logistic回歸從根本上解決因變量要不是連續變量怎麼辦的問題。還有,Logistic應用廣泛的原因是許多現實問題跟它的模型吻合。例如一件事情是否發生跟其他數值型自變量的關係。
注意:如果自變量為字符型,就需要進行重新編碼。一般如果自變量有三個水平就非常難對付,所以,如果自變量有更多水平就太複雜。這裡只討論自變量只有三個水平。非常麻煩,需要再設二個新變量。共有三個變量,第一個變量編碼1為高水平,其他水平為0。第二個變量編碼1為中間水平,0為其他水平。第三個變量,所有水平都為0。實在是麻煩,而且不容易理解。最好不要這樣做,也就是,最好自變量都為連續變量。 spss操作:進入Logistic回歸主對話框,通用操作不贅述。
發現沒有自變量這個說法,只有協變量,其實協變量就是自變量。旁邊的塊就是可以設置很多模型。
"方法"欄:這個根據詞語理解不容易明白,需要說明。
共有7種方法。但是都是有規律可尋的。
"向前"和"向後":向前是事先用一步一步的方法篩選自變量,也就是先設立門檻。稱作"前"。而向後,是先把所有的自變量都進來,然後再篩選自變量。也就是先不設置門檻,等進來了再一個一個淘汰。
"LR"和"Wald",LR指的是極大偏似然估計的似然比統計量概率值,有一點長。但是其中重要的詞語就是似然。
Wald指Wald統計量概率值。
"條件"指條件參數似然比統計量概率值。
"進入"就是所有自變量都進來,不進行任何篩選
將所有的關鍵詞組合在一起就是7種方法,分別是"進入""向前LR""向前Wald""向後LR""向後Wald""向後條件""向前條件"
下一步:一旦選定協變量,也就是自變量,"分類"按鈕就會被激活。其中,當選擇完分類協變量以後,"更改對比"選項組就會被激活。一共有7種更改對比的方法。
"指示符"和"偏差",都是選擇最後一個和第一個個案作為對比標準,也就是這二種方法能夠激活"參考類別"欄。"指示符"是默認選項。"偏差"表示分類變量每個水平和總平均值進行對比,總平均值的上下界就是"最後一個"和"第一個"在"參考類別"的設置。
"簡單"也能激活"參考類別"設置。表示對分類變量各個水平和第一個水平或者最後一個水平的均值進行比較。
"差值"對分類變量各個水平都和前面的水平進行作差比較。第一個水平除外,因為不能作差。
"Helmert"跟"差值"正好相反。是每一個水平和後面水平進行作差比較。最後一個水平除外。仍然是因為不能做差。
"重複"表示對分類變量各個水平進行重複對比。
"多項式"對每一個水平按分類變量順序進行趨勢分析,常用的趨勢分析方法有線性,二次式。
評價
主要用途 一是尋找危險因素 正如上面所說的尋找某一疾病的危險因素等。
二是預測 如果已經建立了logistic回歸模型,則可以根據模型,預測在不同的自變量情況下,發生某病或某種情況的概率有多大。
三是判別 實際上跟預測有些類似,也是根據logistic模型,判斷某人屬於某病或屬於某種情況的概率有多大,也就是看一下這個人有多大的可能性是屬於某病。
這是logistic回歸最常用的三個用途,實際中的logistic回歸用途是極為廣泛的,logistic回歸幾乎已經成了流行病學和醫學中最常用的分析方法,因為它與多重線性回歸相比有很多的優勢,以後會對該方法進行詳細的闡述。實際上有很多其他分類方法,只不過Logistic回歸是最成功也是應用最廣的。[1]
參考文獻
- ↑ Logistic回歸搜狗