魯亞洲
(華北電力大學(xué),河北 保定 071003)
Logistic回歸模型主要是用來對(duì)多因素影響的時(shí)間進(jìn)行概率的預(yù)測(cè),是將普通多元線性回歸模型進(jìn)一步拓展的非線性模型。通??煞譃橛行蚝蜔o序變量、分組和未分組、二分類和多分類等多種形式,目前我們對(duì)二分類的Logistic回歸模型研究較多。Logistic回歸模型現(xiàn)已經(jīng)在在醫(yī)學(xué)、工學(xué)、經(jīng)濟(jì)學(xué)和社會(huì)學(xué)中得到了較大的應(yīng)用。
Logistic中的變量是二分類變量,我們?cè)趯⒏怕首鳛榉匠桃蜃兞康娜≈捣秶鷷r(shí)是從0-1,但是與此同時(shí)方程右邊的取值范圍趨向于無窮大或者無窮小。如果我們將線性回歸模型置于Logistic回歸模型中就會(huì)出現(xiàn)方程兩邊的取值區(qū)間不同以及非直線關(guān)系。在這個(gè)時(shí)候我們就需要引入Logistic回歸。
Logistic回歸的實(shí)質(zhì)是發(fā)生概率除以沒有發(fā)生概率得到的結(jié)果再取對(duì)數(shù)。在這個(gè)過程中,我們把發(fā)生概率和未發(fā)生概率作為一個(gè)緩沖的比值,在將取值范圍擴(kuò)大后進(jìn)行對(duì)數(shù)的變換,這樣因變量就發(fā)生了變化,正是這樣簡單的操作變化改變了取值區(qū)間的矛盾以及因變量和自變量之間的曲線關(guān)系。這種使因變量和自變量之間呈現(xiàn)線性關(guān)系的變換是經(jīng)過大量實(shí)踐總結(jié)得來的。所以,可以說Logistic回歸能夠有效的解決因變量不是連續(xù)變量的問題,Logistic回歸能夠?qū)⒑芏嗟默F(xiàn)實(shí)問題與自身模型相吻合,繼而實(shí)現(xiàn)較大的推廣。
雖然線性回歸的分析原則也適用于Logistic回歸模型,但是線性回歸和Logistic回歸是不同的。線性回歸的結(jié)果變量和自變量之間的關(guān)系是線性的,而Logistic回歸中二者的關(guān)系則是非線性的。其次我們?cè)诰€性回歸中結(jié)果變量的觀測(cè)值有正態(tài)分布,但是在Logistic回歸中觀測(cè)值是二項(xiàng)分布。最后,在Logistic回歸模型中不存在線性回歸模型的殘差項(xiàng)。所以,我們?cè)诶肔ogistic回歸進(jìn)行應(yīng)用時(shí),一定要注意Logistic回歸模型的適用條件:首先,各觀測(cè)對(duì)象間相互獨(dú)立,而且自變量和Logistic概率是線性關(guān)系。其次,我們要求殘差和因變量都要服從二項(xiàng)分布,因?yàn)槎畏植紝?duì)應(yīng)的是分類變量,那么我們自然無法使用正態(tài)分布以及最小二乘法來進(jìn)行方程估計(jì)和檢驗(yàn)問題,而是應(yīng)該采用最大似然法來完成相關(guān)的操作。最后重復(fù)計(jì)數(shù)現(xiàn)象指標(biāo)不適用于Logistic回歸。
但是需要注意的是Logistic回歸模型在進(jìn)行擬合的過程中經(jīng)常會(huì)遇到擬合優(yōu)度的問題,而擬合優(yōu)度本身是沒有統(tǒng)計(jì)學(xué)的意義,不能說明該模型中增加變量的關(guān)系,只能說在當(dāng)前模型變量的情況下這個(gè)模型和最優(yōu)模型本身是沒有太大的統(tǒng)計(jì)差異的。
Logistic回歸模型能夠幫助我們找到危險(xiǎn)因素、預(yù)測(cè)與判別。
在我們建立Logistic回歸模型后就可以根據(jù)模型來預(yù)測(cè)在不同的自變量情況下發(fā)生某種情況的概率大小。根據(jù)Logistic回歸模型我們來判斷屬于什么情況的概率大小,簡言之就是看這個(gè)事件有多大的可能性屬于某種情況。Logistic回歸模型直接根據(jù)指標(biāo)情況求出某一事件的發(fā)生概率,限制條件較少,且對(duì)資料的需求量也少,能夠較好的應(yīng)用于定性和半定量的指標(biāo)來估計(jì)應(yīng)變量的發(fā)生概率,在判別和篩選中具有較大的發(fā)展前景。但是一定要注意資料的分布類型以及收集方法,要在充分選擇模型以及了解各參數(shù)意義的基礎(chǔ)上再使用Logistic回歸模型進(jìn)行判別預(yù)測(cè)。
我們?cè)谧詣?dòng)控制中,考慮到多種因素的印象,對(duì)反應(yīng)變量為分類變量時(shí)如果采用線性回歸模型就不合適了,而是應(yīng)該采用Logistic回歸模型的方式進(jìn)行統(tǒng)計(jì)分析。當(dāng)然任何一種的判別方法采用的樣本總具有局限性,那么根據(jù)這樣的樣本得到的判別準(zhǔn)確率難以得到保障,所以我們要加大判別效能的提高。相比于其他方法,Logistic回歸模型在定性和半定量的判別預(yù)測(cè)上具有較大的優(yōu)勢(shì)。我們?cè)谶\(yùn)用Logistic回歸模型進(jìn)行判別時(shí),要充分注意不同的Logistic回歸模型有不同的使用條件,需要在保證樣本具有代表性的前提下對(duì)指標(biāo)進(jìn)行篩選以便找到對(duì)應(yīng)的變量作為指標(biāo)建立回歸方程,然后通過多種方法來檢驗(yàn)判別效果。
以上是Logistic回歸模型最常用的應(yīng)用,實(shí)際上Logistic回歸模型的應(yīng)用還有很多,尤其是在工學(xué)領(lǐng)域,Logistic回歸模型已經(jīng)成為了自動(dòng)控制中常用的方法。當(dāng)然還有很多其他的較好的分類方法,但是Logistic回歸模型與多重線性回歸相比優(yōu)勢(shì)較明顯,所以Logistic回歸模型是應(yīng)用最廣的分析方法。
Logistic回歸模型主要包括一元二分類、多元二分類、有序多分類以及無序多分類等,在統(tǒng)計(jì)學(xué)領(lǐng)域應(yīng)用較多。但是我們需要意識(shí)到Logistic回歸模型也存在一些問題,比如Logistic回歸模型的變量選擇以及參數(shù)估計(jì)中的變量選擇是相互獨(dú)立的,但是實(shí)際問題中的各個(gè)自變量不是獨(dú)立的而是存在一定的線性關(guān)系,這樣一來就會(huì)導(dǎo)致Logistic回歸模型回歸系數(shù)不明顯,最終導(dǎo)致判斷的失誤,在對(duì)Logistic回歸模型進(jìn)行推廣時(shí)一定要注意這些問題的存在,繼而實(shí)現(xiàn)Logistic回歸模型效能的最大化。