鄧 楠,羅幼喜
(湖北工業(yè)大學理學院,湖北 武漢 430068)
隨著在許多領域對數(shù)據(jù)質量的要求都越來越高,對數(shù)據(jù)的分析也從低頻數(shù)據(jù)分析向高頻數(shù)據(jù)分析進行跨越,但在很多情形,我們獲得的數(shù)據(jù)都為離散的數(shù)據(jù),無法完全捕捉數(shù)據(jù)的信息。基于此,Ramsay于1982年提出了函數(shù)型數(shù)據(jù)分析(FDA)[1]。與傳統(tǒng)數(shù)據(jù)分析相比,F(xiàn)DA具有更多優(yōu)越性,它通過對數(shù)據(jù)進行曲線性質的分析進而挖掘出更多重要的信息。在函數(shù)型數(shù)據(jù)分析中,函數(shù)型Logistic回歸是函數(shù)型線性回歸模型的一個重要應用。它針對響應變量為二分類數(shù)據(jù),協(xié)變量為函數(shù)型數(shù)據(jù)建立回歸模型,利用樣本曲線的信息來預測某件事情發(fā)生的可能性,通過函數(shù)型變量隨時間的變化預測二元響應變量的變化。在國外,Ratcliffe等[2]基于模擬的胎兒心率軌跡構建了函數(shù)型Logistic回歸模型,將函數(shù)協(xié)變量和回歸函數(shù)用傅里葉基函數(shù)進行展開,對極大似然估計的計算使用改進的Fisher評分算法,并將此模型應用到胎兒出生風險預測。Kim等[3]考慮若函數(shù)數(shù)據(jù)高度混合,則基于整個區(qū)域的分類是無效的,因此提出了基于區(qū)間的函數(shù)型數(shù)據(jù)分類方法。該方法利用融合的Lasso懲罰自動選擇函數(shù)數(shù)據(jù)中信息最豐富的片段,同時利用函數(shù)邏輯回歸對選擇的片段進行分類。Denhere[4]考慮了當存在異常曲線時對未加處理的數(shù)據(jù)進行函數(shù)型主成分Logistic回歸不能得到良好的結果,提出了一種基于穩(wěn)健主成分的函數(shù)型Logistic回歸模型。Mousavi等[5]則對許多情況下對函數(shù)協(xié)變量(作為輸入)和二元響應(作為輸出)之間的關系感興趣,由此通過3種方法對該模型的參數(shù)估計結果進行比較,并判斷這些方法正確分類的能力。在國內,王惠文等[6]針對同時包含數(shù)值型多元變量和函數(shù)型協(xié)變量的廣義線性回歸模型,采用非參數(shù)方法得到了參數(shù)部分和非參數(shù)部分的估計量,并給出了一種重加權算法進行參數(shù)求解,解決了含數(shù)值型和函數(shù)型混合數(shù)據(jù)類型自變量的回歸問題,由此擴展了函數(shù)型線性模型的應用范圍。孟銀鳳等[7]針對傳統(tǒng)函數(shù)Logistic模型泛化性能不高的問題,通過求解優(yōu)化問題提出了線性正則化的函數(shù)Logistic回歸模型。梳理文獻發(fā)現(xiàn),盡管已有文獻給出了函數(shù)型Logistic回歸模型的不同分析方法和應用實例,但通過貝葉斯方法對其分類性能的研究還較少。Crainiceanu等[8]曾介紹了在貝葉斯框架下函數(shù)型數(shù)據(jù)的分析方法,使用WinBugs對函數(shù)型數(shù)據(jù)進行分析,但未研究Logistic回歸模型的分類性能,Zhu等[9]則提出了針對二元響應變量和多元函數(shù)型協(xié)變量的貝葉斯變量選擇模型,并將其應用于宮頸癌診斷,但其對函數(shù)型Logistic回歸模型進行Probit變換時,未考慮Logit變換,因此本文考慮在貝葉斯框架下對函數(shù)型Logistic回歸模型進行Logit變換并對其分類性能進行研究。
yi=πi+εi,i=1,2,…,N
(1)
其中:
πi=P[Y=1|]xi(t):t∈T}]=
i=1,…,N
(2)
α為實數(shù)參數(shù),β(t)為參數(shù)函數(shù),εi(i=1,2,…,N)為N個獨立且均值為零的隨機擾動項。等價地,通過Logit變換,式(2)可以表示為:
i=1,…,N
(3)
假設選取K個主成分基函數(shù)對回歸系數(shù)函數(shù)β(t)和函數(shù)數(shù)據(jù)x(t)進行展開,則
(4)
(5)
寫成矩陣形式表示為:l=α1+Cb,其中b=(b1,…,bK)T,1=(1,1,…,1)T,C=(cik)N×K為函數(shù)主成分得分,其計算方法為:
且滿足
從而在獨立條件下,模型的似然函數(shù)可以表示為:
(6)
雖求得函數(shù)型Logisic回歸模型的似然函數(shù),但由于一般先驗和模型似然函數(shù)的非共軛性較難求得參數(shù)后驗,因此考慮通過引入Polson[13]等提出的Polya-Gamma數(shù)據(jù)增強算法。Polya-Gamma數(shù)據(jù)增強算法對于不同模型都求得了更簡單且有效的后驗分布。該數(shù)據(jù)增強算法表示為:
記ω~PG(b,0),b>0表示服從參數(shù)為(b,0)的Polya-Gamma分布,其密度函數(shù)
則對于所有a∈R,有下列恒等式成立:
(7)
其中,κ=a-b/2,且p(ω∣ψ)~PG(b,ψ)。該數(shù)據(jù)增強算法有效規(guī)避了常用先驗分布與函數(shù)型Logistic回歸模型似然函數(shù)的非共軛性,從而在Polya-Gamma變換下,函數(shù)型Logistic回歸模型的似然函數(shù)可以改寫為:
(8)
(9)
則b的條件后驗可表示為:
(10)
即b,ω的聯(lián)合后驗為:
(11)
P(ωi|·)=PG(1,ηi)
(12)
由
(13)
(14)
則α得條件后驗為:
(15)
(16)
1)ωi|else~PG(1,ηi),其中ηi=αi+cib;
首先生成獨立同分布的函數(shù)型隨機變量xi,再根據(jù)函數(shù)型Logistic回歸模型生成響應變量yi。該數(shù)據(jù)生成方法仿照文獻[5]設計,具體數(shù)據(jù)生成為:
i=1,2,…,150,j=1,2,…,256,tij∈[0,10]
(18)
i=1,2,…,150
(19)
其中β(t)為區(qū)間T=[0,10]上的已知函數(shù),考慮β1(t)=sin(tπ/3),β2(t)=-d(t∣2,0.3)+3d(t∣5,0.4)+d(t∣7.5,0.5),其中d(·∣μ,σ)為服從均值為μ方差為σ的正態(tài)分布,采用主成分基函數(shù)進行擬合,模擬結果如圖1所示。在這里α設為0.5,使用截斷點0.5作為分割,即
則Y=1,否則Y=0[14],圖2為參數(shù)函數(shù)為β1(t)時模擬生成的150條曲線中的40條樣本曲線。
圖 1 模擬參數(shù)函數(shù)曲線
圖 2 模擬函數(shù)曲線
為了檢驗該方法的分類能力,在測量誤差分別為0和0.5的情況下對模型進行驗證。由于為二分類問題,根據(jù)樣本的實際標簽與分類器給出的預測標簽,可將樣本分為4種,分別為TruePositive(正類預測為正類的個數(shù)為TP)、FalseNegative(正類預測為負類的個數(shù)為FN)、FalsePositive(負類預測為正類的個數(shù)為FP)、TrueNegative(負類預測為負類的個數(shù)為TN)。根據(jù)上述定義,可對模擬生成的100個數(shù)據(jù)集給出4個分類指標,分別是精度(Acc)、準確率(Pre)、召回率(Rec)、F1得分(F1),其計算公式分別為[7]:
同時將此方法(Bayesian Fuctional Logistic Regression,BFLR)與普通Logistic回歸(Logistic Regression,LR)、支持向量機(Support Vector Machine,SVM)、決策樹(Decision Tree,DT)、條件推斷樹(Conditonal Inference Tree,CIT)方法進行比較。
通過對比函數(shù)Logistic回歸模型與其他分類方法在模擬數(shù)據(jù)上的分類性能,發(fā)現(xiàn)基于BPLR模型的方法對于數(shù)據(jù)的分類情況明顯優(yōu)于其他方法,在4個分類性能指標上都有更高的準確率。樣本路徑圖、樣本密度圖和樣本自相關函數(shù)圖表明,在經(jīng)過預燒期后算法已趨于穩(wěn)定達到收斂,證明該抽樣算法在數(shù)據(jù)分類上的有效性。
表1 模擬數(shù)據(jù)分類性能
圖 3 N=150,b的樣本路徑
圖 4 N=150,b的樣本密度圖
圖 5 N=150,b的自相關函數(shù)
以Tecator數(shù)據(jù)為例,該數(shù)據(jù)可在R軟件包“fda.usc”[15]中進行下載。Tecator數(shù)據(jù)集由215個碎肉樣本對波長為850~1050 nm的近紅外吸收光譜曲線及其脂肪含量構成,每條吸收光譜曲線觀測了100個通道,其中有138塊碎肉樣本的脂肪含量Fat低于20%,77塊碎肉樣本的脂肪含量Fat高于20%。以此將Tecator數(shù)據(jù)集分為兩類,圖6給出了每類的各30條樣本曲線。通過函數(shù)主成分分析發(fā)現(xiàn)T,ecator數(shù)據(jù)集前3個主成分已經(jīng)達到99%的累積方差貢獻率,因此選取前三個主成分基函數(shù)構建函數(shù)型Logistic回歸模型。該模型可以表示為:
圖 6 Tecator數(shù)據(jù)集
圖 7 各分類器ROC曲線
其中初始值α設為0.5,bk=(0,0,0),k=1,2,3,cik為前三個主成分得分。
為檢驗模型的分類能力,畫出模型的ROC曲線。結果顯示,基于貝葉斯分析的函數(shù)型Logistic回歸模型對Tecator數(shù)據(jù)集的分類效果最優(yōu),其AUC面積達到了0.984,說明模型具有較高的分類準確率。與其他方法在4個指標上的分類性能相比,盡管BFLR方法在準確率上表現(xiàn)不如普通Logistic回歸、決策樹和條件推斷樹,但在精度、召回率和F1得分上都顯著優(yōu)于其他方法,因此總體來說與其他模型相比擁有更好的分類能力。
表2 Tecator數(shù)據(jù)集分類性能
本文面向函數(shù)型數(shù)據(jù)的二分類問題,提出一種基于Logit變換的函數(shù)型Logistic回歸模型,并通過模擬數(shù)據(jù)和實際數(shù)據(jù)分析驗證了其分類能力。與其他模型的分類性能相比,在該模型上的分類結果均優(yōu),但不足是本文考慮的是單變量函數(shù)型回歸變量的情形,針對多元函數(shù)型回歸變量以及包括普通數(shù)據(jù)的函數(shù)型Logistic回歸模型可為后續(xù)研究。