孫立煒 王夢仙 黃澤
摘? 要:由病毒引起的突發(fā)性傳染病是威脅人類健康的大敵。在病毒性傳染病初期,從各種藥物中,篩選出能夠抑制病毒的有效藥物,能夠為疫情防控與治療贏得寶貴時間。藥物篩選的方法有很多,該文提出一種基于Logistic回歸分析的藥物篩選方法。對藥物篩選問題進(jìn)行建模,應(yīng)用Logistic回歸分析方法,按照參數(shù)估計和顯著性檢驗2個過程進(jìn)行求解,并進(jìn)行案例應(yīng)用分析。
關(guān)鍵詞:Logistic回歸? 數(shù)據(jù)挖掘? 藥物篩選? 建模
中圖分類號:G71 ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2020)08(b)-0214-03
A Drug Screening Method Based on Logistic Regression Analysis
SUN Liwei? WANG Mengxian? HUANG Ze
(Xiamen Nanyang University, Xiamen, Fujian Province, 361102 China)
Abstract: Sudden infectious diseases caused by viruses are a major enemy threatening human health. In the early stage of viral infectious diseases, screening out effective drugs that can suppress viruses from various drugs can win valuable time for epidemic prevention and treatment. There are many methods for drug screening. This paper proposes a drug screening method based on Logistic regression analysis. Modeling the drug screening problem, applying Logistic regression analysis method, solving according to the two processes of parameter estimation and significance test, and conducting case application analysis.
Key Words: Logistic regression; Data mining; Drug screening; Modeling
由病毒引起的突發(fā)性傳染病是威脅人類健康的大敵。目前,人類對病毒的認(rèn)識遠(yuǎn)遠(yuǎn)不夠,也沒有類似于抗生素那樣的廣譜抗病毒藥物。因此,在病毒性傳染病初期,從各種藥物中,篩選出能夠抑制病毒的有效藥物,能夠為疫情防控與治療贏得寶貴時間。藥物篩選的方法有很多,基于穩(wěn)定而有效的數(shù)理統(tǒng)計方法就是其中之一。以Logistic回歸模型為工具調(diào)整或控制混雜因素的方法,是醫(yī)學(xué)研究者最熟悉也是使用最普遍的方法[1-4],可以應(yīng)用于藥物篩選。
1? 藥物篩選問題的建模
設(shè)p為病人服藥后好轉(zhuǎn)的概率。A是所有治療方案的藥物集合,共有k種藥物,分別是a0,a1,…,ak。病人不可能只服用一種藥物,需要確定哪一種藥物起到重要作用。令變量xi表示該病人是否服用了第i種藥物,i=1,2,…,k。xi是一個2值化變量,xi=0表示病人未用藥物ai,xi=1表示病人服用藥物ai。利用logit函數(shù)建立回歸方程(式1)。誤差項ε服從正態(tài)分布,且每個樣本的誤差項相互獨立。
2? 模型的求解
模型的求解分為兩個過程,分別是參數(shù)估計和顯著性檢驗。
2.1 參數(shù)估計
首先建立似然函數(shù)L,并求對數(shù),得到:
其中,n是樣本數(shù)量。然后,分別對β0,β1,…,βk求偏導(dǎo)數(shù)并令:
即可解出β0,β1,…,βk。
2.2 顯著性檢驗
對回歸方程的顯著性檢驗包括線性關(guān)系檢驗和回歸參數(shù)檢驗。
2.2.1 線性關(guān)系的顯著性檢驗
線性關(guān)系的顯著性檢驗的目的,是檢驗全體自變量與ln(p/1-p)的線性關(guān)系是否顯著。步驟具體如下。
(1)定義截距模型,用L0表示截距模型的似然值。
(2)對于所要檢驗的模型,其包含有若干自變量,其似然值為L。
(3)構(gòu)造對數(shù)似然比的統(tǒng)計量G2,G2=2ln(L/L0)。G2近似服從自由度為k的χ2分布。
(4)提出假設(shè)。H0:β1,…,βk均為0;H1:β1,…,βk至少有一個不為0。
(5)給出顯著性水平α。如果G2≤χα2(k),則接受零假設(shè),認(rèn)為(1)式中所有回歸系數(shù)為0。如果G2>χα2(k),則拒絕零假設(shè),認(rèn)為(1)式中回歸系數(shù)不全為0,可以進(jìn)行下一階段的回歸參數(shù)顯著性檢驗。
2.2.2 回歸參數(shù)顯著性檢驗
回歸參數(shù)顯著性檢驗的目的,是逐個檢驗?zāi)P椭械母髯宰兞渴欠衽cln(p/1-p)有顯著的線性關(guān)系,刪除線性關(guān)系不顯著的變量,剩余的變量揭示出起到主要作用的藥物。步驟具體如下。
(1)提出假設(shè)。對參數(shù)βi,H0:βi=0;H1:βi≠0。
(2)計算Wald統(tǒng)計量。Wald=(βi/Sβi)2,其中βi是回歸參數(shù),Sβi是βi的標(biāo)準(zhǔn)誤差。Wald統(tǒng)計量服從自由度為1的分布。
(3)做出統(tǒng)計決策。計算各個自變量的Wald觀測值和對應(yīng)的概率p值,并設(shè)定顯著性水平α。如果對于某自變量,p<α,則拒絕零假設(shè),認(rèn)為該自變量與ln(p/1-p)有顯著的線性關(guān)系。如果p≥α,則接受零假設(shè),認(rèn)為該自變量與ln(p/1-p)沒有顯著的線性關(guān)系。逐個刪除線性關(guān)系不顯著的xi。每刪除一個,就返回開始的參數(shù)估計過程重新計算,直到所有的xi均與ln(p/1-p)有顯著的線性關(guān)系為止。剩余的自變量xi所對應(yīng)的藥物ai就是有效藥物。
3? 案例分析
現(xiàn)有用藥數(shù)據(jù)集D,包含了150例用藥案例。其中有50例在療程內(nèi)同時使用藥物A、B,好轉(zhuǎn)40例。有50例在療程內(nèi)同時使用B、C,好轉(zhuǎn)25例。有50例在療程內(nèi)使用A、C,好轉(zhuǎn)35例。部分?jǐn)?shù)據(jù)如表1所示。其中,id表示案例編號,A表示是否使用A藥物(1為是,0為否),B表示是否使用B藥物,C表示是否使用C藥物,result表示病人是否好轉(zhuǎn)(1為是,0為否)。
采用Logistic回歸分析算法,建立的回歸方程為:
其中,p為病人好轉(zhuǎn)概率,x1,x2,x3分別表示該病人是否服用了藥物A、B、C。
計算軟件采用SPSS clementine 12.0,設(shè)定的顯著性水平α=0.005。計算過程如表2、表3和表4所示。其中,Β表示回歸參數(shù)值,得分表示似然比統(tǒng)計評分,S.E.表示回歸參數(shù)的標(biāo)準(zhǔn)誤差,Wald表示W(wǎng)ald檢驗統(tǒng)計量的觀測值,df表示自由度,顯著性表示W(wǎng)ald檢驗統(tǒng)計量對應(yīng)的概率p值。
從這3張表中可以看出,計算過程共有3個步驟(步驟0,1,2)。表2和表3說明了步驟0的輸出情況,表4說明了步驟1和步驟2的輸出情況。每個步驟都有參數(shù)估計和顯著性檢驗2個過程。步驟0,參數(shù)估計β0=0.693。由于在顯著性檢驗中,β2的顯著性為0.540,β3的顯著性為0.014,均大于顯著性水平α,應(yīng)逐個刪除。步驟1,刪除x3,參數(shù)估計β0=1.386,β1=-1.386,β2=-0.539。而在顯著性檢驗中,β2的顯著性為0.251>α,還應(yīng)刪除x2。步驟2,刪除x2,參數(shù)估計β0=1.099, β1=-1.099。β1的顯著性為0.003<α,予以保留。最后,考慮到clementine的自變量編碼規(guī)則與表1的定義相反,得到回歸方程為:
這個回歸方程說明,自變量x1對應(yīng)的藥物A是起到重要作用的有效藥物。
在病毒性傳染病初期,篩選出能夠抑制病毒的有效藥物,能夠為疫情防控與治療贏得寶貴時間。對藥物篩選問題進(jìn)行建模,應(yīng)用Logistic回歸分析方法進(jìn)行求解,并做了案例應(yīng)用分析。
參考文獻(xiàn)
[1] 張偉東,王幸麗,楊紅,等.重癥哮喘患兒社交焦慮現(xiàn)狀調(diào)查及l(fā)ogistics回歸分析[J].中國健康心理學(xué)雜志,2020(3):363-367.
[2] 于健,徐剛,孫宏,等.后外側(cè)支撐固定治療脛骨平臺后外側(cè)髁骨折預(yù)后的多元Logistics回歸分析[J].中國組織工程研究,2019(32):5138-5145.
[3] Gong X,Cui J,Jiang Z,et al.Risk factors for pedicled flap necrosis in hand soft tissue reconstruction: a multivariate Logistic regression analysis[J].ANZ Journal of Surgery,2018,88(3):E 127-E131.
[4] 于媛媛.logistic回歸模型在流行病學(xué)病因分析中的偏性及其改進(jìn)策略研究[D].山東大學(xué),2018.
[5] 賈雨晴.多分類logistics回歸排序集抽樣方法及其應(yīng)用[D].華中師范大學(xué),2017.
[6] Li Yuan,Chen Yumeng,Zhou Chunfen,et dl. Analyzing the Impact of Practice Environment on Nurse Burnout Using Conventional and Multilevel Logistic Regression Models[J].SAGE Publicatio-ns,2020,68(7):325-336.