劉 娜 石志紅 曹紅艷 郭興萍 張巖波△
潛在特質模型在疾病易感性評價中的應用*
劉 娜1石志紅1曹紅艷1郭興萍2△張巖波1△
目的 介紹潛在特質模型的原理、方法和技術,探討潛在特質模型在疾病易感性評價中的應用。方法 以出生缺陷數(shù)據(jù)為實例,采用R 2.5.1軟件的Ltm包例證潛在特質模型的構建和分析原理。結果 通過對出生缺陷數(shù)據(jù)進行潛在特質模型擬合,潛在特質得分能夠很好地預測評估其發(fā)病危險。結論 潛在特質模型用于疾病患病風險評價有很好的效果。
潛在特質模型 疾病易感性評價 出生缺陷 潛在特質得分
潛變量模型(latent variable model)利用外在直接觀察到的變量分析內在因素,通過分析外在變量與內在變量(潛變量)及內在變量之間的關系來探究事物的發(fā)生、發(fā)展、變化規(guī)律及特點[1]。潛在特質模型(latent trait model)屬于潛在變量模型的一種,兼具因子分析與聚類分析的功能,具有數(shù)據(jù)降維、數(shù)據(jù)挖掘和理論驗證的統(tǒng)計學功能,適用于顯變量為分類型,潛變量為連續(xù)型的資料[2]。在醫(yī)學研究中,對疾病易感性的評價涉及影響因素非常多,既有能夠較為準確測量的因素,又存在許多無法直接測量的指標,同時,各指標間可能存在相關。對這些因素的研究,不僅要研究單個變量的效應,也要研究一組變量的整體效應。傳統(tǒng)的患病風險評價,直接對暴露因素得分進行簡單相加求和以考察疾病危險程度,并采用卡方檢驗和logistic回歸進行分析,顯然遠不足以挖掘疾病的潛在暴露因素,無法綜合地評價疾病的患病風險。因此,本文將介紹潛在特質模型在疾病患病風險評價中的應用,為易感性評價提供良好的分析策略。
1.模型結構
潛在特質模型包括兩個部分:第一部分是測量模型,反映了顯變量與潛變量之間的關系,可以解釋各顯變量之間的潛在結構;第二部分是結構模型,研究潛變量之間的結構關系。
(1)測量模型
假定條目yj是分類變量,它有Lj個可能分類水平:l=1,…,Lj,不同類型的條目,分類變量水平是不同的。對于等級資料的條目,其分類變量水平是等級的,順序不能發(fā)生改變,除非采用反向記分;對于無序分類資料,其分類變量水平是隨機的;而對于二分類資料,既可以看成是等級資料也可以看成是無序分類資料。yi的測量模型其實是一個分類概率回歸模型:
πjl(η)=p(yj=l|η)
其中,η為解釋變量。
(2)結構模型
潛在特質模型假定潛在變量η取某一固定值時,j維列聯(lián)表x可通過其邊際分布來解釋,在此假設條件下,潛在因子分布pη為結構模型。一般情況下,假設潛在因子η服從均數(shù)為k,標準差為φ的正態(tài)分布,即η~N(k,φ)。在模型設定中,一般限定k=0,φ=1,否則需調整測量模型中的參數(shù)。
2.常見的潛在特質模型
潛在特質模型在心理測量領域被稱為項目反應理論,它建立了組成測驗的項目與測驗分數(shù)之間的函數(shù)關系。到目前為止,潛在特質模型產生了至少20余種模型。可以根據(jù)不同的反應數(shù)據(jù)選擇相應的模型來估計參數(shù)。
(1)Rasch模型
Rasch模型在1960年首次被Rasch提出,是一個單維潛在特質模型的特例,它的區(qū)分度是相同的,主要應用于教育測驗,目的是研究特定個體的能力值,可以用潛在因子對量表內的項目進行評估[4]。模型被定義為:
其中,P(Yij=1)代表第i個個體對第j個條目正確回答的概率。θ表示能力值,β表示難度系數(shù)[5]。
(2)雙參數(shù)logistic模型(Ltm模型)
對于顯變量為二分類的數(shù)據(jù),潛在特質模型與因子分析模型相似,是潛在特質模型的一種。模型假設有相互依賴關系的外顯變量可以被少數(shù)的幾個潛變量所解釋。該模型的公式是項目反應理論框架下的一種方法。
其中,α代表區(qū)分度系數(shù)。
3.參數(shù)估計方法
潛在特質模型的參數(shù)估計一般采用極大似然法(maximumlikelihoodestimators)[3],其迭代過程常用的算法有EM算法和擬牛頓法(quasi-Newton)。本文參數(shù)估計選用混合算法進行計算,即開始時使用EM算法進行迭代,然后用擬牛頓算法迭代直至收斂。
4.模型評價
潛在特質模型常用的評價方法有似然比檢驗、Pearson檢驗及AIC(akaikeinformationcriterion)指標和BIC(bayesianinformationcriterion)指標。AIC和BIC的值越小,模型擬合越好[6-8]。本文綜合使用AIC、BIC及似然比檢驗進行模型擬合優(yōu)劣比較。同時,采用雙變量邊際殘差進一步地判斷模型擬合是否良好。
5.潛在特質得分與主成分得分
最優(yōu)模型確定后,將觀察值代入模型中,獲得個體潛在特質的預測值,即給出各條目綜合得分。其條件均數(shù)為:
同時,計算出外顯變量對公共因子貢獻的權重αi1,即得出該模型的主成分得分:
C1(y)=∑αi1yi
潛在特質得分與主成分得分對不同條目進行了聚類,挖掘了其隱含的內在信息,綜合反映了各條目之間的整體效應,實現(xiàn)了降維的目的,可以作為衡量疾病易感性的重要指標,得分越高,患病的危險性越大。
為實證潛在特質模型應用原理,本文利用2006-2008年在山西省6個出生缺陷高發(fā)縣(市)收集的有效問卷36712份進行潛在特質模型分析。問卷內容包括七個方面:調查兒母親一般情況、母親既往病史、妊娠早期營養(yǎng)狀況、妊娠早期患病、妊娠早期服藥、妊娠早期周邊環(huán)境、妊娠早期生活習慣,共計25個條目。將所有條目轉化為二分類變量,如母親年齡大于等于35歲的為1,小于35歲的為0。本文僅對調查兒母親一般情況和妊娠早期患病這兩個維度進行潛在特質分析。采用R 2.5.1軟件的Ltm包進行分析。
對調查兒母親一般情況和妊娠早期患病這兩個維度進行模型擬合,得到參數(shù)估計結果,結合AIC、BIC和似然比檢驗對Ltm模型與Rasch模型進行擬合優(yōu)度評價,選出最優(yōu)模型。此外還可用雙變量邊際殘差的方法對模型進行評估。最后通過計算潛在特質得分及主成分得分,對出生缺陷患病風險進行評價。
1.參數(shù)估計結果
本文采用最大似然估計算法得到雙參數(shù)的值,其中α代表區(qū)分度系數(shù),β代表難度系數(shù)。由表1可知各條目的區(qū)分度系數(shù)為0.2819~7.6206,總的來講能很好的反映不同受試者的能力。β值在1.6486~7.8763,本文中我們暫不對其難度系數(shù)進行考慮。具體參數(shù)估計結果見表1。
表1 出生缺陷母親一般情況及妊娠早期患病參數(shù)估計結果
2.模型適配結果及擬合優(yōu)度評價
對出生缺陷數(shù)據(jù)進行Ltm與Rasch模型擬合,其中,母親一般情況及妊娠早期患病兩個維度擬合Ltm與Rasch模型結果見表2。
由表2可知,Ltm模型的AIC和BIC值比Rasch模型所得值小,AIC和BIC值越小,模型擬合越好。似然比檢驗顯示,兩個模型檢驗都有統(tǒng)計學意義。Ltm模型比Rasch模型能更好的擬合出生缺陷數(shù)據(jù)。同時雙變量邊際殘差結果也顯示模型擬合效果良好。
表2 母親一般情況及妊娠早期患病Ltm與Rasch模型擬合結果
3.潛在特質得分與主成分得分
將出生缺陷相關暴露因素放入Ltm模型進行擬合,可以得到多個反應模式。為了便于比較,將每個暴露因素為“是”的賦值為1,為“否”的賦值為0,直接相加求和得分,定義為“表面得分”。母親一般情況和妊娠早期患病兩個維度的表面得分與潛在特質得分結果見表3。
表3中,不同反應模式下,潛在特質得分為-0.029~3.009,即隨著暴露因素的增多,潛在特質得分增大,出生缺陷發(fā)生的危險性變大。另一方面,通過對不同反應模式的比較,如(0 0 1)和(0 1 0)可知各主成分得分是不一樣的。顯然,在母親一般情況維度,親屬有缺陷兒的孕母發(fā)生出生缺陷的風險更大。同理,表4結果提示單因子暴露下,發(fā)熱與感冒發(fā)生出生缺陷的風險較大,不同暴露組合發(fā)病風險可由潛在特質得分評價。
進一步將出生缺陷組的潛在特質得分與非出生缺陷組的潛在特質得分做t檢驗,所得結果見表5。
表3 母親一般情況潛在特質得分
表4 妊娠早期患病情況潛在特質得分
表5 出生缺陷組和非出生缺陷組在母親一般情況與妊娠早期患病兩個維度中的潛在特質得分比較
由表5可知,兩個維度出生缺陷組和非出生缺陷組的潛在特質得分差異有統(tǒng)計學意義,認為出生缺陷組的潛在特質得分明顯高于非出生缺陷組。
潛在特質模型是潛變量分析的一種,是探討外顯變量為分類變量,潛變量為連續(xù)變量的一種最佳統(tǒng)計方法。通過潛在特質變量解釋多個外顯變量間的復雜關系,并將其外顯變量綜合為一個潛變量,使之能夠代替外顯變量分析整體效應。通過所得到的潛在特質得分的大小可以對疾病患病風險進行評價。實例分析中的外顯變量為二分類變量,但在實際應用中潛在特質模型還可應用于多分類的名義變量、有序變量等[9]。
目前,潛在特質模型分析的軟件很多,如R、Mplus、Multilog等。本文運用R軟件中的Ltm包進行分析,相對于其他軟件,不僅能夠得到潛在特質得分,而且具有語法結構簡單,易于掌握的特點和優(yōu)勢。
本文分析母親一般情況和妊娠早期患病兩個維度,采用的是雙參數(shù)logistic模型(Ltm模型)。不同反應模式下,潛在特質得分不同。暴露因素越少,得分越低,反之,得分越高。同時根據(jù)不同反應模式的主成分得分不同,對各維度暴露因素權重進行了比較??蛇M一步探索多因子潛在特質模型,將暴露因素綜合為幾個潛在因子,并對其關聯(lián)性進行分析;也可采用多樣本潛在特質模型,對不同樣本的暴露因素進行比較,進一步挖掘出疾病暴露因素,提高疾病預測精度。
[1]張巖波.潛變量分析.北京:高等教育出版社,2009:220-246.
[2]Moustaki I,Knott M.Generalized latent trait models.Psychometrika,2000,65(3):391-411.
[3]David J.Latent Variable Models and Factor Analysis:A Unified Approach,3rd;Edition.International Statistical Review,2013,81(2):333-334.
[4]晏子.心理科學領域內的客觀測量—Rasch 模型之特點及發(fā)展趨勢.心理科學進展,2010,18(08):1298-1305.
[5]Yu-Feng Huang,Mei-Yung Tsou,En-Tzu Chen,et al.Item response analysis on an examination in anesthesiology for medical students in Taiwan:A comparison of one-and two-parameter logistic models.Journal of the Chinese Medical Association,2013,76(6):344-349.
[6]Gollini I,Murphy TB.Mixture of latent trait analyzers for model-based clustering of categorical data.Statistic & Computing,2013,24(4):569-588.
[7]Choi I.Model Selection for Factor Analysis:Some New Criteria and Performance Comparisons.Working Papers,2013.
[8]Hirose K,Kawano S,Konishi S,et al.Bayesian Information Criterion and Selection of the Number of Factors in Factor Analysis Models.Journal of Data Science,2011,9.
[9]David Kaplan.The Sage Handbook of Quantitative Methodology for the Social Sciences.Applied Psychological Measurement,2006,30(5):447-451.
(責任編輯:劉 壯)
國家自然科學基金(71403156)
1.山西醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室(030001)
2.山西省計生委科研所
△通信作者:張巖波,E-mail:sxmuzyb@126.com;郭興萍,E-mail:13934527993@163.com