朱高培 孫 娜 許小珊 李 娟 吳學(xué)森 王素珍△
【提 要】 目的 構(gòu)建社區(qū)居民2型糖尿病風(fēng)險評估模型及風(fēng)險評分表。方法 利用logistic回歸模型結(jié)合決策樹的方法,針對2015蚌埠市龍子湖區(qū)慢性病調(diào)查的數(shù)據(jù),構(gòu)建2型糖尿病風(fēng)險評估模型,并由正確指數(shù)制定風(fēng)險評分表的切點。結(jié)果 決策樹結(jié)合logistic回歸模型預(yù)測2型糖尿病的AUC=0.828(95%CI:0.808-0.855),大于單純采用logistic回歸模型AUC=0.816(95%CI:0.793-0.838)及單純采用決策樹AUC=0.809(95%CI:0.787-0.831)。同時,決策樹結(jié)合logistic建立的風(fēng)險評分表的特異度和靈敏度分別為0.840和0.778,總分值范圍為-9~56分,篩查高危人群的推薦切點為19分,篩查效果優(yōu)于logistic回歸模型、《2013年糖尿病防治指南》風(fēng)險評分表、芬蘭模型Lindstrom版。結(jié)論 logistic回歸結(jié)合決策樹模型比單一模型在糖尿病風(fēng)險評估方面有更好的表現(xiàn),制定的2型糖尿病風(fēng)險評分表可以作為糖尿病篩查一線工具。
國際糖尿病聯(lián)盟資料表明,2045年全世界糖尿病平均患病率將會達(dá)到10%,全世界將擁有6.93億糖尿病患者[1],糖尿病成為損害人類健康的重要疾病之一。鑒于2型糖尿病的患者基數(shù)巨大,起病隱蔽,無明顯的早期癥狀,致使約有50%的糖尿病患者未被早期診斷或發(fā)現(xiàn)[2],發(fā)現(xiàn)時患者身體已經(jīng)受到傷害,引發(fā)沉重的身體和經(jīng)濟負(fù)擔(dān)。有研究表明[3],盡早篩查出糖尿病高危人群,可有效降低減緩糖尿病的發(fā)生和發(fā)展。所以,在無癥狀人群中開展2型糖尿病的篩選非常有必要。
糖尿病的篩查分為介入性篩查和非介入性篩查。介入性篩查受到患者自身條件、檢測費用、HbA1c檢測未標(biāo)準(zhǔn)化等因素的影響,不宜作為糖尿病高危人群快速篩查的一線工具[4]。非介入性的篩查方法,依據(jù)糖尿病風(fēng)險評估量表確定糖尿病高危人群、篩選糖尿病可疑患者。該法具有簡便、快速、易于開展等特點[5],逐漸引起研究者關(guān)注。雖然2013 年《中國 2 型糖尿病防治指南》中給出了糖尿病風(fēng)險評分表[6],但在烏魯木齊人群中篩查糖尿病的效果一般(AUC=0.770)[7],也未見在大規(guī)模人群中應(yīng)用及驗證。目前,糖尿病風(fēng)險評估工具的數(shù)量眾多,但由于種族特異性、國家、地區(qū)間的文化背景、生活習(xí)慣、飲食、糖尿病危險因素的多樣性等,不同糖尿病風(fēng)險評估工具的適用人群也大不相同[8],所以尚需構(gòu)建適應(yīng)于社區(qū)的2型糖尿病快速篩查工具。
開發(fā)糖尿病風(fēng)險評分模型,評估人群中糖尿病的發(fā)病風(fēng)險,快速高效地篩選出患有糖尿病高危人群,增加糖尿病的檢出率,已成為當(dāng)前醫(yī)學(xué)界的重要研究內(nèi)容之一。本研究結(jié)合數(shù)據(jù)挖掘和logistic回歸構(gòu)建2型糖尿病風(fēng)險評估模型和風(fēng)險評分表,通過該簡易糖尿病風(fēng)險評分表盡早發(fā)現(xiàn)糖尿病高危人群,及時制定防控措施,有效降低糖尿病的發(fā)病率或減緩糖尿病的發(fā)生,并能一定程度降低衛(wèi)生負(fù)擔(dān)。
1.研究對象
采取多階段分層隨機抽樣的方法,按照城區(qū)、農(nóng)村共分兩層,每層隨機抽取3~4個社區(qū)服務(wù)中心,每個社區(qū)服務(wù)中心隨機抽取2~5個社區(qū)服務(wù)站,共調(diào)查3354個居民。由經(jīng)過專業(yè)培訓(xùn)的調(diào)查人員和社區(qū)服務(wù)中心(站)醫(yī)務(wù)人員對參與本研究的對象開展問卷調(diào)查和體檢,記錄空腹血糖、身高、體重、腰圍、血常規(guī)、生理生化等體檢指標(biāo)。每個調(diào)查對象簽署了知情同意書。
納入、剔除標(biāo)準(zhǔn):依據(jù)蚌埠市龍子湖區(qū)公安人口信息,滿足18歲及以上的常住居民(在蚌埠市居住5年及以上)作為抽樣人群;剔除不能理解和回答問題的對象、其他地區(qū)生活的蚌埠市戶籍調(diào)查對象。
用于本研究的2型糖尿病診斷標(biāo)準(zhǔn)為:(1)明確有糖尿病的診斷史;(2)新發(fā)糖尿?。篎PG>7.1mmol/L。
2.研究方法
(1)模型構(gòu)建過程
①logistic回歸構(gòu)建2型糖尿病風(fēng)險評估模型的原理
以是否患有2型糖尿病為因變量,以人均收入、水果攝入頻率、是否喜好甜食、婚姻狀況、糖尿病家族史和年齡等作為自變量納入模型,其中年齡等定量資料分析時進行了分類。經(jīng)logistic回歸篩選出最終進入模型的變量,并依此構(gòu)建2型糖尿病多因素logistic回歸模型,以P值代表發(fā)生2型糖尿病的概率?;诖四P涂梢越o出調(diào)查對象患2型糖尿病的風(fēng)險,進而確定糖尿病高危人群。
②決策樹結(jié)合logistic回歸建立2型糖尿病模型風(fēng)險評估模型的過程
以是否患有2型糖尿病為因變量,人均收入、水果攝入頻率、是否喜好甜食、婚姻狀況、年齡等自變量以原始數(shù)據(jù)的形式納入決策樹模型。經(jīng)決策樹分析,得到2型糖尿病決策樹圖,根據(jù)非葉子節(jié)點的分類屬性,確定用于分類的主要變量以及連續(xù)變量分割截斷值,將原有的數(shù)據(jù)的所有變量轉(zhuǎn)化成分類變量,并依此用轉(zhuǎn)換后的數(shù)據(jù)構(gòu)建2型糖尿病logistic回歸模型,以P確定發(fā)生2型糖尿病的概率,進而確定糖尿病高危人群。
③糖尿病風(fēng)險評分模型的構(gòu)建過程
首先建立2型糖尿病篩查決策樹模型,據(jù)非葉子節(jié)點處的最佳分類對應(yīng)的屬性,確定主要變量以及連續(xù)變量分割截斷值,將原有的數(shù)據(jù)的所有變量轉(zhuǎn)換成分類變量;然后用轉(zhuǎn)換后的數(shù)據(jù)構(gòu)建2型糖尿病logistic回歸模型;最后將回歸系數(shù)乘以10再取整,給出風(fēng)險評分表。
(2)風(fēng)險評估模型及風(fēng)險評分表的評價
使用ROC曲線、AUC(ROC曲線下面積)和符合率來綜合比較模型預(yù)測、篩查效果,并通過正確指數(shù)確定糖尿病風(fēng)險評分表的篩查高危人群的推薦切點。
1.一般情況
總共調(diào)查3354人,其中357人患2型糖尿病,患病率為10.6%。本次研究對象的年齡在18~91歲之間,平均56.10±15.3歲。男性1468人,女性1886人,男女性別比例為1:1.28,其他基本信息詳見表1。
表1 研究對象的基本情況描述
2.logistic回歸模型構(gòu)建2型糖尿病風(fēng)險評估模型
經(jīng)多因素logistic回歸分析,獲得2型糖尿病的影響因素:糖尿病家族史、高血壓史、水果攝入頻率、喜好甜食、年齡、腰臀比、體質(zhì)指數(shù)和收縮壓和年齡。多因素logistic回歸模型預(yù)測2型糖尿病的AUC=0.816(95%CI:0.793~0.838),最佳切點處的靈敏度和特異度分別為0.684和0.792。
3.決策樹構(gòu)建2型糖尿病風(fēng)險評估模型
經(jīng)決策樹分析獲得2型糖尿病的決策規(guī)則,詳見圖1。該決策樹的葉節(jié)點有10個,非葉子節(jié)點8個,進入該決策規(guī)則的變量為年齡、糖尿病家族史、收縮壓、水果攝入頻率、體質(zhì)指數(shù)。決策樹模型預(yù)測2型糖尿病的AUC=0.809(95%CI:0.787~0.831),最佳切點處的靈敏度為0.703,特異度為0.771。
表2 2型糖尿病多因素logistic回歸分析
圖1 2型糖尿病決策樹分析圖
決策樹模型對定量資料進行了分割,比如年齡被決策樹劃分為(18~51]歲,(51~60]歲,(60~72]歲,(72~101]歲四段,其他變量分割詳見表3。
表3 決策樹模型給出了定量資料的分割點信息
4.決策樹結(jié)合logistic回歸模型構(gòu)建2型糖尿病風(fēng)險評估模型
根據(jù)決策樹模型中的分類變量以及定量資料的分割信息,對這些變量進行重新的分類和賦值,如年齡、收縮壓、體質(zhì)指數(shù)等是根據(jù)決策樹重新截斷的分組數(shù)據(jù)。將新定義的變量統(tǒng)一納入logistic回歸模型。該模型即為決策樹結(jié)合logistic回歸預(yù)測模型,詳見表4。該模型預(yù)測2型糖尿病的AUC=0.828(95%CI:0.808~0.855),最佳切點處的靈敏度為0.840,特異度為0.778。
表4 基于決策樹結(jié)合logistic回歸模型的2型糖尿病風(fēng)險分析結(jié)果
5.糖尿病風(fēng)險評估模型的效果評價
比較logistic模型與決策樹模型、決策樹結(jié)合logistic回歸模型評估2型糖尿病風(fēng)險的效果,最佳切點處的靈敏度和特異度,logistic模型與決策樹模型的特異度較高,而結(jié)合模型的靈敏度更高。糖尿病風(fēng)險評估模型間的AUC擬合優(yōu)度檢驗結(jié)果顯示:決策樹結(jié)合logistic回歸模型預(yù)測2型糖尿病的效果優(yōu)于logistic模型(Z=3.328,P<0.001),決策樹結(jié)合logistic回歸模型的效果優(yōu)于決策樹模型(Z=6.718,P<0.001),logistic回歸模型的AUC大于決策樹模型(Z=4.950,P<0.001)。詳見表5。
表5 糖尿病風(fēng)險評估模型之間效果比較
6.基于決策樹結(jié)合logistic回歸模型的2型糖尿病風(fēng)險評分表
將重新構(gòu)建的logistic回歸模型的回歸系數(shù)乘以10并取整,如無糖尿病家族史賦值0分,有糖尿病家族史賦值17分,具體賦值詳見表6。該評分表在蚌埠市人群的范圍為-9~56分,切點在19分處,篩查2型糖尿病高危人群效果最佳。決策樹結(jié)合logistic回歸風(fēng)險評分表篩查2型糖尿病的AUC=0.828(95%CI:0.808~0.855),其靈敏度、特異度分別為0.840和0.778。據(jù)此制定了糖尿病風(fēng)險評估問卷,用于糖尿病的篩查工作,詳見表7。
表6 決策樹結(jié)合logistic回歸構(gòu)建的2型糖尿病風(fēng)險評分表
表7 2型糖尿病風(fēng)險評估調(diào)查問卷(表)
*:本問卷(調(diào)查表)判斷糖尿病的最佳切點為19分,得分≥19的確定為患糖尿病高危人群;建議對總得分≥19分受試者應(yīng)進行口服葡萄糖耐量試驗,以明確診斷。
7.糖尿病風(fēng)險評分表之間的效果比較
比較2013年糖尿病防治指南評分表、芬蘭模型評分表以及l(fā)ogistic回歸模型評分表、決策樹結(jié)合logistic回歸風(fēng)險評分表篩查2型糖尿病,發(fā)現(xiàn)ROC曲線下面積分別有差異,決策樹結(jié)合logistic評分表篩查效果最好,如與logistic評分表篩查效果之間差異有統(tǒng)計學(xué)意義(Z=4.111,P<0.001),且決策樹結(jié)合logistic評分表篩查符合率最高。評分表之間具體的比較詳見表8。
建立單一模型時,決策樹模型在特征變量識別方面有優(yōu)勢,而logistic回歸模型在可以獲得OR值等信息和模型解釋方面優(yōu)勢明顯,若分別使用logistic回歸或決策樹構(gòu)建的預(yù)測模型則各有優(yōu)劣[9]。本研究結(jié)果表明通過聯(lián)合建模的方式使模型預(yù)測效果和靈敏度、特異度等方面都有提升。
表8 幾種常用的風(fēng)險評分表之間的效果比較
多因素logistic回歸結(jié)果提示水果攝入為保護性因素,適當(dāng)增加水果攝入頻率可以降低糖尿病發(fā)病風(fēng)險[10]。喜好甜食會增加患2型糖尿病的風(fēng)險,在飲食上面應(yīng)該控制甜食的攝入[11]?;趌ogistic回歸構(gòu)建的預(yù)測模型具有較高的特異度和較低的靈敏度[12],發(fā)現(xiàn)潛在患有糖尿病(即高危人群)的性能較差,不適合糖尿病的初步篩查。本研究中CART決策樹模型預(yù)測的效果稍差于logistic回歸模型(Z=4.950,P<0.001),目前這兩種模型的效果比較結(jié)論不一致,這與決策樹模型的剪枝水平、樣本量以及協(xié)變量之間的關(guān)聯(lián)有關(guān)[13-15];由于決策樹不受分布以及線性、共線性等影響,所以在選擇特征變量方面很有優(yōu)勢[16]。 logistic回歸與決策樹結(jié)合起來構(gòu)建風(fēng)險預(yù)測模型效果最優(yōu),且具有較高的特異度和靈敏度。該方法既可以彌補logistic回歸模型的缺點,又可以篩選出更加合理的特征變量,建議使用該方法構(gòu)建糖尿病風(fēng)險評估模型,并用于篩選社區(qū)糖尿病高危人群。
決策樹結(jié)合logistic回歸風(fēng)險評分表、logistic回歸風(fēng)險評分表和《2013年糖尿病防治指南》風(fēng)險評分表篩查糖尿病的效能優(yōu)于芬蘭模型,考慮為人種糖尿病危險因素及體檢指標(biāo)分類標(biāo)準(zhǔn)的差異[17],比如歐美與亞洲人超重、肥胖標(biāo)準(zhǔn)不同,相應(yīng)的風(fēng)險評分也會不同。芬蘭模型將每日是否食用蔬菜納入模型,本研究將水果攝入頻率納入模型,這考慮了與西方飲食習(xí)慣、烹飪方式的不同,中國人飲食中普遍有蔬菜但缺乏水果,不同人群糖尿病的危險因素存在差異[18]。由于本研究充分考慮了危險因素及其分類標(biāo)準(zhǔn)的種族差異,所以制定的糖尿病風(fēng)險評分表更適用于中國人 2 型糖尿病的風(fēng)險評估及篩查。
糖尿病風(fēng)險評估模型是從疾病的篩查角度出發(fā),需要較高的診斷靈敏度。糖尿病風(fēng)險評分表作為一個有效的、便宜的替代診斷性檢測的工具,可以在短期內(nèi)對大量的人群進行糖尿病的篩查。以非實驗室數(shù)據(jù)為基礎(chǔ)的決策樹結(jié)合logistic回歸的評分表,診斷靈敏性、準(zhǔn)確性均較優(yōu),是一種非侵入性的篩查 2 型糖尿病高危人群的可靠工具。在糖尿病患病率高且仍持續(xù)增長而衛(wèi)生資源相對稀缺的中國,運用糖尿病風(fēng)險評估工具對實現(xiàn)早期檢查和診斷、提高生存質(zhì)量有十分重要的臨床意義。我們推薦聯(lián)合建模方法和制定風(fēng)險評分表在社區(qū)居民糖尿病篩查工作中的應(yīng)用。