陳淑良 常紅 王冬平 張策
[摘要] 目的 采用數(shù)據(jù)挖掘方法,考察2型糖尿病的危險(xiǎn)因素,確定最優(yōu)風(fēng)險(xiǎn)預(yù)測(cè)模型,為建立手機(jī)APP軟件提供算法,為糖尿病I級(jí)預(yù)防提供風(fēng)險(xiǎn)預(yù)測(cè)支持。 方法 收集某醫(yī)院2016年1月—2017年7月的糖尿病患者全數(shù)據(jù)集,共5 571例,通過(guò)與同期體檢健康對(duì)照組5 571例進(jìn)行對(duì)比研究,分別建立Logistic 回歸模型和多層感知器神經(jīng)網(wǎng)絡(luò)模型,比較優(yōu)劣,確定最終預(yù)測(cè)模型。 結(jié)果 結(jié)果顯示 Logistic 回歸和多層感知器神經(jīng)網(wǎng)絡(luò)模型對(duì)訓(xùn)練樣本的預(yù)測(cè)準(zhǔn)確率分別為89.7%、80.4%,對(duì)測(cè)試樣本的預(yù)測(cè)準(zhǔn)確率分別為89.8%、79.8%。 結(jié)論 Logistic回歸模型對(duì)2型糖尿病風(fēng)險(xiǎn)預(yù)測(cè)效能較高,預(yù)測(cè)結(jié)果也更容易結(jié)合臨床實(shí)際,用于風(fēng)險(xiǎn)控制手機(jī)APP軟件后臺(tái)編程。
[關(guān)鍵詞] 2 型糖尿病;風(fēng)險(xiǎn)預(yù)測(cè)分析;Logistic回歸模型;多層感知器神經(jīng)網(wǎng)絡(luò)模型;決策樹(shù)分析模型
[中圖分類(lèi)號(hào)] R587.1????????? [文獻(xiàn)標(biāo)識(shí)碼] A????????? [文章編號(hào)] 1672-4062(2019)02(b)-0001-03
Establishment and Application of Risk Prediction Model for Type 2 Diabetes Based on Data Mining
CHEN Shu-liang1, CHANG Hong1, WANG Dong-ping2, ZHANG Ce1
1.The Second Affiliated Hospital of Dalian Medical University, Dalian, Liaoning Province, 116027 China; 2. Zhongshan College, Dalian Medical University, Dalian, Liaoning Province, 116023 China
[Abstract] Objective To investigate the risk factors of type 2 diabetes by using data mining methods, to determine the optimal risk prediction model, to provide algorithms for establishing mobile APP software, and to provide risk prediction support for diabetes level I prevention. Methods A total of 5 571 patients with diabetes mellitus from January 2016 to July 2017 in the hospital were enrolled. A logistic regression model and a multi-layer perceptron neural network model were established by comparing with 5 571 healthy people in the same period, comparing the pros and cons, determine the final prediction model. Results The results showed that the prediction accuracy of the logistic regression and multi-layer perceptron neural network model for training samples were 89.7% and 80.4%, respectively, and the prediction accuracy for the test samples was 89.8% and 79.8%, respectively. Conclusion Logistic regression model has higher predictive effect on risk of type 2 diabetes, and the prediction results are more easily combined with clinical practice. It is used for background programming of risk control mobile APP software.
[Key words] Type 2 diabetes; Risk prediction analysis; Logistic regression model; Multilayer perceptron neural network model; Decision tree analysis model
隨著經(jīng)濟(jì)發(fā)展,生活水平的提高,人口不斷向老齡化、城鎮(zhèn)化方向發(fā)展,糖尿病已經(jīng)成為嚴(yán)重危害人類(lèi)健康的重大公共衛(wèi)生問(wèn)題,其中全世界約有3.5億人患有2型糖尿病(T2DM)[1]。流行病學(xué)資料顯示我國(guó)每年新發(fā)的2型糖尿病人數(shù)達(dá)到 680 萬(wàn)~740萬(wàn)[2],由于2型糖尿病臨床確診前有較長(zhǎng)的潛隱期,因此,對(duì)高危人群的篩查和防治是控制2型糖尿病發(fā)病的有效途徑[3]。近年來(lái),數(shù)據(jù)挖掘方法廣泛應(yīng)用于醫(yī)學(xué)領(lǐng)域,在疾病診斷、預(yù)后、風(fēng)險(xiǎn)評(píng)估等方面表現(xiàn)出良好的應(yīng)用價(jià)值[4-6],也為臨床慢性病的控制提供了有效的工具和手段[7]。在前期的文獻(xiàn)檢索過(guò)程中,發(fā)現(xiàn)對(duì)糖尿病及其并發(fā)癥的研究較多,但各研究的樣本量不多,從數(shù)百例到數(shù)千例不等,達(dá)不到數(shù)據(jù)挖掘的準(zhǔn)確度要求[8-9]。該研究收集2016年1月—2017年7月11 142例數(shù)據(jù),預(yù)測(cè)未知人群的2型糖尿病風(fēng)險(xiǎn),做好慢性病的I級(jí)預(yù)防,并期望將這種數(shù)據(jù)模型軟件化,制成手機(jī)APP軟件,為2型糖尿病以及其他慢性疾病的I級(jí)預(yù)防提供理論依據(jù)及必要的預(yù)測(cè)工具,現(xiàn)報(bào)道如下。
1? 資料與方法
1.1? 一般資料
對(duì)醫(yī)院的內(nèi)分泌科住院的糖尿病患者全數(shù)據(jù)集5 571例進(jìn)行分析。同時(shí),在同期42 716名體檢中心健康人數(shù)據(jù)集中隨機(jī)抽取5 571名數(shù)據(jù)作為對(duì)照組,隨機(jī)種子數(shù)為1 794,數(shù)據(jù)處理過(guò)程中對(duì)數(shù)據(jù)進(jìn)行脫敏操作,保護(hù)患者隱私,通過(guò)醫(yī)院倫理委員會(huì)審查。
納入的糖尿病患者,診斷均符合2010版《中國(guó)2型糖尿病防治指南》[10]診斷標(biāo)準(zhǔn):①糖尿病癥狀加上隨機(jī)血糖檢測(cè),靜脈血漿葡萄糖≥11.1 mmol/L或②空腹血糖(FPG)靜脈血漿葡萄糖≥7.0 mmol/L或③葡萄糖負(fù)荷后2 h血糖≥11.1 mmol/L,癥狀不典型者,臨床診斷必須經(jīng)過(guò)另一天的重復(fù)試驗(yàn)所證實(shí)。
1.2? 變量及定義
①文化程度分為“高學(xué)歷”“低學(xué)歷”;②吸煙分為 “是” “否”;③飲酒分為“是”“否”;④地區(qū)分為市區(qū)、市區(qū)外;⑤婚姻分為“已婚”‘未婚;⑥職業(yè)分為腦力為主、體力為主;⑦體質(zhì)指數(shù) (body mass index,BMI)= 體重(kg)/身高(m)2;⑧高血壓:確診為高血壓者;⑨甘油三酯(TG):正常值0.4~1.81 mmol/L;⑩糖化血紅蛋白:正常值≤6.5%;{11}高血脂疾病史:均符合《血脂異常防治建議》中關(guān)于高血脂的診斷標(biāo)準(zhǔn),已被確診為高血脂癥;{12}冠心病疾病史[11]:以往被確診為冠心病;{13}甲狀腺疾病史[12]:以往被確診為甲狀腺性疾病;{14}糖尿病家族史:根據(jù)既往病例判斷,直系親屬患有糖尿病。
1.3? 統(tǒng)計(jì)方法
采用SPSS 17.0統(tǒng)計(jì)學(xué)軟件進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析。采用軟件的隨機(jī)數(shù)功能從全數(shù)據(jù)集中選取70%,作為訓(xùn)練樣本。余下的30%作為測(cè)試樣本。訓(xùn)練樣本用于計(jì)算參數(shù)和建立Logistic回歸模型和神經(jīng)網(wǎng)絡(luò)模型,測(cè)試樣本用于評(píng)估預(yù)測(cè)效果。
2? 結(jié)果
2.1? 一般情況
該研究共納入11 142例數(shù)據(jù),糖尿病組男性3 124例,女性2 447例,平均年齡(62.49±0.17)歲,健康對(duì)照組男性 3 002例,女性2 569 例,平均年齡(44.75±0.19)歲[13-14]。
2.2? logistic 回歸分析
模型變量篩選過(guò)程采用多因素建模篩選,按照“一般情況”(性別、年齡、文化程度、職業(yè)、民族、家庭住址、婚姻狀況、吸煙情況、飲酒)“既往病史”(家族史、高血壓、冠心病、甲狀腺、高血脂)“檢驗(yàn)結(jié)果”(收縮壓、舒張壓、總膽固醇、低密度脂蛋白、高密度脂蛋白、甘油三酯、谷草轉(zhuǎn)氨酶、谷丙轉(zhuǎn)氨酶、糖化血紅蛋白、BMI),將因素分為不同的模型,分別回歸,將有意義的因素篩選出來(lái)進(jìn)入最終的模型,得出糖尿病的最終影響因素。
Logistc回歸結(jié)果,如表1,建立多因素預(yù)測(cè)方程為:
P=1/(1+e(16.089-0.09×年齡+2.687×高血壓病史-1.471×冠心病病史-4.549×甲狀腺病史-0.021×收縮壓+0.005×谷草轉(zhuǎn)氨酶+2.941×糖尿病家族史+0.129×糖化血紅蛋白)。
根據(jù)所建方程對(duì)訓(xùn)練樣本進(jìn)行預(yù)測(cè),其預(yù)測(cè)準(zhǔn)確率為89.7%。其對(duì)測(cè)試樣本的預(yù)測(cè)準(zhǔn)確率是89.8%。
2.3? 多層感知器神經(jīng)網(wǎng)絡(luò)分析
該多層感知器神經(jīng)網(wǎng)絡(luò)模型共分為2層。見(jiàn)圖1。以2.2中篩選出的變量為自變量,以是否發(fā)生糖尿病為因變量建立多層感知器神經(jīng)網(wǎng)絡(luò)模型,其對(duì)訓(xùn)練樣本的預(yù)測(cè)準(zhǔn)確率為80.4%,對(duì)測(cè)試樣本的預(yù)測(cè)準(zhǔn)確率為79.8%。
3? 討論
該文研究結(jié)果表明,二個(gè)模型預(yù)測(cè)準(zhǔn)確率均較高,Logistic回歸模型得出的因素比較全面,對(duì)2型糖尿病的風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果相對(duì)準(zhǔn)確,可以較好地應(yīng)用于慢病風(fēng)險(xiǎn)預(yù)測(cè)。我們結(jié)合臨床實(shí)踐,并考慮決策樹(shù)在多類(lèi)別選擇時(shí),錯(cuò)誤可能會(huì)增長(zhǎng)的比較快,故該次研究未采用,多層感知器神經(jīng)網(wǎng)絡(luò)模型雖然有諸多優(yōu)勢(shì),但其是一個(gè)黑箱系統(tǒng),至今沒(méi)有明確的公式,結(jié)果不容易解釋?zhuān)瑫r(shí)其對(duì)數(shù)據(jù)預(yù)測(cè)準(zhǔn)確率也不優(yōu)于Logistic模型。數(shù)據(jù)顯示,兩個(gè)模型在影響因素的選擇方面取得了良好的一致性,印證了對(duì)真實(shí)世界數(shù)據(jù)集預(yù)測(cè)的相符性[15-18]。
該文最終采用Logistic回歸模型用于手機(jī)預(yù)測(cè)APP的編程,是目前流行病學(xué)和醫(yī)學(xué)中最常用的分析方法之一。首先從該文的結(jié)果可以看出,相同條件下Logisitc模型結(jié)果準(zhǔn)確率較高,其次其可以將建模結(jié)果公式化,相比于神經(jīng)網(wǎng)絡(luò)模型,更適用于軟件編程等實(shí)際應(yīng)用過(guò)程,另外, Logistic回歸中的回歸系數(shù)和OR值,可對(duì)模型和變量具有較好的解釋性,從而量化影響因素對(duì)輸出變量的影響,可應(yīng)用于慢病風(fēng)險(xiǎn)預(yù)測(cè)。采用Logistic回歸模型結(jié)果,可進(jìn)一步編寫(xiě)具有自學(xué)習(xí)能力的慢病風(fēng)險(xiǎn)預(yù)測(cè)手機(jī)APP軟件,利用手機(jī)APP軟件,公眾可把相關(guān)危險(xiǎn)因素輸入軟件,即可自行簡(jiǎn)便且免費(fèi)獲得罹患該疾病風(fēng)險(xiǎn)的初步信息,并根據(jù)專(zhuān)業(yè)醫(yī)生建議制定不同的防控措施,以期降低糖尿病的發(fā)病率。
[參考文獻(xiàn)]
[1]? Nathan DM. Diabetes: advances in diagnosis and treatment[J]. JAMA, 2015, 314(10): 1052-1062.
[2]? 中華醫(yī)學(xué)會(huì)糖尿病學(xué)分會(huì).新診斷2型糖尿病患者短期胰島素強(qiáng)化治療專(zhuān)家共識(shí)[J].中華醫(yī)學(xué)雜志,2013,93(20):1524-1526.
[3]? Bhushan R, Elkind-hirsch KE, Bhushan M, et al. Improved glycemic control and reduction of cardiometabolic risk factors in subjects with type 2 diabetes and metabolic syndrome treated with exenatide in a clinical practice setting[J]. Diabetes Technol Ther, 2009, 11(6): 353-359.
[4]? 吳偉,郭軍巧,安淑一,等.使用思維進(jìn)化算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)建立腎綜合征出血熱預(yù)測(cè)模型[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2016,33(1):27-30.
[5]? 葉華容,楊怡,林萱,等.BP神經(jīng)網(wǎng)絡(luò)在高頻彩超特征診斷乳腺癌中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2016,33(1):71-72.
[6]? Tseng WT, Chiang WF, Liu SY, et al. The application of data mining techniques to oral cancer prognosis[J]. J Med Syst, 2015, 39(5): 59-66.
[7]? Gonzalez GH, Tahsin T, Goodale BC, et al. Recent advances and emerging applications in text and data mining for biomedical discovery[J]. Brief Bioinform, 2015, 17(1): 33-42.
[8]? 黃雅鈴,楊曉波,龍禹,等.廣西地區(qū)妊娠期糖尿病的危險(xiǎn)因素分析及其風(fēng)險(xiǎn)預(yù)測(cè)模型的建立[J].廣西醫(yī)科大學(xué)學(xué)報(bào),2017,34(6):835-838.
[9]? 呂喆,陳亦棋,沈麗君,等.2型糖尿病患者糖尿病視網(wǎng)膜病變風(fēng)險(xiǎn)預(yù)測(cè)模型的建立和初步驗(yàn)證[J].中華眼底病雜志,2017,33(3).
[10]? 中華醫(yī)學(xué)會(huì)糖尿病學(xué)分會(huì).中國(guó)2型糖尿病防治指南(2010年版)[J].中國(guó)實(shí)用鄉(xiāng)村醫(yī)生雜志,2011,20(6):4-5.
[11]? 中華醫(yī)學(xué)會(huì)心血管病學(xué)分會(huì),中華心血管病雜志編輯委員會(huì).非ST段抬高急性冠狀動(dòng)脈綜合征診斷和治療指南[J].中華心血管病雜志,2012,40(5):353-367.
[12]? 黨樂(lè),胡雅婷,張永莉.多種抗體檢測(cè)在甲狀腺疾病診斷中的應(yīng)用價(jià)值[J].中國(guó)醫(yī)藥導(dǎo)報(bào),2016,13(18):65-68.
[13]? 楊小軍,張雪超,李安琪.利用Excel和Tableau實(shí)現(xiàn)業(yè)務(wù)工作數(shù)據(jù)化管理[J].電腦編程技巧與維護(hù),2017(12):66-68.
[14]? 陳春明,孔靈芝.中華人民共和國(guó)衛(wèi)生部疾病控制司.中國(guó)成人超重和肥胖癥預(yù)防控制指南[M].北京:人民衛(wèi)生出版社,2006.
[15]? 宋健,吳學(xué)森,張杰,等.三種統(tǒng)計(jì)學(xué)模型在糖尿病個(gè)體患病風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2017(2):312-314.
[16]? 趙曉華.基于大數(shù)據(jù)下2型糖尿病及并發(fā)癥患者就診信息的挖掘研究[D].廣州:廣州中醫(yī)藥大學(xué),2016.
[17]? Leon BM, Maddox TM. Diabetes and cardiovascular disease: Epidemiology, biological mechanisms, treatment recommendations and future research[J]. World J Diabetes, 2015, 6(13): 1246-1258.
[18]? 王東營(yíng),張琨,許天敏.宮頸癌患病危險(xiǎn)因素及一級(jí)預(yù)防[J].現(xiàn)代腫瘤醫(yī)學(xué),2017,25(11):1827-1830.