孟敏敏,韓 晶,耿晉瑩,李歡歡,楊 弘,李 靚,張巖波#,王 彥
(1山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計學(xué)教研室,太原 030001;2山西醫(yī)科大學(xué)第一臨床醫(yī)學(xué)院內(nèi)分泌科;3山西醫(yī)科大學(xué)第一醫(yī)院內(nèi)分泌科;*通訊作者,E-mail:wyroad@126.com;#共同通訊作者,E-mail:sxmuzyb@126.com)
妊娠糖尿病(gestational diabetes mellitus,GDM)是指妊娠前糖代謝正常,妊娠期間發(fā)生糖代謝異常但血糖未達(dá)到顯性糖尿病的水平,是一種常見的產(chǎn)科疾病[1]。有數(shù)據(jù)顯示,我國妊娠糖尿病患病率逐年增加并且該疾病會對孕婦、胎兒、新生兒產(chǎn)生各種不利影響。妊娠糖尿病患者的產(chǎn)后血糖大多數(shù)可以恢復(fù)正常,但也有小部分患者會發(fā)生糖耐量異常甚至轉(zhuǎn)變?yōu)?型糖尿病[2]。產(chǎn)后糖代謝異常會對產(chǎn)婦造成短期或長期的影響如發(fā)生各種代謝性疾病,包括心血管疾病、高血壓、高血脂、肥胖等。因此,分析患者產(chǎn)后糖代謝異常的高危因素并對高危因素提前進(jìn)行管控,在一定程度上可以預(yù)防糖尿病的發(fā)生、發(fā)展且對孕婦、胎兒、新生兒的健康都有很重要的臨床意義[3]。近年來,機(jī)器學(xué)習(xí)廣泛應(yīng)用于醫(yī)療衛(wèi)生領(lǐng)域,在疾病診斷和預(yù)測等方面具有一定的優(yōu)勢,因此,本研究擬利用多因素Logistic回歸和隨機(jī)森林算法,通過隊列研究數(shù)據(jù)構(gòu)建妊娠糖尿病患者產(chǎn)后糖代謝異常的風(fēng)險預(yù)測模型,以期為臨床實踐中妊娠糖尿病患者產(chǎn)后糖代謝異常的風(fēng)險評估提供數(shù)據(jù)指導(dǎo),便于盡早發(fā)現(xiàn)病情,開展臨床治療。
本研究基于山西醫(yī)科大學(xué)第一醫(yī)院產(chǎn)科分娩的妊娠糖尿病患者隊列研究,該隊列于2021年8月開始,共納入妊娠糖尿病患者207例。每位患者產(chǎn)后6周進(jìn)行隨訪,隨訪結(jié)局事件為產(chǎn)后6周血糖情況。
妊娠糖尿病(GDM)診斷標(biāo)準(zhǔn):妊娠24~28周行75 g口服葡萄糖耐量試驗(OGTT),空腹、口服葡萄糖后1 h,2 h血糖分別為5.1~6.9 mmol/L,≥10.0 mmol/L,8.5~11.0 mmol/L,任何一個時間點(diǎn)血糖值達(dá)到上述標(biāo)準(zhǔn)即診斷為GDM。
產(chǎn)后血糖異常包含以下3種情況:①糖尿病:空腹血糖≥7.0 mmol/L和(或)餐后2 h血糖≥11.1 mmol/L和(或)糖化血紅蛋白≥6.5%;②葡萄糖耐量減低:空腹血糖<6.1 mmol/L,餐后2 h血糖7.8~11.1 mmol/L;③空腹血糖受損:空腹血糖6.1~7.0 mmol/L同時餐后2 h血糖<7.8 mmol/L。
孕前體質(zhì)指數(shù)(kg/m2)=孕前體質(zhì)量(kg)/身高(m)2;產(chǎn)時體質(zhì)指數(shù)(kg/m2)=產(chǎn)時體質(zhì)量/身高2;孕期體質(zhì)量增加值(kg)=產(chǎn)時體質(zhì)量(kg)-孕前體質(zhì)量(kg)。糖尿病家族史:患者的直系親屬患有糖尿病如父母和兄弟姐妹;妊娠糖尿病史:前幾次生產(chǎn)時就曾患有妊娠糖尿病。合并癥:妊娠的同時患有子癇前期、多囊卵巢綜合征、妊娠期高血壓、高脂血癥、肥胖癥、亞臨床甲減等代謝性疾病。
1.3.2 多因素Logistic回歸分析 利用逐步回歸法篩選變量,變量的入選標(biāo)準(zhǔn)為P<0.05,采用極大似然法構(gòu)建基于Logistic回歸的妊娠糖尿病患者產(chǎn)后血糖異常的風(fēng)險預(yù)測模型。
1.3.3 隨機(jī)森林算法 隨機(jī)森林利用Bootstrap抽樣法,從訓(xùn)練集中有放回地隨機(jī)抽取n個樣本,生成有差異的新子集;再根據(jù)n個訓(xùn)練子集建立相應(yīng)的決策樹。本研究屬于分類問題,應(yīng)結(jié)合多棵樹的分類結(jié)果,利用投票法將最高得票的類別用于最終的判斷結(jié)果[4,5]。
妊娠糖尿病患者產(chǎn)后血糖異常風(fēng)險預(yù)測模型的效能評價指標(biāo)包括準(zhǔn)確率、精確度、召回率、F1得分和受試者工作特征曲線下面積(AUC),AUC越大,模型的預(yù)測效能更好。
本次研究共納入207例,產(chǎn)后血糖異常患者41例,產(chǎn)后血糖正?;颊?66例,產(chǎn)后血糖異常發(fā)生率為19.8%。根據(jù)患者產(chǎn)后6周隨訪結(jié)果即血糖是否正常分兩組,分別描述研究對象基線特征,并分別比較兩組間每個特征是否有統(tǒng)計學(xué)差異。研究納入的特征有:患者年齡、孕次、產(chǎn)次、流產(chǎn)史、孕晚期宮高及腹圍、孕前體質(zhì)指數(shù)(孕前BMI)、產(chǎn)時體質(zhì)指數(shù)(產(chǎn)時BMI)、孕期體質(zhì)量增加值、妊娠糖尿病(GDM)診斷孕周、產(chǎn)婦分娩周數(shù);診斷GDM時空腹血糖(0 h GLU)、餐后1 h血糖(1 h GLU)、餐后2 h血糖(2 h GLU);孕晚期白細(xì)胞、紅細(xì)胞、血紅蛋白、血小板計數(shù)、游離三碘甲狀腺原氨酸(FT3)、游離甲狀腺素(FT4)、促甲狀腺激素(TSH)、糖化血紅蛋白(HbA1c)及D-二聚體;是否有合并癥、孕期是否采用胰島素治療、是否母乳喂養(yǎng)、是否有糖尿病家族史、是否有妊娠糖尿病史、是否有流產(chǎn)史。納入的所有特征中分類變量的賦值情況見表1,患者基本信息見表2。
表1 納入的特征中分類變量賦值情況
表2 研究對象基本情況
2.2.1 變量重要性排序 用訓(xùn)練集構(gòu)建基于隨機(jī)森林算法的妊娠糖尿病患者產(chǎn)后糖代謝異常的風(fēng)險預(yù)測模型,得到變量重要性排序依次為:0 h GLU、是否母乳喂養(yǎng)、GDM診斷孕周、孕前BMI、產(chǎn)時BMI、HbA1c、FT3、孕期體質(zhì)量增加值、血小板計數(shù)、2 h GLU、1 h GLU、紅細(xì)胞、D-二聚體、年齡、FT4、白細(xì)胞、血紅蛋白、腹圍、TSH、孕次、分娩周數(shù)、宮高、是否胰島素治療、產(chǎn)次、流產(chǎn)史、GDM史、有無合并癥、糖尿病家族史(見圖1)。
圖1 產(chǎn)后糖代謝異常預(yù)測模型的變量重要性排序
2.2.2 降維 根據(jù)變量重要性排序進(jìn)行逐步隨機(jī)森林分析。結(jié)果顯示,變量數(shù)為13時袋外數(shù)據(jù)錯誤率最低(見圖2)。故將重要性排名前13的變量納入隨機(jī)森林算法和多因素Logistic回歸中建立預(yù)測模型。
n_features為進(jìn)入模型的變量個數(shù);OOB error rate為袋外數(shù)據(jù)錯誤率
以隨機(jī)森林篩選出的0 h GLU、是否母乳喂養(yǎng)、GDM診斷孕周、孕前BMI、產(chǎn)時BMI、HbA1c、FT3、孕期體質(zhì)量增加值、血小板計數(shù)、2 h GLU、1 h GLU、紅細(xì)胞、D-二聚體13個因素作為自變量,產(chǎn)后糖代謝是否異常為因變量進(jìn)行多因素Logistic回歸分析,以α入=0.05和α出=0.1篩選變量。結(jié)果顯示,GLU(0 h)、FT3、GDM診斷孕周、是否母乳喂養(yǎng)有統(tǒng)計學(xué)意義(P<0.05,見表3)。
表3 產(chǎn)后糖代謝異常的多因素Logistic回歸分析結(jié)果
隨機(jī)森林預(yù)測模型十折交叉驗證結(jié)果顯示,當(dāng)隨機(jī)樹數(shù)量為8,樹的最大深度為3時能夠建立最優(yōu)模型;診斷GDM時空腹血糖、FT3、GDM診斷孕周對妊娠糖尿病患者產(chǎn)后血糖情況的影響最大,產(chǎn)時BMI、是否母乳喂養(yǎng)、孕期體質(zhì)量增加值對產(chǎn)后糖代謝也有一定的影響。
兩種模型的具體對比結(jié)果見表4,可以看出隨機(jī)森林模型的各個評價指標(biāo)都要優(yōu)于多因素Logistic回歸模型。兩個模型測試集的ROC曲線圖見圖3。
圖3 隨機(jī)森林和多因素Logistic回歸測試集ROC曲線
表4 隨機(jī)森林和多因素Logistic回歸分析模型比較
隨機(jī)森林是Leo Breiman于2001年提出的一種智能化機(jī)器學(xué)習(xí)算法,對數(shù)據(jù)特征類型沒有特殊的要求[5]。與常規(guī)的多因素Logistic回歸預(yù)測模型相比,隨機(jī)森林算法具有高度并行化,不容易過擬合,對部分特征缺失不敏感,抗噪能力強(qiáng)等優(yōu)勢[6,7],即便是對于復(fù)雜的數(shù)據(jù),也能在比較高的預(yù)測精度下給出各個特征對因變量的重要性評分,也正因如此,隨機(jī)森林算法已被廣泛應(yīng)用于臨床研究尤其是各種疾病的風(fēng)險評估和影響因素探索等方面。但是,隨機(jī)森林模型和多因素Logistic回歸相比也有一定的不足之處,如多因素Logistic回歸不僅能得出與因變量相關(guān)的重要特征,而且能夠?qū)Ω鱾€特征的作用方向及作用程度做出更直觀的解釋。本研究構(gòu)建的妊娠糖尿病患者產(chǎn)后血糖異常風(fēng)險預(yù)測模型中,隨機(jī)森林模型預(yù)測的準(zhǔn)確率為0.890,精確度為0.830,召回率為0.800,F1得分為0.810,AUC為0.934;多因素Logistic回歸模型預(yù)測的準(zhǔn)確率為0.870,精確度為0.820,召回率為0.730,F1得分為0.760,AUC為0.908,可以看出隨機(jī)森林模型的各個評價指標(biāo)都要優(yōu)于多因素Logistic回歸模型。桑祎瑩等[8]構(gòu)建了診斷糖尿病周圍神經(jīng)病變的隨機(jī)森林和Logistic回歸模型,發(fā)現(xiàn)隨機(jī)森林的預(yù)測效能要高于Logistic回歸模型,兩個預(yù)測模型的AUC值分別為0.963和0.882;梁冰倩等[9]比較了隨機(jī)森林和Logistic回歸在高尿酸血癥預(yù)測中的效能,結(jié)果表明,隨機(jī)森林預(yù)測模型的AUC值為0.759,Logistic回歸模型的AUC值為0.658。本研究結(jié)論與以上研究一致,均表明隨機(jī)森林模型預(yù)測效果要優(yōu)于多因素Logistic回歸模型。
妊娠糖尿病患者是發(fā)展為2型糖尿病的高危人群,有研究表明,對產(chǎn)后血糖異常程度較低的患者提前進(jìn)行干預(yù)能夠預(yù)防遠(yuǎn)期糖尿病的發(fā)生,突出強(qiáng)調(diào)了產(chǎn)后血糖篩查的必要性[10]。但在隨訪過程中,我們發(fā)現(xiàn)部分患者的產(chǎn)后血糖篩查依從性不高,說明患者沒有充分認(rèn)識到妊娠糖尿病的遠(yuǎn)期不利影響,這也突出了本研究的重要性。本研究能夠為產(chǎn)后糖代謝異常的高危人群篩選提供一定的借鑒作用,臨床人員可以根據(jù)研究結(jié)果對重點(diǎn)人群進(jìn)行健康宣教,讓患者深刻意識到產(chǎn)后血糖篩查的重要性并且行動起來,在一定程度上預(yù)防產(chǎn)后糖代謝異常甚至糖尿病的發(fā)生。
本研究中多因素Logistic回歸發(fā)現(xiàn),診斷GDM時空腹血糖高、診斷孕周早、孕晚期FT3較高以及非母乳喂養(yǎng)與產(chǎn)后糖代謝異常的發(fā)生相關(guān)??崭寡窃谀撤N程度上反映了胰島素抵抗因子的水平,正常孕婦的空腹血糖較低,若孕期空腹血糖水平較高,則說明機(jī)體胰島素抵抗程度嚴(yán)重,產(chǎn)后糖代謝異常甚至發(fā)展為糖尿病的機(jī)會更大。Kim等[11]在對混雜因素調(diào)整后,發(fā)現(xiàn)妊娠期間空腹血糖值是產(chǎn)后糖耐量異常最有力的預(yù)測因子;Damm等[12]的研究也證明,診斷GDM時患者空腹血糖水平高是妊娠糖尿病患者晚期發(fā)展為糖尿病的獨(dú)立預(yù)測因素;除此之外,西班牙的一項研究[13]也指出,診斷GDM時OGTT的4個異常血糖值是產(chǎn)后糖代謝異常甚至糖尿病的最強(qiáng)預(yù)測因子。診斷孕周越早,說明患者胰島素抵抗程度更加嚴(yán)重,糖代謝異常程度更高,因此產(chǎn)后4~12周血糖異常機(jī)會更大,這與吳連方等[14]和孫偉杰等[15]的研究結(jié)果一致。有研究表明母乳喂養(yǎng)可幫助GDM患者預(yù)防產(chǎn)后糖代謝異常,母乳喂養(yǎng)的時間越長,GDM患者產(chǎn)后糖代謝異常的比率越低[16]。這可能是因為當(dāng)女性母乳喂養(yǎng)時,每天大約50 g的葡萄糖被用于產(chǎn)奶過程中,從而導(dǎo)致相對于非母乳喂養(yǎng)患者,血糖更容易降低[17]。更加具有臨床意義的是,母乳喂養(yǎng)會增強(qiáng)新生兒抵抗力,促進(jìn)新生兒發(fā)育;同時可以降低產(chǎn)婦發(fā)生乳腺癌、子宮癌以及各種代謝性疾病的風(fēng)險。從隨機(jī)森林特征重要性排序可以看出,孕前BMI和產(chǎn)時BMI均與產(chǎn)后血糖異常相關(guān),這與胡可軍[18]的報道相一致。一方面,BMI越高,機(jī)體越容易發(fā)生脂代謝紊亂,進(jìn)而導(dǎo)致胰島素抵抗程度增加,產(chǎn)后糖代謝異常的概率增大;另一方面,BMI越高,說明機(jī)體的脂肪儲備越多,脂肪能夠分泌與胰島素抵抗指數(shù)相關(guān)的瘦素,血清瘦素增加,胰島素抵抗程度也會隨之增加。糖化血紅蛋白能夠反應(yīng)近2~3個月的血糖水平,毫無疑問,糖化血紅蛋白值越高,產(chǎn)后糖代謝異常的幾率更大,胥華猛等[19]對這一問題做了詳細(xì)的闡述。甲狀腺激素也與產(chǎn)后糖代謝異常有關(guān),是因為甲狀腺激素具有升高血糖的作用,它能夠加速小腸黏膜對葡萄糖的吸收;促進(jìn)肝糖原分解;促進(jìn)肝臟糖異生作用;增強(qiáng)腎上腺素、胰高血糖素、皮質(zhì)醇和生長激素的升糖效應(yīng)。在Tang等[20]的研究中,發(fā)現(xiàn)妊娠早期FT3水平高是產(chǎn)后糖代謝異常的危險因素,而本研究還得出孕晚期FT3水平高是產(chǎn)后糖代謝異常的危險因素,造成這種差異的原因可能是兩個研究納入的自變量不同。
綜上所述,本研究得出診斷GDM時空腹血糖高,非母乳喂養(yǎng),診斷孕周早等是妊娠糖尿病患者產(chǎn)后糖代謝異常的危險因素,我們應(yīng)對重點(diǎn)人群進(jìn)行健康宣教,提高妊娠糖尿病患者產(chǎn)后血糖篩查的依從性,必要時采取針對性干預(yù)措施,在一定程度上可以降低產(chǎn)后糖代謝異常的發(fā)生率。除此之外,通過運(yùn)用數(shù)據(jù)挖掘的算法來建立妊娠糖尿病患者產(chǎn)后糖代謝異常的風(fēng)險預(yù)測模型,是大數(shù)據(jù)時代醫(yī)學(xué)研究方面的一個熱點(diǎn),我們要好好利用起來,使其在疾病風(fēng)險預(yù)測中發(fā)揮更大的臨床作用。