孫敏嫻 張紅梅 毛紅 易蘭 周婕
糖尿病是目前最常見的慢性非傳染性疾病之一,我國糖尿病患者數(shù)量居世界首位,其患病率從1980年的0.67%上升至2017年的11.2%[1-2]。糖尿病患者臨床特征多樣,精準醫(yī)療的需求顯得越來越重要[3]。機器學習可通過自動學習大量輸入的數(shù)據(jù)樣本內在結構和規(guī)則,對新樣本進行智能辨識,甚至實現(xiàn)對未來的預測,符合精準醫(yī)療的需求,在醫(yī)學領域已得到越來越廣泛的應用。我們收集了1 487例新診斷2型糖尿病(T2DM)患者的人體成分、生化指標等數(shù)據(jù),應用機器學習建模方法對T2DM不同代謝表型進行分類預測,旨在為T2DM精準醫(yī)療提供依據(jù)。
1.對象:收集2017年8月~2019年1月于我科住院的1 487例新診斷T2DM患者的臨床資料。納入標準:(1)T2DM符合WHO 1999糖尿病診斷標準;(2)年齡≥20歲。排除標準:1型糖尿病、妊娠期糖尿病及其他類型糖尿??;合并感染、急性糖尿病并發(fā)癥、急性心腦血管疾病、急性消化系統(tǒng)疾病、嚴重肝腎功能不全、自身免疫系統(tǒng)疾病、腫瘤性疾病、甲狀腺功能異常。患者均自愿參與本研究并簽署知情同意書。
2.方法
(1)一般資料收集和體格檢查:收集患者的性別、年齡、煙酒嗜好、基礎疾病病史、目前用藥情況。測定患者的身高、腰圍、臀圍、血壓、心率。腰圍測量方法:腋中線髂前上棘與十二肋骨下緣連線的中點,沿水平方向圍繞腹部一周。臀圍測量方法:沿股骨大轉子水平測量臀部最大周徑。
(2)人體成分分析:使用清華同方人體成分分析儀BCA-1B獲取人體成分數(shù)據(jù)。要求所有受試者測試前6 h內禁止劇烈活動,測試當天空腹、排空大小便、脫去鞋襪、著薄衣,雙腳平行站于足形電極上,雙手握住手柄電極(拇指在上,其余四指在下),雙臂伸直外展30°。測量過程中保持安靜,不做身體移動。分析指標包括體重、BMI、腰臀比、體脂率、總水分、脂肪、骨質、蛋白質、肌肉、瘦體重、骨骼肌、基礎代謝率。
(3)生化指標檢測:患者空腹8~10 h后于次日清晨采集靜脈血,檢測糖化血紅蛋白(HbA1c)、ALT、白蛋白(Alb)、空腹血糖(FPG)、血尿素氮(BUN)、血肌酐(SCr)、尿酸(UA)、甘油三酯(TG)、總膽固醇(TC)、低密度脂蛋白膽固醇(LDL-C)和Hb。
1.T2DM患者的一般資料、人體成分與生化指標情況:首先對1 487例數(shù)據(jù)進行初步篩選,剔除部分有記錄缺失或不完整樣本,獲得合格樣本1 146例。除性別為分類變量外,其余均為數(shù)值變量,經(jīng)Box-Cox轉換后均符合正態(tài)分布。1 146例合格樣本的一般資料、人體成分與生化指標情況見表1。
表1 1 146例T2DM患者一般資料、人體成分與生化指標情況
2.T2DM患者臨床代謝亞型的聚類分析:相關指標的聚類分析結果見圖1,臨床代謝亞型的最佳分類為3個。將3個臨床代謝亞型與原始指標結合,利用隨機森林篩選臨床數(shù)據(jù)的特征指標見表2。平均準確度下降主要從精確度來衡量變量重要性,平均基尼指數(shù)下降主要從基尼指數(shù)來衡量變量重要性。由此篩選出10個作為臨床代謝亞型的敏感特征指標,按基尼指數(shù)排序依次為骨質(181.814)、骨骼肌(177.686)、體重(114.874)、體脂率(61.12)、基礎代謝率(40.225)、腰臀比(24.934)、SCr(17.221)、BMI(12.886)、Hb(12.339)和年齡(11.748)。在篩選出上述10個特征指標后再次進行聚類分析,提取3個亞型的特征值,并用雷達圖對這3種亞型的特征進行臨床歸納和可視化(圖2):A型(高瘦體重型):骨質、骨骼肌、體重、基礎代謝率高,體脂率低;B型(少肌少脂低體重型):體重、BMI、骨質、骨骼肌、脂肪、體脂率、腰臀比均低,基礎代謝率極低;C型(高脂肪型):脂肪、體脂率、BMI、腰臀比大,骨骼肌、骨質較少,基礎代謝率較低。
圖1 1 146例T2DM患者代謝亞型相關指標的聚類分析結果[A:t-分布式隨機鄰域嵌入(T-SNE)顯示3個分類的聚類效果;B:層次聚類的聚類效果]
圖2 3種臨床代謝亞型的特征變量雷達圖
表2 影響T2DM代謝亞型指標的平均準確度下降及平均基尼指數(shù)下降情況
3.T2DM患者代謝亞型的決策樹分析及預測評估:通過決策樹分析,自動將所有特征指標進行離散化,結果顯示僅需5個變量即可對3種代謝亞型進行判斷,這5個特征變量及其診斷點分別是:骨骼肌(診斷點為34 kg)、脂肪(診斷點為20 kg)、體脂率(診斷點為33%)、體重(診斷點為63 kg)和腰臀比(診斷點為0.89),繪制出決策樹流程圖見圖3。在1 146例T2DM患者的臨床數(shù)據(jù)中,驗證集取源數(shù)據(jù)的1/3(即382例),決策樹模型的預測準確度為91.36%,kappa一致性指數(shù)為0.868(>0.75),模型擬合效果較好。見表3。
圖3 決策樹流程圖
表3 決策樹模型的預測結果[例,(%)]
在糖尿病領域,近年來逐漸出現(xiàn)運用機器學習算法進行糖尿病分型[5-6]、診斷[7]、預測[8]等方面的研究,其中糖尿病分型的目的是對病因、自然病史、遺傳學、臨床表型和最佳治療方法進行更個體化的治療[9]。隨著研究不斷深入,糖尿病分型也在細化[5-6,10],以滿足臨床精準醫(yī)療的需求。與之前糖尿病分類所納入的變量不同[5-6],本研究基于T2DM患者人體成分分析的大數(shù)據(jù)進行聚類分析,利用隨機森林篩選臨床數(shù)據(jù)的特征量,最終得出5個人體成分的相關變量(骨骼肌、脂肪、體脂率、體重和腰臀比)作為特征指標,從而進一步明確亞型的特點,且本研究決策樹模型的預測結果提示,其對于糖尿病代謝亞型的預測準確度達91.36%。
人體成分是指人體所有組織器官的總成分,分為脂肪和非脂肪兩部分,后者稱為瘦體重(主要成分為肌肉、骨骼等)。瘦體重與基礎代謝具有相關性:性別與年齡對基礎代謝率的影響與瘦體重相關,男性的瘦體重高于女性,因此男性基礎代謝率高于女性;隨著年齡的增加,瘦體重逐漸下降,因此基礎代謝率隨年齡增大逐漸減低[11]。我們既往的研究發(fā)現(xiàn),T2DM患者的BMI與基礎代謝率呈正相關,同時瘦體重是影響基礎代謝率的主要因素,瘦體重與基礎代謝率呈顯著正相關[12]。本研究中機器學習探索的3個糖尿病臨床亞型基礎代謝特點與上述情況相符:具有高瘦體重的A型伴有高基礎代謝率,少肌少脂低體重的B型基礎代謝率最低,而高脂肪低瘦體重的C型基礎代謝率較低。另一方面,人體成分的異常變化也與多種代謝性疾病相關:肥胖常伴隨脂肪代謝障礙,脂肪含量(尤其是內臟脂肪)增加是T2DM、代謝綜合征、缺血性心腦血管病的高危因素。中國超重與肥胖人群的糖尿病患病率分別為12.8%和18.5%[13];而在糖尿病患者中超重比例為41.0%,肥胖比例為24.3%,腹型肥胖比例高達45.4%[14]。骨骼肌是胰島素介導代謝葡萄糖的主要場所之一,骨骼肌丟失使得胰島素敏感性下降,葡萄糖的代謝更差,同時出現(xiàn)高胰島素血癥,進一步升高血糖[15]。有研究顯示,老年T2DM患者肌少癥的患病率約為14.85%[16]。盡管體脂率相當,伴肌少癥的T2DM患者骨骼肌量、體脂含量及基礎代謝率均低于不伴肌少癥的T2DM對照組[15]。肌少癥與肥胖共存時被稱為肌少性肥胖(SO),類似于本研究中的C型。與單純性肥胖者相比,SO患者同時存在肥胖和肌肉量下降,胰島素抵抗更嚴重,血糖控制更差。另外,低骨密度或骨質疏松與肌少癥共存時稱為“骨骼肌肉減少癥”[17],兩者均影響人體正?;顒?,增加骨折發(fā)生率及住院率,降低生活質量。
在糖尿病的治療過程中,尤其要注意控制飲食及減重過程中帶來的人體成分變化。理想的體重控制應達到脂肪含量的最大限度下降,而瘦體重無明顯下降,達到合適的體脂率,避免盲目節(jié)食或不合適運動所導致肌少癥、骨質疏松或骨骼肌肉減少癥的發(fā)生[18]。盡管體重、BMI、腰圍、腰臀比是目前評估肥胖的主要指標,在代謝性疾病及心血管疾病的風險評估方面具有重要意義,但這些指標不能全面反映人體成分情況。因此,納入人體成分的糖尿病亞型分類可以幫助更精準地進行飲食和運動指導,有利于糖尿病及相關代謝性疾病的控制。本研究發(fā)現(xiàn)的3個糖尿病亞型中,A型(高瘦體重型)伴有高基礎代謝率,需要適當增加每日熱量的攝入以滿足身體每日需要;B型(少肌少脂低體重型)需要進行增肌運動,增加熱量攝入增肌增脂;C型(高脂肪型)高脂肪同時伴低瘦體重,需要著眼于減脂增肌運動,控制熱量攝入。
綜上所述,本研究基于臨床大數(shù)據(jù)及人工智能計算機學習方法對T2DM進行進一步的臨床代謝類型分型,但這種分型方法也存在不同程度的局限性,僅能與傳統(tǒng)的分型互相補充,而非替代。機器學習是通過統(tǒng)計學方法針對臨床數(shù)據(jù)得出的結論,探索T2DM可能的臨床代謝亞型,但仍需要更多基礎研究來證實其潛在的機制。隨著臨床醫(yī)學研究技術的不斷發(fā)展,樣本數(shù)量及臨床特征的不斷積累,人工智能方法能更好地利用這些醫(yī)療大數(shù)據(jù)挖掘其中隱藏的規(guī)律和信息知識,為臨床醫(yī)療決策提供支持。