王瑩 顧大勇
關(guān)鍵詞:甲亢;甲減;機(jī)器學(xué)習(xí);邏輯回歸;醫(yī)學(xué)檢驗
中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2023)02-0007-04
1概述
甲狀腺是人體內(nèi)分泌系統(tǒng)的重要組成部分,通過穩(wěn)定甲狀腺激素,維持人體的新陳代謝。甲狀腺功能減退癥(甲減)和甲狀腺功能亢進(jìn)癥(甲亢)是兩種最常見的甲狀腺疾病[1]。甲亢的特征是甲狀腺激素合成和甲狀腺分泌增加,造成機(jī)體代謝亢進(jìn)和交感神經(jīng)興奮,引起心悸、出汗、進(jìn)食和便次增多及體重減少的病癥。部分患者同時有突眼、眼瞼水腫、視力減退等癥狀。甲減是指甲狀腺激素缺乏癥,如果得不到及時治療,將嚴(yán)重影響健康,甚至導(dǎo)致死亡。甲狀腺疾病和代謝異常綜合征、糖尿病、高血壓和血脂異常的多發(fā)性在老年人中很常見[2]。甲狀腺疾病的早診斷、早治療在預(yù)防和減少其并發(fā)癥方面起著重要作用,可以降低相關(guān)疾病的發(fā)病率和死亡率。
甲狀腺疾病的病因復(fù)雜,與自身免疫狀態(tài)、環(huán)境、營養(yǎng)、遺傳基因等都有著密切的關(guān)系。目前,醫(yī)學(xué)實驗室檢查是臨床診斷甲狀腺功能障礙的常用方式,主要通過檢測總甲狀腺素(Total Thyroxine ,TT4)、游離甲狀腺素(Free Thyroxine,F(xiàn)T4)、總?cè)饧谞钕侔彼幔═otal Triiodothyronine ,TT3)、游離三碘甲狀腺氨酸(Free Triiodothyronine,F(xiàn)T3)及促甲狀腺激素(ThyroidStimulating Hormone, TSH)五項醫(yī)學(xué)檢驗項目,從而根據(jù)其水平判斷甲狀腺功能(甲功)是否正常,甲功五項檢測結(jié)果具有相對較高的臨床診斷符合率[3-5]。甲功五項對甲狀腺疾病的類型判斷、療效監(jiān)測、病情評估都具有重要價值,直接影響臨床醫(yī)生的診斷及用藥[6]。在臨床上, 采用何種檢查方式評價甲狀腺功能并無統(tǒng)一說法[7],研究發(fā)現(xiàn)其他醫(yī)學(xué)實驗室檢查項目與甲狀腺疾病相關(guān),例如尿碘、糖化血紅蛋白和血糖等,尿碘與甲狀腺疾病的關(guān)系日益突出并受到關(guān)注,尿碘監(jiān)測對于防治甲狀腺疾病具有重要的現(xiàn)實意義[8-10],糖化血紅蛋白與血糖同樣與甲狀腺疾病相關(guān),患糖尿病人群發(fā)生甲狀腺功能障礙的概率較非糖尿病人群高出2~3倍[11]。因此有必要全面發(fā)掘醫(yī)學(xué)檢驗項目與甲狀腺疾病的相關(guān)性。醫(yī)學(xué)檢驗項目具有數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜和數(shù)據(jù)維度高等特點,傳統(tǒng)的數(shù)理統(tǒng)計工具已經(jīng)無法滿足要求,機(jī)器學(xué)習(xí)是用計算機(jī)通過算法來學(xué)習(xí)數(shù)據(jù)中包含的內(nèi)在規(guī)律和信息,從而獲得新的經(jīng)驗和知識,以提高計算機(jī)的智能性,使計算機(jī)面對問題時能夠做出與人類相似的決策[12]。機(jī)器學(xué)習(xí)有助于從海量的醫(yī)學(xué)數(shù)據(jù)中發(fā)現(xiàn)傳統(tǒng)數(shù)理統(tǒng)計無法發(fā)現(xiàn)的問題,為臨床診斷提供新的解決問題思路[13]。
為了發(fā)掘醫(yī)學(xué)檢驗項目與甲狀腺疾病的相關(guān)性,本研究采用機(jī)器學(xué)習(xí)算法對全維度醫(yī)學(xué)檢驗數(shù)據(jù)進(jìn)行挖掘,直觀地展示每一項醫(yī)學(xué)檢驗項目與甲狀腺疾病的相關(guān)性。
2 資料與方法
2.1 一般資料
本研究共包括65723例甲亢患者、48028例甲減患者和19841例體檢人員的1355項醫(yī)學(xué)檢驗數(shù)據(jù)。其中甲亢患者、甲減患者和體檢人員均以臨床診斷結(jié)果作為篩選依據(jù)。在進(jìn)行機(jī)器學(xué)習(xí)計算時65723例甲亢患者數(shù)據(jù),插入19841例體檢人員數(shù)據(jù)獲得85564 例人員數(shù)據(jù)作為甲亢機(jī)器學(xué)習(xí)數(shù)據(jù)源。48028例甲減患者數(shù)據(jù)插入19841例體檢人員數(shù)據(jù)獲得67869例人員數(shù)據(jù)作為甲減機(jī)器學(xué)習(xí)數(shù)據(jù)源。
2.1.1資料來源
以某醫(yī)院近5年(2016年10月1日至2021年09 月30日)的全量醫(yī)學(xué)檢驗數(shù)據(jù)經(jīng)過數(shù)據(jù)治理、開發(fā)后形成包含4903891條記錄的數(shù)據(jù)寬表為基礎(chǔ)。
2.1.2數(shù)據(jù)集成
從實驗室信息管理系統(tǒng)(Laboratory InformationManagement System, LIS)和醫(yī)院信息管理系統(tǒng)(Hospi?tal Information System, HIS)中抽取2016 年10 月至2021年9月的全量醫(yī)學(xué)檢驗數(shù)據(jù),字段包括患者的ID、年齡、性別、患者就診類別(門診或住院)、檢驗日期、檢驗項目編碼、檢驗結(jié)果、診斷結(jié)果。
2.1.3數(shù)據(jù)治理、開發(fā)
在大數(shù)據(jù)平臺采用結(jié)構(gòu)化查詢語言(StructuredQuery Language, SQL)腳本對數(shù)據(jù)實施行列轉(zhuǎn)置,實現(xiàn)每例患者在同一檢驗日期的所有檢驗項目處于同一行,不同患者的同一個檢驗項目結(jié)果處于同一列。獲得4903891條記錄的數(shù)據(jù)寬表。對數(shù)據(jù)寬表進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)歸一化操作(數(shù)據(jù)值壓縮到[0,1]區(qū)間,實現(xiàn)字段間統(tǒng)一量綱)。
2.2 方法
邏輯回歸(Logistic Regression,LR)是用于解決二分類問題的經(jīng)典機(jī)器學(xué)習(xí)算法[14]。LR模型構(gòu)造簡單、結(jié)果方便易懂,是數(shù)據(jù)挖掘方法在醫(yī)學(xué)領(lǐng)域應(yīng)用的一個典型方法[15]。機(jī)器學(xué)習(xí)數(shù)據(jù)源首先被讀取到機(jī)器學(xué)習(xí)業(yè)務(wù)流程,數(shù)據(jù)源通過數(shù)據(jù)拆分組件按照一定比例隨機(jī)拆分為兩部分?jǐn)?shù)據(jù):一部分訓(xùn)練數(shù)據(jù),另一部分為測試數(shù)據(jù)。訓(xùn)練數(shù)據(jù)導(dǎo)入機(jī)器學(xué)習(xí)訓(xùn)練組件生成預(yù)測模型。測試數(shù)據(jù)和預(yù)測模型分別導(dǎo)入預(yù)測組件對測試數(shù)據(jù)進(jìn)行預(yù)測。預(yù)測的結(jié)果分別導(dǎo)入混淆矩陣組件和二分類評估組件。對預(yù)測模型進(jìn)行評估,判斷預(yù)測模型的可用性。業(yè)務(wù)流程如圖1所示。
2.3 工具與評估指標(biāo)
2.3.1工具
大數(shù)據(jù)平臺Maxcompute用于數(shù)據(jù)的存儲、計算和管理,大數(shù)據(jù)治理開發(fā)平臺Dataworks用于數(shù)據(jù)治理、開發(fā),機(jī)器學(xué)習(xí)平臺PAI提供的模塊化組件用于模型開發(fā)和統(tǒng)計分析。
2.3.2評估指標(biāo)
模型評估采用混淆矩陣和二分類評估兩種方法分別評估。
(1)混淆矩陣
混淆矩陣每一列代表一個類的預(yù)測情況,每一行表示一個類的實際樣本情況。其中正例樣本數(shù)量記為陽性(Positive, P),負(fù)例樣本數(shù)量記為陰性(Nega?tive,N),被正確預(yù)測的正例數(shù)量記為真陽性(True Pos?itive, TP),負(fù)例樣本被預(yù)測呈正例樣本數(shù)量記為假陽性(False Positive,F(xiàn)P),正例樣本被預(yù)測成負(fù)例樣本數(shù)量記為假陰性(False Negative, FN),正確預(yù)測到的負(fù)例樣本數(shù)量記為真陰性(True Negative, TN)[17]。如圖2所示。
(2)二分類評估
二分類評估通過計算AUC 和F1-Score 兩項指標(biāo)對預(yù)測模型進(jìn)行評估。ROC曲線全稱為受試者工作特征曲線(Receiver Operating Characteristic curve,ROC),ROC 的重要特征是曲線下面積(Area Under Curve, AUC),AUC 取值范圍是[0,1], AUC 越接近于1識別能力越強(qiáng)。F1 -Score 與混淆矩陣計算公式相同。
3結(jié)果
3.1 甲亢機(jī)器學(xué)習(xí)模型及評估
3.1.1模型特征權(quán)重排序
LR二分類模型展示了1355項特征列(檢驗項目)的權(quán)重,按照權(quán)重降序排列,選擇前20 項,如表1 所示。
其中項目編碼為檢驗項目的唯一編碼、項目名稱為檢驗項目的中文名稱、權(quán)重為該檢驗項目在LR二分類模型中的系數(shù),權(quán)重數(shù)值越大,該檢驗項目與目標(biāo)列對應(yīng)診斷結(jié)果的相關(guān)性越大。項目編碼:s8604 和s6437;s8603、s8003和s5239;s5516和s8002;s8005 和s6440;s8601和s8001均為來自不同檢驗設(shè)備的同一個檢驗項目,dep對應(yīng)的住院或門診表示患者來源。
3.1.2模型預(yù)測結(jié)果評估
(1)混淆矩陣評估結(jié)果
混淆矩陣對測試數(shù)據(jù)的預(yù)測結(jié)果進(jìn)行統(tǒng)計分析,如表2所示。準(zhǔn)確率、精確率、召回率、F1- Score 評估結(jié)果均在90%以上(大于50%則具有概率意義上的分辨能力)。
(2)二分類評估結(jié)果
二分類評估對測試數(shù)據(jù)的預(yù)測結(jié)果進(jìn)行統(tǒng)計分析,如表3所示,AUC 和F1- Score 的結(jié)果均大于0.95,表明模型的預(yù)測準(zhǔn)確性高,可用性強(qiáng)。
3.2 甲減機(jī)器學(xué)習(xí)模型及評估
3.2.1模型特征權(quán)重排序
LR二分類模型展示了1355項特征列(檢驗項目)的權(quán)重,對權(quán)重按照降序排列,選擇前20項。如表4所示。
其中項目編碼為檢驗項目的唯一編碼、項目名稱為檢驗項目的中文名稱、權(quán)重為該檢驗項目在LR二分類模型中的系數(shù),權(quán)重數(shù)值越大,該檢驗項目與目標(biāo)列對應(yīng)診斷結(jié)果的相關(guān)性越大。項目編碼:s8604、s6437和s5240;s8603、s8003和s5239;s8002和s5516;s6440、s5241和s8005均為來自不同檢驗設(shè)備的同一個檢驗項目,dep對應(yīng)的住院或門診表示患者來源。
3.2.2模型預(yù)測結(jié)果評估
(1)混淆矩陣評估結(jié)果
混淆矩陣對測試數(shù)據(jù)的預(yù)測結(jié)果進(jìn)行統(tǒng)計分析,如表5所示。準(zhǔn)確率、精確率、召回率、F1-Score 評估結(jié)果均在95%以上。
(2)二分類評估結(jié)果
4結(jié)論
本研究對某醫(yī)院近5年的全量醫(yī)學(xué)檢驗數(shù)據(jù)進(jìn)行治理、開發(fā)形成數(shù)據(jù)寬表。在此基礎(chǔ)上采用機(jī)器學(xué)習(xí)邏輯回歸二分類算法構(gòu)建并驗證了甲亢和甲減的預(yù)測模型。
對預(yù)測模型中部分檢驗項目與他人研究成果進(jìn)行比對,在甲亢和甲減的兩個模型中FT4的權(quán)重均位居第一,表明FT4與診斷結(jié)果的強(qiáng)相關(guān)關(guān)系。多項研究表明FT4 與TSH 是檢測甲狀腺疾病的優(yōu)選指標(biāo)[18-20]。在本研究的甲亢相關(guān)權(quán)重中,肝功能指標(biāo)中的谷草轉(zhuǎn)氨酶和間接膽紅素也位列其中,證明了甲亢對肝功能的影響。谷草轉(zhuǎn)氨酶與甲狀腺激素水平大致呈正相關(guān),說明在一定程度上甲亢合并肝損害程度越重,甲狀腺激素水平也越高[21-22]。研究發(fā)現(xiàn)甲亢、甲減患者的血糖水平與正常體檢者比較差異具有統(tǒng)計學(xué)意義(P<0.05),甲狀腺功能減退癥患者的糖化血紅蛋白水平顯著高于對照組[23-24]。有研究發(fā)現(xiàn)中性粒細(xì)胞與甲減發(fā)生率密切相關(guān),中性粒細(xì)胞聯(lián)合性別、甲狀腺體積等其他檢測指標(biāo)采用邏輯回歸算法可以預(yù)測甲減發(fā)生率(AUC=0.777)[25]。
綜合以上國內(nèi)外研究成果,在對1355項特征列的機(jī)器學(xué)習(xí)構(gòu)建的預(yù)測模型在具有較高輔助診斷能力的基礎(chǔ)上,按照權(quán)重降序排列的甲亢和甲減的前二十項特征大部分與臨床診斷研究結(jié)果吻合。說明了預(yù)測模型的輔助診斷可用性和可解釋性。預(yù)測模型中每個權(quán)重描述相應(yīng)預(yù)測變量對結(jié)果的貢獻(xiàn)大小,并不是獨立的決定因素。需要包括上述20項在內(nèi)的1355 項特征列構(gòu)成的完整LR二分類模型發(fā)揮整體作用??紤]到真實數(shù)據(jù)的分布情況,本研究沒有對來自不同檢測設(shè)備對同一個檢驗項目的重復(fù)數(shù)據(jù)進(jìn)行合并處理,這必然會影響到具體的檢驗項目的真實權(quán)重,另一方面,同一個檢驗項目的權(quán)重基本相同也進(jìn)一步佐證了機(jī)器學(xué)習(xí)發(fā)掘的與診斷結(jié)果強(qiáng)相關(guān)檢驗項目的可信度。未來可以對同一個檢驗項目合理去重后進(jìn)一步研究驗證預(yù)測模型,從而糾正目前一些數(shù)據(jù)不規(guī)范的影響。由于整個預(yù)測模型是將所有檢驗項目都納入預(yù)測計算的范圍,比單項或少數(shù)指標(biāo)更能反映病人的真實情況,減少了醫(yī)生綜合判斷時若干項指標(biāo)矛盾或不符時帶來的困惑,在未來人工智能診斷及療效評估中有著重大的意義和應(yīng)用前景。二分類評估對測試數(shù)據(jù)的預(yù)測結(jié)果進(jìn)行統(tǒng)計分析,如表6所示,AUC 和F1-Score 的結(jié)果均大于0.95,表明模型的預(yù)測準(zhǔn)確性高,具有較好的可用性。