陸琳娟,姚欣
(南京醫(yī)科大學第一附屬醫(yī)院呼吸與危重癥醫(yī)學科,南京 210029)
慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)和支氣管哮喘是兩種最常見的慢性炎癥性氣道疾病,肺功能是其診斷和病情評估的主要工具[1-2],但因病情個體差異、肺功能檢查禁忌證、儀器和培訓未能普及等,仍有眾多COPD及支氣管哮喘患者未能得到早期診斷和準確的病情評估。已知COPD和支氣管哮喘的漏診會導致患者生活質量下降、門診就診次數、住院次數及長期死亡風險增加,對其誤診及病情評估的不準確則會導致治療方案不合理、患者病情反復以及醫(yī)療費用增加等[3-5],而上述問題的解決將顯著降低疾病帶來的重大社會經濟負擔。
人工智能(artificial intelligence,AI)是模擬、延伸和擴張人類智能的理論、技術及應用的一門科學,其核心是機器學習。AI可以通過計算機語言分析大量數據,建立復雜、非線性的關系,彌補傳統(tǒng)分析方法的不足,有助于提高疾病診療的準確性[6-7]。另外,AI還可以分析以往無法進行計算分析的數據類型,如圖像和聽覺數據,使得對疾病的診斷和評估更為全面[6-7]。近年來,已有較多研究將AI應用于COPD及支氣管哮喘的診斷和病情評估?,F就AI在COPD及支氣管哮喘診療中的應用進行綜述。
AI是計算機對人類智能的模擬。其可以通過計算機語言,將數據集分為訓練集和驗證集,在訓練集中識別各數據的特點和相關性,以此構建模型得出結果并輸出,在驗證集中加以驗證[6-7]。機器學習是AI的核心,主要包括監(jiān)督式機器學習和無監(jiān)督式機器學習[7]。在監(jiān)督式機器學習中,模型輸出的結果是被規(guī)定的,計算機通過算法尋找與結果相關的預測因子,構建函數模型。監(jiān)督式機器學習主要用于診斷和預測模型的構建[7]。如根據胸部X線片的特征來診斷肺結節(jié)的良惡性[8]、建立心房顫動患者發(fā)生血栓栓塞的預測模型[9]等。目前,監(jiān)督式機器學習算法主要包括神經網絡模型、支持向量機、決策樹、隨機森林和貝葉斯分類器等[10]。每種算法均有其優(yōu)缺點,應根據數據特征選擇最佳的算法。無監(jiān)督式機器學習不規(guī)定模型輸出結果,計算機通過算法歸類具有相似特點的數據[7]。無監(jiān)督式機器學習模型主要用于數據探索,如應用于識別心肌病的新表型[11]。其主流算法有層次聚類分析法、K均值聚類等[12]。深度學習是機器學習發(fā)展的一個子集,它使用深度神經網絡模型模擬人腦的操作,建立的模型往往具有多個參數和層數,在圖像識別中具有重大優(yōu)勢[13-14]。如一個深度神經網絡模型在接受超過37 000次顱內出血頭部CT的訓練后,對約9 500例病例進行了評估,使顱內出血的診斷時間縮短96%,準確度為84%[15]。
相較傳統(tǒng)的統(tǒng)計學分析方法,AI的優(yōu)勢體現在:①可以在較短時間內識別大數據樣本;②可以分析傳統(tǒng)方法無法識別的非線性關系;③可以識別圖像數據。以上優(yōu)勢使AI在疾病診療評估方面具有巨大潛力。
2.1AI在COPD診斷中應用 調查數據顯示,即使在發(fā)達國家,仍有部分醫(yī)療單位不具備肺功能檢測儀器,缺乏相關醫(yī)務人員的培訓,這極大限制了COPD的診斷,導致眾多COPD患者的漏診誤診[3-5]。因此,開發(fā)新的診斷COPD的方法顯得尤為重要,而AI在這方面顯示出巨大潛能。有研究者提出了一種AI算法,該算法用1 500例門診就診患者的臨床癥狀及肺功能測試結果進行訓練,在前瞻性收集的50例患者的隊列中進行了驗證,目的是對門診首診患者是否患有COPD進行判斷。結果表明,AI軟件在肺功能判讀及COPD診斷中的準確度達100%和82%,均高于人工判讀肺功能及診斷COPD的準確度[16]。
此外,針對肺功能測試未能完全普及的情況,AI可以根據患者的臨床癥狀設計調查問卷來建立COPD診斷模型,其診斷COPD的準確度高達97.5%[17]。同樣,Lee等[18]基于入選患者的臨床特征、基本信息創(chuàng)建列線圖來預測第一秒用力呼氣量占用力肺活量比值,最終形成的列線圖診斷COPD的靈敏度和特異度分別為82.3%和68.6%。
AI在圖像識別上的巨大潛能可用于有肺功能禁忌證COPD患者的診斷。近年兩項研究分別以2 000多次的胸部CT圖像及6 749次的胸部X線片圖像為訓練集,利用深度神經網絡模型診斷COPD,得出的曲線下面積分別為0.89[19]和0.837[20]。
以上研究表明,AI利用計算機語言綜合患者的癥狀、基本信息、影像學圖像特征、肺功能測試等診斷COPD,可能較人工診斷更為準確和客觀。同時能為無法進行肺功能檢測的患者或單位提供診斷工具,減少COPD患者的漏診和誤診。
2.2AI在COPD表型識別中應用 COPD是一種異質性疾病,具有不同的表型,對COPD表型的研究有利于指導精準治療。AI可以根據COPD患者的基本信息、臨床癥狀、影像學特征等進行訓練,利用聚類分析、深度學習等機器學習方法識別不同的COPD表型,歸納不同表型的臨床特征,指導臨床醫(yī)師對不同特征COPD患者進行個性化管理和治療。如Yoon等[21]根據1 195例COPD 患者的基本信息及臨床特征,使用聚類分析的方法確定了4種表型:哮喘-COPD重疊、輕度COPD、中度COPD和重度COPD。其中第1種表型患者具有最高的急性加重風險,而第4種表型患者的肺功能最差。Pikoula等[22]基于合并癥和危險因素,使用聚類分析方法將30 961例COPD患者分為5種表型:焦慮和抑郁、嚴重的氣流受限和虛弱、合并心血管疾病和糖尿病、肥胖/特應性表型及較少有合并癥表型。其中第1種表型患者急性加重率最高,第3種表型患者急性加重時癥狀最重,第5種表型患者急性加重率最低。此外,Sandeep等[23]基于受試者的呼氣-容量曲線,使用深度神經網絡模型識別了COPD 4種胸部CT的表型(正常型、小氣道炎癥型、肺氣腫型和混合型)。結果顯示,深度神經網絡模型在區(qū)分COPD小氣道炎癥型(曲線下面積為0.77)和肺氣腫型(曲線下面積為0.81)上具有較高的準確率。
聚類分析和深度神經網絡模型通過識別COPD患者的臨床特征和影像學特點,探索不同的表型分類以指導個體化治療和管理。但目前AI在COPD表型識別中的應用仍處于研究階段,需要在不同的大型前瞻性隊列中進行驗證,今后應重點探究不同表型COPD患者的病理生理特征、臨床特征及對治療的反應,以探索出具有臨床指導意義的表型。
2.3AI在COPD預后評估中應用 COPD患者胸部影像學特征與疾病嚴重程度密切相關。AI可以對COPD患者的胸部CT圖像進行肺葉的分割及肺氣腫的量化,以評估COPD的病情。現有研究結果顯示,不同肺葉的肺氣腫程度與COPD全球倡議規(guī)定的COPD分級有很強的相關性,其中左肺上葉肺氣腫程度與疾病嚴重程度的相關系數最大(ρ=0.85,P<0.000 1),左肺下葉(ρ=0.72,P<0.000 1)和右肺中葉的相關系數最小(ρ=0.72,P<0.000 1)[24]。另一項研究也顯示,基于AI的肺氣腫量化與肺功能具有良好的相關性[25]。
以上研究揭示,使用機器學習量化胸部CT的肺氣腫程度在無法或無條件進行肺功能測試的COPD患者中替代肺功能對COPD患者進行病情評估有一定的價值。然而目前尚無大規(guī)模前瞻性隊列研究進行驗證,且未來的研究也應將COPD患者圖像識別的特征與更多的肺功能參數和臨床特征相聯系。
識別高急性加重風險及不良預后的COPD患者是管理COPD的重要環(huán)節(jié)。很多研究開始根據COPD患者不同的臨床資料,利用不同的機器學習算法預測COPD的急性加重及不良預后,對臨床醫(yī)師識別頻繁急性加重的COPD患者進行早期干預具有十分重要的意義。Wang等[26]基于COPD患者的臨床資料比較了5種機器學習算法(隨機森林、支持向量機、邏輯回歸、K近鄰和貝葉斯分類器)預測COPD急性加重的性能。結果顯示,隨機森林算法獲得的預測模型性能最佳(靈敏度為0.80、特異度為0.83、陽性預測值為0.81、陰性預測值為0.85)。另有研究利用62例COPD患者的影像學參數(氣道容積和氣道阻力)建立機器學習模型,結果顯示其預測COPD急性加重的陽性預測值為0.82[27]。BODE(body mass index,airflow obstruction,dyspnea,and exercise capacity index)包括體質比大小、氣流受限嚴重程度、呼吸困難程度和運動能力強弱4個方面,是廣泛使用的預測COPD病死率的評分系統(tǒng)。有研究對COPDGene(The Genetic Epidemiology of Chronic Obstructive Lung Disease)隊列2 632例和ECLIPSE(The Evaluation of COPD Longitudinally to Identify Predictive Surrogate End-points)隊列1 268例COPD患者的臨床特征及影像學特征進行機器學習,建立LMP-COPD模型預測COPD的患者病死率,結果發(fā)現其預測COPD患者病死率的準確率高于BODE[28]。
可見,AI識別COPD患者不同的特征建立COPD急性加重預后模型準確率高,對臨床具有重要指導意義。但不同的機器學習算法建立的模型預測性能不一。未來應進一步探索如何根據患者不同的特征,選擇最為合適的機器學習模型。
3.1AI在支氣管哮喘診斷中應用 與COPD類似,AI可以結合患者的癥狀、血液學特征及遺傳學特征等進行支氣管哮喘的診斷,對于存在診斷困難的支氣管哮喘患者具有重要意義。然而,不同機器學習算法所獲得的模型診斷支氣管哮喘的性能并不相同。如Tomita等[29]利用566例門診就診患者的癥狀-體征和客觀測試(如肺功能測試和支氣管激發(fā)試驗)結果開發(fā)了支氣管哮喘診斷的支持向量機模型和深度神經網絡模型,結果顯示其準確度分別為0.82 和0.98。說明與經典的支持向量機模型相比,深度神經網絡模型診斷支氣管哮喘的性能更高。另一項研究利用就診患者的病例資料建立機器學習模型,比較了CatBoost、邏輯回歸、貝葉斯分類器和支持向量機這4種機器學習模型識別兒童支氣管哮喘的性能。結果表明,CatBoost模型的性能最佳[30]。
此外,利用MTS(Mahalanobis-Taguchi system)識別常規(guī)血液學標志物,建立機器學習模型來識別支氣管哮喘患者同樣具有良好的診斷性能。其中,血小板分布寬度、平均血小板體積、白細胞計數、嗜酸粒細胞計數和淋巴細胞比值在支氣管哮喘診斷中表現良好[31]。
另有研究整合了機器學習的特征選擇和分類模型兩種方法,使用單核苷酸多態(tài)性量化個體中支氣管哮喘的易感性[32],該模型診斷支氣管哮喘的準確率和敏感性較高。由此可見,各種機器學習方法的整合非常適合研究高維單核苷酸多態(tài)性數據以進行支氣管哮喘患者基因型-表型關聯和表型預測。
以上研究表明,AI通過癥狀-體征、客觀測試結果建立機器學習模型有助于對診斷困難的支氣管哮喘患者進行識別。與COPD不同,AI診斷支氣管哮喘的現有研究更側重于不同診斷模型性能的比較及不同機器學習方法的結合。
3.2AI在支氣管哮喘表型識別中應用 支氣管哮喘的表型識別對哮喘的管理和個體化治療十分重要。目前應用于支氣管哮喘表型識別的AI算法主要有潛在類別分析和K均值聚類兩種。有研究使用潛在類別分析方法成功識別了150例支氣管哮喘運動員的兩種支氣管哮喘表型:特應性支氣管哮喘表型和運動性支氣管哮喘表型,并發(fā)現以上兩種表型患者具有不同的臨床特征和發(fā)病特點[33]。另有研究利用潛在類別分析結合基因組學信息和臨床信息,識別了3 001例支氣管哮喘患者的4種表型:非活動性/輕度非變應性哮喘(18%)、非活動性/輕度變應性哮喘 (37%)、活動性變應性哮喘(27%)和活動性成人非變應性哮喘(18%)[34]。該研究同時鑒定了15個與支氣管哮喘表型相關的單核苷酸多態(tài)性,其中大部分與活動性變應性哮喘表型相關[34]。
另外,Wu等[35]使用K均值聚類方法分類支氣管哮喘,識別不同哮喘患者對皮質類固醇的反應性。結果顯示,在晚發(fā)型、肺功能差以及基線嗜酸粒細胞增多的支氣管哮喘患者中觀察到的皮質類固醇反應最大,而在具有嚴重氣流受限和輕度嗜酸粒細胞炎癥的年輕、肥胖女性患者中觀察到的皮質類固醇反應最小。
可見,將不同的AI方法應用于支氣管哮喘表型分類,可為哮喘患者的管理和個體化治療提供重要參考價值,尤其是對于難治性支氣管哮喘,同時減少不必要的皮質類固醇使用及相關并發(fā)癥。但基于不同的臨床特征及不同機器學習算法所得的支氣管表型多樣,如何選擇合適的臨床特征及最優(yōu)的機器學習算法進行支氣管哮喘表型識別,指導支氣管哮喘患者個體化治療需進一步探索。
3.3AI在支氣管哮喘評估中應用 支氣管哮喘急性發(fā)作對患者的生活質量有顯著影響,對支氣管哮喘患者急性發(fā)作的準確預測能為臨床醫(yī)師提供早期干預的空間,然而目前尚缺乏有效指標能準確識別支氣管哮喘患者的急性發(fā)作風險?;谂R床數據的神經網絡模型在評估支氣管哮喘急性發(fā)作方面顯示出巨大的性能[36-37]。此外,改進的人工神經網絡整合了包括氣象和環(huán)境污染數據等變量,其預測支氣管哮喘患者急性發(fā)作風險的總體準確度達81%[38]。
Fitzpatrick等[39]使用潛在類別分析預測學齡兒童的支氣管哮喘惡化風險,該研究使用了來自2 593例輕度至中度支氣管哮喘兒童的19個人口統(tǒng)計學、臨床和實驗室變量組成的數據集,分析確定過敏和肺功能是兒童支氣管哮喘急性發(fā)作的主要預測因素。然而,該研究中的所有數據均來自單一醫(yī)療中心,缺乏多中心數據集的驗證。
AI為診斷和評估COPD及支氣管哮喘提供了一種新的技術方法,其優(yōu)勢在于能分析大量數據間復雜的非線性關系,識別圖像數據類型,整合基因組學數據,提高疾病診斷和評估的準確性;另外,AI軟件每次被調用時均以相同的方式工作,且不會受到經常強加給醫(yī)師的臨床環(huán)境和緊迫壓力的影響。但AI技術應用于COPD及支氣管哮喘仍處于研究階段,尚存在很多問題:①機器學習算法多樣,同一個數據集使用不同算法所得各個模型的性能并不相同。同樣,不同數據集下同一種模型的性能也不相同。因此,為了得到性能最佳的模型,往往需調用多種不同算法進行比較,過程較為煩瑣。②AI成功應用于COPD及支氣管哮喘診療的關鍵是大樣本數據庫的建立,而目前研究多集中于單中心或小樣本研究。③臨床工作者對AI相關理論技術的缺乏大大限制了AI的實際應用。④目前有關AI在COPD及支氣管哮喘中的研究多側重于如何應用AI技術早期診斷疾病及準確預測病情發(fā)展,而關于其應用于COPD及支氣管哮喘患者治療藥物選擇及治療效果評估的研究較少。因此,未來應建立COPD及支氣管哮喘患者大樣本數據庫,開展醫(yī)務人員對AI理論技術的學習,探索AI在COPD及支氣管哮喘中更多的價值,以推動AI在慢性炎癥性氣道疾病診療相關臨床決策中的輔助作用。