曹綺雯 王春暉 萬杰君 王金龍 楊群峰
【摘要】 目的 創(chuàng)新性利用人工智能(AI)開放平臺EasyDL獨(dú)立開發(fā)糖尿病視網(wǎng)膜病變(DR)的AI輔助診斷模型,并對其診斷準(zhǔn)確指標(biāo)進(jìn)行評價。方法 采用Kaggle公開的糖尿病眼底疾病數(shù)據(jù)集的35 126張眼底照片作為訓(xùn)練集,上傳至EasyDL開放平臺建立AI輔助診斷模型。收集在眼科進(jìn)行臨床DR篩查的150例糖尿病患者共300張雙眼的彩色眼底照片作為測試集,以3位副高及以上職稱眼科醫(yī)師的診斷為金標(biāo)準(zhǔn),分別評價AI診斷模型、初級醫(yī)師、中級醫(yī)師及聯(lián)合診斷對DR分級的診斷準(zhǔn)確性。結(jié)果 非DR和輕度非增生型DR(NPDR)患者共170例,中度、重度NPDR和增生型DR(PDR)患者共130例。AI診斷模型靈敏度高但特異度低,各項(xiàng)診斷指標(biāo)和中級醫(yī)師診斷接近,比初級醫(yī)師診斷優(yōu)秀。當(dāng)AI診斷模型和臨床醫(yī)師診斷相結(jié)合時,診斷的準(zhǔn)確率和靈敏度均有所提高。在與金標(biāo)準(zhǔn)的一致性評價中,AI診斷模型的kappa系數(shù)為1.00,而中級醫(yī)師診斷的kappa系數(shù)為0.88(P均< 0.01)。結(jié)論 基于開放平臺EasyDL建立的AI診斷模型操作簡單,能為DR的初篩提供幫助,同時也為不具備深度學(xué)習(xí)算法知識的臨床醫(yī)師提供有效的科研工具。
【關(guān)鍵詞】 糖尿病視網(wǎng)膜病變;人工智能診斷模型;診斷準(zhǔn)確性研究
【Abstract】 Objective To innovatively utilize the open artificial intelligence (AI) platform EasyDL to independently develop an AI auxiliary diagnosis model for diabetic retinopathy (DR), and evaluate its diagnostic accuracy indicators. Methods 35 126 fundus photos of the diabetes fundus disease data set published by Kaggle were used as the training set, and uploaded to the EasyDL open platform to establish an AI auxiliary diagnosis model. A total of 300 color fundus photographs of bilateral eyes of 150 patients with diabetes mellitus who received clinical DR screening were collected as the test set. The diagnosis of 3 ophthalmologists with deputy director title or above was considered as the gold standard. The diagnostic accuracy for the grading of DR by the AI diagnosis model, junior physicians, intermediate physicians and these combined was evaluated, respectively. Results There were 170 patients with non-DR (NDR) and mild non-proliferative DR (NPDR), and 130 patients with moderate and severe NPDR and proliferative DR (PDR). AI diagnostic model had high sensitivity but low specificity. AI diagnostic indexes were close to those of intermediate doctors and better than primary doctors. When AI diagnostic model was combined with physician diagnosis, the accuracy and sensitivity of diagnosis were improved. In the consistency evaluation with the gold standard, the kappa coefficient of the AI diagnosis model was 1.00, and 0.88 for the intermediate physicians (both P < 0.01). Conclusions The AI diagnosis model based on the open platform EasyDL is simple and easy to operate, which can contribute to the preliminary screening of DR. It also provides effective scientific research tools for physicians who lack of the knowledge of deep learning algorithms.
【Key words】 Diabetic retinopathy; Artificial intelligent diagnosis model; Diagnostic accuracy study
糖尿病可引起多種長期并發(fā)癥,其中糖尿病視網(wǎng)膜病變(DR)是糖尿病性微血管病變中最常見且嚴(yán)重的并發(fā)癥之一。DR已經(jīng)是我國一個嚴(yán)重的公共衛(wèi)生問題。據(jù)醫(yī)療公開數(shù)據(jù)顯示,目前糖尿病患者數(shù)量仍在逐年增長,我國糖尿病患者數(shù)量已被公認(rèn)為全球最多,約1.39億人。DR患病率在我國農(nóng)村高于城市、北方高于南方和東部,DR病程< 10年者的發(fā)病率約為7%,病程10~14 年者的發(fā)病率約為26%,病程 ≥15年者發(fā)病率約為63%,其中病程> 30年者發(fā)病率高達(dá)95%[1]。一方面,通過眼底照相篩查DR是一種非常重要的預(yù)防手段,但需要技術(shù)成熟的眼科醫(yī)師閱片,這在資源不足的基層醫(yī)院難以實(shí)現(xiàn)[2]。另一方面,DR病變種類多樣、表現(xiàn)復(fù)雜,眼科醫(yī)師對眼底圖像判斷存在主觀因素、效率低等問題。為解決上述問題,國內(nèi)外開展了大量利用人工智能(AI)系統(tǒng)對眼底照片閱片應(yīng)用的研究。我國眼科領(lǐng)域在AI浪潮襲來之時,采取積極的態(tài)度面對,已有大量的研究成果和產(chǎn)品推出[3]。然而這些高科技成果大部分僅在大型三甲教學(xué)醫(yī)院應(yīng)用,基層醫(yī)院無法承擔(dān)其高昂的成本。基層醫(yī)院要建立自己的眼底AI診斷系統(tǒng)面臨許多難題:①臨床醫(yī)師缺乏復(fù)雜的深度學(xué)習(xí)算法技術(shù);②單中心醫(yī)院難以積累大量的訓(xùn)練數(shù)據(jù)并進(jìn)行建模;③算法落地到硬件應(yīng)用需要較高的成本[4]。目前國內(nèi)許多的大型互聯(lián)網(wǎng)企業(yè),如百度、騰訊、華為等均開發(fā)了各自的AI開放平臺,提供簡易的AI建模方法,為缺乏深度學(xué)習(xí)算法技術(shù)的傳統(tǒng)行業(yè)助力[5]。為此,本研究采用kaggle公開的糖尿病眼底疾病數(shù)據(jù)集,利用EasyDL開放平臺建立眼底閱片的AI診斷模型,并對其檢測效果進(jìn)行評價。
對象與方法
一、DR的分級
依據(jù)DR國際分級標(biāo)準(zhǔn)將患眼圖片分為非DR(NDR)、輕度非增生型DR(NPDR)、中度NPDR、重度NPDR和增生型DR (PDR) [6]。其中NDR (DR0級)指眼底無異常,輕度NPDR(DR1級)指僅有微血管瘤,中度NPDR(DR2級)指不僅有微血管瘤但病變輕于重度DR,重度NPDR(DR3級)指具有下列任何一項(xiàng):①4個象限中任何一個象限有20個以上的視網(wǎng)膜內(nèi)出血點(diǎn);②2個以上象限有明確的靜脈串珠樣改變;③1個以上象限有明確的視網(wǎng)膜內(nèi)微血管異常;④無PDR體征;⑤具有下列1項(xiàng)或多項(xiàng),如新生血管形成、玻璃體出血、視網(wǎng)膜前出血。
二、訓(xùn)練集圖片獲取與AI診斷模型構(gòu)建方法
采用kaggle公開的糖尿病眼底疾病數(shù)據(jù)集(https://www.kaggle.com/c/diabetic-retinopathy-detection/data),數(shù)據(jù)集共有35 126張眼底照片,每張照片已基于糖尿病眼病的國際分級標(biāo)準(zhǔn)作好標(biāo)簽。訓(xùn)練圖像用Kowa VX-10 alpha數(shù)碼眼底照相機(jī)用50°視場拍攝,分辨率為3888×2592和4752×3168,采用24位彩色JPG格式。AI視覺模型的訓(xùn)練采用百度的EasyDL開放平臺;模型訓(xùn)練采用遷移學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)已在其他大型數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練,底層網(wǎng)絡(luò)的參數(shù)大部分已固定。上傳訓(xùn)練集圖片后,重新訓(xùn)練部分上層網(wǎng)絡(luò)的參數(shù),構(gòu)建出新的一個分類器。
三、納入患者與測試集圖片獲取
收集2019年1月至2020年5月在我院眼科進(jìn)行臨床DR篩查的150例糖尿病患者(300眼)共300張彩色眼底照片作為測試集,圖像由TOPCON-50DX的臺式眼底照相機(jī)拍攝,眼底照片分辨率為2880×2136,格式為JPG,色彩模式為RGB。測試集可進(jìn)入百度的EasyDL開放平臺,對AI診斷模型進(jìn)行驗(yàn)證。本研究方案遵循《赫爾辛基宣言》及《藥物臨床試驗(yàn)質(zhì)量管理規(guī)范》(GCP),入組前患者均已簽署知情同意書。所有患者圖片均已進(jìn)行脫敏處理。
四、金標(biāo)準(zhǔn)與評價指標(biāo)的設(shè)定
測試集圖片由3位副高及以上職稱的眼科醫(yī)師做標(biāo)注,采用多數(shù)同意的規(guī)則,確定同一圖片的病變分級。將標(biāo)注后的圖片作為金標(biāo)準(zhǔn)。AI診斷模型完成對病變的檢測評價后,將測試數(shù)據(jù)集分別給予1位有10年以上相關(guān)工作經(jīng)驗(yàn)的中級醫(yī)師和1位3年以下相關(guān)工作經(jīng)驗(yàn)的初級醫(yī)師進(jìn)行檢測評價。最后將兩者診斷聯(lián)合,即先由模型進(jìn)行初篩,再由初、中級醫(yī)師根據(jù)經(jīng)驗(yàn)進(jìn)一步做出診斷。分別對比AI診斷模型和初、中級醫(yī)師診斷的準(zhǔn)確性。DR 2級及以上的患者往往需要進(jìn)一步診治和隨訪,故把EasyDL的任務(wù)設(shè)定為二分類,區(qū)分0~1級和2~4級的患者圖片,使用5個通用分類指標(biāo)(準(zhǔn)確度、靈敏度、特異度、陽性預(yù)測值和陰性預(yù)測值)估計(jì)分類器的所有深度神經(jīng)網(wǎng)絡(luò)模型的性能。
五、統(tǒng)計(jì)學(xué)處理
使用R3.6.1軟件處理數(shù)據(jù),通過繪制受試者操作特征(ROC)曲線等進(jìn)行各評價指標(biāo)及可信區(qū)間的計(jì)算,利用nsROC包對比ROC曲線下面積(AUC)間差異。P < 0.05為差異有統(tǒng)計(jì)學(xué)意義。除訓(xùn)練集和測試集之間的ROC AUC比較采用單側(cè)檢驗(yàn)外,其余均用雙側(cè)檢驗(yàn)。
結(jié) 果
一、AI診斷模型在訓(xùn)練集和測試集中的評價
本研究共納入DR 0~1級患者170例,DR 2~4級患者共130例。 AI診斷模型在訓(xùn)練集中表現(xiàn)良好,準(zhǔn)確率在91%以上,AUC達(dá)到了0.935,但在測試集中各項(xiàng)性能有所下降(表1),AUC僅為0.862,訓(xùn)練集和測試集之間的AUC比較差異有統(tǒng)計(jì)學(xué)意義(Z = -1.710,P = 0.040)。
二、AI診斷模型與不同級別醫(yī)師的評價指標(biāo)對比
AI診斷模型靈敏度高但特異度低,各項(xiàng)診斷指標(biāo)和中級醫(yī)師接近,優(yōu)于初級醫(yī)師。當(dāng)AI診斷模型和醫(yī)師診斷結(jié)合時,診斷的準(zhǔn)確度和靈敏度均有所提高,見表2。
三、AI診斷模型與不同級別醫(yī)師的一致性評價
AI診斷模型和醫(yī)師對測試集進(jìn)行了2次診斷評價,并對2次結(jié)果行kappa一致性分析(AI診斷結(jié)果與診斷結(jié)果的一致性)。中級醫(yī)師和初級醫(yī)師均對相同的數(shù)據(jù)有一定程度的波動,kappa系數(shù)分別為0.88和0.74,提示無論是中級醫(yī)師還是初級醫(yī)師,對同一數(shù)據(jù)判斷結(jié)果的一致性有波動;AI模型保持了較好的診斷結(jié)果的穩(wěn)定性,kappa系數(shù)為1.00(P均< 0.01),見表3。
討 論
目前,國內(nèi)外關(guān)于眼底閱片和AI兩者醫(yī)工結(jié)合的研究如火如荼。中山大學(xué)中山眼科中心早在2017年5月就開始了眼科疾病的AI診斷系統(tǒng)研發(fā),提示基于深度學(xué)習(xí)的AI算法用于檢測影響視力的DR,開啟了我國眼科界AI應(yīng)用的先河[7]。同年,愛爾眼科醫(yī)院集團(tuán)也宣布成功研發(fā)眼科AI診斷系統(tǒng),對DR病變和年齡相關(guān)性黃斑變性的診斷準(zhǔn)確率已達(dá)到93%以上[8]。AI的臨床使用將大幅度提升社區(qū)醫(yī)療機(jī)構(gòu)對DR的篩查效率,但實(shí)際效果還有待后續(xù)臨床實(shí)踐檢驗(yàn)。同時,AI算法大幅度提高了醫(yī)師臨床診斷的準(zhǔn)確率和工作效率;提出將AI與眼科醫(yī)療結(jié)合,既是滿足大量眼底病患者的現(xiàn)實(shí)需要,更是我國眼科行業(yè)在全球后來居上的潛在優(yōu)勢[9]。國外的谷歌正在開發(fā)一種AI算法,可以像專家一樣識別眼底疾病的共同特征,并可查看視網(wǎng)膜圖像,然后像訓(xùn)練有素的眼科醫(yī)師一樣檢查DR[10]。這種技術(shù)與谷歌用來標(biāo)記數(shù)百萬網(wǎng)絡(luò)圖片時使用的機(jī)器學(xué)習(xí)技術(shù)異曲同工,表明AI日后將會為醫(yī)療技術(shù)帶來重大革命。但上述研究成果或產(chǎn)品仍然難以在基層醫(yī)院推廣,主要有以下原因:①基層醫(yī)院無力承擔(dān)高昂的AI診斷設(shè)備費(fèi)用。②基層醫(yī)師難以掌握研究所需的算法技術(shù),即使是使用預(yù)訓(xùn)練模型或開源框架,對于不太了解機(jī)器學(xué)習(xí)算法的臨床醫(yī)師而言還是有非常大的挑戰(zhàn)。③算法技術(shù)并非醫(yī)院的核心技術(shù),基層醫(yī)院不會提供與算法團(tuán)隊(duì)合作的預(yù)算[11]。因此,普通醫(yī)師掌握一種簡單、快速使用的深度學(xué)習(xí)方法對于日常診療和科研都非常有幫助。醫(yī)師自主建立AI模型就需要先掌握深度學(xué)習(xí)算法原理、計(jì)算機(jī)原理等,但這對于臨床工作繁忙的醫(yī)師而言也是非常困難,而借助一個開放的AI平臺就成為一種值得嘗試的診斷輔助手段。
EasyDL是百度開發(fā)的開放AI平臺,能讓毫無算法基礎(chǔ)的臨床醫(yī)師快速建立一個計(jì)算機(jī)視覺識別模型。EasyDL 將整個服務(wù)精煉為4個步驟:創(chuàng)建模型、上傳并標(biāo)注數(shù)據(jù)、訓(xùn)練模型并檢驗(yàn)效果、上傳模型,臨床醫(yī)師可以在不具備機(jī)器學(xué)習(xí)背景知識的情況下開發(fā)模型[12]。EasyDL 大量采用了遷移學(xué)習(xí)技術(shù)[13]。各種基礎(chǔ)模型會在百度大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并將從中學(xué)習(xí)到的知識運(yùn)用到用戶提交的小規(guī)模訓(xùn)練數(shù)據(jù)集上,從而實(shí)現(xiàn)出色的模型效果和快速的模型訓(xùn)練。本研究開發(fā)的AI診斷模型的診斷準(zhǔn)確率為0.850(0.810~0.890),靈敏度為0.961(0.900~1.000),特異度為0.765(0.692~0.838),陽性預(yù)測值為0.758(0.692~0.823),陰性預(yù)測值為0.963(0.931~ 0.995)。但本研究測試集的指標(biāo)相對于國內(nèi)外的大型研究仍有差距??紤]到研究所采用的公開數(shù)據(jù)集、開放AI平臺、遷移學(xué)習(xí)等因素,對眼底照片細(xì)分領(lǐng)域不如大型多中心的研究。雖然比起既往大型多中心的研究仍有距離,但各項(xiàng)診斷指標(biāo)和中級醫(yī)師診斷接近,優(yōu)于初級醫(yī)師診斷。且該項(xiàng)AI技術(shù)可讓缺乏深度學(xué)習(xí)算法基礎(chǔ)者快速掌握,值得進(jìn)一步深入研究。
對于DR,AI診斷模型具有良好的一致性[14]。DR的診斷很大程度上取決于醫(yī)師的經(jīng)驗(yàn)和主觀狀態(tài),而AI診斷模型具有強(qiáng)大的學(xué)習(xí)能力和良好的可重復(fù)性,可以克服主觀的不穩(wěn)定性。本研究中,AI診斷模型和初、中級醫(yī)師對DR病變分別進(jìn)行了二次評估,用于一致性評價,AI診斷模型每次對病變的判斷均保持一致,達(dá)到完美的內(nèi)部一致性。中級和初級醫(yī)師對同一批DR眼底圖片的判斷可能會有波動,存在觀察者內(nèi)部一致性差異,而中級和初級醫(yī)師之間的一致性差異更為明顯。這種基于EasyDL的篩查系統(tǒng)具有較高且穩(wěn)定的診斷性能,消除了醫(yī)師診斷的主觀性,可成為協(xié)助臨床醫(yī)師診斷DR的有力工具[15]。
綜上所述,本研究建立的AI診斷模型雖然診斷評價指標(biāo)不如大型多中心研究開發(fā)的AI算法,但診斷性能仍優(yōu)于初級醫(yī)師,而且具有高度穩(wěn)定性。AI診斷模型的建模操作過程簡單,易于掌握,為基層醫(yī)師提供了親手建立DR篩查模型、開展科學(xué)研究的路徑。
參 考 文 獻(xiàn)
[1] 鄭志. 糖尿病視網(wǎng)膜病變臨床防治:進(jìn)展、挑戰(zhàn)與展望. 中華眼底病雜志, 2012, 28(3):209-214.
[2] Li J O, Liu H, Ting D S J, et al. Digital technology, tele-medicine and artificial intelligence in ophthalmology: a global perspective. Prog Retin Eye Res, 2021, 82:100900.
[3] Burlina P, Paul W, Mathew P, et al. Low-shot deep learning of diabetic retinopathy with potential applications to address artificial intelligence bias in retinal diagnostics and rare ophthalmic diseases. JAMA Ophthalmol, 2020, 138(10):1070-1077.
[4] 陸春吉, 郭珉江, 鄭見立,等. 人工智能在基層醫(yī)療衛(wèi)生機(jī)構(gòu)的應(yīng)用與思考. 中華醫(yī)院管理雜志, 2019, 35(11):925-928.
[5] 中國人工智能學(xué)會.中國人工智能發(fā)展報告(2019—2020).北京:機(jī)械工業(yè)出版社,2019:15-18.
[6] Verbraak F D, Abramoff M D, Bausch G C F, et al. Diagnostic accuracy of a device for the automated detection of diabetic retinopathy in a primary care setting. Diabetes Care, 2019, 42(4):651-656.
[7] Wang Q, Shen D. A cybernetic eye for rare disease. Nat Biomed Eng, 2017, 1(2): 32.
[8] Ruamviboonsuk P, Cheung C Y, Zhang X, et al. Artificial intelligence in ophthalmology: evolutions in Asia. Asia Pac J Ophthalmol, 2020, 9(2):78-84.
[9] Nathan D M, Bebu I, Lachin J M. Frequency of evidence-based screening for diabetic retinopathy. N Engl J Med, 2017, 377 (2):195.
[10] Ting D S W, Peng L, Varadarajan A V, et al. Deep learning in ophthalmology: the technical and clinical considerations. Prog Retin Eye Res, 2019, 72:100759.
[11] Cheung C Y, Tang F, Ting D S W, et al. Artificial intelligence in diabetic eye disease screening. Asia Pac J Ophthalmol (Phila), 2019, 8(2):158-164.
[12] Du Y, Yang R, Chen Z, et al. A deep learning network-assisted bladder tumour recognition under cystoscopy based on Caffe deep learning framework and EasyDL platform. Int J Med Robot, 2021, 17(1):1-8.
[13] 姚添譯. 機(jī)器學(xué)習(xí)中遷移學(xué)習(xí)的發(fā)展研究. 中國科技投資, 2018, (3):374.
[14] Haque A, Milstein A, Li F F. Illuminating the dark spaces of healthcare with ambient intelligence. Nature, 2020, 585 (7824):193-202.
[15] Yu S, Chen M, Zhang E, et al. Robustness study of noisy annotation in deep learning based medical image segmentation. Phys Med Biol, 2020, 65(17):175007.
(收稿日期:2020-10-20)
(本文編輯:林燕薇)