馬曉宇, 張 力, 畢燕龍, 3
糖尿病視網(wǎng)膜病變(diabetic retinopathy, DR)是糖尿病的常見(jiàn)眼部并發(fā)癥,也是全球中老年人群的幾大致盲原因之一[1-3],我國(guó)糖尿病人群中的DR患病率為22.4%[4]。在疾病的早期階段大多無(wú)癥狀,很容易被患者所忽略,需要進(jìn)行眼科檢查才能被發(fā)現(xiàn)[1]。眼底照相作為DR常規(guī)篩查項(xiàng)目之一,它可以早期發(fā)現(xiàn)、定性評(píng)估和分析DR,對(duì)于保留患者的視功能、提高患者生活質(zhì)量、降低DR醫(yī)療負(fù)擔(dān)具有重要意義[5],但中國(guó)DR患者主動(dòng)篩查率仍不足20%[5-6],這可能與我國(guó)糖尿病患者對(duì)DR認(rèn)識(shí)不到位、醫(yī)療資源分布不均衡有關(guān)[7]。
近些年來(lái),人工智能(artificial intelligence,AI)在醫(yī)學(xué)領(lǐng)域綻放光彩[8-9],尤其是在眼科領(lǐng)域,AI被廣泛用于DR[10]、年齡相關(guān)性黃斑變性[11]、青光眼[12]和白內(nèi)障[13]等多種眼科疾病的篩查和診斷中。自動(dòng)化DR篩查系統(tǒng)日漸成熟[14-16],它們均有不俗的篩查性能,其中,IDx-DR系統(tǒng)成為首個(gè)被美國(guó)食品藥品監(jiān)督管理局(Food and drug administration,F(xiàn)DA)批準(zhǔn)的完全自主的DR診斷系統(tǒng),也是首個(gè)醫(yī)學(xué)領(lǐng)域內(nèi)完全自主的診斷系統(tǒng)[16]。AI的優(yōu)勢(shì)在于它可以將眼科醫(yī)生從繁重的圖像篩查工作解放出來(lái),使其更專注于疾病的診療,而且多項(xiàng)研究[10, 17-20]也表示,自動(dòng)化DR篩查系統(tǒng)的篩查性能等同或優(yōu)于受過(guò)訓(xùn)練的人類分級(jí)者。因此,研發(fā)更精確的自動(dòng)化DR篩查系統(tǒng),將有助于解決醫(yī)療資源不足的問(wèn)題,促進(jìn)防盲工作的全面開(kāi)展。本綜述總結(jié)了AI在DR篩查和診斷領(lǐng)域的研究進(jìn)展,了解這一領(lǐng)域的研究現(xiàn)狀和主要問(wèn)題,并對(duì)未來(lái)進(jìn)行展望。
Abràmoff等[21]在2013年所發(fā)表的IDP模型[22]的基礎(chǔ)上加入了深度學(xué)習(xí)算法,組建了新的IDx-DR X2.1模型,并對(duì)其進(jìn)行訓(xùn)練,使用公開(kāi)的數(shù)據(jù)集Messidor-2進(jìn)行外部驗(yàn)證,結(jié)果顯示其ROC曲線下的面積(area under curve, AUC)值為0.980,靈敏度為96.8%,特異度為87%,該研究的結(jié)果表明IDx-DR X2.1模型的性能明顯優(yōu)于在其他方面基本相同但不使用深度學(xué)習(xí)的IDP模型,深度學(xué)習(xí)算法有可能提高DR篩查的效率。隨后在2018年,該團(tuán)隊(duì)在初級(jí)醫(yī)療保健機(jī)構(gòu)招募了900例患者進(jìn)行一項(xiàng)試驗(yàn),結(jié)果顯示該系統(tǒng)在臨床環(huán)境中的靈敏度和特異度為87.2%和90.7%,AI系統(tǒng)將專科診斷能力帶入了基層醫(yī)療機(jī)構(gòu)[16]?;谶@些結(jié)果,美國(guó)FDA授權(quán)該系統(tǒng)來(lái)檢測(cè)中重度DR和糖尿病性黃斑水腫(diabetic macular edema,DME),其也成為了第一個(gè)進(jìn)入臨床工作的自動(dòng)化DR診斷系統(tǒng),此舉將有可能防止每年成千上萬(wàn)的糖尿病患者的視力喪失。
隨后,Gulshan等[23]以深度神經(jīng)網(wǎng)絡(luò)Inception-v3為架構(gòu),收集了10萬(wàn)余張眼底彩色圖像進(jìn)行建模,在公開(kāi)的Messidor-2數(shù)據(jù)集和EyePACS數(shù)據(jù)集上進(jìn)行外部驗(yàn)證,該模型設(shè)置了兩個(gè)不同的參數(shù)點(diǎn),以滿足不同的臨床需求。在不同的參數(shù)設(shè)置下,模型在2個(gè)外部數(shù)據(jù)集的靈敏度和特異度均>90%。有研究團(tuán)隊(duì)將模型部署在印度的兩家眼科保健中心,在真正的臨床環(huán)境中對(duì)其進(jìn)行性能測(cè)試,患者的眼底圖像分別由眼底病學(xué)專家、經(jīng)過(guò)訓(xùn)練的眼科醫(yī)生和模型識(shí)別,以實(shí)際臨床結(jié)果作為參考標(biāo)準(zhǔn),模型在兩個(gè)不同保健中心的數(shù)據(jù)集上的AUC分別為0.963和0.98,識(shí)別可轉(zhuǎn)診DR和DME的敏感度和特異度在88.9%~97.5%之間,而且研究發(fā)現(xiàn)模型的性能絲毫不遜色于眼底病專家和受過(guò)訓(xùn)練的眼科醫(yī)生,而且兩家保健中心所使用的眼底照相機(jī)也不同,表明了該模型的普遍適用性[10]。
2017年,Ting等[24]開(kāi)發(fā)了一個(gè)深度學(xué)習(xí)系統(tǒng)(deep learning system,DLS),并且使用近50萬(wàn)張來(lái)自不同國(guó)家和種族的眼底圖像來(lái)訓(xùn)練和驗(yàn)證系統(tǒng),這是已知的數(shù)據(jù)集規(guī)模最大的一次實(shí)驗(yàn)。DLS在驗(yàn)證集的檢測(cè)準(zhǔn)確性,即AUC值為0.936,靈敏度為90.5%,特異度為91.6%。同時(shí)檢測(cè)另外10個(gè)不同種族、不同相機(jī)類型的數(shù)據(jù)集時(shí),其AUC值范圍是0.889~0.983。在2019年,該團(tuán)隊(duì)還比較了DLS與人類評(píng)估員的篩查與診斷性能,還估計(jì)了兩者所需的時(shí)間,DLS和人類評(píng)估員花費(fèi)的總時(shí)間分別為125.4和1554.8h,在DR篩查性能方面,DLS和人工并無(wú)差異[20]。
國(guó)外對(duì)于AI在DR篩查與診斷領(lǐng)域的研究如火如荼,國(guó)內(nèi)的研究也在進(jìn)行。2019年,李萌等[25]通過(guò)遷移學(xué)習(xí)和NASNet架構(gòu)算法,以4 465張DR彩色眼底照片作為數(shù)據(jù)集,建立一個(gè)自動(dòng)化DR診斷系統(tǒng)(ZOC-DR-V1),該系統(tǒng)的靈敏度和特異度分別為96.89%和93.57%,AUC值為0.994,同時(shí)作者也進(jìn)行了一個(gè)人機(jī)競(jìng)賽,另取1 000張眼底照片作為人機(jī)對(duì)抗用圖,比較AI閱片系統(tǒng)與人工閱片的診斷效率,結(jié)果表明AI系統(tǒng)的診斷正確率可達(dá)眼科專業(yè)高級(jí)職稱醫(yī)生水平,而且相比于眼科專業(yè)高級(jí)職稱醫(yī)生5s左右的單張閱片時(shí)間,AI系統(tǒng)僅需2s左右即可完成單張閱片,用時(shí)短,效率高,為大規(guī)模DR人群篩查提供了新的思路。2020年,李治璽等[26]使用自研的AI系統(tǒng)作為DR的初篩手段,在新疆維吾爾自治區(qū)進(jìn)行大規(guī)模DR篩查,在不遺漏可轉(zhuǎn)診DR病例的情況下,減少約60%的圖片分級(jí)工作量,且相較于人工出結(jié)果的時(shí)間1.3d,AI系統(tǒng)僅需19.2min即可完成從圖像上傳到報(bào)告完成。
除了使用常規(guī)眼底成像設(shè)備來(lái)拍攝眼底照片,還出現(xiàn)了一種便攜式設(shè)備——基于智能手機(jī)的眼底成像設(shè)備,體積小、價(jià)格低、成像清晰、對(duì)于偏遠(yuǎn)地區(qū)和基層醫(yī)院來(lái)說(shuō),是性價(jià)比較高的一款眼底成像設(shè)備。2018年印度推出智能手機(jī)眼底檢查(fundus on Phone,F(xiàn)OP)[27],它的重量?jī)H有傳統(tǒng)成像設(shè)備的二十分之一,無(wú)需放大瞳孔即可成像。同年,印度Rajalakshmi等[27]將此設(shè)備與EyeArt系統(tǒng)相結(jié)合,測(cè)試該設(shè)備在檢測(cè)DR方面的作用,是首個(gè)將AI和基于智能手機(jī)的眼底成像設(shè)備結(jié)合的實(shí)驗(yàn)。該算法檢測(cè)DR的靈敏度和特異度分別為95.8%和80.2%。其他同樣使用該眼底相機(jī)的研究團(tuán)隊(duì)[28-30]也得到了相似的結(jié)果。巴西Phelcom Technologies公司的Eyer同樣也是一臺(tái)基于智能手機(jī)的眼底成像設(shè)備,Malerbi等[31]將其與AI算法結(jié)合,結(jié)果顯示超過(guò)80%的患者圖像質(zhì)量良好,同時(shí),算法的靈敏度和特異度為97.8%和 61.4%,AUC值是0.89。基于智能手機(jī)的眼底成像設(shè)備對(duì)于初級(jí)醫(yī)療保健機(jī)構(gòu)來(lái)說(shuō),是很好的消息,市面上的眼底成像設(shè)備價(jià)格高昂,體積大,也無(wú)法隨身攜帶,便攜式設(shè)備的問(wèn)世以及其與AI的結(jié)合將會(huì)開(kāi)啟社區(qū)及偏遠(yuǎn)地區(qū)DR初步篩查的新階段。
上述的研究所采用的圖像都是以黃斑為中心或視乳頭為中心的45度范圍的眼底照片,可觀察的區(qū)域較小,DR并不僅是只發(fā)生于中心視網(wǎng)膜,其在周邊視網(wǎng)膜也會(huì)出現(xiàn)。近些年來(lái),超廣角眼底成像開(kāi)始在自動(dòng)化DR篩查領(lǐng)域嶄露頭角[32-35]。2017年,Wang等[34]探討了EyeArt系統(tǒng)在檢測(cè)歐堡超廣角眼底圖像中可轉(zhuǎn)診DR的靈敏度和特異度,實(shí)驗(yàn)結(jié)果顯示靈敏度較高,特異度為中等,考慮原因是:(1)EyeArt系統(tǒng)還未針對(duì)超廣角圖像進(jìn)行參數(shù)優(yōu)化;(2)視網(wǎng)膜周邊出現(xiàn)的與DR無(wú)關(guān)的改變也可能會(huì)潛在地對(duì)算法造成混淆,因?yàn)楹髞?lái)對(duì)假陽(yáng)性照片進(jìn)行回顧,發(fā)現(xiàn)病灶多表現(xiàn)為色素改變。2019年Nagasawa等[35]開(kāi)展了一項(xiàng)類似的研究,檢測(cè)深度學(xué)習(xí)算法評(píng)估超廣角眼底圖像中的增殖性DR的準(zhǔn)確性,他們利用采集到的超廣角眼底圖像對(duì)算法進(jìn)行9折交叉驗(yàn)證,最終結(jié)果顯示靈敏度為94.7%,特異度為97.2%,AUC值為0.969。超廣角眼底成像技術(shù)與AI的結(jié)合將會(huì)成為未來(lái)的一個(gè)趨勢(shì),因?yàn)橐暰W(wǎng)膜周圍部的圖像在預(yù)測(cè)DR進(jìn)展方面起著關(guān)鍵的作用[36],任何基于眼底圖像的自動(dòng)化DR診斷/預(yù)測(cè)工具都應(yīng)該考慮檢查中央和周邊視網(wǎng)膜,而不是僅局限于使用以黃斑或視乳頭為中心的彩色眼底照片,所以未來(lái)需要更大的超廣角眼底圖像數(shù)據(jù)集去訓(xùn)練和驗(yàn)證AI系統(tǒng)。
彩色眼底照相機(jī)是常用的眼底成像設(shè)備,適用于眼科??崎T診;基于智能手機(jī)的眼底成像設(shè)備小巧便攜,適用于社區(qū)醫(yī)院等初級(jí)醫(yī)療保健機(jī)構(gòu);超廣角照相機(jī)可以發(fā)現(xiàn)周邊視網(wǎng)膜病變;無(wú)論是哪種成像設(shè)備,AI都展現(xiàn)了其不俗的識(shí)別性能,以此適應(yīng)不同的臨床環(huán)境。作為研究最成熟的彩色眼底照相機(jī),目前已有相關(guān)產(chǎn)品進(jìn)入臨床使用階段,比如IDx-DR[16],其可以直接給出是否需要就診的建議,因此非眼科醫(yī)生也可以使用該設(shè)備,但其也并非萬(wàn)能的,比如曾有過(guò)眼底手術(shù)史、妊娠糖尿病等患者不建議使用該設(shè)備進(jìn)行篩查[37]。中國(guó)也于2020年批準(zhǔn)了來(lái)自深圳和上海的兩款DR輔助診斷軟件產(chǎn)品注冊(cè)[38],這兩款產(chǎn)品的定位是輔助診斷,為臨床醫(yī)生提供參考,無(wú)法獨(dú)立給出建議。AI產(chǎn)品已在慢慢走向臨床,但距離將其全面運(yùn)用到臨床中,還有很長(zhǎng)的路要走。目前還存在一些挑戰(zhàn):(1)數(shù)據(jù)集中的圖像的單一性。目前用于訓(xùn)練和驗(yàn)證的數(shù)據(jù)集中的圖像僅涉及正常人和DR患者,而在真正的臨床環(huán)境中,患者的眼底是很復(fù)雜的,可能存在除DR之外的多種病變,AI目前尚無(wú)法準(zhǔn)確區(qū)分這些病變;(2)建模的準(zhǔn)確性依賴數(shù)據(jù)集的質(zhì)量與數(shù)量。一家醫(yī)院所能提供的DR圖片量少,且因?yàn)樯婕暗交颊唠[私和倫理問(wèn)題,醫(yī)院之間無(wú)法共享醫(yī)療數(shù)據(jù),由此出現(xiàn)“數(shù)據(jù)孤島”現(xiàn)象,數(shù)據(jù)集小,訓(xùn)練效果不如意。2016年,一種新式機(jī)器學(xué)習(xí)方法—聯(lián)邦學(xué)習(xí)的出現(xiàn)將有助于解決這一困境[39],它最大的特點(diǎn)是能夠幫助多個(gè)用戶在滿足隱私保護(hù)、數(shù)據(jù)安全和政策法規(guī)的情況下,利用無(wú)法共享的數(shù)據(jù)進(jìn)行學(xué)習(xí)和建模,由參數(shù)共享取代數(shù)據(jù)共享,這對(duì)打破數(shù)據(jù)安全壁壘具有很好的作用,在未來(lái)有可能解決數(shù)據(jù)孤島這一問(wèn)題;(3)AI系統(tǒng)識(shí)別能力有限。對(duì)于質(zhì)量較高的圖片,AI系統(tǒng)能很好地識(shí)別,但在一些非常規(guī)情況下,比如照片模糊、對(duì)比度差、角度扭曲等,在這些情況中,AI系統(tǒng)還不能顯現(xiàn)出較優(yōu)的辨識(shí)能力;(4)神經(jīng)網(wǎng)絡(luò)的黑箱性[40]。目前的AI篩查系統(tǒng)多基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建,而神經(jīng)網(wǎng)絡(luò)是一種模擬人的大腦進(jìn)行思考計(jì)算的算法,該算法內(nèi)部有很多計(jì)算層與節(jié)點(diǎn),層與層、節(jié)點(diǎn)與節(jié)點(diǎn)之間都可能會(huì)交叉交換信息,這樣的計(jì)算復(fù)雜度使得神經(jīng)網(wǎng)絡(luò)在解決某些大數(shù)據(jù)問(wèn)題時(shí)得到超出一般算法的準(zhǔn)確度。但是這種規(guī)模的計(jì)算太復(fù)雜,無(wú)法通過(guò)簡(jiǎn)單直接的公式進(jìn)行說(shuō)明,而醫(yī)學(xué)診斷需要結(jié)果準(zhǔn)確且具有可解釋性,因此,這將成為AI系統(tǒng)應(yīng)用到臨床的一大阻礙;(5)成像設(shè)備局限。目前所用的圖像還是多以黃斑或視乳頭為中心的拍攝范圍為45度的圖像,但DR不僅局限于中心視網(wǎng)膜,未來(lái)應(yīng)將超廣角眼底攝像的圖像納入訓(xùn)練集,訓(xùn)練AI系統(tǒng)對(duì)這類圖片的識(shí)別;(6)患者對(duì)AI系統(tǒng)是否接受。之前的研究多集中在AI系統(tǒng)在DR篩查和診斷方面的準(zhǔn)確性,鮮有研究去探討患者是否接受AI為自己看病,澳大利亞的一項(xiàng)研究[18]對(duì)此進(jìn)行過(guò)探討,但其樣本量較少,不足百人,后續(xù)需要較大的樣本量去闡述這一問(wèn)題。
《中國(guó)2型糖尿病防治指南(2020年版)》已經(jīng)明確提出AI篩查和分級(jí)診斷在糖尿病防治中具有巨大的潛力[41],而且近些年來(lái)隨著AI技術(shù)的快速發(fā)展,AI系統(tǒng)的功能也在不斷擴(kuò)展,除了能夠?qū)R進(jìn)行自動(dòng)分級(jí),使患者了解病變的嚴(yán)重程度,還可以實(shí)現(xiàn)病變分割,即識(shí)別病灶的特征,同時(shí)依據(jù)病灶特征進(jìn)行更準(zhǔn)確的分級(jí)診斷[42]。AI的出現(xiàn),有望會(huì)改變當(dāng)前DR診療體系,在社區(qū)或非眼科門診部署設(shè)備,對(duì)糖尿病患者進(jìn)行普篩,并給出合適的建議,將大大降低DR的致盲率,提高糖尿病患者的生活質(zhì)量,促進(jìn)防盲工作的全面開(kāi)展。
綜上所述,作為一種新興技術(shù),雖然自動(dòng)化DR篩查系統(tǒng)還存在一些挑戰(zhàn),但其在識(shí)別可轉(zhuǎn)診DR方面已展現(xiàn)出較高的特異度和靈敏度,檢測(cè)性能也等同于或優(yōu)于人工,既減輕了醫(yī)生的工作負(fù)擔(dān),也提升了診療效率。所以,我們應(yīng)對(duì)其充滿信心,相信在未來(lái)通過(guò)完善算法和眼底成像設(shè)備,AI將可以走進(jìn)臨床協(xié)助眼科醫(yī)生做出診斷。