科學(xué)家基于大數(shù)據(jù)和機器學(xué)習(xí),研發(fā)出一種計算機算法,這種算法通過眼底影像來預(yù)測人未來患心腦血管疾病的風(fēng)險,其準(zhǔn)確度已經(jīng)和目前使用的專業(yè)評估標(biāo)準(zhǔn)相當(dāng)。
南方周末特約撰稿 陳彬
人們常說“眼睛是心靈的窗戶”,這是因為通過眼神,你可以看出人心中的種種情感,喜怒哀樂,可謂一目了然。然而,從這扇心靈的窗戶,你能看到的還遠(yuǎn)遠(yuǎn)不止這些。隨著醫(yī)學(xué)的進(jìn)步,科學(xué)家們現(xiàn)在已經(jīng)能夠通過觀察一個人的眼睛,來評估其健康狀況和患病風(fēng)險(不僅僅限于眼?。9雀韬托值芄綱erily Life Sciences的科學(xué)家最近就研發(fā)出一種計算機算法,基于大數(shù)據(jù)和機器學(xué)習(xí),這種算法能夠通過眼底影像來預(yù)測人未來患心腦血管疾病的風(fēng)險,其準(zhǔn)確度已經(jīng)和目前使用的一些專業(yè)評估標(biāo)準(zhǔn)的水平相當(dāng)。這項新的研究成果發(fā)表在權(quán)威期刊《自然-生物醫(yī)學(xué)工程》(Nature Biomedical Engineering)上。由于這種方法高效、便捷以及非侵入性的特點,未來可能會得到廣泛應(yīng)用,一方面,幫助普通人監(jiān)控自己的健康狀況,盡早發(fā)現(xiàn)健康隱患,另一方面,還能夠幫助公共衛(wèi)生機構(gòu)和部門監(jiān)控相關(guān)的流行病學(xué)趨勢,制定更加有效的健康指南和防控政策。
從眼底影像入手
心腦血管疾病是心臟血管和腦血管疾病的統(tǒng)稱,包括心臟病、動脈瘤、中風(fēng)等。根據(jù)世界衛(wèi)生組織的一份調(diào)查報告,這類疾病是全世界非洲以外地區(qū)的頭號死因。在全球每年死亡的人中,大約有32%死于心腦血管疾病。這份報告還估計,到2030年時,每年將會有兩千三百萬人死于這類疾病。心腦血管疾病不僅給病人和病人的家人帶來了極大的痛苦,如此龐大的患病人口也給各國的醫(yī)療衛(wèi)生系統(tǒng)添加了沉重的負(fù)擔(dān)。另一方面,醫(yī)學(xué)研究表明,如果盡量做到避免相關(guān)的致病風(fēng)險因子(比如吸煙、酗酒、缺乏鍛煉、不健康的飲食等),有90%的心腦血管疾病一定程度上是可以避免的。毫無疑問,如果有一種能高效、便捷地預(yù)測心腦血管疾病患病風(fēng)險的方法,將會對這些疾病的防控以及發(fā)現(xiàn)未知的致病風(fēng)險因子有很大的幫助。
此前的醫(yī)學(xué)研究還發(fā)現(xiàn),人眼底影像中視網(wǎng)膜上血管的一些特征與心腦血管疾病的患病風(fēng)險有很高的相關(guān)性,比如一個人的視網(wǎng)膜微靜脈如果比普通人微靜脈的直徑更大,那么他患心腦血管疾病的風(fēng)險就比普通人更高一些。視網(wǎng)膜微動脈的直徑和心腦血管疾病的患病風(fēng)險也存在關(guān)聯(lián),不過與視網(wǎng)膜微靜脈正好相反,如果一個人視網(wǎng)膜微動脈的直徑比普通人微動脈的直徑更小,患心腦血管疾病的風(fēng)險就更高。因此,從理論上說,人的眼底影像可以被用來預(yù)測心腦血管疾病的患病風(fēng)險。
在這一領(lǐng)域的研究中,科學(xué)家此前也確實有一些進(jìn)展。然而,此前的方法都有一個缺點,那就是其分析和評估過程最多只達(dá)到了半自動化(使用相應(yīng)的計算機軟件)的程度。很多軟件對眼底影像的分析非常耗時,常常需要幾十分鐘才能對血管進(jìn)行分類并測量相關(guān)的指標(biāo)。即使完成了上述測量,這些軟件仍然無法以此來預(yù)測患病風(fēng)險:這些方法最終總是需要有經(jīng)驗的醫(yī)學(xué)工作者甚至專家來完成評估。這大大限制了這類方法在臨床上的應(yīng)用。
在這項新的研究中,谷歌的研究人員利用大數(shù)據(jù)和機器學(xué)習(xí)的方法,設(shè)計出了一種算法(下文中用英語人工智能的首字母縮寫“AI”來表示),可以僅僅通過人的眼底影像,預(yù)測一系列已知的與心腦血管疾病患病風(fēng)險相關(guān)的指標(biāo),比如性別、年齡、是否吸煙、血壓、身高體重指數(shù)(體重除以身高的平方)等。這些信息隨后被AI用于預(yù)測人患心腦血管疾病的風(fēng)險。
用大數(shù)據(jù)“自學(xué)”
機器學(xué)習(xí)的方法不止一種,谷歌的科學(xué)家使用的是一種叫做深度學(xué)習(xí)的方法。而深度學(xué)習(xí)本身又有不止一種“策略”,科學(xué)家在這項研究中使用的是一種叫做卷積神經(jīng)網(wǎng)絡(luò)的策略。
科學(xué)家之所以使用卷積神經(jīng)網(wǎng)絡(luò),是因為這種方法在圖像分析領(lǐng)域有非常不錯的表現(xiàn)。它的工作原理借鑒了大腦進(jìn)行信息處理的策略,這也是卷積神經(jīng)網(wǎng)絡(luò)這個名稱中包含“神經(jīng)網(wǎng)絡(luò)”這個詞的原因。
卷積神經(jīng)網(wǎng)絡(luò)包含有很多“層”,這一點與大腦類似,因為大腦的神經(jīng)元也是分層分布的。在大腦的每一層中,往往有各式各樣不同的神經(jīng)元來擔(dān)負(fù)各不相同的功能。與此類似,卷積神經(jīng)網(wǎng)絡(luò)的每一層中也有不同的“神經(jīng)元”,在這項研究中,它們負(fù)責(zé)對圖像的不同特征進(jìn)行提取和分析(比如眼底影像中某個區(qū)域的顏色)。不同的“神經(jīng)元”讀取到的信息并不“平等”,在決定卷積神經(jīng)網(wǎng)絡(luò)得出的結(jié)論時所占的權(quán)重有大有小。在這個神經(jīng)網(wǎng)絡(luò)中,相鄰的層與層之間存在連接,信息可以從一層流向另一層。卷積神經(jīng)網(wǎng)絡(luò)的最后一層是一個“集大成”的層,與其他的所有層都有連接,通過把此前各層的分析結(jié)果整合到一起得出最后的結(jié)論,在這項研究中,就是對人患心腦血管疾病風(fēng)險的預(yù)測。
要想讓AI準(zhǔn)確預(yù)測人患心腦血管疾病的風(fēng)險,科學(xué)家需要首先對它進(jìn)行“訓(xùn)練”。這種訓(xùn)練是通過大數(shù)據(jù)分析和學(xué)習(xí)來完成的。研究人員使用了來自兩個生物醫(yī)學(xué)數(shù)據(jù)庫,總共284,335名病人的眼底影像照片來訓(xùn)練他們設(shè)計的AI。在訓(xùn)練的過程中,并不只是用到了上述眼底影像的照片,同時還用到了這些病人與心腦血管疾病相關(guān)的其他一些信息(這些都是上述兩個數(shù)據(jù)庫在采集數(shù)據(jù)時收錄的,因為只有包含這些信息,這些影像才會對醫(yī)學(xué)研究有幫助),比如年齡、性別、是否吸煙等,這些信息也是已知的導(dǎo)致心腦血管疾病的風(fēng)險因子。每一個病人的信息與其眼底影像照片一一對應(yīng)。
AI的訓(xùn)練方式很像是一個學(xué)生在不斷進(jìn)行考試,并且通過考試的結(jié)果進(jìn)行“自學(xué)”,從而提高預(yù)測的準(zhǔn)確性。每一張眼底影像照片就像一份“考卷”,當(dāng)把照片提交給AI后,卷積神經(jīng)網(wǎng)絡(luò)各層的“神經(jīng)元”會對照片的各種特征(比如某個區(qū)域的亮度)進(jìn)行分析,并將結(jié)果傳給下一層的“神經(jīng)元”,所有分析結(jié)果會按不同的權(quán)重匯總整合到一起,并最終做出預(yù)測(這些預(yù)測實際上分為兩個層次,第一個層次是對性別、年齡、血壓等的預(yù)測,第二個層次是在第一個層次的基礎(chǔ)上對患心腦血管疾病風(fēng)險的預(yù)測),這些做出的預(yù)測就像是AI寫在考卷上的“答案”?!按鸢浮睂懲炅耍驮摗皩Υ鸢浮绷?。AI會把自己的“答案”與病人的相關(guān)信息,也就是“正確答案”進(jìn)行比較。如果“答案”和“正確答案”很相似,那么就繼續(xù)進(jìn)行下一輪“考試”;如果“答案”和“正確答案”存在較大的偏差,那么AI會對自己的“解題方法”做稍許調(diào)整,比如降低或是增加某一類“神經(jīng)元”的權(quán)重,然后再進(jìn)行下一輪“考試”。
通過海量的“考試”,科學(xué)家希望這些“考卷”能夠覆蓋到不同個體關(guān)于心腦血管疾病的各類信息:男人的、女人的、年輕人的、老年人的、煙民的、糖尿病病人的、高血壓病人的等等。這樣AI就能夠通過學(xué)習(xí)找到針對不同人群的“規(guī)律”,比如看到某一張眼底影像中存在與男性相對應(yīng)的“規(guī)律”,就可以預(yù)測這張照片是一個男性的眼底影像。
在把這284335張“考卷”做完之后,AI就“畢業(yè)”了。接下來就該看看它是否“學(xué)有所成”,能夠準(zhǔn)確預(yù)測病人患心腦血管疾病的風(fēng)險了??茖W(xué)家從上述兩個數(shù)據(jù)庫中又拿出大約13000名病人的眼底影像照片(這些病人的眼底影像沒有用來訓(xùn)練過AI),讓AI進(jìn)行預(yù)測,然后將預(yù)測結(jié)果與病人的信息進(jìn)行比較,以考察其精準(zhǔn)性。結(jié)果發(fā)現(xiàn)AI能夠很準(zhǔn)確地預(yù)測出病人的年齡、性別、血壓、身高體重指數(shù)等風(fēng)險因子,但對糖化血紅蛋白(水平與糖尿病相關(guān))等其他一些風(fēng)險因子的預(yù)測效果并不是很理想。
盡管如此,當(dāng)AI把所有風(fēng)險因子的預(yù)測整合到一起,預(yù)測病人心腦血管疾病的患病風(fēng)險時,AI的表現(xiàn)仍然非常優(yōu)異,在被用于預(yù)測五年內(nèi)患心腦血管疾病的風(fēng)險時,其準(zhǔn)確度已經(jīng)達(dá)到了由歐洲心臟病學(xué)學(xué)會制定的風(fēng)險預(yù)測計算方法的水平,而后者的計算需要非常多的指標(biāo),很多都是AI在訓(xùn)練時并沒有學(xué)習(xí)的(比如病人的血脂水平)。這樣的結(jié)果表明,無需其他任何信息,僅僅憑借眼底影像的照片,谷歌科學(xué)家開發(fā)的這種AI一定程度上就能專業(yè)級地預(yù)測病人患心腦血管疾病的風(fēng)險了。
AI醫(yī)學(xué)正在起飛
雖然這種算法表現(xiàn)已經(jīng)相當(dāng)優(yōu)異,但谷歌的科學(xué)家認(rèn)為,其仍有很廣闊的提升空間。
一方面,對于大數(shù)據(jù)科學(xué)來說,284335張眼底影像照片這一數(shù)量還是太小了,如果用更多的眼底影像照片來對AI進(jìn)行訓(xùn)練,AI的預(yù)測準(zhǔn)確度可能還會提高;另一方面,這項研究中用于訓(xùn)練AI的病人信息并不是很全面,比如只有來自一個數(shù)據(jù)庫的病人信息中包含了血壓、糖化血紅蛋白等指標(biāo),而血脂水平則兩個數(shù)據(jù)庫都沒有收錄,如果用包含這些信息的眼底影像照片來訓(xùn)練AI,其預(yù)測準(zhǔn)確度也可能會提高。
除此之外,這項研究的主要參與者Lily Peng認(rèn)為,病人一些非生理指標(biāo)的信息,比如生活方式的變化也可以被納入到用于訓(xùn)練AI的信息中去,這一方面可能提高預(yù)測的準(zhǔn)確度,另一方面還有利于發(fā)現(xiàn)此前未被醫(yī)學(xué)界注意到的風(fēng)險因子。總的來說,科學(xué)家對提高這種AI的準(zhǔn)確性以及未來的應(yīng)用前景持樂觀態(tài)度。
毫無疑問,如果谷歌科學(xué)家開發(fā)的這一算法能夠得到進(jìn)一步的強化并最終用于臨床,將會對監(jiān)控個人以及群體的心血管健康狀況有非常大的幫助。對于那些生活在貧窮或者偏遠(yuǎn)地區(qū)的人們來說,這種方法帶來的益處將會更為顯著。
這些地區(qū)的醫(yī)療條件往往非常落后,因此使用常規(guī)的心血管健康狀況監(jiān)控方法所需的很多檢查有可能無法進(jìn)行。有了這種算法之后,理論上來說,醫(yī)療人員只需要一部智能手機就能對這些地區(qū)的人進(jìn)行檢查和監(jiān)控了:早在2010年,科學(xué)家就研發(fā)出了輕巧便捷并且能夠安裝到智能手機上的眼底照相機。利用加載了這種照相機的智能手機,醫(yī)療人員就可以拍攝病人的眼底影像,進(jìn)而監(jiān)測其心腦血管的健康狀況,無需攜帶其他任何設(shè)備。
實際上,隨著人工智能技術(shù)的飛速發(fā)展,人工智能的元素正在越來越多地滲透到醫(yī)學(xué)領(lǐng)域中。
2018年4月11日,美國食品藥品監(jiān)督管理局(FDA)首次批準(zhǔn)了一種基于人工智能的診斷設(shè)備。這種設(shè)備能夠通過一個叫做IDx-DR的AI軟件分析病人的眼底影像照片,進(jìn)而診斷糖尿病病人的眼病,全程無需醫(yī)生參與。
2016年,利用IBM基于人工智能的超級計算機“沃森”,東京大學(xué)醫(yī)學(xué)科學(xué)研究所的科學(xué)家成功地診斷出了一名病人患的一種極為罕見的白血病?!拔稚痹趯Τ^2000萬篇癌癥研究論文進(jìn)行交叉比對之后給出了診斷結(jié)果,全程僅花了十分鐘。
類似這樣的例子近年來正在越來越多的出現(xiàn)在科技新聞甚至新聞頭條上。有理由相信,大數(shù)據(jù)和人工智能技術(shù)即將掀起一場醫(yī)學(xué)革命。