李居朋,王穎慧,李 剛
(1.北京交通大學電子信息工程學院,北京 100044;2.北京大學口腔醫(yī)學院,北京 100081)
醫(yī)學解剖學意義上的“關鍵點”定義為人體普遍具有特定特征的、位置和拓撲上存在對應關系的一些點或者曲線[1].醫(yī)學圖像解剖學關鍵點的自動檢測是醫(yī)學圖像處理研究領域中一個重要而活躍的課題,作為眾多醫(yī)學圖像分析應用的前提基礎,已被廣泛用于醫(yī)學圖像配準[2~4]、組織分割[5~8]、參數(shù)測量[6,7,9,10]、病理診斷[1,11~16]以及治療規(guī)劃[17~20]、手術引導[21~24]或其他醫(yī)學圖像處理的初始化[25]等.形式上,對應給定的醫(yī)學圖像X,關鍵點檢測算法預測關鍵點集合L的位置x={(x1,y1,z1),(x2,y2,z2),…,(xL,yL,zL)},其中x·、y·和z·表示關鍵點坐標.
然而由于人體解剖結(jié)構(gòu)的多樣性,尤其是潛在局部相似關鍵點的情況下,精確而魯棒的解剖學關鍵點定位變得充滿挑戰(zhàn)[26].在過去的幾十年里,醫(yī)學圖像關鍵點檢測取得了較多的研究進展,當前主要的解決方案可以分為五大類,即基于知識、模式匹配、統(tǒng)計學習、混合技術和深度學習的方法.第一類是利用人類對關鍵點結(jié)構(gòu)知識模擬手動檢測過程[27,28],但由于模式過于復雜,無法隨圖像復雜度的增加而制定規(guī)則.隨后,一些研究人員采用了模式匹配搜索的策略[29,30],但這類方法對個體間的差異異常敏感.考慮到全局空間約束和關鍵點位置局部信息的同等重要性,基于統(tǒng)計學習的關鍵點檢測方法脫穎而出,如“主動形狀模型”[31]和“主動外觀模型”[32],也出現(xiàn)了一些基于上述混合技術的方法[33].在IEEE ISBI 2014 和Grand Challenge 2015 挑戰(zhàn)賽中[19,20],結(jié)合隨機森林回歸投票和統(tǒng)計形狀分析技術的兩個框架性能表現(xiàn)良好[17,18].后續(xù)多個研究都以Grand Challenge 數(shù)據(jù)集(https://grand-challenge.org/)為基礎開始了相關技術研究[34~36].以上這些傳統(tǒng)的檢測方法超出了本文的討論范圍,如有興趣可參考相關的研究論文.
最新的深度學習技術在計算機視覺領域取得了巨大的成功,激發(fā)了國內(nèi)外學者們將其應用于醫(yī)療圖像分析的研究熱情,已在醫(yī)學圖像分類、檢測、分割、配準和檢索等方面表現(xiàn)出傳統(tǒng)技術無法比擬的性能[37,38],正如哈佛大學醫(yī)學院Wells 教授給出的判斷,應用深度學習解決醫(yī)學圖像分析任務是本領域的發(fā)展趨勢[39,40].自2016年開始,已有多位專家充分利用深度學習技術的多級語義自動學習特征,克服先前方法在特征定義和提取中的局限性,提出了多種用于醫(yī)學關鍵點檢測的有效解決方案.在此基礎上,本文依托于課題組在國家自然科學基金項目中的相關研究工作,聚焦于深度學習技術在醫(yī)學圖像關鍵點檢測這一特定應用領域的研究現(xiàn)狀和挑戰(zhàn),使用谷歌學術搜索引擎(https://scholar.google.com/),設定檢索主題詞包括
medical images AND(landmark detection OR landmark localization OR landmark digitization),范圍涵蓋了醫(yī)學圖像處理領域頂級的期刊和知名的國際會議論文集(包括Medical Image Analysis 等在內(nèi)的多個刊源),以及最新發(fā)表在arXiv 網(wǎng)站上的論文,并逐一篩選出以深度學習技術重點解決醫(yī)學圖像關鍵點檢測問題的文獻.據(jù)知,這是第一份關于醫(yī)學圖像關鍵點檢測的深度學習論文綜述,相信這份清單對于相關領域的學習者或研究者而言將是一個很好的助力.
圖像關鍵點本質(zhì)上是一種特征,是對圖像中一個固定區(qū)域或者空間物理關系的抽象描述,描述的是一定鄰域范圍內(nèi)的上下文關系[41].醫(yī)學圖像關鍵點檢測與人臉關鍵點檢測(Facial Landmark Detection)[42]、人體關鍵點檢測(Human Pose Estimation)[43]、手勢關鍵點檢測(Hand Pose Estimation)[44]、服裝關鍵點檢測(Fashion Landmark Detection)[45]等研究內(nèi)容(圖1)是計算機視覺研究領域中的核心任務和熱點問題,也是相關的更深層次應用的基礎.同屬于關鍵點檢測范疇的這些任務間的研究目標和方法存在著一定的相通之處.醫(yī)學圖像關鍵點檢測中很多思路來自于具有更多研究基礎的人臉、人體等檢測研究成果.為了更好地展開問題的討論,下文將對相關研究進行簡要論述.
圖1 多個不同的關鍵點檢測任務實例
傳統(tǒng)的圖像關鍵點檢測主要包括基于模型匹配、約束模型、形態(tài)回歸等方法,但由于容易受到姿態(tài)變化、物體遮擋等因素的影響,關鍵點檢測性能提升有限從而大大限制了技術的實際應用.2012 年Hinton 課題組為了證明深度學習的潛力,首次參加ImageNet 圖像識別比賽,其通過構(gòu)建的CNN 網(wǎng)絡AlexNet 一舉奪得冠軍,也正是由于該比賽CNN 吸引了眾多研究者的注意,深度學習開始迎來超級發(fā)展時期,借助深度學習技術,圖像關鍵點檢測也完成了從傳統(tǒng)方法到深度學習的轉(zhuǎn)變[44].此后,研究者們提出了人臉檢測的Face++版DCNN、TCNN、DAN 框架,以及人體檢測的Convolutional Pose Machines、Stacked Hourglass Network 等諸多優(yōu)秀的關鍵點檢測網(wǎng)絡模型,關鍵點檢測與定位性能得到不斷提升,相關領域的更多研究可參考文獻[43,45~47]等綜述類文獻.
用于人體、人臉等關鍵點檢測的研究思路和方法可以作為醫(yī)學圖像關鍵點檢測研究的借鑒,但醫(yī)學圖像關鍵點與上述問題在圖像數(shù)據(jù)類型、檢測精度要求等方面也存在著區(qū)別.依據(jù)Bookstein 等人[41]給出的醫(yī)學關鍵點定義將其分為三類:①相鄰組織間的位置;②具有最大曲率或局部形態(tài)突變的位置;③幾何形態(tài)上極值點的位置.其中第①類關鍵點多被冠以特定醫(yī)學名稱或標簽,具有明確的解剖學意義和更可靠的點-點對應關系,被廣泛用于醫(yī)學研究與臨床應用.
醫(yī)學圖像關鍵點存在以下特點:①患者個體間關鍵點形狀存在差異性,而且這種差異可能表現(xiàn)得非常巨大,例如顳下頜關節(jié)髁突頂(藍點)受多方面的影響,因而其外觀在個體間存在很大的差異[圖2(a)和(b)];②患者個體內(nèi)關鍵點形狀存在歧義性,人體可能存在與待檢測關鍵點具有相似局部外觀的多個點,最極端示例是在重復的人體骨骼結(jié)構(gòu)上定義的關鍵點類別,包括人體中的手部骨骼和胸部肋骨[圖2(c)和(d)]等.正是由于這些特點的存在,使得醫(yī)學圖像關鍵點檢測問題存在巨大的挑戰(zhàn).在以上檢測難點共存的情況下,如何提升醫(yī)學圖像關鍵點檢測的定位精度是眾多研究者們的關注重點.本文首先對醫(yī)學圖像關鍵點檢測方法的國內(nèi)外研究現(xiàn)狀進行分類與整理;然后探討并歸納醫(yī)學圖像分析深度學習方法的挑戰(zhàn)及主要應對策略;最后給出對該領域相關技術發(fā)展趨勢的思考與討論.
圖2 醫(yī)學圖像關鍵點形態(tài)表現(xiàn)差異
醫(yī)學圖像關鍵點檢測深度學習的方法廣泛采用監(jiān)督學習的方式,即利用一組關鍵點標注數(shù)據(jù)樣本訓練與調(diào)整深度學習網(wǎng)絡的參數(shù),使其達到所要求分類或者回歸性能的過程.根據(jù)學習問題的類型可以將現(xiàn)有的醫(yī)學圖像關鍵點檢測深度學習方法劃分為兩大類:一類利用像素點分類方式解決,另一類則是關鍵點坐標回歸的方法.圖3 統(tǒng)計了這兩類方法的研究論文數(shù)量,其中采用分類框架的方法遠低于基于回歸分析的研究,針對每一類方法的類型細分將在后續(xù)研究現(xiàn)狀分析中給出更為詳細的梳理與討論.
圖3 醫(yī)學圖像關鍵點檢測深度學習方法分類統(tǒng)計
分類問題(Classification Problem)是有監(jiān)督學習中的核心問題,用于解決要預測樣本屬于哪個或者哪些預定義的類別,此時輸出變量通常取有限的離散值.如何將關鍵點定位問題轉(zhuǎn)化為分類問題,現(xiàn)有的基于深度學習的醫(yī)學圖像關鍵點檢測方法提出了兩種問題解決思路(圖4).
圖4 基于分類的關鍵點檢測框架
3.1.1 基于像素點的分類檢測方法
Tuysuzoglu 等人[48]在研究直腸超聲2D 圖像的前列腺關鍵點定位問題時,提出了一種對抗性的多任務深度學習方法,對超聲圖像中的每個像素分配7種類別的概率分布(Probability Distribution)特征向量,將每個關鍵點和背景分配單獨的類別標簽.分類網(wǎng)絡學習像素到概率分布的映射,在映射后的特征圖中找到每一類關鍵點標簽的極大值作為定位位置.經(jīng)32 位直腸超聲檢查患者的4799幅圖像實驗測試,6個關鍵點的平均定位誤差為3.56 mm.
3.1.2 基于圖像塊的分類檢測方法
準確檢測和識別骨盆解剖學關鍵點是診斷髖關節(jié)發(fā)育不良(Developmental Dysplasia of Hip,DDH)的關鍵步驟.Liu 等人[9]提出一種用于盆骨X-Ray 2D 圖像的FR-DDH 關鍵點檢測網(wǎng)絡,將關鍵點檢測任務轉(zhuǎn)換為關鍵點局部鄰域圖像塊的分類問題,以最匹配的檢測區(qū)域中心作為關鍵點坐標.通過含有9813 例骨盆X-Ray圖像的數(shù)據(jù)集驗證了FR-DDH 關鍵點檢測網(wǎng)絡的關鍵點定位(平均誤差為1.24 mm)精度.與其相似的一份研究工作,Zheng 等人[10]針對頭頸CT 掃描中的頸動脈分叉關鍵點檢測問題,首先由淺層網(wǎng)絡完成所有體素為中心的圖像塊篩選以獲取少量候選區(qū)域,然后使用深層網(wǎng)絡結(jié)合Haar小波等特征進行更準確的后續(xù)圖像塊的分類,在455 例患者的頭頸部CT 數(shù)據(jù)集上進行了頸動脈分叉檢測的定量評估,平均誤差降低到2.64 mm的定位精度.
回歸分析(Regression Analysis)是確定兩種或兩種以上變量之間相互依賴的定量關系的統(tǒng)計分析方法.回歸分析側(cè)重從定量關系的分析直接輸出實數(shù)數(shù)值,而分類處理的輸出通常為若干指定的類別標簽.基于回歸分析的關鍵點檢測方法,依據(jù)學習網(wǎng)絡回歸輸出數(shù)據(jù)類型的不同,可分為坐標值回歸(Coordinate Regression)、熱度圖回歸(Heat-Map Regression)和位移圖回歸(Displacement Regression)三種不同類別,圖5 給出了基于回歸分析的關鍵點檢測框架.回歸網(wǎng)絡將整幅圖像或者圖像塊作為數(shù)據(jù)輸入,由不同的Ground Truth 設置不同的網(wǎng)絡輸出,對熱度圖和位移圖一般再經(jīng)過后處理獲得關鍵點的坐標.
圖5 基于回歸分析的關鍵點檢測框架
3.2.1 基于坐標值回歸的檢測方法
深度學習網(wǎng)絡通過輸入的醫(yī)學圖像回歸出關鍵點坐標是一種最直接解決思路,對于給定的含有L個關鍵點的3D 圖像Χn,網(wǎng)絡輸出層一般設計為1 個或多個全連接層,通過端到端的(End-to-End)訓練方式直接回歸出3L長度的向量,即為L個關鍵點的坐標(或歸一化的坐標).
Andermatt 等人[49]在研究3D MRI 圖像中髓腦溝關鍵點定位問題時,構(gòu)建了由三個下采樣MD-GRU 層、全連接層和Tanh 激活函數(shù)層組成的定位網(wǎng)絡,網(wǎng)絡輸出經(jīng)全連接層和LReLU 層回歸為關鍵點的坐標數(shù)據(jù).經(jīng)1218 例圖像的訓練和測試,該方法的平均定位誤差為1.70 mm,與神經(jīng)病學專家標注精度相當.Tiulpin 等人[16]借助堆疊沙漏網(wǎng)絡(Stacked Hourglass Network)完成輸入圖像到特征表示,由2D Soft-Max 層回歸每一個關鍵點的坐標.對膝蓋骨X-Ray 圖像中16 個關鍵點定位測試結(jié)果,關鍵點正確估計比例(Percentage of Correct Key-Points,PCK)參數(shù)在定位偏差為2.50 mm 時達到90.91%.Zhang 等人[14]提出了兩階段的、面向任務的深度學習網(wǎng)絡(Two-stage Task-Oriented Deep Learning,T2DL)實現(xiàn)顱腦3D T1W-MRI 圖像關鍵點的自動檢測.第一階段采用基于CNN 的回歸模型使用數(shù)百萬個圖像塊作為網(wǎng)絡輸入,旨在學習局部圖像斑塊和目標解剖學關鍵點之間的空間距離關系.第二階段進一步建模圖像塊之間的相關性,與第一階段CNN 共享相同的網(wǎng)絡結(jié)構(gòu)和權(quán)重直接回歸3L長度的向量即L個關鍵點的空間坐標,同時增加額外卷積層實現(xiàn)大規(guī)模關鍵點檢測.
3.2.2 基于熱度圖回歸的檢測方法
關鍵點檢測的最終任務是輸出預測關鍵點位置的坐標,然而直接通過學習網(wǎng)絡輸出坐標進行優(yōu)化學習是一個極其非線性的過程,而且損失函數(shù)對權(quán)重的約束會比較弱,因此,Tompson 等人[42]提出了構(gòu)造一個中間態(tài)熱度圖作為網(wǎng)絡回歸輸出,再經(jīng)過非極大值抑制(Non-Maximum Suppression,NMS)等算法尋找并確定關鍵點的坐標.
一般地對于給定L個關鍵點,將坐標為∈Rd目標關鍵點Li(i=1,2,…,L)的d維熱度圖gi(x):Rd→R 定義為高斯函數(shù),計算式為
因此,目標關鍵點坐標附近的熱度圖像素具有較高的值,并在遠離關鍵點的位置平滑而迅速減小.引入比例因子γ可以有效避免回歸網(wǎng)絡訓練期間由于高斯函數(shù)中微小值而引起的不穩(wěn)定.對于每個維度d,標準偏差σi定義了關鍵點Li的熱度圖中高斯函數(shù)的峰寬.在網(wǎng)絡推斷時,獲取熱度圖中最高值的坐標并將其作為每個關鍵點Li的預測坐標∈Rd,計算式為
其中,預測熱度圖hi(x;w,b)中參數(shù)w和b表示網(wǎng)絡權(quán)重和偏置參數(shù).
Payer 等人[50]提出一種全卷積空間配置網(wǎng)絡(Spatial Configuration-Net,SCN)架構(gòu),局部外觀模塊(Local Appearance Model)映射局部外觀特征回歸生成候選關鍵點熱度圖,空間配置模塊(Spatial Configuration Model)著重于減少形狀歧義以提高對關鍵點錯誤識別的魯棒性,在數(shù)量有限的手部2D/3D醫(yī)學圖像上獲得了良好的關鍵點定位性能.相關工作經(jīng)作者進一步完善后發(fā)表在醫(yī)學圖像處理頂級期刊Medical Image Analysis上[51].更多相似的方法可參考表1列出的文獻.
表1 基于熱度圖回歸分析的關鍵點檢測研究方法
3.2.3 基于位移圖回歸的檢測方法
關鍵點定位任務中的位移圖一般定義為與關鍵點間位移參數(shù)的特定數(shù)據(jù)形式,具有V體素的3D 圖像Χn表示從該體素到特定軸空間中某個關鍵點的位移.也就是說,Χn中的第l個關鍵點有3 個位移圖(即和),分別對應于x、y和z軸三個方向上的偏移.從而給定L個關鍵點,每個輸入圖像Χn則都有3L個位移圖.
在解決頜面部CBCT 圖像多個關鍵點檢測問題中,Zhang 等人[6]提出了上下文指導的全卷積網(wǎng)絡(Fully Convolutional Network,F(xiàn)CN)用于聯(lián)合顱骨骨骼分割和關鍵點數(shù)字化,首先訓練FCN-1 學習圖像空間體素相對于關鍵點的位移圖以捕獲CBCT 圖像空間上下文信息,然后結(jié)合原始圖像經(jīng)多任務的FCN-2 網(wǎng)絡以共同執(zhí)行骨骼分割和關鍵點檢測.在此工作基礎上,Zhang等人[7]增加了更多的實驗測試工作并將相關內(nèi)容發(fā)表在Medical Image Analysis 期刊,15個關鍵點的平均定位誤差為1.10±0.71 mm.
在研究胎兒3D 超聲圖像關鍵點自動檢測問題時,Li 等人[55]提出了一種新穎的基于圖像塊的迭代網(wǎng)絡(Patch-based Iterative Network,PIN),網(wǎng)絡學習圖像塊與關鍵點之間的空間位移關系,推理時使用迭代的、稀疏的采樣方法將圖像塊引導至目標關鍵點位置.實驗采用72 例人工標注圖像進行網(wǎng)絡的訓練和性能測試,獲得了5.47±4.23 mm的定位誤差.
為了驗證關鍵點檢測的準確性,常用的點對點誤差(Point-to-point Error for Landmark,PEL)衡量參數(shù)定義為
其中,N表示測試圖像數(shù)量∈Rd表示標記的關鍵點坐標∈Rd表示網(wǎng)絡推斷識別結(jié)果.將PEL 的平均值定義為平均點對點誤差(Average Point-to-Point Errors,APE),其計算式為
其中,L表示每幅圖像的關鍵點總數(shù).為了衡量點對點誤差的分散程度,一般在上述兩衡量參數(shù)后面加入對應的標準差,變?yōu)镻EL(Li)±Std(mm)和APE(Li)±Std(mm)形式.
關鍵點的成功檢測率(Successful Detection Rate,SDR)是另外一個常用的定位精度評價指標,定義為關鍵點Li位于一系列定位精度范圍Δ={1.0 mm,2.0 mm,3.0 mm,…}內(nèi)的百分比,計算式為
定位精度范圍Δ中的精度值可以依據(jù)實際適當調(diào)整.
利用深度學習進行醫(yī)學圖像關鍵點檢測時,獲取大規(guī)模的學習訓練樣本數(shù)據(jù)集非常困難,且需要臨床專家標注,因此目前公開可用的醫(yī)學圖像關鍵點檢測數(shù)據(jù)集偏少,為了解決數(shù)據(jù)集的限制,可以從兩個方面嘗試解決大規(guī)模的醫(yī)學數(shù)據(jù)標注樣本數(shù)據(jù)的問題.
一方面,醫(yī)學圖像領域的挑戰(zhàn)賽及大型公開數(shù)據(jù)集的出現(xiàn)對醫(yī)學圖像分析的發(fā)展有著極大的幫助,自2007 年以來,MICCAI、ISBI 和SPIE 等醫(yī)學成像研討會組織挑戰(zhàn)賽數(shù)據(jù)集已經(jīng)成為慣例,開放了大量用于基準研究的醫(yī)學數(shù)據(jù)集[56],收錄在網(wǎng)站http://www.grandchallenge.org/.另外通過追蹤相關研究文獻中研究者們給出的數(shù)據(jù)集,表2給出本文整理的可用于醫(yī)學圖像關鍵點檢測的圖像庫及其鏈接.
表2 醫(yī)學圖像關鍵點檢測可用數(shù)據(jù)集及參數(shù)
另一方面,臨床醫(yī)學數(shù)據(jù)的收集為深度學習提供了另一個解決方案.2016 年我國科技部已經(jīng)啟動國家重點研發(fā)計劃“精準醫(yī)學研究”專項,可望在解決醫(yī)學圖像隱私問題的同時,為深度學習在醫(yī)學圖像處理領域的研究提供可用的大規(guī)模醫(yī)療數(shù)據(jù)集.目前,本文項目組承擔的國家自然科學基金項目“三維多模態(tài)融合圖像診治顳下頜關節(jié)紊亂病的關鍵技術研究”進展順利,通過與北京大學口腔醫(yī)學院和解放軍306 醫(yī)院合作,以臨床醫(yī)生標注的顳下頜關節(jié)CBCT 圖像以及MRI圖像兩種模態(tài)對應的5 組關鍵點信息為金標準訓練學習的樣本集,結(jié)合熱度圖回歸搭建了帶有注意力機制的端到端的3D FCN 關鍵點深度學習檢測框架,以103對CBCT 圖像進行測試,初步實驗結(jié)果APE=2.13±1.84 mm.在進一步數(shù)據(jù)整理的基礎上,計劃將其發(fā)布并作為一份3D醫(yī)學關鍵點檢測的公開數(shù)據(jù)集.
深度學習技術以自動學習和應用多級語義特征,很大程度上克服了傳統(tǒng)方法在特征定義和提取中的局限性,但基于深度學習的醫(yī)學圖像分析(特別的針對研究相對較少的醫(yī)學圖像關鍵點檢測)上依然存在巨大挑戰(zhàn)[55].在上述研究現(xiàn)狀分析的基礎上,本文嘗試將基于深度學習的醫(yī)學圖像關鍵點檢測面臨的挑戰(zhàn)總結(jié)為以下三點:①通常只有數(shù)量有限的且?guī)в嗅t(yī)生標注的醫(yī)學圖像數(shù)據(jù)集可用,難以處理學習模型訓練過程中的過擬合問題;②醫(yī)學關鍵點高精度的檢測需要綜合應用醫(yī)學圖像多種信息,設計能夠挖掘和綜合應用多種信息的深度學習網(wǎng)絡具有較大的難度;③醫(yī)學圖像(特別是3D 醫(yī)學圖像)數(shù)據(jù)量過大,規(guī)模巨大的網(wǎng)絡模型參數(shù)對GPU 內(nèi)存提出了更高的要求,同時這也對關鍵點檢測的實時性帶來了更大的挑戰(zhàn).那么為了提高特征表示能力和關鍵點定位的準確性以滿足臨床的實際應用,當標注數(shù)據(jù)集樣本量不足時該怎么處理?如何利用關鍵點的空間上下文信息(Spatial Context Information)以及與醫(yī)學圖像處理的其他任務間的互補關系?如何降低醫(yī)學圖像數(shù)據(jù)量大對計算空間和時間的壓力?目前,主要的應對策略如下文所述.
數(shù)據(jù)是深度學習算法研究所需的核心資源,深度學習方法在多個自然圖像處理任務中的成功很大程度上歸功于高達百萬級別圖像庫的支撐,但醫(yī)學圖像由于疾病病例稀缺等,因此可獲取的圖像數(shù)量普遍偏少(一般在幾十至幾百數(shù)量級),而更高質(zhì)量的醫(yī)學圖像標注將耗費大量人力和時間,因此在醫(yī)學影像領域獲取大量且具有高可靠性的標注數(shù)據(jù)是基于深度學習的醫(yī)學圖像處理研究的首要挑戰(zhàn).
針對這一挑戰(zhàn),Urschler 等人[26]將關鍵點定位任務分為兩個更簡單的子問題,以減少對大型訓練數(shù)據(jù)集的總體需求,實驗結(jié)果證實了即使在可用訓練圖像數(shù)量有限的情況下,也可獲得2D和3D醫(yī)學圖像關鍵點的良好定位性能.Zhang 等人[6,7]采用兩階段的、面向任務的深度學習網(wǎng)絡實現(xiàn)腦部圖像關鍵點檢測,同時使用數(shù)百萬個圖像塊作為網(wǎng)絡輸入回歸局部圖像塊和關鍵點之間的空間距離關系以進一步降低有限訓練數(shù)據(jù)的影響.類似地,Li等人[55]在網(wǎng)絡訓練時利用卷積神經(jīng)網(wǎng)絡學習圖像塊與解剖學關鍵點之間的空間關系,推理時PIN網(wǎng)絡使用迭代地、稀疏地采樣方法將圖像塊引導至目標關鍵點位置,實驗采用72 例人工標注圖像進行網(wǎng)絡的訓練和性能測試,獲得了5.47±4.23 mm 的定位誤差.
從以上研究思路來看,并沒有出現(xiàn)類似于處理自然圖像數(shù)據(jù)量不足問題中常用的遷移學習、數(shù)據(jù)增廣或者生成式對抗網(wǎng)絡(Generative Adversarial Networks,GAN)樣本生成等技術[57],本文認為這正是由醫(yī)學圖像關鍵點檢測中數(shù)據(jù)集特有的需求所決定,特征點標記是位于圖像空間中一個精確的坐標向量,而非類似與目標分割、分類等問題中區(qū)域的標記.文獻[50,51]傾向于將復雜的關鍵點定位問題分解為多個子問題,以降低有限數(shù)據(jù)訓練大型網(wǎng)絡的難度.文獻[36,58]結(jié)合了特殊應用中的醫(yī)師注視點信息用于替代標注,這種方法與精確的數(shù)據(jù)標注還是存在較大的偏差,在一些對定位精度要求相對偏低的場合是一種選擇.而文獻[55]提出的PIN 模型的迭代優(yōu)化思路(圖6)最為新穎,值得研究者參考和學習.
圖6 文獻[55]提出的多個關鍵點檢測的迭代更新網(wǎng)絡結(jié)構(gòu)
深度學習算法的設計歸根結(jié)底是適用于特定應用場景需求的CNN 網(wǎng)絡架構(gòu)的設計.如何定義網(wǎng)絡的“適用性”?本文認為,網(wǎng)絡能夠有效挖掘數(shù)據(jù)中可用于表示待解決特定問題信息的能力,是衡量網(wǎng)絡適用性的唯一標準.針對這一問題,建議從三個角度思考:①人體組織存在較大的近似性,這就決定了關鍵點的空間信息具有相當固定的關系,形成了特有的空間上下文信息,在設計提取關鍵點局部信息的同時應更加重視空間關系的全局信息;②采用更加符合人類認知過程的多階段關鍵點檢測網(wǎng)絡,將關鍵點檢測任務劃分為從粗略到精細的推理過程,以提高檢測的正確性和精準度;③合理結(jié)合醫(yī)學圖像處理的其他任務,設計多任務處理的學習網(wǎng)絡.
4.2.1 空間上下文信息應用
關鍵點位置的圖像亮度信息是最直接可用的信息,除此之外,醫(yī)學圖像關鍵點之間的空間位置分布(也稱為空間上下文信息)一般具有相對穩(wěn)定且相對統(tǒng)一的特性.這對醫(yī)學圖像關鍵點的檢測起到顯著的幫助作用.同時也有相關研究表明,即使對專家注釋者/臨床醫(yī)師而言,空間上下文信息在手工標注具有挑戰(zhàn)性的醫(yī)學關鍵點過程中也是必不可少的,特別是在圖像信號或線索很少的區(qū)域,將關鍵點的拓撲/空間先驗信息整合到檢測任務中是一個活躍的研究領域且有著廣泛的應用.Zhang等人[25]使用低維形狀模型捕獲內(nèi)耳對之間的空間關系,并使用此先驗信息進一步評估了后處理步驟中檢測到的內(nèi)耳對的合理性.Liu 等人[9]挖掘盆骨關鍵點空間局部相關性巧妙地將檢測任務轉(zhuǎn)換為局部鄰域圖像塊的分類問題.Tuysuzoglu等人[48]利用待檢測的6 個解剖關鍵點均位于前列腺邊界上為已知的拓撲/空間先驗信息,網(wǎng)絡顯式地學習關鍵點標志性位置特征,實現(xiàn)了通過使用空間上下文告知地標位置來改善邊界不明確的區(qū)域的檢測性能.Mader 等人[4]利用條件隨機場(Conditional Random Field,CRF)規(guī)范化建模肋骨關鍵點間的空間關系,最后在局部子圖上優(yōu)化關鍵點的定位推斷.
4.2.2 多階段學習網(wǎng)絡架構(gòu)設計
圖像處理中的很多算法都符合人類由粗到細的認知過程的視覺機制,更加適合圖像的變換信息處理,如多分辨率處理等.對于醫(yī)學圖像關鍵點檢測問題,多個基于深度學習方法的研究同樣表明,由粗到細的檢測技術顯示了更好的解剖學關鍵點檢測與定位的精度.Zhong 等人[52]提出了兩階段注意導向的深度回歸模型(Attention-Guided Deep Regression Model,AGDRM)關鍵點檢測框架,Andermatt等人[49]提出了兩階段多維門控循環(huán)單元(Multi-Dimensional Gated Recurrent Units,MDGRUs)網(wǎng)絡.Zheng等人[10]采用了淺層網(wǎng)絡和深層網(wǎng)絡相結(jié)合的檢測網(wǎng)絡.Chen 等人[27]提出了結(jié)合特征提取模塊、注意力特征金字塔融合(Attentive Feature Pyramid Fusion,AFPF)模塊和預測模塊實現(xiàn)關鍵點端到端檢測的深度學習框架.這些研究成果表明,多階段的關鍵點檢測框架可以更加有效地提高關鍵點的定位精度.
4.2.3 多任務學習網(wǎng)絡框架設計
多任務學習(Multi-Task Learning)是一種基于共享表示(Shared Representation)技術將多個相關的任務綜合在一起學習的機器學習方法,充分利用任務之間所富含的關聯(lián)信息,提升單任務學習網(wǎng)絡的泛化(Network Generalization)性能.研究者們將醫(yī)學圖像關鍵點檢測任務與其相關聯(lián)的諸如分割等醫(yī)學任務相結(jié)合,展示了優(yōu)異的檢測性能.
Zhang 等人[6,7]提出了一個上下文指導的全卷積網(wǎng)絡(FCN)用于聯(lián)合顱骨骨骼分割和關鍵點數(shù)字化處理兩個任務.Duan 等人[15]將心臟磁共振(Cardiac Magnetic Resonance,CMR)圖像雙心室分割與關鍵點檢測相結(jié)合構(gòu)建多任務學習網(wǎng)絡——同步分段和地標本地化網(wǎng)絡(Simultaneous Segmentation and Landmark Localization Network,SSLLN),以此網(wǎng)絡輸出配合地圖集傳播實現(xiàn)具有解剖學意義的雙心室分割.Tuysuzoglu等人[48]基于解剖學關鍵點均位于光滑封閉的前列腺邊界這一先驗知識,提出了一種多任務學習網(wǎng)絡,在學習標志性位置的同時,還建立了學習前列腺輪廓的機制,通過預測每個關鍵點位置之外的完整邊界輪廓,以增強整體網(wǎng)絡的上下文感知能力并提高關鍵點的檢測性能.
在醫(yī)學圖像關鍵點檢測問題的研究中關于深度學習網(wǎng)絡模型相關的研究成果最多,設計多階段、多任務的網(wǎng)絡結(jié)構(gòu),同時將關鍵點空間上下文信息引入網(wǎng)絡學習內(nèi)容之中,用來提升醫(yī)學關鍵點檢測的精準度,這正體現(xiàn)了網(wǎng)絡更深層、更全面地學習和挖掘醫(yī)學圖像中與關鍵點有關的信息是提升性能的唯一途徑的思路,同時也存在網(wǎng)絡參數(shù)調(diào)優(yōu)的需求,以進一步改善檢測任務的性能[24].
利用小型數(shù)據(jù)集中訓練諸如CNN 等網(wǎng)絡是一項艱巨的任務,另外醫(yī)學圖像數(shù)據(jù)量過大易于造成網(wǎng)絡學習的過擬合問題,再者也會需要更大容量的GPU 存儲方可實現(xiàn)網(wǎng)絡的訓練和推理.因此,難以以端到端的方式利用有限的醫(yī)學成像數(shù)據(jù)實現(xiàn)準確的醫(yī)學關鍵點檢測模型的訓練.如何有效解決醫(yī)學圖像對深度學習算法帶來的訓練與計算困難也是研究者們無法回避的問題.
一方面,通過多種圖像降采樣方式降低圖像數(shù)據(jù)量的大小.Li 等人[55]在特定點x、y和z三個方向(或者說醫(yī)學圖像的橫斷面、矢狀位和冠狀位三個斷層方向)上各提取一幅二維圖像,將其疊加在一起組成三通道的2D 圖像作為網(wǎng)絡輸入,實驗驗證了該方法能提供與全3D圖像相近的識別性能.Duan等人[15]從心臟CMR三維體數(shù)據(jù)中選擇位于基底部(basal)、中部(mid-cavity)和心尖部(apical)軸位上的三個切片作為多通道矢量圖像(2.5D)作為網(wǎng)絡數(shù)據(jù)輸入.Yang 等人[22]從x,y,z軸方向?qū)?D 圖像轉(zhuǎn)換為三組2D 圖像,分別對每個軸采用CNN 分類方式實現(xiàn)2D 圖像包含有特定關鍵點的概率分布.三種方法如圖7所示.
圖7 三種不同的3D醫(yī)學圖像抽取方式可以有效降低醫(yī)學圖像數(shù)據(jù)量大對網(wǎng)絡計算帶來的壓力
另一方面,可選擇更為輕量級的深度學習網(wǎng)絡作為特征提取的主干網(wǎng)絡,以解決使用類似V-Net的體系結(jié)構(gòu)對大量關鍵點檢測時遇到的內(nèi)存問題.Mader 等人[4]從深度學習網(wǎng)絡結(jié)構(gòu)簡化入手,采用參數(shù)更少的卷積位姿機(Convolutional Pose Machines,CPM)神經(jīng)網(wǎng)絡體系結(jié)構(gòu);Probst 等人[23]為解決手術導航立體視覺中full-HD 圖像(分辨率為1920 像素×1080 像素)中的工具鉗尖端3 個關鍵點的快速檢測,提出了利用堆疊沙漏網(wǎng)絡將關鍵點檢測問題轉(zhuǎn)化為熱度圖回歸的任務.Tiulpin 等人[16]采用相同的網(wǎng)絡結(jié)構(gòu)解決膝部X 線圖像中解剖關鍵點自動定位的問題.
醫(yī)學圖像(特別是3D 醫(yī)學圖像)數(shù)據(jù)量巨大是造成網(wǎng)絡模型參數(shù)占用動輒幾百兆字節(jié)甚至上G 字節(jié)的存儲空間,而網(wǎng)絡訓練階段的誤差反向傳播更是帶來所占用GPU 內(nèi)存的成倍增大.現(xiàn)有的方法分別從降低網(wǎng)絡輸入數(shù)據(jù)和降低網(wǎng)絡規(guī)模兩個方面入手:文獻[15,22,55]充分利用了醫(yī)學圖像的特點,通過多種數(shù)據(jù)抽取降維方式實現(xiàn)數(shù)據(jù)量的大幅降低,從而得以利用通用的GPU 計算卡完成原本不可完成的任務,并通過實驗驗證了數(shù)據(jù)抽取處理并未明顯降低關鍵點檢測精度;文獻[4,16,23]則選用參數(shù)量較U-Net 網(wǎng)絡更少的CPM、SHN網(wǎng)絡解決問題.
深度學習方法有效促進了不同尺度和不同任務信息之間的融合,使得信息的結(jié)合方式由平面開始向立體方法發(fā)展,對于醫(yī)學圖像關鍵點檢測模型的發(fā)展具有突出的實際意義.正因為如此,本文對醫(yī)學圖像關鍵點檢測的深度學習方法進行了梳理和綜述.從本文篩選出的在此研究領域具有特別貢獻的論文研究成果可知,研究者們結(jié)合各自的醫(yī)學應用需求開展的特定醫(yī)學圖像上的關鍵點深度學習檢測算法中,大多有意識地去解決醫(yī)學標注數(shù)據(jù)少、醫(yī)學圖像數(shù)據(jù)量大對CNN網(wǎng)絡帶來的訓練與預測中的問題,并取得了良好的檢測與定位性能(需要注意的是,由于各自任務目標、數(shù)據(jù)等不具有統(tǒng)一對比性,這里并未給出關鍵點定位精度的統(tǒng)計).
盡管已經(jīng)取得了良好的檢測效果,但進一步提高醫(yī)學解剖關鍵點的檢測精度并將實現(xiàn)研究成果的臨床應用還有較長的路要走.本文作者結(jié)合自身在這個領域的研究經(jīng)驗對其存在的關鍵難題和開放的研究方向給出一些思考和討論:①醫(yī)學圖像關鍵點個體間差異性和個體內(nèi)歧義性的固有特征無法回避,在這種情況下要實現(xiàn)高精度醫(yī)學關鍵點檢測,就需要建立一個充分挖掘醫(yī)學圖像關鍵點信息并能夠綜合應用信息的最優(yōu)深度學習網(wǎng)絡框架,同時考慮可用的小規(guī)模醫(yī)學圖像數(shù)據(jù)集對網(wǎng)絡規(guī)模的限制;②深度學習只是解決問題的一種方法,同樣存在各種各樣的局限性,在很好地把握深度學習方法優(yōu)劣勢的基礎上,能夠結(jié)合幾十年累積起來的經(jīng)典的圖像處理方法和思路不失為明智的選擇,同時還要關注能對醫(yī)學圖像關鍵點檢測帶來啟發(fā)的其他計算機視覺、機器學習領域的新成果.
醫(yī)學圖像關鍵點檢測是一個十分重要的研究領域,具有重要的研究價值和廣泛的應用前景.本文對近年來醫(yī)學圖像關鍵點檢測的深度學習方法研究進行了分類梳理和詳細綜述,在所面臨的挑戰(zhàn)問題和研究趨勢方面,本文亦拋磚引玉,希望為相關科研人員進一步深入了解醫(yī)學圖像關鍵點檢測問題并開展相關研究盡微薄之力.