張晨源
計(jì)算機(jī)視覺(Computer Vision)是人工智能領(lǐng)域的一個(gè)重要分支,主要包括圖像分類、目標(biāo)檢測(cè)、圖像分割等子任務(wù)。自從AlexNet被提出以來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的主流架構(gòu)。CNN網(wǎng)絡(luò)由于能夠以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)高度復(fù)雜的特征表示,對(duì)醫(yī)學(xué)成像領(lǐng)域產(chǎn)生了重大影響。卷積神經(jīng)網(wǎng)絡(luò)(CNN)的核心是卷積操作,它能夠在局部范圍內(nèi)進(jìn)行操作并提供平移不變性等特性。雖然這些屬性有助于開發(fā)高效和可推廣的醫(yī)學(xué)成像解決方案,但卷積操作中的局部感受野限制了捕獲遠(yuǎn)程像素之間的關(guān)系。此外,卷積濾波器具有固定的權(quán)重,在推理過程中不會(huì)根據(jù)給定的輸入圖像內(nèi)容進(jìn)行調(diào)整。最近的研究表明,這些Transformer模塊可以通過對(duì)一系列圖像補(bǔ)丁進(jìn)行操作來完全替代深度神經(jīng)網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積,從而產(chǎn)生了ViT(Vision Transformer,ViT)。自從其問世以來,在許多視覺任務(wù)中,ViT模型已被證明推動(dòng)了當(dāng)前先進(jìn)的技術(shù)的發(fā)展,包括圖像分類、目標(biāo)檢測(cè)、語義分割等等。此外,最近的研究表明,ViT的預(yù)測(cè)誤差比CNN與人類的預(yù)測(cè)誤差更一致。ViT的這些理想特性引起了醫(yī)學(xué)界的極大興趣,將其用于醫(yī)學(xué)成像應(yīng)用,從而減小了CNN固有的歸納偏差。
Transformers作為一種新的注意力驅(qū)動(dòng)構(gòu)建塊是由Vaswani[1]所提出。具體而言,這些注意力塊是神經(jīng)網(wǎng)絡(luò)層,能夠有效聚合整個(gè)輸入序列的信息。自從它們問世以來,這些模型已在多個(gè)自然語言處理(NLP)任務(wù)上表現(xiàn)出最先進(jìn)的性能,因此已成為循環(huán)模型的首選。本文重點(diǎn)關(guān)注基于標(biāo)準(zhǔn)Transformer模型構(gòu)建的Vision Transformers(ViTs):通過級(jí)聯(lián)多個(gè)Transformer層來捕獲輸入圖像的全局上下文。具體來說,將圖像分解為一系列補(bǔ)丁,并使用與NLP中相同的標(biāo)準(zhǔn)Transformer編碼器來處理這些補(bǔ)丁。這些ViT模型延續(xù)了消除手工制作的視覺特征和降低歸納偏見的長(zhǎng)期趨勢(shì),以更好地利用更大的數(shù)據(jù)集和更強(qiáng)的計(jì)算能力。接下來,本文將簡(jiǎn)要描述ViT成功背后的核心組件,包括自注意力和多頭自注意力機(jī)制。
自注意力機(jī)制(Self-Attention)是Transformer網(wǎng)絡(luò)的核心組成部分之一,它可以幫助長(zhǎng)距離依賴關(guān)系進(jìn)行建模。SA機(jī)制的核心思想是學(xué)習(xí)自我對(duì)齊,也就是確定一個(gè)單獨(dú)的標(biāo)記(或補(bǔ)丁嵌入)相對(duì)于序列中所有其他標(biāo)記的重要性。對(duì)于2D圖像,首先將圖像重塑為一個(gè)扁平化的2D補(bǔ)丁序列其中H和W分別表示原始圖像的高度和寬度,C是通道數(shù),是每個(gè)圖像補(bǔ)丁的分辨率表示生成的補(bǔ)丁數(shù)量。這些扁平化的圖像補(bǔ)丁通過可訓(xùn)練的線性投影層投影到維度D上,可以表示為矩陣。自注意力的目標(biāo)是捕捉所有N個(gè)嵌入之間的相互作用,這是通過定義三個(gè)可學(xué)習(xí)的權(quán)重矩陣來實(shí)現(xiàn)的,用于將輸入X轉(zhuǎn)換為查詢(通過鍵(通過和值(通過,其中。首先,將輸入序列X投影到這些權(quán)重矩陣上,得到和。相應(yīng)的注意力矩陣可以表示為
多頭注意力模塊(MHSA)由多個(gè)SA塊(頭部)組成,以通道方式連接在一起,以模擬輸入序列中不同元素之間的復(fù)雜依賴關(guān)系。每個(gè)SA塊都有自己的可學(xué)習(xí)權(quán)矩陣,記為其中h為MHSA塊中注意力頭的總數(shù)。文本將其寫為:
針對(duì)SA模塊計(jì)算softmax的復(fù)雜度與輸入序列的長(zhǎng)度呈二次關(guān)系,這限制了它對(duì)高分辨率醫(yī)學(xué)圖像的適用性。最近,人們已經(jīng)做出了許多努力來降低復(fù)雜性,包括稀疏注意力機(jī)制等。
本文將重點(diǎn)放在Transformer塊(MHSA)中使用的多頭注意力機(jī)制中,該注意力機(jī)制最近在醫(yī)學(xué)圖像分析中獲得了較大的研究關(guān)注度。
在醫(yī)學(xué)圖像分析中,目標(biāo)檢測(cè)是指從x射線圖像中定位和識(shí)別感興趣區(qū)域(ROIs),如肺結(jié)節(jié),這通常是診斷的一個(gè)重要方面。然而,對(duì)于臨床醫(yī)生來說,這是最耗時(shí)的任務(wù)之一,因此需要精確的計(jì)算機(jī)輔助診斷(CAD)系統(tǒng)作為第二個(gè)觀察者,這可能會(huì)加速這一過程。繼CNN在醫(yī)學(xué)圖像檢測(cè)中的應(yīng)用取得成功后,最近有研究嘗試使用Transformer模型進(jìn)一步提高性能,這些方法主要基于檢測(cè)變壓器(DETR)框架[2]。第一個(gè)混合框架COTR,由卷積層和變壓器層組成,用于端到端息肉檢測(cè)。具體來說,COTR的編碼器包含六個(gè)混合卷積層來編碼特征。而解碼器由六個(gè)用于對(duì)象查詢的變壓器層組成,然后是一個(gè)用于對(duì)象檢測(cè)的前饋網(wǎng)絡(luò)。在ETIS-LARIB和CVC-ColonDB兩個(gè)不同的數(shù)據(jù)集上,COTR的性能優(yōu)于DETR。其他研究也采用了DETR模型,用于在T2MRI掃描中檢測(cè)淋巴結(jié)以評(píng)估淋巴增生性疾病。
最近,利用深度學(xué)習(xí)從醫(yī)學(xué)圖像中自動(dòng)生成臨床報(bào)告取得了巨大進(jìn)展。這一自動(dòng)報(bào)告生成過程可以幫助臨床醫(yī)生作出準(zhǔn)確的決策。然而,由于不同放射科醫(yī)生報(bào)告的多樣性、較長(zhǎng)的序列長(zhǎng)度(與自然圖像字幕不同)以及數(shù)據(jù)集偏差(正常數(shù)據(jù)多于異常數(shù)據(jù))等原因,這使得從醫(yī)學(xué)成像數(shù)據(jù)中生成報(bào)告具有一定挑戰(zhàn)。此外,有效的醫(yī)學(xué)報(bào)告生成模型應(yīng)具備兩個(gè)關(guān)鍵屬性:(1)語言流暢性,實(shí)現(xiàn)人類可讀性;(2)臨床準(zhǔn)確性,正確識(shí)別疾病及相關(guān)癥狀。本節(jié)將簡(jiǎn)要描述Transformer模型如何實(shí)現(xiàn)這些期望目標(biāo),并有效克服醫(yī)學(xué)報(bào)告生成相關(guān)的上述挑戰(zhàn)。具體來說,這些基于Transformer的方法在自然語言生成和臨床療效指標(biāo)方面均取得了最先進(jìn)的性能。本節(jié)重點(diǎn)在于以Transformer作為強(qiáng)大的語言模型,利用遠(yuǎn)程依賴關(guān)系進(jìn)行句子生成。根據(jù)其底層訓(xùn)練機(jī)制的差異,本文將基于Transformer的臨床報(bào)告生成方法大致分為基于強(qiáng)化學(xué)習(xí)和監(jiān)督/無監(jiān)督學(xué)習(xí)方法。
基于強(qiáng)化學(xué)習(xí)的醫(yī)學(xué)報(bào)告生成方法可以直接使用感興趣的評(píng)估指標(biāo)(如人類評(píng)估、相關(guān)醫(yī)學(xué)術(shù)語等)作為回饋,并通過策略梯度更新模型參數(shù)。本節(jié)涵蓋的所有方法都使用了自臨界強(qiáng)化學(xué)習(xí)[3](self-critical RL)方法來訓(xùn)練模型,與傳統(tǒng)強(qiáng)化學(xué)習(xí)相比,這種方法更適用于報(bào)告生成任務(wù)。Miura等人指出通過自然語言生成指標(biāo)測(cè)量的自動(dòng)放射學(xué)報(bào)告,其準(zhǔn)確性通常不一致,為了解決這類問題,Miura等人[4]提出了一種直接使用自臨界強(qiáng)化學(xué)習(xí)來優(yōu)化兩個(gè)新提出的獎(jiǎng)勵(lì)函數(shù)。第一個(gè)獎(jiǎng)勵(lì)函數(shù)促進(jìn)放射學(xué)領(lǐng)域?qū)嶓w與相應(yīng)參考報(bào)告的覆蓋,而第二個(gè)獎(jiǎng)勵(lì)函數(shù)促進(jìn)生成報(bào)告與參考報(bào)告中的描述一致性。
監(jiān)督/無監(jiān)督方法使用可微分的損失函數(shù)來訓(xùn)練醫(yī)學(xué)報(bào)告生成模型,并且不通過網(wǎng)絡(luò)與環(huán)境進(jìn)行相互影響。本文根據(jù)這些方法所解決的挑戰(zhàn),將監(jiān)督/無監(jiān)督方法歸類為關(guān)注數(shù)據(jù)集偏差、特征對(duì)齊等。
1.數(shù)據(jù)集偏差
在醫(yī)學(xué)報(bào)告生成中,數(shù)據(jù)集偏差是一個(gè)常見問題,因?yàn)槊枋稣G闆r的句子要遠(yuǎn)遠(yuǎn)多于描述異常情況的句子。為了減輕這種偏差,Srinivasan[5]提出了一種使用Transformer作為解碼器的分層分類方法。具體來說,Transformer解碼器利用報(bào)告、圖像和標(biāo)簽的特征以及特征之間的注意力,來實(shí)現(xiàn)有效的報(bào)告生成。類似的,Liu等人嘗試通過蒸餾后驗(yàn)知識(shí)和先驗(yàn)知識(shí)來模仿放射科醫(yī)生的工作,以生成準(zhǔn)確的放射學(xué)報(bào)告。在另一項(xiàng)工作中,You等人提出了Align Transformer,從X射線圖像中生成醫(yī)學(xué)報(bào)告。Align Transformer包括兩個(gè)模塊:對(duì)齊分層注意力和多粒度Transformer。對(duì)齊分層注意力模塊有助于更好地定位輸入醫(yī)學(xué)圖像中的異常區(qū)域,另一方面,多粒度Transformer使用自適應(yīng)利用注意力的多粒度視覺特征來準(zhǔn)確生成長(zhǎng)篇醫(yī)療報(bào)告。這兩個(gè)模塊使得Align Transformer實(shí)現(xiàn)了令人滿意的性能。
2.特征對(duì)齊
基于特征對(duì)齊的方法主要關(guān)注醫(yī)學(xué)圖像和相應(yīng)文本的編碼表示的準(zhǔn)確對(duì)齊,這對(duì)于不同模態(tài)之間的交互和生成以及隨后的準(zhǔn)確報(bào)告生成至關(guān)重要,為了更好地對(duì)齊,Chen等人提出了一種跨模態(tài)記憶網(wǎng)絡(luò),增強(qiáng)基于Transformer的編碼器-解碼器模型,從而應(yīng)用于放射學(xué)報(bào)告生成。他們?cè)O(shè)計(jì)了一個(gè)共享內(nèi)存,以促進(jìn)醫(yī)學(xué)圖像和文本特征之間的對(duì)齊。類似的,在Chen等人共享內(nèi)存工作基礎(chǔ)上,Yan等人引入了一種弱監(jiān)督對(duì)比目標(biāo),偏向于生成與目標(biāo)語義接近的報(bào)告,從而產(chǎn)生更具臨床準(zhǔn)確性的輸出。
Transformer模型在醫(yī)學(xué)影像處理領(lǐng)域中快速發(fā)展,在該領(lǐng)域中探索出了廣泛的應(yīng)用前景,該模型為圖像分割、目標(biāo)檢測(cè)、分類和圖像生成等任務(wù)提供了強(qiáng)大的助力。醫(yī)學(xué)影像處理中Transformer模型的發(fā)展?jié)摿Σ粌H僅局限于目前的應(yīng)用領(lǐng)域,在多模態(tài)數(shù)據(jù)整合、自動(dòng)醫(yī)學(xué)報(bào)告生成等領(lǐng)域也將有良好的發(fā)展。隨著計(jì)算機(jī)硬件和軟件的不斷進(jìn)步,人工智能技術(shù)在疾病的早期診斷、治療指導(dǎo)和治療效果評(píng)估等醫(yī)療領(lǐng)域中有望迅速取得重大突破,更有望減小醫(yī)師的主觀判斷和經(jīng)驗(yàn)對(duì)診斷的影響。
然而,盡管已經(jīng)有大量的研究數(shù)據(jù)表明AI人工智能可以顯著提高疾病診斷的準(zhǔn)確性和特異性,未來的研究仍然面臨著一系列亟待解決的困難與挑戰(zhàn)。例如當(dāng)前可用的研究數(shù)據(jù)相對(duì)有限,需要更多的數(shù)據(jù)來驗(yàn)證和鞏固研究結(jié)果的穩(wěn)健性。此外,在開發(fā)人工智能軟件時(shí),研究人員必須與臨床醫(yī)生密切合作,以確保軟件能夠更好地適應(yīng)臨床實(shí)際需求,從而真正提高臨床分析和診斷的能力,推動(dòng)醫(yī)療領(lǐng)域的快速進(jìn)步。