魏小娜 李英豪 王振宇 李皓尊 汪紅志
摘 要:針對(duì)不同領(lǐng)域人工智能(AI)應(yīng)用研究所面臨的采用常規(guī)手段獲取大量樣本時(shí)耗時(shí)耗力耗財(cái)?shù)膯?wèn)題,許多AI研究領(lǐng)域提出了各種各樣的樣本增廣方法。首先,對(duì)樣本增廣的研究背景與意義進(jìn)行介紹;其次,歸納了幾種公知領(lǐng)域(包括自然圖像識(shí)別、字符識(shí)別、語(yǔ)義分析)的樣本增廣方法,并在此基礎(chǔ)上詳細(xì)論述了醫(yī)學(xué)影像輔助診斷方面的樣本獲取或增廣方法,包括X光片、計(jì)算機(jī)斷層成像(CT)圖像、磁共振成像(MRI)圖像的樣本增廣方法;最后,對(duì)AI應(yīng)用領(lǐng)域數(shù)據(jù)增廣方法存在的關(guān)鍵問(wèn)題進(jìn)行總結(jié),并對(duì)未來(lái)的發(fā)展趨勢(shì)進(jìn)行展望。經(jīng)歸納總結(jié)可知,獲取足夠數(shù)量且具有廣泛代表性的訓(xùn)練樣本是所有領(lǐng)域AI研發(fā)的關(guān)鍵環(huán)節(jié)。無(wú)論是公知領(lǐng)域還是專業(yè)領(lǐng)域都進(jìn)行樣本增廣,且不同領(lǐng)域甚至同一領(lǐng)域的不同研究方向,其樣本獲取或增廣方法均不相同。此外,樣本增廣并不是簡(jiǎn)單地增加樣本數(shù)量,而是盡可能再現(xiàn)小樣本量無(wú)法完全覆蓋的真實(shí)樣本存在,進(jìn)而提高樣本多樣性,增強(qiáng)AI系統(tǒng)性能。
關(guān)鍵詞:人工智能;醫(yī)學(xué)影像;輔助診斷;樣本增廣
中圖分類號(hào):TP391.41
文獻(xiàn)標(biāo)志碼:A
Methods of training data augmentation for medical image artificial intelligence aided diagnosis
WEI Xiaona1, LI Yinghao2, WANG Zhenyu1, LI Haozun2, WANG Hongzhi1,2*
1.Shanghai Key Laboratory of Magnetic Resonance (East China Normal University), Shanghai 200062, China;
2.School of Physics and Material Science, East China Normal University, Shanghai 200062, China
Abstract:
For the problem of time, effort and money consuming to obtain a large number of samples by conventional means faced by Artificial Intelligence (AI) application research in different fields, a variety of sample augmentation methods have been proposed in many AI research fields. Firstly, the research background and significance of data augmentation were introduced. Then, the methods of data augmentation in several common fields (including natural image recognition, character recognition and discourse parsing) were summarized, and on this basis, a detailed overview of sample acquisition or augmentation methods in the field of medical image assisted diagnosis was provided, including X-ray, Computed Tomography (CT), Magnetic Resonance Imaging (MRI) images. Finally, the key issues of data augmentation methods in AI application fields were summarized and the future development trends were prospected. It can be concluded that obtaining a sufficient number of broadly representative training samples is the key to the research and development of all AI fields. Both the common fields and the professional fields have conducted sample augmentation, and different fields or even different research directions in the same field have different sample acquisition or augmentation methods. In addition, sample augmentation is not simply to increase the number of samples, but to reproduce the existence of real samples that cannot be completely covered by small sample size as far as possible, so as to improve sample diversity and enhance AI system performance.
Key words:
Artificial Intelligence (AI); medical image; aided diagnosis; sample augmentation
0 引言
人工智能(Artificial Intelligence, AI)作為當(dāng)今最為熱門的話題之一,是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新技術(shù)科學(xué)。AI是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式作出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等。
對(duì)所有領(lǐng)域AI產(chǎn)品的研發(fā)而言,訓(xùn)練樣本的獲取都是關(guān)鍵問(wèn)題之一。訓(xùn)練樣本好比AI的糧食,沒(méi)有糧食,再好的AI算法也無(wú)法實(shí)現(xiàn)其價(jià)值[1];AI產(chǎn)品的質(zhì)量是由其所擁有的訓(xùn)練樣本數(shù)量決定的[2],訓(xùn)練樣本越多,AI就越智能。那么質(zhì)量達(dá)到多少才算足夠呢?99.99%的準(zhǔn)確率表示萬(wàn)無(wú)一失,但如果是自動(dòng)駕駛,萬(wàn)無(wú)一失意味著無(wú)人駕駛技術(shù)的失敗,準(zhǔn)確率要訓(xùn)練到至少百萬(wàn)無(wú)一失可能才算合格。所以Google的自動(dòng)駕駛[3]項(xiàng)目每天都有數(shù)百輛數(shù)據(jù)采集車行駛在路上采集數(shù)據(jù)。每輛車每天采集數(shù)據(jù)量達(dá)24TB,一年可采集一萬(wàn)英里的路況數(shù)據(jù)。盡管如此,300萬(wàn)英里的實(shí)際路況數(shù)據(jù),外加10億英里的模擬軟件駕駛數(shù)據(jù),才能達(dá)到每1000英里的脫離率為0.2(平均而言人類需要每5000英里干預(yù)一次行使)。AlphaGo熟讀16萬(wàn)局網(wǎng)絡(luò)棋譜后,戰(zhàn)勝了圍棋冠軍柯潔。AlphaZero[4-5]通過(guò)基本圍棋規(guī)則自弈300萬(wàn)盤(pán),無(wú)需搜集網(wǎng)絡(luò)棋譜,性能超越AlphaGo,本質(zhì)上是自我進(jìn)行的樣本增廣。
目前AI的技術(shù)開(kāi)發(fā)有個(gè)誤區(qū),即認(rèn)為AI主要做神經(jīng)網(wǎng)絡(luò)構(gòu)建和編程工作。事實(shí)上,AI從業(yè)者2/3以上的工作量都在獲取或標(biāo)注訓(xùn)練樣本。Google等大公司不斷向世界分享他們?cè)谒惴ê蜕窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu)上的最新成果,但對(duì)其訓(xùn)練數(shù)據(jù)集卻很少公開(kāi),即使公開(kāi)也只是其中很少一部分[6]。由此可見(jiàn),神經(jīng)網(wǎng)絡(luò)構(gòu)建和算法對(duì)于AI固然重要,但如何獲取更多的訓(xùn)練樣本可能更重要。目前AI領(lǐng)域?qū)τ谒惴ê途W(wǎng)絡(luò)構(gòu)建關(guān)注極高,而關(guān)注訓(xùn)練樣本的人卻很少。對(duì)于公知領(lǐng)域樣本的勾畫(huà)和標(biāo)注,普通勞務(wù)人員即可完成,因而出現(xiàn)了一批專門為AI服務(wù)的數(shù)據(jù)公司,甚至是產(chǎn)業(yè)園。對(duì)于需要專業(yè)知識(shí)的樣本獲取和標(biāo)注,依靠通用數(shù)據(jù)公司是無(wú)法完成的。AI應(yīng)用如果按訓(xùn)練樣本獲取或標(biāo)注是否需要專業(yè)性可分為公知領(lǐng)域和專業(yè)領(lǐng)域。按獲取樣本量的大小可分為大樣本和小樣本領(lǐng)域。目前較為成熟的AI研究和應(yīng)用主要集中在公知大樣本領(lǐng)域,其原因與樣本獲取和加工處理標(biāo)注相對(duì)較為容易不無(wú)關(guān)系。但即使是公知大樣本領(lǐng)域(如基于人臉識(shí)別的安防、基于語(yǔ)音識(shí)別的同譯、基于場(chǎng)景識(shí)別的自動(dòng)駕駛等),仍然采用了各種樣本增廣方法來(lái)提高訓(xùn)練準(zhǔn)確率。
當(dāng)前AI在醫(yī)療領(lǐng)域的發(fā)展可謂是風(fēng)生水起,而影像已然成為AI在醫(yī)療領(lǐng)域落地的主要突破口[7]。鑒于影像種類的多樣性和復(fù)雜性,收集醫(yī)療數(shù)據(jù)是一個(gè)耗時(shí)耗力且會(huì)耗費(fèi)大量資金的過(guò)程,而且需要研究人員與專業(yè)醫(yī)生合作才能完成[8]。AI影像的一個(gè)重要特征是需要大量標(biāo)準(zhǔn)圖像和異常標(biāo)注樣本圖像的輸入[9],輸入學(xué)習(xí)的樣本種類越多,AI的適應(yīng)性和準(zhǔn)確性就越高,對(duì)具體圖像的分析判斷能力就越強(qiáng),所得結(jié)果越準(zhǔn)確。但在AI醫(yī)學(xué)影像研究領(lǐng)域,樣本獲取存在著諸多限制[10]:1)醫(yī)療數(shù)據(jù)合法使用的法規(guī)政策尚不明確。現(xiàn)有醫(yī)療數(shù)據(jù)的安全規(guī)定,過(guò)于籠統(tǒng)缺少細(xì)則,缺乏針對(duì)性和可操作性。2)醫(yī)院和醫(yī)生提供醫(yī)療數(shù)據(jù)的動(dòng)力不足。有些醫(yī)院和醫(yī)生對(duì)于提供少量標(biāo)注樣本與公司進(jìn)行合作科研是歡迎的,但對(duì)于需要花費(fèi)大量時(shí)間和精力提供大量標(biāo)注樣本進(jìn)行產(chǎn)品開(kāi)發(fā)存在嚴(yán)重的動(dòng)力不足現(xiàn)象。3)現(xiàn)有醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化沒(méi)有形成,質(zhì)量參差不齊。就磁共振成像(Magnetic Resonance Imaging, MRI)圖像而言,盡管每家醫(yī)院都有海量的MRI影像,但這些影像主要是針對(duì)某個(gè)型號(hào)設(shè)備的,其種類受制于設(shè)備提供的序列和默認(rèn)序列參數(shù)。且不同廠家設(shè)備的檢查序列也有差異,沒(méi)有標(biāo)準(zhǔn)化,技師也有序列或圖像表現(xiàn)偏好。因此采用某家公司的某種設(shè)備產(chǎn)出的MRI樣本進(jìn)行訓(xùn)練,會(huì)出現(xiàn)樣本種類不足、對(duì)其他廠商設(shè)備或其他種類MRI圖像診斷效果不佳的現(xiàn)象。另外,人體疾病有2000多種,目前AI還只能對(duì)單一疾病進(jìn)行訓(xùn)練,因此總會(huì)存在一些疾病種類樣本不足的問(wèn)題。若AI學(xué)習(xí)的圖像樣本不足,其適應(yīng)性和準(zhǔn)確性就難以提高,這也是AI+MRI較少出產(chǎn)品的原因之一。
本文首先介紹了幾種公知領(lǐng)域(包括自然圖像識(shí)別、字符識(shí)別、語(yǔ)義分析)的樣本增廣方法;然后介紹了醫(yī)學(xué)影像輔助診斷方面的樣本獲取或增廣方法,包括X光片、X線計(jì)算機(jī)斷層成像(Computed Tomography, CT)圖像、MRI圖像的樣本增廣方法;最后對(duì)不同領(lǐng)域樣本增廣方法存在的問(wèn)題進(jìn)行了總結(jié),并對(duì)未來(lái)發(fā)展趨勢(shì)進(jìn)行了展望。
1 公知領(lǐng)域的樣本增廣方法
1.1 自然圖像識(shí)別
目前,圖像識(shí)別大多是借助計(jì)算機(jī)技術(shù)進(jìn)行的,圖像識(shí)別是AI的一個(gè)重要領(lǐng)域,而深度學(xué)習(xí)又是近十年來(lái)人工智能領(lǐng)域取得的最重要突破之一[11]。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)極其依賴大規(guī)模訓(xùn)練數(shù)據(jù),它需要大量數(shù)據(jù)去理解潛在的數(shù)據(jù)模式。
深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域最具影響力的突破發(fā)生在2012年, Krizhevsky小組采用深度學(xué)習(xí)贏得了ImageNet[12-13]圖像分類比賽[14]。他們對(duì)原始圖像采用裁剪、水平翻轉(zhuǎn)及顏色調(diào)整的方法來(lái)增廣訓(xùn)練樣本,有效減輕了過(guò)擬合現(xiàn)象,使top-5誤差率由26.172%降到15.315%,分類準(zhǔn)確率超出第二名10%以上。2014年Chatfield等[15]在基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類任務(wù)中,也使用了水平翻轉(zhuǎn)及裁剪與水平翻轉(zhuǎn)相結(jié)合的增廣方法;但他們的裁剪操作不同于Krizhevsky小組,他們從整幅圖像中進(jìn)行裁剪然后水平翻轉(zhuǎn),此操作比從一幅256×256圖像中心裁剪所獲得的性能更好。受Krizhevsky小組啟發(fā),Raitoharju等[16]在AI識(shí)別無(wú)脊椎動(dòng)物的訓(xùn)練樣本時(shí),采用旋轉(zhuǎn)和鏡像的增廣方法,該方法類似多角度拍攝樣本照片來(lái)實(shí)現(xiàn)樣本增廣;雖然訓(xùn)練精確度提升了3%~6%,但增廣后的樣本量依然很少,可否采用其他方法,如添加噪聲[17]、抖動(dòng)或裁剪某些身體部位(如頭部或尾部)等來(lái)進(jìn)行數(shù)據(jù)增廣,仍需繼續(xù)探究。由此可見(jiàn),Krizhevsky小組的數(shù)據(jù)增廣方法已然成為了數(shù)據(jù)增廣領(lǐng)域最基本、最普遍的方法,而后的一些方法大多是在此基礎(chǔ)上,取長(zhǎng)補(bǔ)短,進(jìn)一步優(yōu)化改進(jìn),當(dāng)然也出現(xiàn)了一些新的方法。
如文獻(xiàn)[18-20]中將自然圖像與眾多著名藝術(shù)品相結(jié)合,產(chǎn)生了新風(fēng)格高質(zhì)量的新圖像,該方法類似于選擇照相機(jī)不同色調(diào)模式采集圖像實(shí)現(xiàn)數(shù)據(jù)增廣;文獻(xiàn)[21]通過(guò)隨機(jī)化原圖像顏色、紋理和對(duì)比度,同時(shí)保留其幾何形狀和語(yǔ)義內(nèi)容,將原圖像風(fēng)格進(jìn)行轉(zhuǎn)移來(lái)增加樣本量。與傳統(tǒng)的旋轉(zhuǎn)、隨機(jī)裁剪等增廣技術(shù)相比,該方法可生成更多語(yǔ)義一致且多樣化的訓(xùn)練數(shù)據(jù)。但該方法受傳統(tǒng)神經(jīng)類型風(fēng)格轉(zhuǎn)移能力的限制,無(wú)法實(shí)現(xiàn)復(fù)雜的變換,如晝夜或季節(jié)轉(zhuǎn)換等。
為了解決上述問(wèn)題,文獻(xiàn)[22-23]中使用生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)[24-26],實(shí)現(xiàn)了夏日風(fēng)光的場(chǎng)景與冬季風(fēng)景的相互轉(zhuǎn)換,呈現(xiàn)了同一景象在不同季節(jié)下的情形。其中文獻(xiàn)[23]采用的對(duì)抗網(wǎng)絡(luò),還能實(shí)現(xiàn)視覺(jué)上相似的兩個(gè)目標(biāo)之間的轉(zhuǎn)移,圖像風(fēng)格的轉(zhuǎn)移以及由繪畫(huà)圖像得到照片圖的轉(zhuǎn)換。但此處的轉(zhuǎn)移不同于文獻(xiàn)[18],這里是學(xué)習(xí)模仿一整套藝術(shù)作品的風(fēng)格,而非一件選定的藝術(shù)作品的風(fēng)格。該方法在涉及顏色和紋理變換的任務(wù)中所得效果較好,但對(duì)于需要幾何變換的任務(wù)卻收效甚微,仍需進(jìn)一步完善。
事實(shí)上,在獲取自然狀態(tài)下的樣本時(shí),有時(shí)樣本會(huì)被遮擋,為了使模型更好地應(yīng)對(duì)這一影響因素,Zhong等[27]提出了一種簡(jiǎn)單且實(shí)用的無(wú)參數(shù)數(shù)據(jù)增強(qiáng)方法——隨機(jī)擦除,即隨機(jī)擦除隨機(jī)選擇的圖像矩形區(qū)域,并以隨機(jī)值擦除其像素值,進(jìn)而產(chǎn)生具有不同遮擋程度的圖像。該方法使CIFAR10的top-1誤差率從3.72%降到了3.08%,CIFAR100的誤差率從18.68%降到了17.65%。隨機(jī)擦除與隨機(jī)裁剪、隨機(jī)水平翻轉(zhuǎn)具有一定的互補(bǔ)性,綜合應(yīng)用這幾種方法,可取得更好的模型表現(xiàn)。在將來(lái)的研究中,可以考慮將該方法用于目標(biāo)檢索和人臉識(shí)別任務(wù)。2018年Google科學(xué)家Cubuk等[28]提出了一種新的數(shù)據(jù)增廣方法:AutoAugment,這是一種自動(dòng)化的增廣工具,其獨(dú)特之處在于它一改以往手動(dòng)設(shè)計(jì)增強(qiáng)策略,只用強(qiáng)化學(xué)習(xí)就能從數(shù)據(jù)本身找出最佳圖像增強(qiáng)策略。既可提高訓(xùn)練效果,又可消除研究人員尋找、制作數(shù)據(jù)集的煩惱。
除以上方法外,遷移學(xué)習(xí)[29-30]可極大緩解深度學(xué)習(xí)中數(shù)據(jù)不足引起的問(wèn)題。其基本思想[31]是:先從其他數(shù)據(jù)源訓(xùn)練得到模型,然后利用少量的目標(biāo)數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。對(duì)于自然圖像,可以利用文獻(xiàn)[32]中基于網(wǎng)絡(luò)的深度遷移方法,先對(duì)訓(xùn)練好的模型(如VGGNet[33]、ResNet[34]、Inception V3[35]等)進(jìn)行預(yù)訓(xùn)練,然后用目標(biāo)圖像進(jìn)行微調(diào)。文獻(xiàn)[36]在基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)無(wú)脊椎動(dòng)物分類的任務(wù)中,就是先用ImageNet圖像進(jìn)行預(yù)訓(xùn)練,然后用無(wú)脊椎動(dòng)物的較小數(shù)據(jù)集進(jìn)行微調(diào),并獲得了很好的分類結(jié)果。該方法可大大減少訓(xùn)練樣本量,并縮短訓(xùn)練時(shí)間。但也存在一些困難,如需要一個(gè)相對(duì)大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù);如何選擇合適的預(yù)訓(xùn)練模型;如何判斷需要多少額外數(shù)據(jù)來(lái)訓(xùn)練模型,等等。雖然存在許多困難,但隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,遷移學(xué)習(xí)將被廣泛用于解決許多具有挑戰(zhàn)性的問(wèn)題。
1.2 字符識(shí)別
字符識(shí)別是模式識(shí)別的一個(gè)重要應(yīng)用領(lǐng)域,為了解決訓(xùn)練樣本匱乏問(wèn)題,采用數(shù)據(jù)增廣技術(shù)生產(chǎn)數(shù)據(jù)是目前增加樣本數(shù)量及多樣性的有效途徑[37]。
對(duì)于字符識(shí)別,也可采用平移、旋轉(zhuǎn)、尺寸縮放、水平及垂直拉伸變形的方法[38],及Simard等[39]采用的仿射變換(如平移、旋轉(zhuǎn)和傾斜)和彈性變形。事實(shí)上,1996年Yaeger等[40]就已提出與Simard等相似的筆畫(huà)扭曲增廣技術(shù),通過(guò)傾斜、旋轉(zhuǎn)和縮放等對(duì)字符進(jìn)行微小改變。后來(lái),Bastien等[41]提出了包括局部彈性變形、對(duì)比度變化、灰度變換、添加各種噪聲及改變字符厚度[42]等19種手寫(xiě)偽樣本生成方法,針對(duì)NIST-19手寫(xiě)數(shù)據(jù)集,生成了超過(guò)8.19億的巨大樣本,有效解決了訓(xùn)練樣本不足的問(wèn)題。但該方法最大的缺點(diǎn)是,操作較復(fù)雜、工作量較大。此外,文獻(xiàn)[43]對(duì)原有Google字體庫(kù)中的樣本采用字符間距調(diào)整、添加下劃線和投影畸變的數(shù)據(jù)生產(chǎn)方法,并使用擴(kuò)展后的數(shù)據(jù)集研究自然場(chǎng)景下的文本識(shí)別,達(dá)到了90.8%的識(shí)別率。鑒于上述幾何變形方法,文獻(xiàn)[44]在研究滿文字符識(shí)別時(shí),除采用與文獻(xiàn)[41]相似的彈性變形、仿射變換、模糊變換及添加噪聲等方法外,還采用光照不均、褪色變換、背景融合及形態(tài)學(xué)處理的方法。這幾種方法不僅能增加訓(xùn)練樣本量,也能很好反映真實(shí)存在的情形,如褪色變換,類似于文檔長(zhǎng)期放置產(chǎn)生的褪色現(xiàn)象;背景融合,通過(guò)為單一字符圖像添加不同類型的背景,以此模擬字符實(shí)際使用的環(huán)境;利用形態(tài)學(xué)處理中的膨脹和腐蝕操作,則可以再現(xiàn)出不同粗細(xì)筆畫(huà)書(shū)寫(xiě)的字符圖像。顯然,這些增廣方法對(duì)于其他字符的樣本增廣也同樣適用,同時(shí)也說(shuō)明,樣本增廣并不是只關(guān)注樣本數(shù)量,所增廣的樣本還應(yīng)符合真實(shí)存在的情形。
由于手寫(xiě)體漢字存在結(jié)構(gòu)復(fù)雜、詞匯量大、相互相似度高、不同書(shū)寫(xiě)風(fēng)格差異大等問(wèn)題,文獻(xiàn)[45]利用三角函數(shù)構(gòu)成非線性函數(shù),通過(guò)選擇合適的變形參數(shù),將給定的手寫(xiě)漢字變形為24種不同的書(shū)寫(xiě)風(fēng)格,并通過(guò)實(shí)驗(yàn)證明了該方法的有效性。該方法是否適用于其他領(lǐng)域,如形狀匹配、目標(biāo)識(shí)別等,值得進(jìn)一步研究。文獻(xiàn)[46]使用余弦函數(shù)對(duì)漢字圖像進(jìn)行變換,使用不同的余弦函數(shù)對(duì)原始圖像處理,所得漢字的書(shū)寫(xiě)風(fēng)格也就不同。該方法不僅增加了樣本數(shù)量,一定程度上與提高了樣本質(zhì)量。但該方法的缺陷在于,無(wú)法保證變換后的圖像都足夠好,在使用新生成的樣本前,需選出并丟棄不好的樣本。后續(xù)工作中,需繼續(xù)探究如何同時(shí)提升生成樣本的規(guī)模和質(zhì)量。
此外,文獻(xiàn)[47]在研究合成樣本對(duì)訓(xùn)練字符分類器進(jìn)行數(shù)據(jù)增廣帶來(lái)的益處時(shí),對(duì)比了在數(shù)據(jù)空間采用數(shù)據(jù)扭曲[48](對(duì)字符圖像應(yīng)用仿射變換和彈性變形創(chuàng)建扭曲數(shù)據(jù))和在特征空間合成過(guò)采樣技術(shù)[49-50]兩種創(chuàng)造額外訓(xùn)練數(shù)據(jù)的方法。對(duì)于手寫(xiě)體字符的識(shí)別,在數(shù)據(jù)空間采用彈性變形進(jìn)行數(shù)據(jù)增廣效果較好。對(duì)于某些機(jī)器學(xué)習(xí)問(wèn)題,有時(shí)無(wú)法確定原始數(shù)據(jù)樣本的轉(zhuǎn)換確實(shí)保留了標(biāo)簽信息,此時(shí)可在特征空間進(jìn)行數(shù)據(jù)增廣,但模型性能在訓(xùn)練集與測(cè)試集上存在一定的差距,而且通過(guò)合成數(shù)據(jù)對(duì)分類器進(jìn)行擴(kuò)增訓(xùn)練,得到的性能很可能受實(shí)際數(shù)據(jù)等效量訓(xùn)練的約束。相比而言,GAN所受約束較少,并能生成大量的訓(xùn)練樣本。文獻(xiàn)[51]提出了一種基于GAN網(wǎng)絡(luò)的DeLiGAN模型,將該模型在MNIST數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn),結(jié)果證明該模型能夠在數(shù)據(jù)量有限的條件下,生產(chǎn)一系列多樣化的圖片。與普通GAN模型[24]相比,該模型具有很好的穩(wěn)定性,可避免變形偽跡的發(fā)生,產(chǎn)生的樣本具有更好的多樣性。但該模型的建立包含一些簡(jiǎn)化的假設(shè),限制了模型對(duì)復(fù)雜分布的估測(cè)能力,為提高模型的泛化能力,仍需對(duì)所涉及的參數(shù)繼續(xù)優(yōu)化調(diào)整。以上方法可有效增廣手寫(xiě)字符的樣本量,但對(duì)于離線字符[52],由于缺少書(shū)寫(xiě)時(shí)的動(dòng)態(tài)信息,通常很難生成一組包含足夠變化筆跡的字符。為了提高離線字符分類器的識(shí)別性能,文獻(xiàn)[53]提出了一種基于人工增廣實(shí)例的支持向量機(jī)離線字符識(shí)別訓(xùn)練方法,文獻(xiàn)[54]結(jié)合扭曲模型使用映射函數(shù)從現(xiàn)有訓(xùn)練樣本中生成大量偽樣本。文獻(xiàn)[53]的基本思想是:1)對(duì)真實(shí)字符的每一個(gè)筆畫(huà)作仿射變換;2)對(duì)人造字符的每一個(gè)筆畫(huà)作仿射變換,且這些變換都是在主成分分析(Principal Component Analysis, PCA)[55]的基礎(chǔ)上合成的。該方法可以生成一組包含足夠變化筆跡的人造字符,有效解決收集大量數(shù)據(jù)時(shí)耗時(shí)費(fèi)資的問(wèn)題。但該方法的數(shù)據(jù)增廣操作要在PCA基礎(chǔ)上才能取得很好的效果,若不使用PCA,識(shí)別率將會(huì)下降,分類時(shí)間也將變長(zhǎng),造成此現(xiàn)象的具體原因仍需進(jìn)一步探討。
1.3 語(yǔ)義分析
語(yǔ)義分析的目標(biāo)是通過(guò)建立有效的模型和系統(tǒng),實(shí)現(xiàn)在各個(gè)語(yǔ)言單位的自動(dòng)語(yǔ)義分析,從而實(shí)現(xiàn)理解整個(gè)文本表達(dá)的真實(shí)語(yǔ)義[56]。顯而易見(jiàn),建立有效的模型是至關(guān)重要的,而數(shù)據(jù)增廣是提高模型性能的有效方法,在計(jì)算機(jī)視覺(jué)領(lǐng)域已得到了廣泛探討。諸如翻轉(zhuǎn)、旋轉(zhuǎn)和改變RGB強(qiáng)度等是視覺(jué)系統(tǒng)常見(jiàn)的做法[14],除此之外,添加噪聲、隨機(jī)插值一對(duì)圖像等方法[17]在前面的工作中也提到過(guò)。然而,這些方法并不能直接用于語(yǔ)義增廣,因?yàn)檎Z(yǔ)言中的單詞順序可能會(huì)形成嚴(yán)格的句法語(yǔ)法意義,因此,其相應(yīng)的增廣方法也就有所不同。
2016年斯坦福大學(xué)計(jì)算機(jī)科學(xué)系Robin和PercyJia等[57]在神經(jīng)語(yǔ)義分析的研究中,提出了數(shù)據(jù)重組的增廣思想,即從給定的原始訓(xùn)練集中,歸納出一種高精度的同步上下文無(wú)關(guān)文法,用以捕獲語(yǔ)義分析中常見(jiàn)的重要條件獨(dú)立屬性。與經(jīng)典的數(shù)據(jù)增廣方法(如圖像轉(zhuǎn)換和添加噪聲等只改變輸入不改變輸出)不同,該方法在對(duì)輸入語(yǔ)言進(jìn)行變換操作的同時(shí)也改變輸出,使新的輸入與新的輸出相匹配,進(jìn)而生成更多的訓(xùn)練樣例,有效提升模型精確度。此增廣思想是否具有更廣泛的適用性值得進(jìn)一步探討。同年,Xu等[58]在利用深度遞歸神經(jīng)網(wǎng)絡(luò)對(duì)兩個(gè)實(shí)體間關(guān)系進(jìn)行分類的工作中,提出了一種利用句子關(guān)系的方向性進(jìn)行數(shù)據(jù)增廣的技術(shù),該技術(shù)可以在不使用外部數(shù)據(jù)資源的情況下提供額外的數(shù)據(jù)樣本,有效緩解數(shù)據(jù)稀疏問(wèn)題并保持較深的網(wǎng)絡(luò),提高了模型性能,對(duì)分類任務(wù)作出了一定貢獻(xiàn)。Jiang等[59]也于同年提出了一種為罕見(jiàn)語(yǔ)義關(guān)系訓(xùn)練增廣數(shù)據(jù)的方法。其主要思想是:利用Co-training,在每次循環(huán)中,用有標(biāo)注的數(shù)據(jù)對(duì)兩個(gè)語(yǔ)義分析器進(jìn)行初步訓(xùn)練,然后用這兩個(gè)分析器對(duì)未標(biāo)注文檔進(jìn)行分類,并產(chǎn)生對(duì)應(yīng)的語(yǔ)義樹(shù),最后經(jīng)過(guò)篩選,把置信度最高的數(shù)據(jù)加入到最初有標(biāo)注的數(shù)據(jù)中,進(jìn)行繼續(xù)循環(huán)。該方法對(duì)罕見(jiàn)語(yǔ)義關(guān)系可達(dá)到很高的識(shí)別性能,但對(duì)常見(jiàn)的語(yǔ)義關(guān)系則是無(wú)效的。因此,對(duì)該方法的研究仍需進(jìn)一步完善,以提高其對(duì)常見(jiàn)語(yǔ)義關(guān)系的識(shí)別性能。
2017年Fadaee等[60]為提高低資源語(yǔ)言對(duì)的翻譯質(zhì)量,提出了翻譯數(shù)據(jù)增強(qiáng)方法,即通過(guò)改變平行語(yǔ)料庫(kù)中已有的句子來(lái)增廣訓(xùn)練數(shù)據(jù)。他們利用在大量單語(yǔ)數(shù)據(jù)上訓(xùn)練的語(yǔ)言模型,生成包含罕見(jiàn)單詞的新句子對(duì),并在翻譯過(guò)程中生成更多生詞,從而提高翻譯質(zhì)量。該方法對(duì)增廣低頻單詞是有效的,但是否適用于一般的翻譯任務(wù)仍無(wú)法確定。與Fadaee等的工作類似,2018年Kobayashi[61]提出了一種被稱為contextual augmentation的數(shù)據(jù)增廣方法。該方法通過(guò)使用雙向語(yǔ)言模型,在給定要擴(kuò)展的原始單詞上下文的情況下,用對(duì)某個(gè)單詞進(jìn)行預(yù)測(cè)的單詞來(lái)替換該單詞。與基于同義詞的增廣方法相比,該方法生成了與原始文本標(biāo)簽兼容的各種單詞,并改進(jìn)了神經(jīng)分類器,且該方法不受特定任務(wù)知識(shí)的限制,可用于不同領(lǐng)域的分類任務(wù)。同年,哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心,提出了面向任務(wù)的對(duì)話系統(tǒng)中語(yǔ)言理解模塊的數(shù)據(jù)增廣問(wèn)題[62]。他們利用訓(xùn)練數(shù)據(jù)中與一個(gè)語(yǔ)句具有相同語(yǔ)義的其他句子,提出了基于序列到序列生成的數(shù)據(jù)增廣框架,并創(chuàng)新性地將多樣性等級(jí)結(jié)合到話語(yǔ)表示中以使模型產(chǎn)生多樣化的語(yǔ)句數(shù)據(jù),而且這些多樣化的新語(yǔ)句有助于改善語(yǔ)言理解模塊;但該方法是否存在一定的限制性,是否具有廣泛的適用性,仍需進(jìn)一步探討。
以上方法單獨(dú)作用在各自的研究任務(wù)中都取得了很好的效果,若將其與別的方法相結(jié)合,是否可以取得更好的效果仍需進(jìn)一步探究。近年來(lái),GAN[24]引起了大量的研究關(guān)注。它產(chǎn)生對(duì)抗性例子的能力對(duì)數(shù)據(jù)增廣很具吸引力,但由于語(yǔ)義分析具有一定的特殊性,如何將GAN用于語(yǔ)義分析仍是一個(gè)有待解決的問(wèn)題。
以上介紹了公知大樣本領(lǐng)域的數(shù)據(jù)增廣方法,可以看出,該領(lǐng)域的樣本增廣方法相對(duì)較為廣泛,涉及面也較廣。雖然該領(lǐng)域AI的應(yīng)用和研究相對(duì)已經(jīng)較為成熟,但依然沒(méi)有一套通用的增廣方法,對(duì)于不同的任務(wù),需根據(jù)實(shí)際情況選擇合適的方法。因此,在今后的研究中仍需研究者提出更多有創(chuàng)新性、實(shí)用性的增廣方法。
2 AI+醫(yī)學(xué)影像診斷研究中的樣本增廣
2.1 AI+X光片病理判定的樣本獲取方法
為了給研究界提供足夠的訓(xùn)練數(shù)據(jù),美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館提供了兩組公開(kāi)的Postero-anterior(PA)胸片數(shù)據(jù)集[63]:MC(Montgomery County chest X-ray)集和深圳集,以促進(jìn)計(jì)算機(jī)輔助診斷肺部疾病的研究。兩組數(shù)據(jù)集中的影像資料分別來(lái)自美國(guó)馬里蘭州蒙哥馬利縣衛(wèi)生署及中國(guó)深圳第三人民醫(yī)院,這兩組數(shù)據(jù)集都包含有結(jié)核表現(xiàn)的正常和異常胸部X光片。并且已有出版物[64-65]將這兩組數(shù)據(jù)集用于結(jié)核自動(dòng)篩選和肺分割。其中在結(jié)核自動(dòng)篩選實(shí)驗(yàn)中,這兩組數(shù)據(jù)集的準(zhǔn)確率分別達(dá)到了曲線下面積87%和90%,雖然檢測(cè)效能仍低于人類水平,但與放射科醫(yī)生的表現(xiàn)已相當(dāng)接近[64]。雖然這兩組數(shù)據(jù)集對(duì)于結(jié)核自動(dòng)篩選可取得很好的效果,但對(duì)于檢測(cè)異常胸部X光片,僅依靠這兩組數(shù)據(jù)集是不夠的,深度學(xué)習(xí)領(lǐng)域依然存在數(shù)據(jù)稀缺,及對(duì)標(biāo)記數(shù)據(jù)的依賴性。
為了解決這一問(wèn)題,文獻(xiàn)[66]介紹了一個(gè)更大的胸部X光片公開(kāi)數(shù)據(jù)集Open I[67],它包含來(lái)自印第安納患者護(hù)理網(wǎng)絡(luò)的3955份放射學(xué)報(bào)告和來(lái)自醫(yī)院圖片存檔和通信系統(tǒng)的7470份相關(guān)的胸部X光片。該數(shù)據(jù)集免費(fèi)開(kāi)放,研究人員可將該數(shù)據(jù)集用于訓(xùn)練計(jì)算機(jī)學(xué)習(xí)如何檢測(cè)和診斷疾病,輔助醫(yī)生作出更好的診斷決策。但該數(shù)據(jù)集所包含的胸透圖像報(bào)告沒(méi)有定量的疾病檢測(cè)結(jié)果,若將該數(shù)據(jù)集用于相關(guān)模型的訓(xùn)練,是否會(huì)有影響還需進(jìn)一步探討。
考慮到Open I數(shù)據(jù)集存在的問(wèn)題,Wang等[68]在關(guān)于胸部X光片的診斷和病理位置定位一文中,通過(guò)自然語(yǔ)言處理方法從醫(yī)院圖像存檔和通信系統(tǒng)中,提取報(bào)告內(nèi)容獲取標(biāo)簽,構(gòu)建了一套醫(yī)院規(guī)模的弱監(jiān)督醫(yī)學(xué)圖像數(shù)據(jù)集ChestX-ray14,該數(shù)據(jù)集包含112120個(gè)單獨(dú)標(biāo)注的14種不同胸部疾病的正面胸部X光片。后來(lái),Wang等對(duì)這個(gè)數(shù)據(jù)集中的8種疾病圖像進(jìn)行研究,構(gòu)建了ChestX-ray8數(shù)據(jù)集。同時(shí),斯坦福大學(xué)吳恩達(dá)教授團(tuán)隊(duì),使用ChestX-ray14數(shù)據(jù)集訓(xùn)練Chex Net模型[69]進(jìn)行肺炎診斷,并用隨機(jī)水平翻轉(zhuǎn)來(lái)增加訓(xùn)練數(shù)據(jù)量。經(jīng)充分訓(xùn)練的模型,能通過(guò)胸部X光片判斷病人是否患有肺炎,且在敏感性和特異性肺炎的檢測(cè)任務(wù)上,其表現(xiàn)能力已超過(guò)了專業(yè)放射科醫(yī)師。但該數(shù)據(jù)集的缺點(diǎn)在于,胸部X線放射學(xué)報(bào)告可能不被公開(kāi)分享;數(shù)據(jù)集中的圖片都是正面胸片,而背部掃描的胸片有時(shí)對(duì)診斷來(lái)說(shuō)也是至關(guān)重要的;此外,該數(shù)據(jù)集中的標(biāo)簽不是由放射科醫(yī)生直接提供,而是由放射科醫(yī)生的文本報(bào)告自動(dòng)生成的,因此難免會(huì)出現(xiàn)一些錯(cuò)誤的標(biāo)簽。
除此之外,吳恩達(dá)教授團(tuán)隊(duì)在檢測(cè)異常肌肉骨骼時(shí),開(kāi)源了MURA數(shù)據(jù)集[70],并用該數(shù)據(jù)集訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),用以尋找并定位X光片的異常部位。MURA是目前最大的X光片數(shù)據(jù)集之一,它包含源自14982項(xiàng)病例的40895張肌肉骨骼X光片。基于該數(shù)據(jù)集,該團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)有效預(yù)測(cè)異常肌肉骨骼的模型,流程如圖1所示。
經(jīng)充分訓(xùn)練后,將模型的表現(xiàn)能力與專業(yè)放射科醫(yī)生進(jìn)行對(duì)比。結(jié)果發(fā)現(xiàn),該模型在診斷手指和手腕X光片異常情況時(shí),其表現(xiàn)比放射科醫(yī)生好,但對(duì)其他部位(如肩膀、肱部、肘部、前臂、手掌)的診斷則比放射科醫(yī)生差。值得注意的是,MURA數(shù)據(jù)集中的四萬(wàn)張圖像來(lái)自近15000篇論文,其中9067篇為正常上肢肌肉骨骼X光片的研究,5915篇是異常研究。即該團(tuán)隊(duì)不是直接從醫(yī)院獲取數(shù)據(jù),而是從公開(kāi)渠道獲取樣本。該方法的最大優(yōu)點(diǎn)是所受限制較少,不足之處是需要搜集和閱讀大量的資料,且獲得的樣本質(zhì)量參差不齊。表1列出了一些公開(kāi)可用的醫(yī)療放射圖像數(shù)據(jù)集。
綜上可知,在深度學(xué)習(xí)領(lǐng)域,X光片樣本的獲取主要是從一些公開(kāi)的醫(yī)療圖像數(shù)據(jù)集中得到,然后結(jié)合一些簡(jiǎn)單的變換操作來(lái)增加訓(xùn)練樣本量。在今后的研究中,仍需研究者開(kāi)源出更大的數(shù)據(jù)集,以滿足AI對(duì)于臨床疾病的相關(guān)研究。
2.2 AI+CT圖像樣本增廣方法
由于CT圖像屬于單參數(shù)成像,主要反映組織密度差異,所有圖像均屬于一類圖像,即標(biāo)準(zhǔn)圖像只有一種,因此,對(duì)于CT圖像可以采用經(jīng)典的數(shù)據(jù)增廣方法[14]。文獻(xiàn)[71]公開(kāi)了一種基于3D全連接卷積神經(jīng)網(wǎng)絡(luò)的CT圖像肺結(jié)節(jié)檢測(cè)系統(tǒng),該項(xiàng)發(fā)明在構(gòu)建訓(xùn)練集時(shí),對(duì)區(qū)域訓(xùn)練集的圖像以標(biāo)簽的方式分為負(fù)樣本(無(wú)結(jié)節(jié))和正樣本(有結(jié)節(jié)),同時(shí)對(duì)有限數(shù)量的正樣本采用平移、旋轉(zhuǎn)、縮放、鏡像等幾何變換作數(shù)據(jù)多樣性增廣,類似于醫(yī)生通過(guò)不同的視角、不同的上下文去分析結(jié)節(jié)區(qū)域。采用該發(fā)明技術(shù)方案可實(shí)現(xiàn)結(jié)節(jié)自動(dòng)檢測(cè),無(wú)需任何人工干預(yù),并能有效提高結(jié)節(jié)檢測(cè)的召回率,大幅降低假陽(yáng)性病灶,獲得肺結(jié)節(jié)病灶區(qū)域的像素級(jí)定位、定量、定性結(jié)果。這項(xiàng)發(fā)明對(duì)于臨床CT圖像肺結(jié)節(jié)的檢測(cè)具有極大的幫助,但文中所用的數(shù)據(jù)增廣方法只有一些基本的幾何變換,僅使用這些簡(jiǎn)單的變換方法,還不足以提升模型的泛化能力。
為解決上述問(wèn)題,上海交通大學(xué)人工智能實(shí)驗(yàn)室[72]利用深度學(xué)習(xí)搭建的肺結(jié)節(jié)自動(dòng)定位篩查系統(tǒng),能有效檢測(cè)CT影像中包含的微小結(jié)節(jié)、磨玻璃等各類結(jié)節(jié),并降低假陽(yáng)性誤診的發(fā)生。他們?cè)跀?shù)據(jù)處理上,除了對(duì)圖像采用旋轉(zhuǎn)、平移等幾何變換外,還利用GAN[24]對(duì)數(shù)據(jù)預(yù)處理,從隨機(jī)噪聲中產(chǎn)生新的結(jié)節(jié)正樣本,學(xué)習(xí)生成新形態(tài)的結(jié)節(jié)樣本,深度增廣數(shù)據(jù)多樣性,有效提升了模型泛化能力,使模型更好地處理不同形態(tài)的結(jié)節(jié)特征,達(dá)到很好的檢測(cè)效果。此為該團(tuán)隊(duì)在數(shù)據(jù)處理方面與文獻(xiàn)[71]的最大區(qū)別之處,同時(shí)也是其成功之處所在。
此外,F(xiàn)rid-Adar等[73]利用GAN自動(dòng)生成合成醫(yī)學(xué)圖像,并用于肝臟病變的分類任務(wù)。圖2[73]顯示了三種腫瘤病變圖像,(a)真實(shí)病變圖像,(b)合成病變圖像,其中頂行為囊腫病變圖像,中間行為轉(zhuǎn)移腫瘤病變圖像,底行為血管瘤病變圖像。
具體訓(xùn)練過(guò)程為:1)先用傳統(tǒng)增廣方法(如平移、旋轉(zhuǎn)、翻轉(zhuǎn)和縮放)創(chuàng)建更大的數(shù)據(jù)集,然后將其用于訓(xùn)練GAN;2)用GAN生成合成圖像作為數(shù)據(jù)增廣的額外資源;3)將傳統(tǒng)增廣方法得到的圖像與GAN生成的合成圖像相結(jié)合,用于訓(xùn)練病灶分類器。
圖3[73]顯示了肝臟病變分類精確度隨訓(xùn)練集的變化情況。由圖可知,使用合成圖像增加訓(xùn)練集,比僅用傳統(tǒng)方法增加訓(xùn)練集在性能上提高了7%,這也進(jìn)一步證明了用GAN生成合成圖像來(lái)增加訓(xùn)練集的有效性和可行性。
GAN最初是由Goodfellow等[24]提出的一種生成式模型,首次將其應(yīng)用于合成醫(yī)學(xué)圖像生成領(lǐng)域的是Nie等[74],為了從給定MRI圖像中生成更真實(shí)的CT圖像,他們使用了GAN進(jìn)行訓(xùn)練。GAN可以生成視覺(jué)上真實(shí)的圖像,從圖2可以看
出合成的病變圖像與真實(shí)病變圖像在視覺(jué)上沒(méi)有很大差別,且該方法對(duì)于數(shù)據(jù)的增廣可以達(dá)到很好的效果。
2.3 MRI圖像的樣本增廣方法
MRI圖像的特點(diǎn)決定了其具有不同于其他醫(yī)學(xué)圖像的特殊性,MRI圖像的多樣性,決定了AI+醫(yī)學(xué)影像在核磁影像方面的結(jié)合較為罕見(jiàn)。相對(duì)而言,研究MRI圖像樣本增廣方法的人較少,但依然有研究者提出了一些可行的數(shù)據(jù)增廣方法,如文獻(xiàn)[75]在利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)阿爾茲海默癥進(jìn)行識(shí)別的研究中,采用了Krizhevsky小組[14]所用的圖像變換的增廣方法。其具體操作是:在預(yù)處理后的一個(gè)MRI圖像中選擇多個(gè)中心點(diǎn)提取多幅2.5D圖像,這樣一張圖就可以增益為多幅圖片,然后使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)增益后的圖像進(jìn)行訓(xùn)練和識(shí)別,進(jìn)而共同判決該MRI的分類。該方法不僅能從MRI中提取足夠的信息,并能有效抑制卷積神經(jīng)網(wǎng)絡(luò)的過(guò)擬合問(wèn)題。但操作過(guò)程中多個(gè)中心點(diǎn)的位置選擇是一個(gè)難點(diǎn),而且該方法是否適用于其他病癥MRI圖像的數(shù)據(jù)增廣依然未知。此外,Thyreau等[76]在對(duì)海馬體進(jìn)行分割時(shí),開(kāi)發(fā)了一種數(shù)據(jù)增強(qiáng)系統(tǒng),該系統(tǒng)通過(guò)改變輸入影像的幾何形狀、邊界對(duì)比度和一般強(qiáng)度來(lái)增加訓(xùn)練樣本量,生成每個(gè)圖像和相應(yīng)目標(biāo)的多種變化。他們使用這種數(shù)據(jù)增強(qiáng)方案,能夠從一個(gè)樣本圖生成4個(gè)合成樣本圖,有效增加訓(xùn)練樣本量。但數(shù)據(jù)增廣過(guò)程中對(duì)目標(biāo)掩碼圖只進(jìn)行了幾何變換操作,且該系統(tǒng)是作用于高精度輸入圖像上的,對(duì)于低精度輸入圖像是否可以取得同樣的效果仍需進(jìn)一步探索。
近年來(lái),在醫(yī)學(xué)圖像分割中U-net網(wǎng)絡(luò)備受關(guān)注,為了提高模型的準(zhǔn)確度和精度,Dong等[77]在利用該網(wǎng)絡(luò)進(jìn)行腦腫瘤檢測(cè)和分割時(shí),考慮到腫瘤沒(méi)有明確的形狀,簡(jiǎn)單的變換方法,如翻轉(zhuǎn)、旋轉(zhuǎn)、平移和縮放,僅能改變圖像的位移場(chǎng),并不能創(chuàng)建形狀不同的訓(xùn)練樣本,而剪切操作雖然可以在水平方向上輕微扭曲腫瘤的整體形狀,但仍不足以獲取足夠的可變訓(xùn)練數(shù)據(jù)。因此他們采用了與Ronneberger等[78]分割細(xì)胞時(shí)使用的相似的數(shù)據(jù)增廣方法——彈性變形[17],來(lái)生成更多任意形狀且與實(shí)際情形相吻合的訓(xùn)練數(shù)據(jù),有效提高了網(wǎng)絡(luò)的性能,并取得了很好的分割效果。值得注意的是,他們用于訓(xùn)練模型的數(shù)據(jù)來(lái)自公開(kāi)數(shù)據(jù)集(BRATS 2015[79]),將文中的增廣方法用于具有各向異性分辨率的臨床數(shù)據(jù),是未來(lái)的研究方向之一。
鑒于醫(yī)學(xué)影像數(shù)據(jù)集的不平衡性,文獻(xiàn)[80]利用GAN來(lái)合成異常MRI圖像的方法進(jìn)行數(shù)據(jù)增廣。其基本思想是:利用兩個(gè)公開(kāi)的MRI數(shù)據(jù)集(ADNI和BRATS),訓(xùn)練生成GAN網(wǎng)絡(luò),進(jìn)而合成具有腦腫瘤的異常MRI圖像。他們用合成的圖像作為數(shù)據(jù)增廣的一種形式,演示了其對(duì)改進(jìn)腫瘤分割性能的有效性,并證明了當(dāng)對(duì)合成數(shù)據(jù)和真實(shí)受試者數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),可以獲得類似的腫瘤分割效果。該方法為深度學(xué)習(xí)在醫(yī)學(xué)影像領(lǐng)域面臨的兩個(gè)最大挑戰(zhàn)(病理學(xué)發(fā)現(xiàn)的發(fā)生率較低及共享患者數(shù)據(jù)受到限制),提供了一個(gè)潛在的解決方案。
以上方法雖然能有效解決樣本數(shù)量問(wèn)題,但在解決樣本多樣性方面,所取得的效果并不是很理想。文獻(xiàn)[10]介紹了一種MRI圖像樣本的自動(dòng)增廣和批量標(biāo)注軟件平臺(tái)(DMRIAtlas),既可以解決樣本數(shù)量問(wèn)題,也能增加樣本多樣性,其工作原理是:通過(guò)定量MRI成像技術(shù)獲取正常志愿者和少量陽(yáng)性病例重點(diǎn)病灶區(qū)的物理信息,然后利用虛擬MRI成像技術(shù)對(duì)正?;虿≡顓^(qū)信息進(jìn)行虛擬數(shù)據(jù)采集和成像,基于不同的成像序列和參數(shù),輸出不同種類、不同表現(xiàn)的大量MRI圖像。借助該軟件生成的圖像可以是不同分辨率、不同信噪比、不同權(quán)重、不同b值的MRI圖像,可極大增廣訓(xùn)練樣本的種類和數(shù)量。
圖4為使用該軟件對(duì)正常腦部組織同一層面采用不同序列經(jīng)虛擬掃描得到的T1WI、T2WI、T1-FLAIR、T2-FLAIR和STIR的圖像[10]。
為了彌補(bǔ)設(shè)備差異或技師水平差異等帶來(lái)的實(shí)際圖像差異,對(duì)同種序列選取不同的序列參數(shù),可以得到對(duì)比度和信噪比逐漸變化的圖像效果。圖5為正常人腦SE序列圖像隨參數(shù)變化(TR=100ms和200ms, TE=5~145ms)的效果圖[10]。
顯而易見(jiàn),通過(guò)類似上述的簡(jiǎn)單操作,即可得到龐大的樣本數(shù)據(jù)。在醫(yī)學(xué)影像診斷這一專業(yè)小樣本領(lǐng)域,該軟件作為一種通用型MRI圖像樣本增廣工具,只需采集一定數(shù)量的某種疾病不同程度陽(yáng)性病例的物理信息數(shù)據(jù),然后借助專業(yè)影像醫(yī)生的勾畫(huà)標(biāo)注,或通過(guò)一些簡(jiǎn)單的操作(如調(diào)節(jié)不同的參數(shù)、選取不同的斷面等),即可得到大量的樣本,極大降低了成本,解決了樣本數(shù)量與種類不足的問(wèn)題,具有很好的應(yīng)用前景。
上述內(nèi)容總結(jié)梳理了醫(yī)學(xué)影像中X光片、CT圖像和MRI圖像的樣本獲取或增廣方法。當(dāng)然,AI在醫(yī)學(xué)影像診斷中的應(yīng)用并非只針對(duì)這三類圖像,其他醫(yī)學(xué)圖像,如醫(yī)學(xué)光學(xué)圖像,同樣也涉及到AI的應(yīng)用,并且已有學(xué)者提出了AI應(yīng)用于該類圖像時(shí)相應(yīng)的數(shù)據(jù)增廣方法。比如,Vasconcelos等[81]在皮膚病變分析黑色素瘤的檢測(cè)任務(wù)中,采用了幾何變換增廣、顏色變換增廣以及基于專家知識(shí)的數(shù)據(jù)增廣方法,進(jìn)行人工創(chuàng)建樣本;Ciresan等[82]在2012年的乳腺癌組織影像有絲分裂檢測(cè)挑戰(zhàn)賽中,應(yīng)用了任意旋轉(zhuǎn)和鏡像方法來(lái)創(chuàng)建額外的訓(xùn)練實(shí)例;等等。然而,僅從本文所述醫(yī)學(xué)圖像的數(shù)據(jù)增廣方法中就可看出,不同醫(yī)學(xué)圖像的樣本獲取或增廣方法是各不
相同的。由于醫(yī)學(xué)影像本身的復(fù)雜性,目前的方法多是針對(duì)某一具體任務(wù)而言的。因此,對(duì)于不同圖像、不同研究方向,需根據(jù)具體知識(shí)采用針對(duì)性的增廣方法。
3 結(jié)語(yǔ)
本文對(duì)AI在三類公知大樣本領(lǐng)域及專業(yè)小樣本領(lǐng)域(醫(yī)學(xué)影像識(shí)別和輔助診斷)的樣本增廣方法進(jìn)行了全面分析。通過(guò)分析總結(jié)可知,絕大多數(shù)AI應(yīng)用領(lǐng)域都要進(jìn)行樣本增廣,且不同領(lǐng)域甚至同一領(lǐng)域的不同研究對(duì)象,其樣本獲取或增廣方法也是截然不同的。
此外,樣本增廣不是為了簡(jiǎn)單地增加樣本數(shù)量,而是盡可能再現(xiàn)小樣本量無(wú)法完全覆蓋的真實(shí)樣本存在,進(jìn)而提高樣本多樣性,增強(qiáng)AI系統(tǒng)性能,因此,需根據(jù)具體領(lǐng)域知識(shí)采用針對(duì)性的增廣方法,使增廣的數(shù)據(jù)盡可能呈現(xiàn)出真實(shí)情況下所出現(xiàn)的情形,不能一味為了增廣數(shù)據(jù)而增廣,必須從實(shí)際出發(fā),與實(shí)際情形相吻合。
目前AI領(lǐng)域?qū)τ谒惴ê途W(wǎng)絡(luò)構(gòu)建的提升及改進(jìn)關(guān)注度特別高,相對(duì)而言,關(guān)注訓(xùn)練樣本的人卻很少。實(shí)際上,充足的訓(xùn)練數(shù)據(jù)對(duì)AI研發(fā)起著至關(guān)重要的作用,運(yùn)用合適的方法進(jìn)行樣本增廣就起到了舉足輕重的作用。但由于人們對(duì)樣本增廣的關(guān)注度還不夠高,現(xiàn)在仍處于發(fā)展階段,依然有一些問(wèn)題值得進(jìn)一步深入研究:
1)對(duì)于公知大樣本領(lǐng)域,雖然該領(lǐng)域獲取樣本的方法相對(duì)較多、較為成熟,但對(duì)于不同的任務(wù),依然沒(méi)有一套統(tǒng)一的增廣方法。對(duì)于不同的任務(wù),需根據(jù)具體情況選取合適的增廣方法,不可盲目增廣,要從實(shí)際出發(fā),使增廣的數(shù)據(jù)盡可能再現(xiàn)出真實(shí)樣本的存在。在未來(lái)的研究中,是否可以探索出一些有效且通用的樣本增廣方法或開(kāi)發(fā)出一種通用的樣本增廣工具值得進(jìn)一步探究。
2)對(duì)于醫(yī)療影像領(lǐng)域而言,由于數(shù)據(jù)規(guī)模比較小,獲取樣本的途徑也較少且存在各種困難,因此,對(duì)樣本增廣方法多樣性和有效性的研究,將成為該領(lǐng)域研究的熱點(diǎn),同時(shí)也是急需進(jìn)一步完善的難點(diǎn)所在;在今后的研究中,需倡導(dǎo)研究者開(kāi)發(fā)出更多針對(duì)某一類醫(yī)學(xué)圖像通用的樣本增廣工具(諸如DMRIAtlas軟件)。此外,醫(yī)學(xué)領(lǐng)域往往不僅僅依靠圖像來(lái)診斷,結(jié)合臨床信息、檢驗(yàn)報(bào)告等非圖像數(shù)據(jù)的多模態(tài)學(xué)習(xí)也是值得關(guān)注的方向。
3)現(xiàn)有數(shù)據(jù)增廣方法中,同時(shí)適用于公知大樣本領(lǐng)域和醫(yī)療影像領(lǐng)域的方法少之又少。對(duì)于醫(yī)療影像這一小樣本領(lǐng)域,由于其有效的數(shù)據(jù)增廣技術(shù)相對(duì)較少、較不成熟,因此,可對(duì)公知大樣本領(lǐng)域中較為成熟的增廣方法進(jìn)一步探究,以驗(yàn)證其能否用于某些醫(yī)學(xué)圖像的增廣。
盡管對(duì)樣本增廣方法的研究還存在許多問(wèn)題,但它對(duì)AI產(chǎn)品的研發(fā)產(chǎn)生的影響不容小覷。更加多樣、更有效且適用范圍更廣的增廣方法,能夠帶來(lái)更多有效的樣本,并能對(duì)AI系統(tǒng)的性能起到很大的提升作用。尤其對(duì)于醫(yī)療影像這一小樣本領(lǐng)域,如何利用有效的增廣技術(shù)獲取足夠豐富且高質(zhì)量的影像數(shù)據(jù),對(duì)提升診斷準(zhǔn)確度起到了至關(guān)重要的作用??傊?,對(duì)樣本增廣方法的研究是一個(gè)值得進(jìn)一步探索的領(lǐng)域,在未來(lái)的研究中一定會(huì)更加成熟。
參考文獻(xiàn)
[1]HACKER NOON. Big challenge in deep learning: training data. Artificial intelligence for real problems: deep systems.ai.[EB/OL].[2019-05-04]. https://www.jianshu.com/p/2a3388d8c9c3
HACKER NOON. Big challenge in deep learning [EB/OL]. [2018-11-04]. https://hackernoon.com/%EF%B8%8F-big-challenge-in-deep-learning-training-data-31a88b97b282.
[2]ELIZEBETH G. AI firms lure academics [J]. Nature, 2016, 532(4): 422-423.
[3]ALEXIS C. MADRIGAL. Inside Waymos secret world for training self-driving cars [EB/OL]. [2019-01-04]. The Atlantic Daily. AUG 23,2017. https://www.yahoo.com/news/inside-waymo-apos-secret-world-152456397.html.
[4]SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge [J]. Nature, 2017, 550(7676): 354-359.
[5]SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that masters chess, shogi and Go through self-play [J]. Science, 2018, 362(6419): 1140-1144.
[6]TING D S W, LIU Y, BURLINA P, et al. AI for medical imaging goes deep [J]. Nature Medicine, 2018,24(5): 539-540.
[7]李綱,徐鼎梁.AI+醫(yī)療:如何做好一只被風(fēng)吹上天的豬[EB/OL].[2019-05-04] 財(cái)經(jīng),2018(3)(LI G, XU D L.AI+ medicine: how to make a pig that is blown to the sky [EB/OL].[2019-05-04] finance and economics,2018(3))www.sohu.com/a/222070262_487521
李綱,徐鼎梁.AI+醫(yī)療:如何做好一只被風(fēng)吹上天的豬[EB/OL]. [2019-01-04]. www.sohu.com/a/222070262_487521.(LI G, XU D L. AI+ medicine: how to be a pig that is blown to the sky [EB/OL]. [2019-01-04]. www.sohu.com/a/222070262_487521.)
[8]GREENSPAN H, van GINNEKEN B, SUMMERS R M. Guest editorial deep learning in medical imaging: overview and future promise of an exciting new technique [J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1153-1159.
[9]MAXMEN A. AI researchers embrace bitcoin technology to share medical data [J]. Nature, 2018,555(7696): 293-294.
[10]汪紅志,趙地,楊麗琴,等.基于AI+MRI的影像診斷的樣本增廣與批量標(biāo)注方法[J].波譜學(xué)雜志,2018,35(4):447-456.(WANG H Z, ZHAO D, YANG L Q, et al. An approach for training data enrichment and batch labeling in AI+MRI aided diagnosis [J]. Chinese Journal of Magnetic Resonance, 2018, 35(4): 447-456.)
[11]王曉剛.深度學(xué)習(xí)在圖像識(shí)別中的研究進(jìn)展與展望[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2015,10(WANG X G,Research progress and prospect of deep learning in image recognition[J],Communication of the Chinese computer Federation Oct,2015)
王曉剛.深度學(xué)習(xí)在圖像識(shí)別中的研究進(jìn)展與展望 [EB/OL]. [2019-01-10]. http://www.360doc.com/content/15/0604/11/20625606_475573792.shtml.(WANG X G. Research progress and prospect of deep learning in image recognition [EB/OL]. [2019-01-10]. http://www.360doc.com/content/15/0604/11/20625606_475573792.shtml.)
[12]DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]// Proceedings of the 2009 Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2009: 248-255.
[13]RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet largescale visual recognition challenge [J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[14]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 2012 International Conference on Neural Information Processing Systems. North Miami Beach, FL, USA: Curran Associates, 2012: 1097-1105.
[15]CHATFIELD K, SIMONYAN K, VEDALDI A, et al. Return of the devil in the details: delving deep into convolutional nets [J]. Computer Science, 2014:1-12
CHATFIELD K, SIMONYAN K, VEDALDI A, et al. Return of the devil in the details: delving deep into convolutional nets [EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1405.3531.pdf.
[16]RAITOHARJU J, RIABCHENKO E, MEISSNER K, et al. Data enrichment in fine-grained classification of aquatic macroinvertebrates [C]// Proceedings of the ICPR 2nd Workshop on Computer Vision for Analysis of Underwater Imagery. Washington, DC: IEEE Computer Society, 2016: 43-48.
[17]ZHANG H Y, CISSSE M, DAUPHIN Y N, et al. Mixup: beyond empirical risk minimization [EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1710.09412.pdf.
[18]GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 2414-2423.
[19]JOHNSON J, ALAHI A, LI F. Perceptual losses for real-time style transfer and super-resolution [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9906. Berlin: Springer, 2016: 694-711.
[20]GATYS L A, ECKER A S, BETHGE M. A neural algorithm of artistic style [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1508.06576.pdf.
[21]JACKSON P T, TAPOUR-ABARGHOUEI A, BONNER S, et al. Style augmentation: data augmentation via style randomization [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1809.05375v1.pdf.
[22]RAJ B. Data augmentation: how to use deep learning when you have limited data [EB/OL]. [2019-01-04]. https://www.kdnuggets.com/2018/05/data-augmentation-deep-learning-limited-data.html.
[23]ZHU J, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision.? Washington, DC: IEEE Computer Society, 2017: 2242-2251.
[24]GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2672-2680.
[25]林懿倫,戴星原,李力,等.人工智能研究的新前線:生成式對(duì)抗網(wǎng)絡(luò)[J].自動(dòng)化學(xué)報(bào),2018,44(5):775-792.(LIN Y L, DAI X Y, LI L, et al. The new frontier of AI research: generative adversarial networks [J]. Acta Automatica Sinica, 2018, 44(5): 775-792.)
[26]ANTONIOU A, STORKEY A, EDWARDS H. Data augmentation generative adversarial networks [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1711.04340.pdf.
[27]ZHONG Z, ZHENG L, KANG G, et al. Random erasing data augmentation [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1708.04896.pdf.
[28]CUBUK E D, ZOPH B, MANE D, et al. AutoAugment: learning augmentation policies from data [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1805.09501.pdf.
[29]Sebastian Ruder. Transfer learning—machine learnings next frontier [EB/OL]. [2019-01-04]. http://ruder.io/transfer-learning/.
[30]PAN S J, YANG Q. A survey on transfer learning [J]. IEEE Transaction on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.
[31]YOSINSKI J, CLUNE J, BENGIO Y, et al. How transferable are features in deep neural networks? [J] In Advances in Neural Information Processing Systems 27 (NIPS 14),NIPS Foundation,2014.
YOSINSKI J, CLUNE J, BENGIO Y, et al. How transferable are features in deep neural networks? [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1411.1792.pdf.
[32]TAN C, SUN F, KONG T, et al. A survey on deep transfer learning [C]// Proceedings of the 2018 International Conference on Artificial Neural Networks, LNCS 11141. Berlin: Springer: 270-279.
[33]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL].[2019-01-04]. https://arxiv.org/pdf/1409.1556.pdf.
[34]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016:770-778.
[35]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1512.00567.pdf.
[36]RIABCHENKO E, MEISSNER K, AHMAD I, et al. Learned vs. engineered features for fine-grained classification of aquatic macroinvertebrates [C]// Proceedings of the 23rd International Conference on Pattern Recognition. Piscataway, NJ: IEEE, 2016: 2276-2281.
[37]金連文,鐘卓耀,楊釗,等.深度學(xué)習(xí)在手寫(xiě)漢字識(shí)別中的應(yīng)用綜述[J].自動(dòng)化學(xué)報(bào),2016,42(8):1125-1141.(JIN L W, ZHONG Z Y, YANG Z, et al. Applications of deep learning for handwritten Chinese character recognition: a review [J]. Acta Automatica Sinica, 2016, 42(8): 1125-1141.)
[38]LeCUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[39]SIMARD P Y, STEINKRAUS D, PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// Proceedings of the 7th International Conference on Document Analysis and Recognition. Washington, DC: IEEE Computer Society, 2003: 958-962.
[40]YAEGER L, LYON R, WEBB B. Effective training of a neural network character classifier for word recognition [C]// Advances in Neural Information Processing Systems, 1997: 807-816.
YAEGER L, LYON R, WEBB B. Effective training of a neural network character classifier for word recognition [C]// Proceedings of the 9th International Conference on Neural Information Processing Systems. Denver, Colorado: [s.n.], 1997:807-816.
[41]BASTIEN F, BENGIO Y, BERGERON A, et al. Deep self-taught learning for handwritten character recognition [EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1009.3589v1.pdf.
[42]VARGA T, BUNKE H. Generation of synthetic training data for an HMM-based handwriting recognition system [C]// Proceedings of the 7th International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE, 2003: 618-622.
[43]JADERBERG M, SIMONYAN K, VEDALDI A, et al. Synthetic data and artificial neural networks for natural scene text recognition [EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1406.2227.pdf.
[44]畢佳晶,李敏,鄭蕊蕊,等. 面向滿文字符識(shí)別的訓(xùn)練數(shù)據(jù)增廣方法研究[J].大連民族大學(xué)學(xué)報(bào),2018,20(1):73-78.(BI J J,LI M, ZHENG R R, et al. Research on training data augmentation methods for Manchu character recognition [J] . Journal of Dalian Minzu University, 2018, 20(1): 73-78.)
[45]JIN L, HUANG J, YIN J, et al. Deformation transformation for handwritten Chinese character shape correction[C]// Proceedings of the 3rd International Conference on Multimodal Interfaces, LNCS 1948. Berlin: Springer, 2000: 450-457.
[46]CHEN G, ZHANG H, GUO J. Learning pattern generation for handwritten Chinese character using pattern transform method with cosine function [C]// Proceedings of the 2006 International Conference on Machine Learning and Cybernetics. Piscataway, NJ: IEEE, 2006: 3329-3333.
[47]WONG S C, GATT A, STAMATESCU V, et al. Understanding data augmentation for classification: when to warp? [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1609.08764.pdf.
[48]BAIRD H S. Document image defect models [M]// BAIRD H S, BUNKE H, YAMAMOTO K. Structured Document Image Analysis. Berlin: Springer, 1992: 546-556.
[49]CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-356.
[50]DEVRIES T, TAYLOR G W. Dateset augmentation in feature space [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1702.05538.pdf.
[51]GURUMURTHY S, SARVADEVABHATLA R K, BABU R V. DeLiGAN: generative adversarial networks for diverse and limited data [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 4941-4949.
[52]楊明,劉強(qiáng),尹忠科,等.基于輪廓追蹤的字符識(shí)別特征提取[J].計(jì)算機(jī)工程與應(yīng)用 2007,43(20):207-209.(YANG M, LIU Q, YIN Z K, et al. Feature extraction in character recognition based on contour pursuit [J]. Computer Engineering and Applications, 2007, 43(20): 207-209.)
[53]MIYAO H, MARUYAMA M. Virtual example synthesis based on PCA for off-line handwritten character recognition [C]// Proceedings of the 7th International Workshop on Document Analysis Systems, LNCS 3872. Berlin: Springer, 2006: 96-105.
[54]LEUNG K C, LEUNG C H. Recognition of handwritten Chinese characters by combining regularization, Fishers discriminant and distorted sample generation [C]// Proceedings of the 10th International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE, 2009: 1026-1030.
[55]趙元慶,吳華.多尺度特征和神經(jīng)網(wǎng)絡(luò)相融合的手寫(xiě)體數(shù)字識(shí)別[J].計(jì)算機(jī)科學(xué),2013,40(8):316-318.(ZHAO Y Q, WU H. Hand written numeral recognition based on multi-scale features and neural network [J]. Computer Science, 2013, 40(8): 316-318.)
[56]張敏,韓先培,張家俊,等.中文信息處理發(fā)展報(bào)告(2016)[R].北京:中國(guó)中文信息學(xué)會(huì),2016.(ZHANG M, HAN X P, ZHANG J J, et al. Chinese information processing development report (2016)[R]. Beijing: Chinese Information Society, 2016.)
[57]JIA R, LIANG P. Data recombination for neural semantic parsing [C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 12-22.
[58]XU Y, JIA R, MOU L, et al. Improved relation classification by deep recurrent neural networks with data augmentation [EB/OL].[2019-01-04]. https:arxiv.org/pdf/1601.03651.pdf.
[59]JIANG K, CARENINI G, NG R T. Training data enrichment for infrequent discourse relations [EB/OL]. [2019-01-04]. https://www.aclweb.org/anthology/C16-1245.
[60]FADAEE M, BISAZZA A, MONZ C. Data augmentation for low-resource neural machine translation [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 567-573.
[61]KOBAYASHI S. Contextual augmentation: data augmentation by words with paradigmatic relations [C]. //Proceedings of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2018), New Orleans, Louisiana, June 1-6, 2018:452-457.
KOBAYASHI S. Contextual augmentation: data augmentation by words with paradigmatic relations [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1805.06201.pdf.
[62]HOU Y, LIU Y, CHE W, et al. Sequence-to-sequence data augmentation for dialogue language understanding [C] // The 27th International Conference on Computational Linguistics. Santa Fe, New Mexico August 20-26, 2018: 1234-1245
HOU Y, LIU Y, CHE W, et al. Sequence-to-sequence data augmentation for dialogue language understanding [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1807.01554.pdf.
[63]JAEGER S, CANDEMIR S, ANTANI S, et al. Two public chest X-ray datasets for computer-aided screening of pulmonary diseases [J]. Quantitative Imaging in Medicine and Surgery, 2014, 4(6): 475-477.
[64]JAEGER S, KARARGYRIS A, CANDEMIR S, et al. Automatic tuberculosis screening using chest radiographs [J]. IEEE Transactions on Medical Imaging, 2014, 33(2): 233-245.
[65]CANDEMIR S, JAEGER S, PALANIAPPAN K, et al. Lung segmentation in chest radiographs using anatomical atlases with nonrigid registration [J]. IEEE Transactions on Medical Imaging, 2014, 33(2): 577-590.
[66]DEMNER-FUSHMAN D, KOHLI M D, ROSENMAN M B, et al. Preparing a collection of radiology examinations for distribution and retrieval [J]. Journal of the American Medical Informatics Association, 2016, 23(2): 304-310.
[67]Open-i. Open access biomedical image search engine [DB/OL]. [2019-01-04]. https://openi.nlm.nih.gov.
[68]WANG X, PENG Y, LU L, et al. Chest X-ray8: hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 3462-3471.
[69]RAJPURKAR P, IRVIN J, ZHU K, et al. CheXNet: radiologist-level pneumonia detection on chest X-rays with deep learning [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1711.05225.pdf.
[70]RAJPURKAR P, IRVIN J, BAGUL A, et al. MURA dataset: towards radiologist-level abnormality detection in musculoskeletal radiographs [EB/OL]. [2019-01-04].https://stanfordmlgroup.github.io/competitions/mura/.
[71]程國(guó)華,陳波,季紅麗.基于3D全連接卷積神經(jīng)網(wǎng)絡(luò)的CT圖像肺結(jié)節(jié)檢測(cè)系統(tǒng)[P].中國(guó),CN 201710173432.6[P]. 2017-07-11(CHENG G H, CHEN B, JI H L. CT image pulmonary nodule detection system based on 3D fully connected convolutional neural network [P].China, CN 201710173432.6[P].2017-07-11)
程國(guó)華,陳波,季紅麗. 基于3D全連接卷積神經(jīng)網(wǎng)絡(luò)的CT圖像肺結(jié)節(jié)檢測(cè)系統(tǒng): CN201710173432.6[P/OL].2017-07-11[2019-01-04]. http://www2.drugfuture.com/cnpat/search.aspx.(CHENG G H, CHEN B, JI H L. CT image pulmonary nodule detection system based on 3D fully connected convolutional neural network: CN201710173432.6[P/OL]. 2017-07-11[2019-01-04]. http://www2.drugfuture.com/cnpat/search.aspx.)
[72]上海交通大學(xué)人工智能實(shí)驗(yàn)室如何用AI定位肺結(jié)節(jié)[EB/OL]。[2019-05-04].https://www.jiqizhixin.com/articles/2017-10-24
機(jī)器之心.天池大數(shù)據(jù)競(jìng)賽第一名,上海交通大學(xué)人工智能實(shí)驗(yàn)室如何用AI定位肺結(jié)節(jié)[EB/OL]. [2019-01-04].https://www.jiqizhixin.com/articles/2017-10-24.(Heart of Machine. How to locate pulmonary nodules with AI in artificial intelligence laboratory of Shanghai Jiaotong University which is Tianchi Big Data Competition No. 1[EB/OL]. [2019-01-04]. https://www.jiqizhixin.com/articles/2017-10-24.)
[73]FRID-ADAR M, KLANG E, AMITAI M, et al. Synthetic data augmentation using GAN for improved liver lesion classification [C]// Proceedings of the IEEE 15th International Symposium on Biomedical Imaging. Piscataway, NJ: IEEE, 2018: 289-293.
[74]NIE D, TRULLO R,? LIANG J, et al. Medical image synthesis with context-aware generative adversarial networks [C]// Proceedings of the 2017 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 10435. Berlin: Springer, 2017: 417-425.
[75]林偉銘,高欽泉,杜民.卷積神經(jīng)網(wǎng)絡(luò)診斷阿爾茲海默癥的方法[J].計(jì)算機(jī)應(yīng)用,2017, 32(12):3504-3508.(LIN W M, GAO Q Q, DU M. Convolutional neural network based method for diagnosis of Alzheimers disease [J]. Journal of Computer Applications, 2017, 32(12): 3504-3508.)
[76]THYREAU B, SATO K, FUKUDA H, et al. Segmentation of the hippocampus by transferring algorithmic knowledge for large cohort processing [J]. Medical Image Analysis, 2018,43: 214-228.
[77]DONG H, YANG G, LIU F, et al. Automatic brain tumor detection and segmentation using U-net based fully convolutional networks [C]// Proceedings of the 2017 Annual Conference on Medical Image Understanding and Analysis, CCIS 723. Berlin: Springer, 2017: 506-517.
[78]RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation [C]// Proceedings of the 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 9351. Berlin: Springer, 2015:234-241.
[79]MENZE B H, JAKAB A, BAUER S, et al. The multimodal brain tumor image segmentation benchmark (BRATS) [J]. IEEE Transactions on Medical Imaging, 2015, 34(10): 1993-2024.
[80]SHIN H, TENEHOLTZ N A, ROGERS J K, et al. Medical image synthesis for data augmentation and anonymization using generative adversarial networks [EB/OL]. [2019-01-04]. https://arxiv.org/pdf/1807.10225.pdf.
[81]VASCONCELOS C N, VASCONCELOS B N. Increasing deep learning melanoma classification by classical and expert knowledge based image transforms [EB/OL].[2019-01-04]. https:// arxiv.org/pdf/1702.07025v1.pdf.
[82]CIRESAN D C, GIUSTI A, GAMBARDELLA L M, et al. Mitosis detection in breast cancer histology images with deep neural networks [C]// Proceedings of the 2013 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 8150. Berlin: Springer, 2013: 411-418.
This work is partially supported by the Shanghai Pujiang Talent Plan (17PJ1432500).
WEI Xiaona, born in 1986, M.S. candidate. Her research interests include deep learning,medical image processing.
LI Yinghao, born in 1999. His research interests include machine learning, image reconstruction.
WANG Zhenyu, born in 1996, M. S. candidate. His research interests include deep learning, medical image processing.
LI Haozun, born in 1996. His research interests include deep learning, image reconstruction.
WANG Hongzhi, born in 1975, Ph. D., associate professor. His research interests include magnetic resonance imaging technology, medical image analysis.