改進(jìn)型深度學(xué)習(xí)模型在乳腺腫瘤良惡性鑒別中的應(yīng)用

2020-12-12 04:04:02鄧竹琴俞永偉

中國醫(yī)學(xué)物理學(xué)雜志 2020年11期

鄧竹琴，俞永偉

1.中國人民解放軍聯(lián)勤保障部隊(duì)第901醫(yī)院婦產(chǎn)科，安徽合肥230031；2.安徽省合肥市長榮醫(yī)院普外科，安徽合肥230001

前言

乳腺癌是臨床上常見的癌癥，具有發(fā)病率高、死亡率高和治愈率低等特點(diǎn)。據(jù)不完全數(shù)據(jù)表明，全世界乳腺癌的發(fā)病率在穩(wěn)步上升，其中美國女性乳腺癌的發(fā)病率更是高達(dá)12.5%［1-2］。雖然我國乳腺癌的發(fā)病率較低，但最近幾年我國女性患乳腺癌的數(shù)量在逐年上升，成為近年來發(fā)病率最高的惡性腫瘤之一［3］。臨床中醫(yī)生根據(jù)彩超、X 線、核磁共振等對患者進(jìn)行診斷，但病理圖像具有更豐富的形態(tài)信息，是醫(yī)生確診的重要方式。目前病理醫(yī)生進(jìn)行病理圖像分類時(shí)主要依靠圖像中細(xì)胞形狀和分布進(jìn)行分類。但診斷結(jié)果容易受病理醫(yī)生經(jīng)驗(yàn)和學(xué)識的影響。近年來，深度學(xué)習(xí)的興起，使其在醫(yī)學(xué)圖像處理方面大放異彩［4-5］。在乳腺癌組織病理圖像分類中深度學(xué)習(xí)分類方法與傳統(tǒng)分類方法相比準(zhǔn)確率提高了6%［6］。雖然識別準(zhǔn)確率提高了6%，但識別精度依然不足。針對精度不足的情況，本文通過對Visual Geometry Group-16（VGG-16）卷積神經(jīng)網(wǎng)絡(luò)的模型進(jìn)行改進(jìn)，提出基于VGG-16 卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)模型（VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型）。該方法可以解決VGG-16網(wǎng)絡(luò)過深，參數(shù)過多，收斂速度慢，訓(xùn)練困難等問題。另一方面采用數(shù)據(jù)增強(qiáng)的方法提高了模型的泛化能力和魯棒性。

1 方法

1.1 VGG-Improve卷積神經(jīng)網(wǎng)絡(luò)模型

VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型由7 個(gè)卷積層和2個(gè)全連接層組成；用ReLU函數(shù)作為激活函數(shù)，在加強(qiáng)網(wǎng)絡(luò)非線性映射能力的同時(shí)，也可以提高網(wǎng)絡(luò)收斂速度［7-8］；使用正則化函數(shù)，通過對損失函數(shù)增加懲罰項(xiàng)，降低過擬合的風(fēng)險(xiǎn)［9］；用均值池化層，減少圖像細(xì)節(jié)丟失，避免了最大池化丟失局部細(xì)節(jié)。

本文使用VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型對乳腺癌病理圖片進(jìn)行訓(xùn)練，并與同類型文獻(xiàn)提出的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行對比。VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)圖如圖1 所示［10-11］。第1 層為圖像輸入，輸入的尺寸為224×224；第2 層為64×3×3 的卷積核，第3 層為64×3×3 的卷積核；第4 層為均值池化層，池化域?yàn)?×2；第5～7 層與第2～4 層相同；第8～10 層由3個(gè)64×3×3 的卷積核組成；第11 層為均值池化層，池化域?yàn)?×2，每一個(gè)卷積核都使用正則化；第12～13層為兩個(gè)全連接層，連接參數(shù)分別為512和256，每個(gè)全連接層后面都進(jìn)行正則化。最后一層使用Softmax分類器，其中卷積層和全連接層均使用ReLU 激活函數(shù)，卷積層的步長為1×1，池化層步長為2×2，全連接層的步長為2×2。

圖1 改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)模型Fig.1 Improved convolutional neural network model

1.2 正則化

訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中，由于數(shù)據(jù)集不足，模型選取不當(dāng)?shù)仍?，容易造成過擬合。使用正則化能有效防止過擬合，使訓(xùn)練好的模型在訓(xùn)練集和測試集上都有很好的準(zhǔn)確率。常見的正則化分為L1正則化和L2 正則化。L1 正則化是將權(quán)值向量W中各個(gè)元素的絕對值求和。L1正則化可以改變權(quán)值矩陣W的稀疏性，將W中部分元素變?yōu)榱?。通過改變W的稀疏性減少了計(jì)算量，在一定程度上可以減少模型過擬合的概率。L2正則化是將權(quán)值向量W中各個(gè)元素進(jìn)行平方和再求平方根。使得模型的解偏向于范數(shù)較小的W，通過限制W范數(shù)的大小實(shí)現(xiàn)了對模型空間的限制，從而在一定程度上避免了過擬合。但L2 正則化不具備稀疏化的特性，計(jì)算量并沒有得到改觀，但相較于L1 正則化L2 正則化對過擬合的抑制效果更加明顯。本文采用L2正則化防止出現(xiàn)過擬合情況。L1 正則化和L2 正則化公式定義如式（1）和式（2）所示：

其中，loss 為原始的損失損失值，C為懲罰系數(shù)，w為權(quán)重參數(shù)，lossnew為新生成的損失值。

1.3 數(shù)據(jù)增強(qiáng)

由于本研究臨床數(shù)據(jù)集數(shù)據(jù)較少，無法提供大量帶有標(biāo)記的樣本，容易在訓(xùn)練中造成過擬合現(xiàn)象。針對上述問題，本文對原有的樣本進(jìn)行數(shù)據(jù)增強(qiáng)，數(shù)據(jù)增強(qiáng)的方式如下：（1）旋轉(zhuǎn)，將圖像在0～60°范圍內(nèi)隨機(jī)旋轉(zhuǎn)。（2）圖像縮放，將圖像按照一定比例進(jìn)行放大或縮小。（3）平移，將圖像向x 或y 方向移動。（4）增加噪聲，通過加入噪聲數(shù)據(jù)抵消高頻特征，抑制過擬合發(fā)生。經(jīng)過數(shù)據(jù)增強(qiáng)后，不但增加了訓(xùn)練樣本，還會增加模型的魯棒性。另外本文還對圖像進(jìn)行歸一化處理，處理后的數(shù)據(jù)能防止出現(xiàn)“梯度彌散”現(xiàn)象［12-13］。通過數(shù)據(jù)增強(qiáng)，使樣本擴(kuò)大為原來的2倍。

2 實(shí)驗(yàn)

2.1 數(shù)據(jù)集的建立與實(shí)驗(yàn)平臺

選取某醫(yī)院腫瘤科采集的臨床乳腺腫瘤細(xì)胞數(shù)據(jù)集作為研究對象，其中女性病例占83%，男性病例占17%，女性年齡為22～74 歲，平均年齡為45 歲，其中惡性乳腺腫瘤數(shù)據(jù)為2 170 張，良性乳腺腫瘤數(shù)據(jù)為1 211 張，乳腺腫瘤細(xì)胞圖像見圖2。乳腺腫瘤細(xì)胞數(shù)據(jù)集的分布情況如表1 所示。數(shù)據(jù)增強(qiáng)后數(shù)據(jù)集擴(kuò)充為原來的二倍，增強(qiáng)后數(shù)據(jù)集分布情況如表2所示。本文訓(xùn)練和驗(yàn)證過程所使用的硬件平臺配置為i5-9600k/32G RAM/2T SSD/GPU GeForce RTX 2070 Ti，操作系統(tǒng)為Windows 10（64bit）。本實(shí)驗(yàn)選取keras為實(shí)驗(yàn)框架。

圖2 乳腺腫瘤細(xì)胞Fig.2 Breast tumor cells(a,b are benign tumors,c,d are malignant tumor cells)

表1 增強(qiáng)前乳腺腫瘤細(xì)胞數(shù)據(jù)集分布Tab.1 Breast tumor cell dataset before enhancement

訓(xùn)練模型時(shí)采用Adam 優(yōu)化器，訓(xùn)練批次為32，學(xué)習(xí)率初始值為4×10-4，學(xué)習(xí)率根據(jù)迭代次數(shù)動態(tài)調(diào)整。動態(tài)調(diào)整學(xué)習(xí)率公式如下：

其中，Lr為學(xué)習(xí)率，epoch為迭代次數(shù)，Lrnew為新生成學(xué)習(xí)率。

2.2 實(shí)驗(yàn)評價(jià)指標(biāo)

為了分析實(shí)驗(yàn)數(shù)據(jù)，本文使用召回率（Recall）和準(zhǔn)確率（Acc）對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行評價(jià)。計(jì)算定義如下：

其中，TP表示將良性腫瘤數(shù)據(jù)分類到良性類別，TN表示將惡性腫瘤分類到惡性類別，TP和TN均表示分類準(zhǔn)確；FP表示將惡性腫瘤數(shù)據(jù)分類到良性類別，F(xiàn)N表示將良性腫瘤數(shù)據(jù)分類到惡性類別，F(xiàn)P和FN表示分類錯(cuò)誤。召回率表示樣本中正例被正確預(yù)測的比例；準(zhǔn)確率表示判定正確的數(shù)據(jù)在總體數(shù)據(jù)中的比例。通過上述兩個(gè)指標(biāo)可以反映模型的分類能力，數(shù)值越大，分類能力越強(qiáng)。VGG-Improve模型評價(jià)結(jié)果表3所示。

表2 增強(qiáng)后乳腺腫瘤細(xì)胞數(shù)據(jù)集分布Tab.2 Breast tumor cell dataset after enhancement

表3 同類文獻(xiàn)網(wǎng)絡(luò)的評價(jià)結(jié)果（%）Tab.3 Evaluation results of similar literature networks(%)

2.3 模型改進(jìn)前后的比較

本文比較了模型改進(jìn)前后對腫瘤數(shù)據(jù)集分類結(jié)果的準(zhǔn)確率和損失值。其中VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型在測試集上的準(zhǔn)確率高于VGG-16 卷積神經(jīng)網(wǎng)絡(luò)模型，損失值小于VGG-16 卷積神經(jīng)網(wǎng)絡(luò)模型。可以看出VGG-Improve 相比于VGG-16 在乳腺癌識別中有更好的表現(xiàn)。表4 中為模型改進(jìn)前后訓(xùn)練及測試時(shí)各項(xiàng)參數(shù)對比。由表4 可知改進(jìn)后模型測試集上的錯(cuò)誤率和損失值均低于改進(jìn)前模型。可以看出改進(jìn)后模型解決了過擬合情況，并且正確率達(dá)到96.4%，相較于為改進(jìn)前擁有更低的錯(cuò)誤率。

表4 VGG-16改進(jìn)前后各項(xiàng)參數(shù)對比（性能最佳的Epoch）Tab.4 Comparison of various parameters before and after VGG-16 improvement(Best Epoch)

2.4 與同類文獻(xiàn)對比

文獻(xiàn)［13］中卷積神經(jīng)網(wǎng)絡(luò)模型由7個(gè)卷積層和2個(gè)全連接層組成，其中第二、三層卷積層采用兩個(gè)卷積并聯(lián)的方式。這種做法能夠增加網(wǎng)絡(luò)模型寬度，實(shí)現(xiàn)多尺度的圖像特征提取，使用該模型可以有效地對宮頸癌細(xì)胞進(jìn)行分類。文獻(xiàn)［14］中卷積神經(jīng)網(wǎng)絡(luò)由4 個(gè)卷積層，4 個(gè)池化層和2 個(gè)全連接層并聯(lián)組成，其中池化層選用最大池化。

通過表5 可以看出在相同的乳腺腫瘤細(xì)胞測試集下，本文提出的方法相較于文獻(xiàn)［13］和文獻(xiàn)［14］的模型都有很大的提升，正確率明顯提升。經(jīng)上述對比可以看出，本文提出的VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型相較于同類文獻(xiàn)提出的模型在相同數(shù)據(jù)集的情況下?lián)碛懈玫臏?zhǔn)確率。通過表3 和圖3 可以看出VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率和召回率都高于其他兩種方法。證明了VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型具有良好的泛化性。

表5 本文與同類相關(guān)文獻(xiàn)準(zhǔn)確率對比Tab.5 Comparison of the accuracy between related literatures and the paper

圖3 測試集準(zhǔn)確率與迭代次數(shù)的關(guān)系Fig.3 Relationship between test set accuracy and number of iterations

3 討論

國外在癌癥分類方面，Jiang 等［16］提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的新型識別系統(tǒng)，該系統(tǒng)可以對圖像進(jìn)行預(yù)處理并對神經(jīng)祖細(xì)胞（NPC）和非NPC 進(jìn)行分類。Pansombut 等［17］使用多種機(jī)器學(xué)習(xí)算法對淋巴細(xì)胞進(jìn)行分類，通過對比得出CNN 能更好的對淋巴細(xì)胞進(jìn)行分類。李正義［18］通過對細(xì)胞邊緣紋路、曲率、大小等特征的提取，使用一種改進(jìn)的隨機(jī)森林分類器對宮頸癌細(xì)胞進(jìn)行識別。在信息化時(shí)代的背景下各種機(jī)器學(xué)習(xí)算法愈發(fā)重要，人工智能算法在醫(yī)學(xué)診斷中已經(jīng)廣泛應(yīng)用。本文提出的模型可以輔助醫(yī)生對乳腺腫瘤進(jìn)行良惡性分析。未來訓(xùn)練樣本量足夠時(shí)，可以代替醫(yī)生進(jìn)行腫瘤細(xì)胞良惡性識別。通過人工智能算法代替人工進(jìn)行醫(yī)學(xué)診斷可以大大縮短醫(yī)生診斷時(shí)間，提高就醫(yī)效率［19-20］。現(xiàn)階段人工神經(jīng)網(wǎng)絡(luò)是圖像分類中重要的分支，使用人工神經(jīng)網(wǎng)絡(luò)搭建針對特定疾病的自動化醫(yī)學(xué)診斷系統(tǒng)是未來發(fā)展的趨勢。由于本文使用的數(shù)據(jù)集為乳腺腫瘤細(xì)胞，目前在乳腺腫瘤識別中有很好的效果，但尚未對其他類型腫瘤細(xì)胞進(jìn)行辨別，后續(xù)將考慮建立其他類型腫瘤細(xì)胞良惡性辨識模型。