鄧竹琴,俞永偉
1.中國人民解放軍聯(lián)勤保障部隊(duì)第901醫(yī)院婦產(chǎn)科,安徽合肥230031;2.安徽省合肥市長榮醫(yī)院普外科,安徽合肥230001
乳腺癌是臨床上常見的癌癥,具有發(fā)病率高、死亡率高和治愈率低等特點(diǎn)。據(jù)不完全數(shù)據(jù)表明,全世界乳腺癌的發(fā)病率在穩(wěn)步上升,其中美國女性乳腺癌的發(fā)病率更是高達(dá)12.5%[1-2]。雖然我國乳腺癌的發(fā)病率較低,但最近幾年我國女性患乳腺癌的數(shù)量在逐年上升,成為近年來發(fā)病率最高的惡性腫瘤之一[3]。臨床中醫(yī)生根據(jù)彩超、X 線、核磁共振等對患者進(jìn)行診斷,但病理圖像具有更豐富的形態(tài)信息,是醫(yī)生確診的重要方式。目前病理醫(yī)生進(jìn)行病理圖像分類時(shí)主要依靠圖像中細(xì)胞形狀和分布進(jìn)行分類。但診斷結(jié)果容易受病理醫(yī)生經(jīng)驗(yàn)和學(xué)識的影響。近年來,深度學(xué)習(xí)的興起,使其在醫(yī)學(xué)圖像處理方面大放異彩[4-5]。在乳腺癌組織病理圖像分類中深度學(xué)習(xí)分類方法與傳統(tǒng)分類方法相比準(zhǔn)確率提高了6%[6]。雖然識別準(zhǔn)確率提高了6%,但識別精度依然不足。針對精度不足的情況,本文通過對Visual Geometry Group-16(VGG-16)卷積神經(jīng)網(wǎng)絡(luò)的模型進(jìn)行改進(jìn),提出基于VGG-16 卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)模型(VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型)。該方法可以解決VGG-16網(wǎng)絡(luò)過深,參數(shù)過多,收斂速度慢,訓(xùn)練困難等問題。另一方面采用數(shù)據(jù)增強(qiáng)的方法提高了模型的泛化能力和魯棒性。
VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型由7 個(gè)卷積 層和2個(gè)全連接層組成;用ReLU函數(shù)作為激活函數(shù),在加強(qiáng)網(wǎng)絡(luò)非線性映射能力的同時(shí),也可以提高網(wǎng)絡(luò)收斂速度[7-8];使用正則化函數(shù),通過對損失函數(shù)增加懲罰項(xiàng),降低過擬合的風(fēng)險(xiǎn)[9];用均值池化層,減少圖像細(xì)節(jié)丟失,避免了最大池化丟失局部細(xì)節(jié)。
本文使用VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型對乳腺癌病理圖片進(jìn)行訓(xùn)練,并與同類型文獻(xiàn)提出的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行對比。VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)圖如圖1 所示[10-11]。第1 層為圖像輸入,輸入的尺寸為224×224;第2 層為64×3×3 的卷積核,第3 層為64×3×3 的卷積核;第4 層為均值池化層,池化域?yàn)?×2;第5~7 層與第2~4 層相同;第8~10 層由3個(gè)64×3×3 的卷積核組成;第11 層為均值池化層,池化域?yàn)?×2,每一個(gè)卷積核都使用正則化;第12~13層為兩個(gè)全連接層,連接參數(shù)分別為512和256,每個(gè)全連接層后面都進(jìn)行正則化。最后一層使用Softmax分類器,其中卷積層和全連接層均使用ReLU 激活函數(shù),卷積層的步長為1×1,池化層步長為2×2,全連接層的步長為2×2。
圖1 改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)模型Fig.1 Improved convolutional neural network model
訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,由于數(shù)據(jù)集不足,模型選取不當(dāng)?shù)仍?,容易造成過擬合。使用正則化能有效防止過擬合,使訓(xùn)練好的模型在訓(xùn)練集和測試集上都有很好的準(zhǔn)確率。常見的正則化分為L1正則化和L2 正則化。L1 正則化是將權(quán)值向量W中各個(gè)元素的絕對值求和。L1正則化可以改變權(quán)值矩陣W的稀疏性,將W中部分元素變?yōu)榱?。通過改變W的稀疏性減少了計(jì)算量,在一定程度上可以減少模型過擬合的概率。L2正則化是將權(quán)值向量W中各個(gè)元素進(jìn)行平方和再求平方根。使得模型的解偏向于范數(shù)較小的W,通過限制W范數(shù)的大小實(shí)現(xiàn)了對模型空間的限制,從而在一定程度上避免了過擬合。但L2 正則化不具備稀疏化的特性,計(jì)算量并沒有得到改觀,但相較于L1 正則化L2 正則化對過擬合的抑制效果更加明顯。本文采用L2正則化防止出現(xiàn)過擬合情況。L1 正則化和L2 正則化公式定義如式(1)和式(2)所示:
其中,loss 為原始的損失損失值,C為懲罰系數(shù),w為權(quán)重參數(shù),lossnew為新生成的損失值。
由于本研究臨床數(shù)據(jù)集數(shù)據(jù)較少,無法提供大量帶有標(biāo)記的樣本,容易在訓(xùn)練中造成過擬合現(xiàn)象。針對上述問題,本文對原有的樣本進(jìn)行數(shù)據(jù)增強(qiáng),數(shù)據(jù)增強(qiáng)的方式如下:(1)旋轉(zhuǎn),將圖像在0~60°范圍內(nèi)隨機(jī)旋轉(zhuǎn)。(2)圖像縮放,將圖像按照一定比例進(jìn)行放大或縮小。(3)平移,將圖像向x 或y 方向移動。(4)增加噪聲,通過加入噪聲數(shù)據(jù)抵消高頻特征,抑制過擬合發(fā)生。經(jīng)過數(shù)據(jù)增強(qiáng)后,不但增加了訓(xùn)練樣本,還會增加模型的魯棒性。另外本文還對圖像進(jìn)行歸一化處理,處理后的數(shù)據(jù)能防止出現(xiàn)“梯度彌散”現(xiàn)象[12-13]。通過數(shù)據(jù)增強(qiáng),使樣本擴(kuò)大為原來的2倍。
選取某醫(yī)院腫瘤科采集的臨床乳腺腫瘤細(xì)胞數(shù)據(jù)集作為研究對象,其中女性病例占83%,男性病例占17%,女性年齡為22~74 歲,平均年齡為45 歲,其中惡性乳腺腫瘤數(shù)據(jù)為2 170 張,良性乳腺腫瘤數(shù)據(jù)為1 211 張,乳腺腫瘤細(xì)胞圖像見圖2。乳腺腫瘤細(xì)胞數(shù)據(jù)集的分布情況如表1 所示。數(shù)據(jù)增強(qiáng)后數(shù)據(jù)集擴(kuò)充為原來的二倍,增強(qiáng)后數(shù)據(jù)集分布情況如表2所示。本文訓(xùn)練和驗(yàn)證過程所使用的硬件平臺配置為i5-9600k/32G RAM/2T SSD/GPU GeForce RTX 2070 Ti,操作系統(tǒng)為Windows 10(64bit)。本實(shí)驗(yàn)選取keras為實(shí)驗(yàn)框架。
圖2 乳腺腫瘤細(xì)胞Fig.2 Breast tumor cells(a,b are benign tumors,c,d are malignant tumor cells)
表1 增強(qiáng)前乳腺腫瘤細(xì)胞數(shù)據(jù)集分布Tab.1 Breast tumor cell dataset before enhancement
訓(xùn)練模型時(shí)采用Adam 優(yōu)化器,訓(xùn)練批次為32,學(xué)習(xí)率初始值為4×10-4,學(xué)習(xí)率根據(jù)迭代次數(shù)動態(tài)調(diào)整。動態(tài)調(diào)整學(xué)習(xí)率公式如下:
其中,Lr為學(xué)習(xí)率,epoch為迭代次數(shù),Lrnew為新生成學(xué)習(xí)率。
為了分析實(shí)驗(yàn)數(shù)據(jù),本文使用召回率(Recall)和準(zhǔn)確率(Acc)對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行評價(jià)。計(jì)算定義如下:
其中,TP表示將良性腫瘤數(shù)據(jù)分類到良性類別,TN表示將惡性腫瘤分類到惡性類別,TP和TN均表示分類準(zhǔn)確;FP表示將惡性腫瘤數(shù)據(jù)分類到良性類別,F(xiàn)N表示將良性腫瘤數(shù)據(jù)分類到惡性類別,F(xiàn)P和FN表示分類錯(cuò)誤。召回率表示樣本中正例被正確預(yù)測的比例;準(zhǔn)確率表示判定正確的數(shù)據(jù)在總體數(shù)據(jù)中的比例。通過上述兩個(gè)指標(biāo)可以反映模型的分類能力,數(shù)值越大,分類能力越強(qiáng)。VGG-Improve模型評價(jià)結(jié)果表3所示。
表2 增強(qiáng)后乳腺腫瘤細(xì)胞數(shù)據(jù)集分布Tab.2 Breast tumor cell dataset after enhancement
表3 同類文獻(xiàn)網(wǎng)絡(luò)的評價(jià)結(jié)果(%)Tab.3 Evaluation results of similar literature networks(%)
本文比較了模型改進(jìn)前后對腫瘤數(shù)據(jù)集分類結(jié)果的準(zhǔn)確率和損失值。其中VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型在測試集上的準(zhǔn)確率高于VGG-16 卷積神經(jīng)網(wǎng)絡(luò)模型,損失值小于VGG-16 卷積神經(jīng)網(wǎng)絡(luò)模型。可以看出VGG-Improve 相比于VGG-16 在乳腺癌識別中有更好的表現(xiàn)。表4 中為模型改進(jìn)前后訓(xùn)練及測試時(shí)各項(xiàng)參數(shù)對比。由表4 可知改進(jìn)后模型測試集上的錯(cuò)誤率和損失值均低于改進(jìn)前模型。可以看出改進(jìn)后模型解決了過擬合情況,并且正確率達(dá)到96.4%,相較于為改進(jìn)前擁有更低的錯(cuò)誤率。
表4 VGG-16改進(jìn)前后各項(xiàng)參數(shù)對比(性能最佳的Epoch)Tab.4 Comparison of various parameters before and after VGG-16 improvement(Best Epoch)
文獻(xiàn)[13]中卷積神經(jīng)網(wǎng)絡(luò)模型由7個(gè)卷積層和2個(gè)全連接層組成,其中第二、三層卷積層采用兩個(gè)卷積并聯(lián)的方式。這種做法能夠增加網(wǎng)絡(luò)模型寬度,實(shí)現(xiàn)多尺度的圖像特征提取,使用該模型可以有效地對宮頸癌細(xì)胞進(jìn)行分類。文獻(xiàn)[14]中卷積神經(jīng)網(wǎng)絡(luò)由4 個(gè)卷積層,4 個(gè)池化層和2 個(gè)全連接層并聯(lián)組成,其中池化層選用最大池化。
通過表5 可以看出在相同的乳腺腫瘤細(xì)胞測試集下,本文提出的方法相較于文獻(xiàn)[13]和文獻(xiàn)[14]的模型都有很大的提升,正確率明顯提升。經(jīng)上述對比可以看出,本文提出的VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型相較于同類文獻(xiàn)提出的模型在相同數(shù)據(jù)集的情況下?lián)碛懈玫臏?zhǔn)確率。通過表3 和圖3 可以看出VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率和召回率都高于其他兩種方法。證明了VGG-Improve 卷積神經(jīng)網(wǎng)絡(luò)模型具有良好的泛化性。
表5 本文與同類相關(guān)文獻(xiàn)準(zhǔn)確率對比Tab.5 Comparison of the accuracy between related literatures and the paper
圖3 測試集準(zhǔn)確率與迭代次數(shù)的關(guān)系Fig.3 Relationship between test set accuracy and number of iterations
國外在癌癥分類方面,Jiang 等[16]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的新型識別系統(tǒng),該系統(tǒng)可以對圖像進(jìn)行預(yù)處理并對神經(jīng)祖細(xì)胞(NPC)和非NPC 進(jìn)行分類。Pansombut 等[17]使用多種機(jī)器學(xué)習(xí)算法對淋巴細(xì)胞進(jìn)行分類,通過對比得出CNN 能更好的對淋巴細(xì)胞進(jìn)行分類。李正義[18]通過對細(xì)胞邊緣紋路、曲率、大小等特征的提取,使用一種改進(jìn)的隨機(jī)森林分類器對宮頸癌細(xì)胞進(jìn)行識別。在信息化時(shí)代的背景下各種機(jī)器學(xué)習(xí)算法愈發(fā)重要,人工智能算法在醫(yī)學(xué)診斷中已經(jīng)廣泛應(yīng)用。本文提出的模型可以輔助醫(yī)生對乳腺腫瘤進(jìn)行良惡性分析。未來訓(xùn)練樣本量足夠時(shí),可以代替醫(yī)生進(jìn)行腫瘤細(xì)胞良惡性識別。通過人工智能算法代替人工進(jìn)行醫(yī)學(xué)診斷可以大大縮短醫(yī)生診斷時(shí)間,提高就醫(yī)效率[19-20]。現(xiàn)階段人工神經(jīng)網(wǎng)絡(luò)是圖像分類中重要的分支,使用人工神經(jīng)網(wǎng)絡(luò)搭建針對特定疾病的自動化醫(yī)學(xué)診斷系統(tǒng)是未來發(fā)展的趨勢。由于本文使用的數(shù)據(jù)集為乳腺腫瘤細(xì)胞,目前在乳腺腫瘤識別中有很好的效果,但尚未對其他類型腫瘤細(xì)胞進(jìn)行辨別,后續(xù)將考慮建立其他類型腫瘤細(xì)胞良惡性辨識模型。