余光海 付勇剛 鄧梅玲
(1.合肥工業(yè)大學(xué)機(jī)械工業(yè)綠色設(shè)計(jì)與制造重點(diǎn)實(shí)驗(yàn)室 合肥 230009;2.中國電器科學(xué)研究院股份有限公司 廣州 510300)
隨著智能手機(jī)使用的普及與更新?lián)Q代的加速,產(chǎn)生了越來越多的廢舊手機(jī),然而大量廢舊手機(jī)不僅造成資源浪費(fèi),還會對土壤環(huán)境造成污染。因此,廢舊手機(jī)的回收成為可持續(xù)發(fā)展戰(zhàn)略中不可忽視的重要問題[1,2],對于廢舊手機(jī)的回收不僅要求對手機(jī)型號識別的準(zhǔn)確率與手機(jī)型號識別的效率,還應(yīng)考慮在前期準(zhǔn)備數(shù)據(jù)庫預(yù)訓(xùn)練模型時,調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)以縮短訓(xùn)練時間。因此,設(shè)計(jì)一種快速準(zhǔn)確識別手機(jī)型號的方法成為實(shí)現(xiàn)廢舊手機(jī)回收的關(guān)鍵,本文通過深度學(xué)習(xí)的方法,在殘差網(wǎng)絡(luò)結(jié)構(gòu)中添加注意力機(jī)制進(jìn)行手機(jī)型號識別實(shí)驗(yàn),對比幾種網(wǎng)絡(luò)模型的性能,得到了能快速準(zhǔn)確識別手機(jī)型號的模型。
為了快速實(shí)現(xiàn)手機(jī)型號識別,工業(yè)中主要采用的是支持向量機(jī)等分類器提取手機(jī)外觀紋理、形狀等局部特征,然后將提取到的特征信息遍歷所有圖像進(jìn)行對比,從而達(dá)到識別不同型號的手機(jī)[3,4]。但由于識別和遍歷均耗費(fèi)較長的識別時間,導(dǎo)致該方法不適用于大規(guī)模廢舊手機(jī)回收中。同時為了提高廢舊手機(jī)型號識別的效率與準(zhǔn)確率,注意力機(jī)制逐漸成為研究熱點(diǎn)之一。例如,國外的G-M研究團(tuán)隊(duì)實(shí)驗(yàn)在遞歸神經(jīng)網(wǎng)絡(luò)模型上添加注意力模塊來對圖像進(jìn)行分類[5],最終實(shí)驗(yàn)修改后的網(wǎng)絡(luò)模型可以高效準(zhǔn)確的識別圖像中物體對象[6]。該實(shí)驗(yàn)驗(yàn)證了添加注意力機(jī)制在圖像處理領(lǐng)域是有效的。在進(jìn)行廢舊手機(jī)型號識別時,為了使網(wǎng)絡(luò)能夠?qū)崿F(xiàn)快速且準(zhǔn)確的識別,同時在數(shù)據(jù)量較少的情況下也具有良好的性能。本文采用的是基于殘差網(wǎng)絡(luò)進(jìn)行改進(jìn)并結(jié)合遷移學(xué)習(xí)[7],在Resnet 34網(wǎng)絡(luò)的殘差塊結(jié)構(gòu)中加入通道和空間注意力機(jī)制[8],分別來提取廢舊手機(jī)的重要特征和定位具有判別性的局部區(qū)域,實(shí)現(xiàn)對廢舊手機(jī)型號的快速準(zhǔn)確識別。
本實(shí)驗(yàn)數(shù)據(jù)收集主要是通過網(wǎng)絡(luò)爬蟲獲取,一共收集了900張照片,然后人工清洗篩選出738合格的照片,包括的手機(jī)型號一共三種。三種型號的手機(jī)分別為Vivo S6、華為麥芒5與榮耀30青春版,所選照片均為質(zhì)量較好、清晰度較高的照片,如圖1所示。
圖1 手機(jī)圖片
由于對于手機(jī)型號識別過程中對廢舊手機(jī)的拍照存在手機(jī)背面未拍全、手機(jī)位置偏移、手機(jī)被拍照面有損傷等因素,可能會導(dǎo)致識別準(zhǔn)確率降低,因此在模型訓(xùn)練前可以進(jìn)行圖像增強(qiáng)。本文采用的方法是對圖像進(jìn)行幾何增強(qiáng)[8,9],即對圖像進(jìn)行平移,旋轉(zhuǎn),剪切等幾何變換,可以增強(qiáng)模型的泛化能力。其次,本次實(shí)驗(yàn)所收集的數(shù)據(jù)量偏少,故采取結(jié)合遷移學(xué)習(xí)的方法來解決數(shù)據(jù)量不足。
本文用的網(wǎng)絡(luò)模型為ResNet 34網(wǎng)絡(luò)模型,并且結(jié)合遷移學(xué)習(xí)將網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上訓(xùn)練獲取的網(wǎng)絡(luò)參數(shù)遷移到目標(biāo)任務(wù)的網(wǎng)絡(luò)中,將部分參數(shù)作為廢舊手機(jī)型號識別模型的部分卷積層的初始化權(quán)重。ResNet 34網(wǎng)絡(luò)模型可以訓(xùn)練特別深的神經(jīng)網(wǎng)絡(luò),避免了隨著神經(jīng)網(wǎng)絡(luò)層次的加深而出現(xiàn)準(zhǔn)確率飽和的現(xiàn)象。殘差網(wǎng)絡(luò)可以通過增加網(wǎng)絡(luò)的深度來提高準(zhǔn)確率,這也決定了殘差網(wǎng)絡(luò)優(yōu)化比較容易實(shí)現(xiàn)。對于神經(jīng)網(wǎng)絡(luò)中增加太多深度會造成梯度消失的問題,ResNet 34網(wǎng)絡(luò)模型內(nèi)部的殘差塊添加了跳躍連接來緩解[10],本文所用的殘差結(jié)構(gòu)如圖2所示。
圖2 前50層與后50層殘差結(jié)構(gòu)
注意力機(jī)制的作用是通過網(wǎng)絡(luò)的自主學(xué)習(xí),得出一組權(quán)重系數(shù),并且注意力機(jī)制可以使模型更加關(guān)注我們想要關(guān)注的區(qū)域。注意力機(jī)制可以提高模型在訓(xùn)練時學(xué)習(xí)到對空間通道和背景信息的建模能。注意力模塊包括空間注意力和通道注意力[11]。
ECA模塊是通道注意力機(jī)制的一種實(shí)現(xiàn)形式[12]。ECA模塊可以看作是SE模塊的改進(jìn)版。由于SE模塊對通道注意力機(jī)制的副作用,導(dǎo)致捕獲信息的通道之間的依賴關(guān)系是低效的。ECA模塊的思想是非常簡單的,它去除了原來SE模塊中的全連接層,直接在平均池化后的特征上通過一個卷積來學(xué)習(xí)。其結(jié)構(gòu)如圖3所示。
圖3 ECA通道注意力模塊
Spartial Attention空間注意力在通道維度上進(jìn)行最大值和平均值的匯聚,CxWxH的特征圖壓縮成1xWxH的信息,然后通過帶有注意力權(quán)重的卷積來提取注意力信息,最后,如果是單分支結(jié)構(gòu),通過sigmoid來使注意力權(quán)重非負(fù),如果是多分支結(jié)構(gòu)則應(yīng)用softmax來使注意力權(quán)重非負(fù)[13]??臻g注意力機(jī)制可以利用圖像空間位置上的相關(guān)性,獲得在空間維度上更有價值的信息,從而獲得更有效的空間特征,結(jié)構(gòu)如圖4所示。
圖4 Spartial Attention空間注意力模塊
通道注意力中的注意力信息是篩選出哪些通道的信息和目前這個認(rèn)為是相關(guān)的。空間注意力則是去關(guān)心對于特征圖來說哪些位置的信息是和目前認(rèn)為相關(guān)的。但是在最近的研究中發(fā)現(xiàn)將空間和通道融合后有助于網(wǎng)絡(luò)模型性能的提升[14],因此,本文嘗試將ECA通道注意力與Spartial Attention 空間注意力結(jié)合,并與只添加ECA通道注意力與未添加注意力機(jī)制的Resnet 34網(wǎng)絡(luò)模型進(jìn)行對比實(shí)驗(yàn),本次實(shí)驗(yàn)將ECA通道注意力和Spartial Attention空間注意力這兩個模塊采用串行順序的方式組合在一塊兒,注意力殘差結(jié)構(gòu)如圖5所示。
圖5 注意力殘差結(jié)構(gòu)圖
為了對比的性能,在本節(jié)進(jìn)行了如下對比實(shí)驗(yàn),其模型包括:①Resnet 34網(wǎng)絡(luò)模型為原模型;②Eca-Resnet 34表示在原模型的Layer 4的殘差塊結(jié)構(gòu)中添加了ECA注意力機(jī)制;③Eca-S-Resnet 34模型表示在Resnet 34模型的Layer 4上添加ECA注意力機(jī)制和空間注意力機(jī)制。實(shí)驗(yàn)中三種模型訓(xùn)練完成后的數(shù)據(jù)如圖6、圖7、圖8所示。
圖6 Resnet 34網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù)
圖7 Eca-Resnet 34網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù)
圖8 Eca-S-Resnet 34 網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù)
這三組網(wǎng)絡(luò)模型訓(xùn)練的epoch均設(shè)置的是100,從三組模型訓(xùn)練后得到的準(zhǔn)確率與誤差圖可知訓(xùn)練結(jié)束時Resnet 34網(wǎng)絡(luò)還未收斂,Eca-Resnet 34網(wǎng)絡(luò)在epoch接近40時已經(jīng)收斂,而Eca-S-Resnet 34網(wǎng)絡(luò)在訓(xùn)練結(jié)束時是接近收斂,由此可以推斷出,當(dāng)數(shù)據(jù)量較少時,只添加ECA注意模塊對網(wǎng)絡(luò)訓(xùn)練速度提升最多,添加了ECA注意力和Spartial Attention注意力模塊也對網(wǎng)絡(luò)訓(xùn)練速度有提升。將實(shí)驗(yàn)結(jié)果中三個模型的驗(yàn)證集準(zhǔn)確率統(tǒng)計(jì)后表明此方法有著最高的準(zhǔn)確率。各個模型結(jié)果如表1所示。
表1 各模型的實(shí)驗(yàn)結(jié)果
從表1的結(jié)果中可以看出,在本次實(shí)驗(yàn)中Resnet 34網(wǎng)絡(luò)添加注意力機(jī)制,其分類準(zhǔn)確率分別比不加注意力模塊的Resnet 34模型提升了1.17 %和1.37 %。說明在此手機(jī)數(shù)據(jù)集的數(shù)量較少時,利用遷移學(xué)習(xí)可以和添加注意力機(jī)制可以避免過擬合的發(fā)生。實(shí)驗(yàn)結(jié)果也表明,在Resnet 34網(wǎng)絡(luò)的layer 4殘差結(jié)構(gòu)上添加注意力機(jī)制的情況下,將ECA通道注意力和Spartial Attention空間注意力串行結(jié)合比只添加ECA注意力機(jī)制更有助于網(wǎng)絡(luò)模型性能提升。
本文實(shí)驗(yàn)三種模型對三種手機(jī)型號進(jìn)行預(yù)訓(xùn)練與手機(jī)型號識別,得到Resnet 34模型、Eca-Resnet 34模型與Eca-S-Resnet 34模型在驗(yàn)證集上的準(zhǔn)確率分別為97.94 %、99.11 %與99.31 %。通過對比可知,將ECA注意力機(jī)制與Spartial Attention空間注意力機(jī)制串行順序組合,可以使得Resnet 34模型能夠自適應(yīng)地關(guān)注對分類有重要影響的特征和區(qū)域,提高了對手機(jī)型號識別的準(zhǔn)確率,而且相比于只添加ECA注意力機(jī)制,其更有助于網(wǎng)絡(luò)模型性能的提升。由于本次實(shí)驗(yàn)?zāi)P陀?xùn)練的epoch均設(shè)置的是100,訓(xùn)練結(jié)束時Resnet 34模型未收斂,Eca-Resnet 34模型與Eca-S-Resnet 34模型分別為接近收斂和收斂,可知添加注意力機(jī)制可以提升網(wǎng)絡(luò)訓(xùn)練速度,但將ECA注意力機(jī)制與Spartial Attention空間注意力機(jī)制串行順序組合后對網(wǎng)絡(luò)訓(xùn)練速度提升不如只添加ECA注意力機(jī)制,在后續(xù)工作中,可以嘗試在更多數(shù)據(jù)量時,用這三種模型訓(xùn)練和對廢舊手機(jī)型號識別,觀察是否會導(dǎo)致過擬合,同時再與數(shù)據(jù)較少時的實(shí)驗(yàn)結(jié)果對比,觀察手機(jī)型號識別準(zhǔn)確率與網(wǎng)絡(luò)訓(xùn)練速度的變化,從而繼續(xù)優(yōu)化網(wǎng)絡(luò)模型。