史楊瀟,章 軍,陳 鵬,王 兵
(1.安徽大學(xué)電氣工程與自動化學(xué)院,合肥 230601;2.安徽工業(yè)大學(xué)電氣信息學(xué)院,安徽馬鞍山 243002)
(?通信作者電子郵箱1142752120@qq.com)
鋼鐵表面缺陷分類是工業(yè)缺陷檢測的關(guān)鍵環(huán)節(jié)。然而,在傳統(tǒng)工業(yè)中,這個環(huán)節(jié)往往是手動執(zhí)行的。為了取代手工操作,人們希望機(jī)器能夠利用計算機(jī)視覺技術(shù)自動檢測鋼鐵表面缺陷[1]。
由于鋼鐵表面缺陷圖像受到光照和材質(zhì)變化的影響,并且鋼鐵表面類內(nèi)缺陷在外觀上存在較大差異,類間缺陷又有相似的方面[2],利用計算機(jī)視覺技術(shù)進(jìn)行缺陷分類,仍然是一個巨大的挑戰(zhàn)。目前的圖像分類方法主要為兩類:傳統(tǒng)機(jī)器學(xué)習(xí)圖像分類算法和基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3]的深度學(xué)習(xí)方法。傳統(tǒng)圖像分類算法主要采用特征提取和分類器設(shè)計兩大步驟來實現(xiàn),如K近鄰(K-Nearest Neighbor,KNN)算 法[4]、支持向量機(jī)(Support Vector Machine,SVM)[5]以及神經(jīng)網(wǎng)絡(luò)[6]等。在實際缺陷分類應(yīng)用中會面臨各種復(fù)雜的情況,使用傳統(tǒng)的圖像處理方法在準(zhǔn)確率上很難達(dá)到要求。
近年來,基于深度學(xué)習(xí)的圖像分類方法取得了很好的效果,例如VGGNet(Visual Geometry Group Network)[7]、ResNet(Residual Network)[8]等。然而,最先進(jìn)的CNN 需要數(shù)十億次浮點運算,這使得它們無法用于移動或嵌入式設(shè)備。例如,ResNet-101 的復(fù)雜度為7.8×109FLOPs(FLoating-point Operations Per second),即使使用強(qiáng)大的GPU 也無法實現(xiàn)實時檢測。考慮到現(xiàn)代CNN 的巨大計算成本,輕量級神經(jīng)網(wǎng)絡(luò)被提出部署在移動或嵌入式設(shè)備上。例如:MobileNetV1[9]和MobileNetV2[10]采用深度可分離卷積來構(gòu)建輕量級網(wǎng)絡(luò);ShuffleNet[11]采用分組卷積和深度可分離卷積來構(gòu)建輕量級網(wǎng)絡(luò);SqueezeNet[12]利用核心模塊Fire 壓縮模型參數(shù),減小網(wǎng)絡(luò)的深度,降低模型的大??;SENet(Squeeze-and-Excitation Network)[13]提出的SE 模塊是一種輕量級注意力機(jī)制,通過學(xué)習(xí)通道重要性的方式自適應(yīng)校準(zhǔn)特征圖,然而SE模塊只關(guān)注了特征圖通道方面的影響而忽略了空間維度的重要性。同時,目前已有研究者進(jìn)行輕量級網(wǎng)絡(luò)應(yīng)用在缺陷和分類方面的研究,如:姚海明等[14]提出了一種用于實時檢測瓷片表面缺陷的MagnetNet;張琪等[15]提出了一種改進(jìn)的用于對肝部病理組織進(jìn)行分類的MobileNet。
輕量級網(wǎng)絡(luò)可以在有限的計算預(yù)算下獲得相對較高的精度。然而現(xiàn)有輕量級網(wǎng)絡(luò)傾向于使用“稀疏連接”卷積,例如深度卷積和群卷積,而不是標(biāo)準(zhǔn)的“完全連接”卷積。這種“稀疏連接”卷積在降低參數(shù)量的同時,一定程度上會阻礙組間信息的交換,導(dǎo)致網(wǎng)絡(luò)性能下降。而實用的鋼鐵缺陷分類算法需要部署在CPU 甚至嵌入式系統(tǒng)上,因此需要采用一種可以避免組間信息丟失的具有較低計算復(fù)雜度,同時具有較高分類準(zhǔn)確率的算法。
本文提出了一種新穎的Mix-Fusion 網(wǎng)絡(luò)模型,以ShuffleNet 的通道洗牌單元和MENet(Merging-Evolution Network)的融合編碼模塊為核心,構(gòu)建出具有三個分支的MF(Mix-Fusion)模塊。該模塊通過標(biāo)準(zhǔn)分支保留原有特征;通過降參分支降低計算成本的同時優(yōu)化了模型精度;通過融合分支避免組間信息的丟失。同時,將該輕量級網(wǎng)絡(luò)與混合卷積模塊融合,提高了網(wǎng)絡(luò)對于不同分辨率模式的捕獲能力,獲得了更好的模型精度及效率。在NEU-CLS 數(shù)據(jù)集上進(jìn)行實驗驗證,通過和其他方法的比較結(jié)果可以得出,Mix-Fusion 網(wǎng)絡(luò)模型避免了組間信息的丟失,進(jìn)一步降低了參數(shù)量和計算量,顯著提升了分類精度。
由于深層神經(jīng)網(wǎng)絡(luò)計算量大、模型容量大,神經(jīng)網(wǎng)絡(luò)的壓縮和加速問題已成為深度學(xué)習(xí)領(lǐng)域的研究熱點。在嵌入式設(shè)備上運行高質(zhì)量深層神經(jīng)網(wǎng)絡(luò)的需求不斷增加,更是鼓勵了對輕量級網(wǎng)絡(luò)模型設(shè)計的研究。這些網(wǎng)絡(luò)傾向于利用“稀疏連接”卷積,在減小計算成本的同時也會阻礙組間的信息交換。本文借鑒了ShuffleNet 和MENet[16]的思想,并加入 了MixConv[17]卷積模塊,提出了一種Mix-Fusion 網(wǎng)絡(luò)。該網(wǎng)絡(luò)在分類精度提高的同時,計算成本也有所下降。
通道洗牌網(wǎng)絡(luò)單元(Channel-shuffle)是ShuffleNet 網(wǎng)絡(luò)的核心,目的在于解決組卷積阻礙組間信息交換、導(dǎo)致性能下降的問題。如圖1 所示,將3 組原始通道每組再次平均分為3組,用①~⑨表示,通道洗牌操作將9組通道打亂重置,使得第二卷積層中的每個組包含來自第一卷積層中每個組的通道,在一定程度上實現(xiàn)了組間信息的交換。
圖1 通道洗牌網(wǎng)絡(luò)單元示意圖Fig.1 Schematic diagram of channel shuffle network unit
然而,當(dāng)每組通道數(shù)為3 時,通道洗牌無法完全避免組間信息的丟失,第二卷積層中的每個組僅從第一卷積層的每個組接收一個通道,導(dǎo)致每個組中其他兩個信道被忽略。因此,大部分組間信息無法利用。這個問題在更多的信道組中會更加嚴(yán)重。隨著組數(shù)的增加,每組通道數(shù)增加,然而第二卷積層接收的通道數(shù)仍然保持為1 個,同時每組忽略的通道數(shù)量也增加,造成組間信息丟失嚴(yán)重,網(wǎng)絡(luò)性能大幅下降。
為了解決組間信息丟失的問題,本文借鑒了MENet 中合并和進(jìn)化的思想。如圖2 所示,利用一個狹窄的特征映射對組間通道信息進(jìn)行融合編碼,并對其進(jìn)行匹配變換后與原始網(wǎng)絡(luò)相結(jié)合以獲得更具區(qū)分性的特征。操作如下:
圖2 融合編碼模塊示意圖Fig.2 Schematic diagram of fusion coding module
1)通道融合。通道融合的目的是將所有通道特征聚合,并對組間信息編碼,形成一個狹窄的特征映射。在組卷積生成的原始特征圖F∈RC×H×W基礎(chǔ)之上,網(wǎng)絡(luò)對其進(jìn)行融合編碼變換TF:RC×H×W→,達(dá)到對所有通道的特征進(jìn)行聚合的目的。其中:C為原始特征圖的通道數(shù);H和W為原始特征圖的寬和高;CM為融合特征圖的通道數(shù)。由于C比較大,在不影響計算成本的前提下,很難對空間信息進(jìn)行集成。因此本文首先利用1×1 單點卷積完成融合編碼變換,將同一空間位置上所有通道的特征聚合起來,同時降低通道數(shù)量并進(jìn)行批處理規(guī)范化[18]和ReLU(Rectified Linear Unit)激活。
2)空間變換。由于計算成本的限制,通道融合操作未對空間信息進(jìn)行集成,因此引入一個標(biāo)準(zhǔn)的3×3 卷積核進(jìn)行空間變換TS:??臻g變換操作能夠在不改變通道數(shù)的情況下提取更多的空間信息,之后進(jìn)行批處理規(guī)范化和ReLU激活。
3)匹配變換。為了將處理后的特征圖與原始網(wǎng)絡(luò)相結(jié)合以獲得更具區(qū)分性的特征,網(wǎng)絡(luò)對空間特征圖進(jìn)行匹配變換TM:,之后進(jìn)行批處理規(guī)范化和Sigmoid激活,得到與原始特征圖一樣維度的匹配特征圖。最終,將匹配特征圖作為神經(jīng)元尺度因子,與原始網(wǎng)絡(luò)以元素乘積的方式相結(jié)合,進(jìn)一步提高特征在網(wǎng)絡(luò)中的表達(dá)能力。在通道融合過程中,1×1 單點卷積操作對于每一個通道的信息都進(jìn)行了編碼,因此在最終的匹配特征圖中,變換后的通道都包含了來自原始特征圖每一個通道的信息,這避免了卷積過程中組間信息的丟失。
深度卷積(DepthWise Convolution,DWConv)在現(xiàn)代輕量級網(wǎng)絡(luò)中越來越流行,常用的深度卷積將每個通道單獨分為一組進(jìn)行組卷積,從而極大降低了參數(shù)量和計算成本。然而傳統(tǒng)做法都是簡單地使用3×3 卷積核[19],忽視了卷積核的大小。本文借鑒MixConv 多核結(jié)合的思想,使用不同大小組合的卷積核替代深度卷積,大卷積核能夠在一定范圍內(nèi)提高模型精度,多卷積核則能提高模型在不同分辨率下的適應(yīng)度。
如圖3 所示,不同于將單個內(nèi)核應(yīng)用于所有通道的深度卷積,混合卷積將通道平均劃分為若干組,并對每個組應(yīng)用不同大小的內(nèi)核。網(wǎng)絡(luò)既需要大卷積核來捕捉高分辨率模式,也需要小卷積核來捕捉低分辨率模式,以獲得更好的模型精度和效率。相較于多分支網(wǎng)絡(luò)集中改變神經(jīng)網(wǎng)絡(luò)的宏觀結(jié)構(gòu)以利用不同的卷積運算,如Inception[20]和NASNet[21],混合卷積在不改變網(wǎng)絡(luò)結(jié)構(gòu)的情況下,能夠替換不同大小組合的卷積核以測試模型性能。
圖3 深度卷積和混合卷積原理Fig.3 Principles of deep convolution and mixed convolution
基于上述單元,本文提出了MF 模塊。MF 模塊由圖4(a)從左至右三個分支組成:標(biāo)準(zhǔn)分支、降參分支和融合分支。標(biāo)準(zhǔn)分支是對原始特征圖的直接映射。降參分支采用“稀疏連接”卷積,它由三層組成:第一層單點群卷積降低了計算成本,之后執(zhí)行通道洗牌操作以減少組間信息丟失。第二層混合卷積添加在通道洗牌操作之后,利用混合卷積核在不同分辨率下的高適應(yīng)度獲得更加穩(wěn)定的特征圖,通過混合卷積中的大卷積核保留更多的特征信息;之后與融合分支處理后的特征圖結(jié)合,成為連接降參分支和融合分支的橋梁。第三層單點群卷積是為了恢復(fù)通道維數(shù)以匹配標(biāo)準(zhǔn)分支。融合分支對網(wǎng)絡(luò)進(jìn)行融合編碼,并在第三層單點群卷積前與降參分支以元素乘積的方式相結(jié)合,這種設(shè)計有助于降低第三層卷積過程中組間信息的丟失。
圖4(b)為MF 模塊的下采樣版本,做了以下修改:1)降參分支的混合卷積和融合分支中的3×3標(biāo)準(zhǔn)卷積的步長變?yōu)?。2)在標(biāo)準(zhǔn)分支中應(yīng)用了步長為2的3×3平均池化,并用元素拼接(Concat)的方式代替了元素加法,將標(biāo)準(zhǔn)分支和降參分支結(jié)合起來。經(jīng)過下采樣MF 模塊后,特征圖的空間維數(shù)被減半,而通道維數(shù)則增加了1倍。
圖4 Mix-Fusion 模塊示意圖Fig.4 Schematic diagram of Mix-Fusion module
基于MF 模塊,本文提出了一種新穎的網(wǎng)絡(luò)結(jié)構(gòu)Mix-Fusion,總體結(jié)構(gòu)如表1 所示。網(wǎng)絡(luò)結(jié)構(gòu)分為4 個階段:階段一包括步長為2的一個3×3卷積層和max pooling層,這兩層對輸入圖像執(zhí)行4倍的下采樣以降低計算成本;之后3個階段都是由一個下采樣MF 模塊和若干標(biāo)準(zhǔn)MF 模塊組成。模塊類型后面的數(shù)字代表輸出通道的數(shù)量?!啊?”和“×7”分別表示MF模塊重復(fù)3 次或7 次,“/2”表示步長為2,帶有“/2”的MF 模塊執(zhí)行下采樣功能。表1 中的“分類層”為采用核大小為7 的全局平均池化層,通過全連接層輸出6 類缺陷的概率,生成預(yù)測分類。
表1 Mix-Fusion網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 Network structure of Mix-Fusion
輸出通道的數(shù)量在同一階段中保持不變,在下一階段中增加1倍。此外,降參分支中的通道數(shù)被設(shè)置為同一MF 模塊中輸出信道的1/4以節(jié)省計算成本。最后,本文將降參分支中組卷積的組數(shù)設(shè)置為3,進(jìn)而增加降參分支的連接稀疏度。
本文采用東北大學(xué)收集的熱軋帶鋼表面缺陷數(shù)據(jù)集NEU-CLS[22]。該數(shù)據(jù)集收集了六種典型熱軋帶鋼表面缺陷,包括裂紋(Cr)、夾雜(In)、裂斑(Pa)、麻點(PS)、軋屑(RS)和劃痕(SC)。每一類缺陷有300 個樣本,每幅圖像的原始分辨率為200 像素×200 像素。該數(shù)據(jù)集主要面臨兩個挑戰(zhàn):1)類內(nèi)缺陷在外觀上存在較大差異;2)類間缺陷有相似的方面,由于缺陷圖像受到光照和材料變化的影響,類間缺陷圖像的灰度也會發(fā)生變化。部分缺陷圖像示例樣本如圖5所示。
圖5 示例缺陷圖像及對應(yīng)標(biāo)簽Fig.5 Sample defect images and corresponding labels
本文在NEU-CLS 數(shù)據(jù)集上提取了一種常用的傳統(tǒng)紋理特征并進(jìn)行基準(zhǔn)測試,即灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM)[23]。GLCM 描述了具有某種空間位置關(guān)系的兩個像素灰度的聯(lián)合分布,它可以反映像素的分布特征以及圖片的紋理特征。本文選取對比度、差異性、同質(zhì)性、熵、相關(guān)性、能量六種灰度共生矩陣統(tǒng)計量的組合作為需要提取的特征,并選取支持向量機(jī)(SVM)作為分類器,svm.SVC 作為SVM 類,linear 作為核函數(shù),懲罰因子C設(shè)置為0.5,最終分類結(jié)果達(dá)到了90.81%。
這種由特征提取算法加分類器設(shè)計的傳統(tǒng)方法是目前工業(yè)界主流的一種表面缺陷分類方法,將此SVM+GLCM 作為基準(zhǔn)實驗并與Mix-Fusion網(wǎng)絡(luò)比較可以保證實驗的可靠性。
本文的算法是在PyTorch 框架上進(jìn)行的,實驗環(huán)境配置為:Inter Core i7-6700 CPU@ 3.40 GHz 處理器,16 GB 內(nèi)存,NVIDIAGeForce GTX 1080顯卡,操作系統(tǒng)為Windows 10。
實驗從數(shù)據(jù)集中隨機(jī)選取1 440張圖像作為訓(xùn)練集,剩余360 張圖像作為測試集。網(wǎng)絡(luò)在訓(xùn)練階段采用Adam 優(yōu)化算法基于訓(xùn)練數(shù)據(jù)迭代地更新神經(jīng)網(wǎng)絡(luò)的權(quán)重,每一個批次(batch)包含32 張圖像,權(quán)值的初始學(xué)習(xí)率0.02,每隔10 個epoch 學(xué)習(xí)率衰減一次,衰減系數(shù)設(shè)置為0.9。在訓(xùn)練前將數(shù)據(jù)圖像邊緣調(diào)整為256像素,之后中心裁剪為224×224像素進(jìn)行實驗。
為測試網(wǎng)絡(luò)模型在鋼鐵表面缺陷分類任務(wù)中的綜合性能,本文引入了四種評價指標(biāo):計算力,即每秒所執(zhí)行的浮點運算次數(shù)(FLoating-point Operations Per second,F(xiàn)LOPs)、參數(shù)量、精度以及平均運行時間,并使用PyTorch-OpCounter 工具測試出網(wǎng)絡(luò)的FLOPs 以及參數(shù)量。其中,F(xiàn)LOPs 表示浮點運算數(shù),用來衡量模型的復(fù)雜度,復(fù)雜度越低,模型越輕便,一般輕量級網(wǎng)絡(luò)的FLOPs 可以降到150×106以下。精度反映了模型在缺陷分類任務(wù)中的準(zhǔn)確率,運行平均時間為單張圖像連續(xù)運行12次,去掉一個最大值和一個最小值后取10次運行的平均結(jié)果,衡量了模型的運行速度。表2 展示了在NEU-CLS數(shù)據(jù)集上Mix-Fusion 和一些最先進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)以及基準(zhǔn)實驗關(guān)于四種評價指標(biāo)的比較情況。表2 中的MFLOPs(Million FLOPs)用來衡量FLOPs,指每秒浮點運算次數(shù)為106。
表2 不同網(wǎng)絡(luò)綜合性能對比Tab.2 Comparison of comprehensive performance of different networks
為驗證提出的不同模塊對于網(wǎng)絡(luò)性能的影響,本文設(shè)計了一個只使用傳統(tǒng)深度卷積的Mix-Fusion(Base)網(wǎng)絡(luò)。基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)與圖4 保持一致,僅僅將模塊示意圖中的混合卷積替換為卷積核尺度一致的3×3 深度卷積,結(jié)果表明該網(wǎng)絡(luò)測試效果明顯優(yōu)于基準(zhǔn)實驗,分類精度達(dá)96.67%。之后將Mix-Fusion(Base)網(wǎng)絡(luò)與三種 經(jīng)典的流行網(wǎng)絡(luò)(GooGleNet[24]、ResNet-50以及AlexNet[25])作比較。其中AlexNet及ResNet-50分別取得了95.00%和95.56%的分類精度,而GooGleNet 取得了稍好的精度96.38%。相比較之下,Mix-Fusion(Base)相較AlexNet 精度提高了1.67 個百分點的同時FLOPs 數(shù)量減少為原來的1/17.2,相較ResNet-50 精度提高了1.11 個百分點的同時FLOPs數(shù)量減少為原來的1/99.7,相較GooGleNet精度提高了0.29 個百分點的同時FLOPs 數(shù)量減少為原來的1/36.5。上述結(jié)果充分說明了組卷積和通道洗牌操作具有降低網(wǎng)絡(luò)參數(shù)量的作用,且融合編碼操作打通了組間信息交流,具有降低性能損失的有效性。
之后,本文實驗了不同大小混合卷積核對于Mix-Fusion網(wǎng)絡(luò)性能的影響。如表2 所示,網(wǎng)絡(luò)名稱的數(shù)字后綴代表了混合卷積核的組合大小,如Mix-Fusion(3-5)代表將通道平均劃分為兩組,分別應(yīng)用{(3×3),(5×5)}的混合卷積核。實驗結(jié)果顯示,隨著混合卷積模塊的加入,模型精度有所提高,其中Mix-Fusion(3-5-7)取得了最好的精度98.61%,表明混合卷積可以有效降低網(wǎng)絡(luò)對大卷積核的敏感度,提高網(wǎng)絡(luò)穩(wěn)定性,優(yōu)化模型性能。
為做出全面的比較實驗,本文引入帶有通道注意力機(jī)制的SENet 進(jìn)行比較。如表2 所示,盡管SE-ResNet-50 和SEResNet-101 的分類精度高出Mix-Fusion(3-5)和Mix-Fusion(3-5-7-9),但是Mix-Fusion(3-5-7)的分類精度依然略微勝出,同時Mix-Fusion 網(wǎng)絡(luò)的運行速度要遠(yuǎn)快于SE-ResNet 網(wǎng)絡(luò),SE-ResNet網(wǎng)絡(luò)的參數(shù)量和復(fù)雜度遠(yuǎn)大于Mix-Fusion網(wǎng)絡(luò)。
表3展示了Mix-Fusion網(wǎng)絡(luò)對于數(shù)據(jù)的依賴性分析,訓(xùn)練數(shù)據(jù)占比代表新的訓(xùn)練集在原始訓(xùn)練集中所占百分比。當(dāng)訓(xùn)練數(shù)據(jù)占比為50%和25%時網(wǎng)絡(luò)精度略微下降,當(dāng)訓(xùn)練數(shù)據(jù)占比為10%及以下時網(wǎng)絡(luò)性能會極大下降,并出現(xiàn)輕微的過擬合現(xiàn)象,表明本文網(wǎng)絡(luò)對數(shù)據(jù)量有一定的依賴性。
表3 不同訓(xùn)練數(shù)據(jù)占比的網(wǎng)絡(luò)精度對比Tab.3 Comparison of network accuracy with different training data ratios
為分析網(wǎng)絡(luò)的收斂性及穩(wěn)定性,圖6 展示了Mix-Fusion、ShuffleNetV2以及MobileNetV2三種網(wǎng)絡(luò)的訓(xùn)練損失曲線和驗證準(zhǔn)確率曲線。
如圖6(a)所示,Mix-Fusion 網(wǎng)絡(luò)收斂最快,loss 穩(wěn)定在0.004;ShuffleNetV2 收斂速 度次之,loss 穩(wěn)定在0.005;MobileNetV2 收斂最慢,loss 穩(wěn)定在0.009。圖6(b)中,Mix-Fusion 的驗證準(zhǔn)確率明顯高于另外兩個網(wǎng)絡(luò),同時準(zhǔn)確率曲線趨勢顯示Mix-Fusion 和ShuffleNetV2 的穩(wěn)定性較高,MobileNetV2次之。
圖6 不同模型性能比較Fig.6 Performance comparison of different models
為了驗證模型的有效性,本文進(jìn)一步比較了Mix-Fusion與三種先進(jìn)的輕量級網(wǎng)絡(luò)ShuffleNet、ShuffleNetV2 以及MobileNetV2 的綜合性能,如表4 所示。由表4 可以看出,Mix-Fusion 的性能優(yōu)于ShuffleNet??紤]到在Mix-Fusion 中降參分支的通道比在ShuffleNet中要少,將這種改進(jìn)歸因于所提出的融合編碼操作。盡管ShuffleNet擁有更多的通道,但它依然遭受著組間信息丟失的困擾,而Mix-Fusion 有效地利用了組間信息。因此,Mix-Fusion 比ShuffleNet 產(chǎn)生了更具有區(qū)分性的特征,克服了性能下降的缺陷。同時與ShuffleNetV2、MobileNetV2 相比,Mix-Fusion 的分類精度在最小計算成本的基礎(chǔ)上取得了分別高于前兩者1.36 個百分點以及1.67 個百分點的好成績。
表4 不同輕量級網(wǎng)絡(luò)綜合性能對比Tab.4 Comparison of comprehensive performance of different lightweight networks
綜上所述,Mix-Fusion 無論是在與傳統(tǒng)紋理特征提取方法(GLCM),還是其他幾種經(jīng)典網(wǎng)絡(luò)或是先進(jìn)的輕量級網(wǎng)絡(luò)的對比中都能夠在更小的計算成本代價下取得更高的分類精度和更快的運行速度。一方面是因為MF 模塊的融合分支有效地解決了“稀疏連接”卷積阻礙組間信息交換的問題,降參分支極大降低了網(wǎng)絡(luò)的計算量;另一方面是因為混合卷積相較于傳統(tǒng)的深度卷積,降低了網(wǎng)絡(luò)對大卷積核的敏感性,提高了網(wǎng)絡(luò)的穩(wěn)定性。
針對卷積神經(jīng)網(wǎng)絡(luò)參數(shù)量、計算成本日益增長以及現(xiàn)有輕量級網(wǎng)絡(luò)難以完全避免組間信息丟失的問題,本文借鑒了ShuffleNet 和MENet 的思想,提出了一種新穎的輕量級網(wǎng)絡(luò)Mix-Fusion。實驗結(jié)果表明,該網(wǎng)絡(luò)避免了組間信息丟失,提高了分類精度,降低了計算成本和參數(shù)量,相較其他網(wǎng)絡(luò)綜合性能有明顯提升,為鋼鐵表面缺陷分類任務(wù)在移動端的部署提供了有力支持。我們接下來的工作是進(jìn)一步驗證模型的泛化性能,并開展優(yōu)化算法、適配設(shè)備等方面的工作以滿足產(chǎn)品化的需求。