李進(jìn)飛,李建強(qiáng),段玉堂,任國(guó)棟,史偉民
(浙江理工大學(xué) 機(jī)械與自動(dòng)控制學(xué)院,杭州 310018)
隨著工業(yè)4.0 的快速推進(jìn),機(jī)器代替工人的趨勢(shì)不可逆轉(zhuǎn),因此為了提高紡紗[1]效率、降低人工成本,采用機(jī)器代替人工進(jìn)行紗線打結(jié)大勢(shì)所趨.自動(dòng)換筒系統(tǒng)中的紗線自動(dòng)打結(jié)機(jī)通過(guò)管道吸取紗線,機(jī)械機(jī)構(gòu)利用管道中的紗線進(jìn)行打結(jié)完成人工打結(jié)的任務(wù),大大降低人工成本,提高了打結(jié)可靠性.但是紗線打結(jié)機(jī)正常運(yùn)行的前提是管道吸取了所需的紗線,因此檢測(cè)管道是否成功吸取紗線以及該紗線是否是所需顏色的紗線至關(guān)重要.
傳感器方法如紅外開關(guān)傳感器[2]利用物體阻隔發(fā)射器與接收器通路的信號(hào)接收來(lái)判斷是否有物體.由于紗線纖細(xì),激光或者紅外容易穿透紗線,所以難以對(duì)紗線進(jìn)行檢測(cè).相比之下,采用攝像頭對(duì)管道進(jìn)行拍攝,利用圖像處理的方法進(jìn)行檢測(cè)較為容易.傳統(tǒng)的圖像處理方法可以使用OpenCV 對(duì)圖像進(jìn)行HSV 顏色分離從而對(duì)圖片中紗線進(jìn)行提取,最終確定紗線及其顏色.但是對(duì)于一些紗線顏色與背景顏色相差不多以及各種各樣的紗線進(jìn)行檢測(cè)時(shí),該方法就顯得較為復(fù)雜,且魯棒性較差.
近年來(lái),深度學(xué)習(xí)[3,4]的卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域發(fā)展迅速贏得了廣泛的關(guān)注.相比傳統(tǒng)的圖像處理方式,深度學(xué)習(xí)具有諸多優(yōu)點(diǎn),如模型具有可遷移性、無(wú)需手動(dòng)設(shè)計(jì)特征、檢測(cè)準(zhǔn)確度高等特性.從卷積網(wǎng)絡(luò)的出現(xiàn)到現(xiàn)在,已經(jīng)出現(xiàn)了非常優(yōu)秀的網(wǎng)絡(luò),例如LeNet[5]、VGG[6]、AlexNet[7]、GoogLeNet[8]等,但是這些網(wǎng)絡(luò)要么就是檢測(cè)尺度單一,要么就是計(jì)算量以及參數(shù)量較大.
本文針對(duì)紗線粗細(xì)不一、種類繁多、檢測(cè)困難等問(wèn)題,提出了一種多尺度的深度分離卷積[9,10]網(wǎng)絡(luò),結(jié)合ResNet[11,12]網(wǎng)絡(luò)的特點(diǎn),解決紗線檢測(cè)特征尺度單一、檢測(cè)效果低、特征丟失、模型計(jì)算量與參數(shù)量大等問(wèn)題,使得檢測(cè)精度能滿足一定的應(yīng)用要求.
利用??礛V-CE050-30UC 攝像頭對(duì)管道進(jìn)行拍照采集1200 張圖片,經(jīng)過(guò)去除重復(fù)以及有缺陷的圖片后制作成數(shù)據(jù)集,其中包括無(wú)紗線、黑色紗線、藍(lán)色紗線、粉色紗線、白色紗線、黃色紗線6 種情況.該數(shù)據(jù)集在程序運(yùn)行時(shí),以4:1 的比例隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集,并將每張圖片裁剪成224×224 像素.
由于采集的數(shù)據(jù)量較少,在訓(xùn)練過(guò)程中需要對(duì)圖像進(jìn)行數(shù)據(jù)增強(qiáng)來(lái)提高數(shù)據(jù)集的多樣性,從而有效地降低過(guò)擬合現(xiàn)象.圖像增強(qiáng)的方法很多,本論文對(duì)樣本進(jìn)行增強(qiáng)采用的方法主要包括:上下翻轉(zhuǎn)、左右翻轉(zhuǎn)、亮度變化等,具體效果如圖1所示.
圖1 圖像增強(qiáng)效果圖
改進(jìn)的多尺度深度可分離卷積塊是基于Inception v4[13–15]中的Inception-ResNet-A 塊提出并改進(jìn)的,從圖2可知,輸入特征圖x分別經(jīng)過(guò)1×1 卷積核卷積、一個(gè)3×3 的深度可分離卷積核卷積以及兩個(gè)3×3 的深度可分離卷積核卷積,得到輸出特征圖后,再經(jīng)過(guò)1×1 卷積核進(jìn)行多尺度特征融合得到F(x),從而保證輸出特征圖的通道數(shù).經(jīng)過(guò)最后的1×1 卷積核卷積后,采用ResNet 的短接線方式,進(jìn)行輸出F(x)與輸入特征圖之間的特征融合,解決特征梯度消失問(wèn)題,其中輸入特征與輸出特征之間的關(guān)系如式(1)所示:
與Inception-ResNet-A 塊相比,在結(jié)構(gòu)上改進(jìn)的多尺度深度可分離卷積塊少了兩個(gè)1×1 的卷積核,因?yàn)镮nception-ResNet-A 塊在設(shè)計(jì)上希望通過(guò)1×1 卷積核減少輸入通道數(shù)量,但是本論文所需的模型不大,所以去除這兩個(gè)卷積核,從而降低網(wǎng)絡(luò)的計(jì)算量以及參數(shù)量.其次,因?yàn)樯疃瓤煞蛛x卷積與傳統(tǒng)卷積相比計(jì)算量和參數(shù)量更少,所以改進(jìn)的多尺度深度可分離卷積塊采用3×3 卷積核的深度可分離卷積代替?zhèn)鹘y(tǒng)的3×3 卷積核卷積,從而使得該塊的計(jì)算量和參數(shù)量更少,網(wǎng)絡(luò)更輕量化.其中,深度可分離卷積與傳統(tǒng)卷積的比較[16]如下所示.
設(shè)輸入與輸出特征圖大小相同時(shí),傳統(tǒng)卷積的計(jì)算量以及參數(shù)量如下:
式中,式(2)為傳統(tǒng)卷積計(jì)算量的計(jì)算公式,式(3)為傳統(tǒng)卷積參數(shù)量的計(jì)算公式.其中卷積核大小為Dk×Dk,輸出特征圖大小為Df×Df,M為輸入特征圖數(shù)量,N為輸出特征圖數(shù)量.
與之相比,深度可分離卷積計(jì)算量與參數(shù)量為逐通道卷積和逐點(diǎn)卷積的兩者之和,如式(4)、式(5)所示:
其中,式(4)和式(5)前相乘部分為逐通道卷積計(jì)算量和參數(shù)量的計(jì)算,后面相乘部分為逐點(diǎn)卷積計(jì)算量與參數(shù)量的計(jì)算.深度可分離卷積與傳統(tǒng)卷積計(jì)算量與參數(shù)量的比值如式(6)和式(7)所示.
從式(6)和式(7)可以看出深度可分離卷積與傳統(tǒng)卷積的計(jì)算量以及參數(shù)量的差異.當(dāng)采用5×5 卷積核時(shí),則Dk2為1/25,則深度可分離卷積與傳統(tǒng)卷積相比計(jì)算量以及參數(shù)量的比值接近1/25.從中可以看出,深度可分離卷積更輕量化.
從上可知,本文的多尺度深度可分離卷積塊采用3×3 卷積核的深度可分離卷積代替3×3 卷積核的傳統(tǒng)卷積,從計(jì)算量以及參數(shù)量上看,更優(yōu)于Inception-ResNet-A 塊.
考慮到本次研究所用的數(shù)據(jù)集并不大以及檢測(cè)并非復(fù)雜,所以構(gòu)建結(jié)構(gòu)較小的網(wǎng)絡(luò),如圖3所示.該網(wǎng)絡(luò)輸入圖片大小為224×224,經(jīng)過(guò)傳統(tǒng)卷積層卷積,得到32 通道的特征圖,經(jīng)過(guò)5 次多尺度深度可分離卷積塊的特征提取(其中步長(zhǎng)均為2),得到特征圖的輸出為7×7×512.緊接著該特征圖輸入到全局平均池化層,得到的輸出經(jīng)過(guò)Dropout 層后再輸入到全鏈接層,最后經(jīng)過(guò)Softmax 函數(shù)計(jì)算得到各類輸出的概率,具體結(jié)構(gòu)如表1所示.其中網(wǎng)絡(luò)結(jié)構(gòu)中涉及到的卷積層包括多尺度深度可分離卷積塊中的卷積層均會(huì)使用歸一化層以及將ReLU 函數(shù)作為激活函數(shù).從圖2中可知,該網(wǎng)絡(luò)并不大,足夠處理紗線檢測(cè)的問(wèn)題.
表1 基于多尺度深度可分離卷積網(wǎng)絡(luò)結(jié)構(gòu)
圖2 Inception-ResNet-A 塊與多尺度深度可分離卷積塊
圖3 多尺度深度可分離卷積網(wǎng)絡(luò)結(jié)構(gòu)
訓(xùn)練網(wǎng)絡(luò)的過(guò)程是基于64 位Windows 10 的系統(tǒng)下進(jìn)行的,其中計(jì)算機(jī)的配置為Inter(R) Cele(R) G4900 CPU@3.10 GHz,RAM為8.00 GB,顯卡為NVIDIA GeForce GTX 1060 6 GB.
網(wǎng)絡(luò)訓(xùn)練過(guò)程中采用Adam 優(yōu)化器,初始學(xué)習(xí)率設(shè)置為3e–4,學(xué)習(xí)率變化指數(shù)設(shè)置為0.3.在訓(xùn)練過(guò)程中監(jiān)視驗(yàn)證集的準(zhǔn)確率,當(dāng)統(tǒng)計(jì)該數(shù)值在3 次沒(méi)有降低時(shí),學(xué)習(xí)率以0.7 的倍數(shù)進(jìn)行衰減(其中新的學(xué)習(xí)率lrnew=0.3?lrold).其次損失評(píng)估采用的是交叉熵?fù)p失函數(shù)來(lái)衡量網(wǎng)絡(luò)輸出與真實(shí)結(jié)果的差距,最后網(wǎng)絡(luò)模型訓(xùn)練的30 輪情況如圖4所示.
從圖4中可知,網(wǎng)絡(luò)初始化完成時(shí)尚未能夠進(jìn)行紗線檢測(cè),圖片分類能力非常差.隨著網(wǎng)絡(luò)訓(xùn)練的不斷進(jìn)行,網(wǎng)絡(luò)開始快速收斂,在接近25 輪訓(xùn)練時(shí),網(wǎng)絡(luò)開始接近穩(wěn)定,而此時(shí)驗(yàn)證集的識(shí)別精度能夠達(dá)到100%.隨著訓(xùn)練次數(shù)的增加,網(wǎng)絡(luò)訓(xùn)練時(shí)的驗(yàn)證集識(shí)別精度已經(jīng)相對(duì)穩(wěn)定,損失值逐漸接近于1.
圖4 實(shí)驗(yàn)結(jié)果曲線
深度學(xué)習(xí)網(wǎng)絡(luò)分類模型常有的評(píng)估方式有精確度、召回率、準(zhǔn)確率等,本文進(jìn)行模型評(píng)估采用的是準(zhǔn)確率.準(zhǔn)確率(Precision)是指正確分類的樣本數(shù)與總樣本總數(shù)之比,計(jì)算公式如式(8)所示.
式中,TP指的是實(shí)際為正樣本網(wǎng)絡(luò)模型檢測(cè)結(jié)果為正樣本的樣本數(shù)量,TN指的是實(shí)際為負(fù)樣本網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果為負(fù)樣本的樣本數(shù)量,此外FP指的是實(shí)際為負(fù)樣本網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果為正樣本的樣本數(shù)量,FN指的是實(shí)際為正樣本網(wǎng)絡(luò)模型檢測(cè)結(jié)果為負(fù)樣本的樣本數(shù)量.
模型評(píng)估時(shí)采用的是另外采集的250 張圖片進(jìn)行測(cè)試,在測(cè)試過(guò)程中將網(wǎng)絡(luò)模型輸出概率最大的類別作為圖片預(yù)測(cè)的最終結(jié)果.經(jīng)過(guò)測(cè)試以及計(jì)算得到該模型的準(zhǔn)確率為99.6%,其具體結(jié)果如表2所示.
表2 模型測(cè)試結(jié)果
為了實(shí)現(xiàn)對(duì)管道中的紗線及其顏色進(jìn)行檢測(cè),使用??低暤墓I(yè)攝像頭進(jìn)行數(shù)據(jù)采集,經(jīng)過(guò)篩選并去除重復(fù)以及有缺陷的圖片后,利用剩余的圖片構(gòu)建數(shù)據(jù)集.此外網(wǎng)絡(luò)主要是由多尺度深度可分離卷積塊構(gòu)成的,該結(jié)構(gòu)塊是利用Inception v4 網(wǎng)絡(luò)中的Inception-ResNet-A 模塊在結(jié)構(gòu)上進(jìn)行改進(jìn)得到的,改進(jìn)后的多尺度深度可分離卷積塊大大降低網(wǎng)絡(luò)的計(jì)算量以及參數(shù)量.最后在網(wǎng)絡(luò)訓(xùn)練過(guò)程中對(duì)圖片進(jìn)行數(shù)據(jù)增強(qiáng),擴(kuò)大數(shù)據(jù)集的多樣性,從而降低網(wǎng)絡(luò)過(guò)擬合現(xiàn)象,最終實(shí)現(xiàn)管道中的紗線檢測(cè)功能.實(shí)驗(yàn)結(jié)果表明,檢測(cè)準(zhǔn)確率高達(dá)99.6%,因此該方法可以能夠滿足一定的實(shí)際應(yīng)用需求.