周 婧,秦倫明
(上海電力大學(xué) 電子與信息工程學(xué)院,上海 201306)
近年來(lái)廢鋼鐵資源增長(zhǎng)迅速,其重要性也與日俱增,然而鋼鐵企業(yè)對(duì)廢鋼鐵的科學(xué)管理水平仍然較低。實(shí)現(xiàn)廢鋼自動(dòng)分類(lèi),有利于提高鋼鐵企業(yè)的管理水平和廢鋼的回收效率。
廢鋼分類(lèi)屬于細(xì)粒度圖像分類(lèi)(Fine-grained Image Categorization)問(wèn)題,即判斷圖像屬于同一基類(lèi)別下的哪個(gè)子類(lèi)的問(wèn)題。傳統(tǒng)圖像分類(lèi)主要采用手動(dòng)設(shè)計(jì)特征的方法,對(duì)于廢鋼分類(lèi),人為設(shè)計(jì)特征的難度很大,因此運(yùn)用傳統(tǒng)圖像分類(lèi)方法來(lái)進(jìn)行廢鋼分類(lèi)十分困難。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)[1]是一種特殊的神經(jīng)網(wǎng)絡(luò),它的結(jié)構(gòu)與特性有利于提取圖像的特征,很適合用于解決廢鋼分類(lèi)問(wèn)題。而實(shí)現(xiàn)高精度廢鋼分類(lèi)離不開(kāi)大量數(shù)據(jù),遷移學(xué)習(xí)等方法可以用于提高小數(shù)據(jù)集下的識(shí)別準(zhǔn)確率,彌補(bǔ)廢鋼數(shù)據(jù)的不足。
鐵礦石和廢鋼鐵是鋼鐵企業(yè)開(kāi)展生產(chǎn)的主要原料,其中廢鋼鐵資源按其來(lái)源可分為自產(chǎn)廢鋼、加工廢鋼和折舊廢鋼3類(lèi)。廢鋼鐵是可再生資源,在生產(chǎn)過(guò)程中,對(duì)廢鋼資源進(jìn)行合理管理與利用,提高廢鋼的回收利用率,可以節(jié)省鐵礦石的投入,有效降低資源和能源消耗,減少大量廢氣廢水排放[2]。
隨著鋼鐵工業(yè)的迅速發(fā)展,廢鋼鐵的需求量也在大幅增長(zhǎng)[3]。而目前鋼鐵企業(yè)的廢鋼資源管理還存在較多問(wèn)題,如廢鋼分類(lèi)回收混亂、利用率較低等。因此,實(shí)現(xiàn)廢鋼自動(dòng)分類(lèi)對(duì)于鋼鐵企業(yè)而言日益重要。
根據(jù)中國(guó)廢鋼鐵應(yīng)用協(xié)會(huì)的統(tǒng)計(jì),2018年全國(guó)廢鋼鐵資源總產(chǎn)量為2.1億t,同比增漲10%。2019年全國(guó)廢鋼總產(chǎn)量為2.4億t,同比增漲9%,廢鋼資源穩(wěn)定增長(zhǎng)。
根據(jù)有關(guān)數(shù)據(jù)的分析與預(yù)測(cè),由于折舊廢鋼量的大增,2025年后廢鋼資源將進(jìn)一步快速增長(zhǎng)[4],廢鋼將成為我國(guó)高速發(fā)展的鋼鐵工業(yè)的重要支柱。而這對(duì)鋼鐵企業(yè)的廢鋼管理與利用水平提出了更高要求。
目前,國(guó)內(nèi)關(guān)于廢鋼分類(lèi)的研究還很少,僅有裴培等[5]人設(shè)計(jì)了廢鋼分類(lèi)計(jì)量與管理系統(tǒng),有效提高了廢鋼數(shù)據(jù)信息傳輸效率。廢鋼分類(lèi)屬于細(xì)粒度圖像分類(lèi)問(wèn)題,由于細(xì)粒度圖像的種類(lèi)之間差距更小,實(shí)現(xiàn)廢鋼分類(lèi)比一般的圖像分類(lèi)更具有挑戰(zhàn)性。
傳統(tǒng)的圖像分類(lèi)方法,如詞包模型[6](Bag of Words),其將圖像特征表示為人工特征描述子,并對(duì)測(cè)試圖像提取特征描述子后,與特征庫(kù)進(jìn)行匹配得到分類(lèi)結(jié)果。詞包模型使用全局特征來(lái)描述圖像,運(yùn)算簡(jiǎn)單快捷,消耗內(nèi)存小,但難以識(shí)別存在背景干擾的復(fù)雜圖像。
為了解決上述問(wèn)題,圖像分類(lèi)研宄方向轉(zhuǎn)向了圖像中的局部特征,基于局部特征的尺度不變模型被提出。常用的局部特征描述算子有SIFT特征[7],HOG特征[8],LBP特征[9]等?;诰植刻卣鞯哪P驮谟袕?fù)雜背景的圖像分類(lèi)上取得了更好的效果,但由于其不能利用圖像的空間位置信息,對(duì)于不同視角的同類(lèi)物體,局部特征模型的泛化能力較差。
近些年,學(xué)者又提出了基于語(yǔ)義特征的圖像分類(lèi)模型。模型首先從圖像中提取出相應(yīng)特征,并對(duì)特征進(jìn)行處理得到語(yǔ)義信息,然后將特征聚類(lèi)為一類(lèi)圖像的語(yǔ)義特征。基于語(yǔ)義特征的圖像分類(lèi)模型更符合人類(lèi)視覺(jué)對(duì)圖像的識(shí)別過(guò)程,但其同樣沒(méi)有利用圖像的空間位置信息。
對(duì)于廢鋼分類(lèi)問(wèn)題,由于細(xì)粒度圖像的子類(lèi)之間特征差異較小,傳統(tǒng)圖像分類(lèi)模型提取的特征對(duì)于子類(lèi)的分辨能力較弱。因此,傳統(tǒng)圖像分類(lèi)模型應(yīng)用于廢鋼分類(lèi)問(wèn)題的效果不夠理想。
近年來(lái),深度學(xué)習(xí)[10]領(lǐng)域卷積神經(jīng)網(wǎng)絡(luò)發(fā)展迅速。1998年,Lecun提出了LeNet[11]。LeNet是一個(gè)結(jié)構(gòu)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò),但在進(jìn)行手寫(xiě)數(shù)字識(shí)別時(shí)取得了98%以上的準(zhǔn)確率,從而引發(fā)了卷積神經(jīng)網(wǎng)絡(luò)的研究熱潮。
2012年,AlexNet[12]在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)競(jìng)賽中獲得冠軍,正確率遠(yuǎn)超第二名。AlexNet包含5個(gè)卷積層和3個(gè)全連接層,采用ReLU(Rectified Linear Units)激活函數(shù)來(lái)加速訓(xùn)練,是第一個(gè)真正意義上的深度神經(jīng)網(wǎng)絡(luò)。
2014年,牛津大學(xué)的Visual Geometry Group提出的VGGNet[13]獲得ILSVRC競(jìng)賽亞軍。VGGNet在AlexNet的基礎(chǔ)上繼續(xù)發(fā)展,層數(shù)更深,網(wǎng)絡(luò)結(jié)構(gòu)更廣。同年,GoogLeNet[14]獲得ILSVRC競(jìng)賽冠軍,其通過(guò)構(gòu)建和組合多個(gè)Inception模塊,使得網(wǎng)絡(luò)更深更廣,同時(shí)減少了模型的參數(shù)量,解決了過(guò)擬合和梯度彌散(Gradient Vanishing)等問(wèn)題。
2015年,Kaiming He提出的ResNet[15]獲得ILSVRC競(jìng)賽冠軍。He提出了短路連接機(jī)制以解決深層網(wǎng)絡(luò)難以訓(xùn)練的問(wèn)題,使網(wǎng)絡(luò)的層數(shù)得以繼續(xù)加深。同年,Gao Huang等人借鑒ResNet的思想提出了DenseNet[16]。其特點(diǎn)是網(wǎng)絡(luò)的任意兩層之間直接連接,使用這種密集連接機(jī)制實(shí)現(xiàn)了特征重用,減少了參數(shù)量。
2019年,谷歌提出了EfficientNet[17],同時(shí)提出了一種新的模型縮放方法,使用一個(gè)簡(jiǎn)單而高效的復(fù)合系數(shù),從深度、廣度和輸入分辨率3個(gè)維度縮放網(wǎng)絡(luò),從而同時(shí)兼顧模型的運(yùn)行速度與精度。
隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,其分類(lèi)速度與精度不斷提高,目前已逐漸成為圖像分類(lèi)的主流方法。卷積神經(jīng)網(wǎng)絡(luò)用于解決廢鋼分類(lèi)問(wèn)題具有可行性。
深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量圖像數(shù)據(jù),而廢鋼圖像數(shù)據(jù)量非常有限。圖像數(shù)據(jù)的不足將影響模型的分類(lèi)效果,為了在數(shù)據(jù)有限的前提下取得較高的分類(lèi)準(zhǔn)確率,考慮使用遷移學(xué)習(xí)等方法彌補(bǔ)數(shù)據(jù)的不足。
遷移學(xué)習(xí)[18]是將從一個(gè)領(lǐng)域中學(xué)習(xí)到的知識(shí),遷移應(yīng)用到與之相關(guān)的新領(lǐng)域中的方法。深度神經(jīng)網(wǎng)絡(luò)有強(qiáng)大的特征提取能力,但其訓(xùn)練需要大量標(biāo)注數(shù)據(jù),如數(shù)據(jù)不足很容易陷入過(guò)擬合,難以取得理想的分類(lèi)效果。如先利用大型數(shù)據(jù)集初步訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),再將網(wǎng)絡(luò)習(xí)得的知識(shí)恰當(dāng)?shù)剡M(jìn)行遷移應(yīng)用,則可解決訓(xùn)練數(shù)據(jù)不足的問(wèn)題,克服過(guò)擬合現(xiàn)象,同時(shí)節(jié)省大量運(yùn)算成本,縮短訓(xùn)練時(shí)間。
遷移學(xué)習(xí)應(yīng)用于圖像分類(lèi)或識(shí)別問(wèn)題的具體實(shí)施方法為,使用在ImageNet數(shù)據(jù)集上訓(xùn)練的預(yù)訓(xùn)練模型(Pre-trained Model),將其特征提取層的結(jié)構(gòu)和權(quán)重進(jìn)行遷移,構(gòu)建遷移學(xué)習(xí)模型并在實(shí)際訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練。ImageNet是一個(gè)包含1 500萬(wàn)張圖片的大型圖像分類(lèi)數(shù)據(jù)庫(kù),共有2.2萬(wàn)個(gè)分類(lèi)。預(yù)訓(xùn)練模型擁有在ImageNet上學(xué)習(xí)到的知識(shí),已學(xué)會(huì)提取一些低端特征,如輪廓特征、紋理特征等,使用預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí),可以使網(wǎng)絡(luò)更快更好地學(xué)習(xí)小數(shù)據(jù)集,發(fā)揮深度神經(jīng)網(wǎng)絡(luò)特征提取的優(yōu)勢(shì),同時(shí)節(jié)省收集更多數(shù)據(jù)的人力物力。目前,遷移學(xué)習(xí)已廣泛應(yīng)用于小數(shù)據(jù)集的圖像分類(lèi)問(wèn)題中,如朱良寬等[19]人運(yùn)用遷移學(xué)習(xí)提高植物葉片分類(lèi)的準(zhǔn)確率,謝小紅等[20]人將遷移學(xué)習(xí)運(yùn)用于服裝分類(lèi)的研究等。
本文總結(jié)了近些年廢鋼資源的增長(zhǎng)趨勢(shì)和利用情況,分析了傳統(tǒng)圖像分類(lèi)方法不適用于廢鋼分類(lèi)的原因,并展望了卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于廢鋼分類(lèi)的可行性及運(yùn)用遷移學(xué)習(xí)等方法來(lái)彌補(bǔ)廢鋼圖像數(shù)據(jù)不足的可能性。