王 健 盧載奎
(韓國(guó)國(guó)立群山大學(xué)造船海洋工學(xué)系,韓國(guó) 群山 54150)
由于大型船舶尺寸非常大,造船廠習(xí)慣將整艘船舶分割成幾十到上百個(gè)單位分段進(jìn)行生產(chǎn)設(shè)計(jì)。通常為了船舶建造工程順利進(jìn)行,一般會(huì)提前制定計(jì)劃,其中已完成工作或未分配下一項(xiàng)工作的分段將被臨時(shí)安置在露天堆放場(chǎng)。但會(huì)因?yàn)橹T多因素導(dǎo)致日程變更,使得分配的分段被轉(zhuǎn)移到與當(dāng)初計(jì)劃的工作地點(diǎn)相同的可操作的備選方案工作地點(diǎn)進(jìn)行工作。在這樣的過(guò)程中,每天少則幾十次、多則幾百次的分段被運(yùn)進(jìn)和運(yùn)出堆放場(chǎng)[1]。移動(dòng)分段所在的車間需要獲取信息,以便進(jìn)行行程規(guī)劃。多數(shù)造船廠將計(jì)算機(jī)驅(qū)動(dòng)的系統(tǒng)用于分段的物流管理,現(xiàn)場(chǎng)作業(yè)者將一天的作業(yè)內(nèi)容記錄到手記輸入物流管理系統(tǒng)[2]。但在輸入分段信息(如分段號(hào)和車間位置)時(shí),操作者的失誤可能會(huì)導(dǎo)致錯(cuò)誤地輸入分段號(hào)或車間位置信息。在這些情況下,操作者確定分段位置時(shí)可能會(huì)遇到問(wèn)題[3]。由于分段信息錯(cuò)誤,堆放場(chǎng)工作人員需要耗費(fèi)幾十分鐘到幾小時(shí)才能找到相應(yīng)的分段,因而影響生產(chǎn)效率。為了避免這種分段信息錯(cuò)誤,分段號(hào)和位置信息必須同時(shí)準(zhǔn)確地輸入到系統(tǒng)中。
造船廠堆放場(chǎng)分段位置的跟蹤研究一直在進(jìn)行,在完成分段位置移動(dòng)作業(yè)后,使用常攜帶的PDA,用戶可以手工輸入包括衛(wèi)星導(dǎo)航系統(tǒng)信息在內(nèi)的分段信息,將信息實(shí)時(shí)傳輸?shù)椒?wù)器的系統(tǒng)上。為了解決衛(wèi)星導(dǎo)航系統(tǒng)的信號(hào)問(wèn)題,開發(fā)了導(dǎo)航衛(wèi)星系統(tǒng)和慣性測(cè)定裝置傳感器的位置追蹤裝置,又開發(fā)出了用戶可以通過(guò)移動(dòng)設(shè)備和電腦輸入的系統(tǒng)[4-7]。通過(guò)在裝有衛(wèi)星導(dǎo)航系統(tǒng)或可識(shí)別位置裝置的無(wú)人機(jī)或地面自動(dòng)駕駛機(jī)器人上安裝攝像頭,從獲取的分段形狀圖像中識(shí)別堆放的分段形狀。為了研究實(shí)現(xiàn)這些系統(tǒng)所需的自動(dòng)分段識(shí)別,可以利用CNN這種深度學(xué)習(xí)技術(shù),該技術(shù)在利用圖像進(jìn)行對(duì)象分類方面有很好的效果[8]。
使用CNN進(jìn)行自動(dòng)分段識(shí)別研究,需要從各種CNN模型中選擇一個(gè)模型進(jìn)行實(shí)驗(yàn)。所有的影像分類問(wèn)題中,通過(guò)基準(zhǔn)測(cè)試驗(yàn)證的性能不能普遍適用于現(xiàn)實(shí)中的所有問(wèn)題,最佳的方法只能通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證。使用在ILSVRC圖像識(shí)別競(jìng)賽中表現(xiàn)良好并得到驗(yàn)證的各種CNN模型進(jìn)行實(shí)驗(yàn),選出性能最適合船體分段識(shí)別的CNN模型[9]。本次研究中,用于性能比較的CNN模型分別為VGGNet、GoogLeNet、ResNet、DenseNet和NASNet,共5種型號(hào)[10-15]。并且,本研究增加了兩種方法來(lái)提升性能,一個(gè)是通過(guò)改變?cè)紨?shù)據(jù)來(lái)增加學(xué)習(xí)數(shù)據(jù)數(shù)量的數(shù)據(jù)擴(kuò)展,另一個(gè)是遷移學(xué)習(xí),將已經(jīng)作為大單位訓(xùn)練用的圖像數(shù)據(jù)參數(shù)導(dǎo)入到下一步中使用。
近年來(lái),CNN技術(shù)通過(guò)利用存儲(chǔ)庫(kù)和圖形處理單元(GPU)對(duì)大規(guī)模圖像(ImageNet)進(jìn)行高性能運(yùn)算,在圖像和視頻識(shí)別方面取得了很好的成果。通過(guò)基于梯度的學(xué)習(xí)方法創(chuàng)建的LeNet開始,經(jīng)過(guò)優(yōu)化處理影像領(lǐng)域的CNN模型在不同的領(lǐng)域得到了應(yīng)用[16]。CNN模型主要由輸入層、輸出層和兩層之間的許多隱層組成。
特征提取的卷積層中,卷積濾鏡在圖像上運(yùn)行并將運(yùn)算的結(jié)果輸出到下一層。卷積層中通過(guò)卷積濾鏡運(yùn)算提取的特征面應(yīng)用激活函數(shù),通過(guò)將提取的特征面作為定量值輸出的特征轉(zhuǎn)換為輸出值來(lái)判斷是否激活,輸出值的范圍因激活函數(shù)的種類而異。使用了激勵(lì)函數(shù)的輸出值被傳遞到池化層。池化層是由多個(gè)特征面組成,通過(guò)降維來(lái)減小計(jì)算量,可以防止過(guò)度擬合。如LeNet,在S層中通過(guò)平均池化減小目標(biāo)輸出值的大小。分類層中的全連接層與卷積層相連并輸出結(jié)果。每個(gè)CNN模型在基本形態(tài)上是相同的,但在結(jié)構(gòu)的深度和構(gòu)成上有差異。表1對(duì)本研究使用的CNN模型的特點(diǎn)和優(yōu)缺點(diǎn)進(jìn)行了總結(jié)描述。
表1 CNN模型比較
本研究利用基于實(shí)際設(shè)計(jì)圖建立的船體分段模型,在實(shí)驗(yàn)室環(huán)境中直接對(duì)船體分段模型獲取不同方向上的圖像以訓(xùn)練和識(shí)別圖像集。如圖1所示由3種形狀相似但長(zhǎng)寬比不同、內(nèi)部特征不同的分段A、B、C和形狀不同的分段D組成。4個(gè)分段獲取了共2 000張圖像,每張圖像500張,并將其分配為原始圖像集。由于CNN模型的訓(xùn)練精度可以與視頻集的大小成正比,因此應(yīng)用了數(shù)據(jù)增強(qiáng)來(lái)增加視頻個(gè)數(shù)。如圖2所示,對(duì)原始影像集合進(jìn)行了上下左右翻轉(zhuǎn),并分別旋轉(zhuǎn)30 °、60 °、90 °。將1張圖像增加為6張,共12 000張,做了增強(qiáng)船體分段A原始圖像的圖像示例。視頻集合按8 ∶2的比例分配了80%用于訓(xùn)練,20%用于評(píng)估。
圖1 船體分段模型
圖2 增強(qiáng)圖像
將5種CNN模型和所用圖像集的種類以及是否適用fine tuning遷移學(xué)習(xí)的4種情況進(jìn)行組合,構(gòu)成了20種實(shí)驗(yàn)環(huán)境。每個(gè)CNN模型的全連接層中,除最后一個(gè)全連接層外,其余全連接層都用全局平均池化代替,并使用了類激活圖(CAM)來(lái)實(shí)現(xiàn)CNN模型在提取類特征時(shí)所關(guān)注的區(qū)域的可視化[17]。然后應(yīng)用Dropout,正則化可以防止CNN模型過(guò)擬合[18]。隨機(jī)失活率選擇為0.4,參數(shù)采用前向均方根梯度下降算法RMSprop,學(xué)習(xí)率設(shè)置為2e-5。針對(duì)不同型號(hào)的CNN解決工作站中的內(nèi)存溢出問(wèn)題,配置大小各不相同。Epoch per step使用整個(gè)訓(xùn)練影像個(gè)數(shù)除以批量大小的值訓(xùn)練所有影像。使用的軟件和硬件:Tensorflow1.14.0、CUDA10.0、Keras2.3.1,CPU為Intel Core i9-7900X 3.30 GHz,GPU為GeForce Rtx 2080 TIX 4,RAM為128GB。
本研究獲得20種實(shí)驗(yàn)環(huán)境的訓(xùn)練參數(shù)CNN模型,各CNN模型分類性能評(píng)價(jià)的識(shí)別圖像集是包含分段整體形狀的識(shí)別圖像集,每塊30張,共120張。為了計(jì)算n個(gè)類的分類性能指標(biāo),對(duì)實(shí)際類整理了類預(yù)測(cè)結(jié)果得出混淆矩陣?;煜仃嚨脑豿ij表示輸入圖像的實(shí)際類為第i類,而預(yù)測(cè)為第j類?;煜仃囋谌?0種實(shí)驗(yàn)環(huán)境中各有一個(gè),因此構(gòu)成全部20個(gè)混淆矩陣。多分類混淆矩陣對(duì)n個(gè)分類可以得出4個(gè)評(píng)價(jià)指標(biāo):準(zhǔn)確率、精確率、召回率和F1-Score。4項(xiàng)性能指標(biāo)分別表現(xiàn)為式(1)、式(2)、式(3)和式(4)。均值F1-Score是由精確率與召回率的協(xié)調(diào)平均值計(jì)算得出的。F1-Score的計(jì)算需要知道混淆矩陣中的TP(True Positive)、FP(False Positive)、TN(True Negative)、FN(False Negative)。
實(shí)驗(yàn)環(huán)境下全分段形狀的識(shí)別圖像集的準(zhǔn)確率如表2所示,平均F1-Score如表3所示,其中NTL表示非遷移學(xué)習(xí),TL表示遷移學(xué)習(xí),OI表示原始圖片,DA表示數(shù)據(jù)增強(qiáng)。根據(jù)實(shí)驗(yàn)結(jié)果,使用增強(qiáng)圖像集并應(yīng)用遷移學(xué)習(xí)的Resnet-152v2 CNN模型在20種環(huán)境下的準(zhǔn)確率和平均F1-Score分別為99.11%和99.17%,均為最高;20種環(huán)境下,使用原始圖像集而非遷移學(xué)習(xí)的VGG-19 CNN模型的準(zhǔn)確率和平均F1-Score分別為15.00%和9.67%,均最低。
表2 分類準(zhǔn)確率性能比較
表3 分類平均F1性能比較
原始圖像集在非遷移學(xué)習(xí)情況下,準(zhǔn)確率以Inception-v3 CNN模型最高,為34.17%,平均F1-Score以Resnet-152v2 CNN模型最高,為31.81%。增強(qiáng)圖像集在非遷移學(xué)習(xí)的情況下,VGG-19 CNN模型表現(xiàn)出最高的性能,其準(zhǔn)確率為38.23%,平均F1-Score為43.17%。
CNN模型中以原始影像集合的方式進(jìn)行遷移的情況下,NASNetLarge CNN模型的準(zhǔn)確度為70.00%,平均F1-Score為70.34%,均為各類別最高。遷移學(xué)習(xí)和原始影像集合訓(xùn)練的CNN模型中,按照Resnet-152v2、Densenet-201、NASNetLarge的順序,準(zhǔn)確率和平均F1-Score依次增高。但通過(guò)遷移學(xué)習(xí)和增強(qiáng)影像集合訓(xùn)練的CNN模型中,除了Inception-v3之外,其他模型的準(zhǔn)確率和平均F1-Score都急劇上升到了95.00%以上,并且按Inception-v3、Densenet-201、VGG-19、NASNetLarge、Resnet-152v2的順序,準(zhǔn)確率和平均F1-Score依次增高。
采用CAM分析5種CNN模型在4種實(shí)驗(yàn)環(huán)境下的性能差異。利用CAM結(jié)果面對(duì)相同的識(shí)別圖像,可以比較各自實(shí)驗(yàn)環(huán)境中的類預(yù)測(cè)所需要的差別特征所集中的區(qū)域。
圖3顯示了在NTL+OI環(huán)境下(在非應(yīng)用遷移學(xué)習(xí)的情況下使用了基本圖像集)的CAM結(jié)果,圖4顯示了TL+DA環(huán)境下的CAM結(jié)果。在NTL+OI環(huán)境下的識(shí)別結(jié)果比在TL+DA環(huán)境下的識(shí)別結(jié)果的準(zhǔn)確率和平均F1-Score低。從圖3中每個(gè)NTL+OI環(huán)境下CNN模型的CAM結(jié)果可以看出影像背景范圍整體擴(kuò)散的情況,意味著訓(xùn)練沒(méi)有完成。圖4與圖3的CAM結(jié)果相比較,可以確認(rèn)目標(biāo)區(qū)域集中分布著體現(xiàn)差別特征的領(lǐng)域。因此,與CNN模型中的TL+DA環(huán)境相比,在NTL+OI環(huán)境下影像中不能很好地分析船體分段特征。
圖3 非遷移原始圖片的CAM結(jié)果
圖4 遷移增強(qiáng)圖片的CAM結(jié)果
圖5是最高準(zhǔn)確率的Resnet-152v2 CNN型號(hào)是否適用于遷移學(xué)習(xí)和使用的影像集合種類的4種情況,表2的準(zhǔn)確率增加的順序體現(xiàn)了CAM的變化。圖5的(a)~(d)按準(zhǔn)確率由低到高排列。“NTL+OI Resnet-152v2”不用遷移學(xué)習(xí),而使用原始影像集成,其特征提取領(lǐng)域分散分布在背景中。通過(guò)準(zhǔn)確率增加的右側(cè),可以確認(rèn)特征提取領(lǐng)域越來(lái)越集中于目標(biāo)區(qū)域。從圖5中可以看出,(b)比(a)以及(d)比(c)的特征提取領(lǐng)域更集中于目標(biāo)區(qū)域。采用遷移學(xué)習(xí)的CNN模式,為了抽取特征的領(lǐng)域就會(huì)在目標(biāo)區(qū)域集中選定。
圖5 Resnet-152v2的CAM比較
此準(zhǔn)確率和平均F1-Score的最高值都相當(dāng)高,分別為99.11%和99.17%。這可能是因?yàn)榇w塊模型的識(shí)別影像集合是由捕捉到整體形狀的影像構(gòu)成的。實(shí)際在造船廠能夠獲得的船體分段影像很難在一個(gè)畫面中捕捉到整體形狀,因此利用捕捉到船體分段模型整體形狀的識(shí)別影像集成計(jì)算出的準(zhǔn)確度和平均F1-Score對(duì)實(shí)際船體分段進(jìn)行分類的性能很難一致進(jìn)行。
為了減少與實(shí)際獲取分段影像的隔閡,采用分段部分影像集,而不是分段整體,將其用作識(shí)別影像集,觀察分類性能的變化。假定只獲得造船廠堆放區(qū)的一部分影像時(shí),為避免現(xiàn)有識(shí)別影像中分段的整體形狀顯露出來(lái),構(gòu)造了分段區(qū)域一部分的識(shí)別圖像集。利用這種由部分分段組成的識(shí)別影像集成,對(duì)各CNN模型的識(shí)別性能進(jìn)行評(píng)價(jià)。在使用遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)環(huán)境中進(jìn)行了實(shí)驗(yàn),展示最高準(zhǔn)確率和平均F1-Score。
利用部分分段組成的識(shí)別影像集成,計(jì)算出各CNN模型的準(zhǔn)確率和平均F1-Score的結(jié)果如表4所示。結(jié)果顯示,Resnet-152v2的準(zhǔn)確率為81.67%,平均F1-Score為83.41%,展現(xiàn)了最優(yōu)秀的性能。準(zhǔn)確率與整體形狀識(shí)別影像集合的情況相比,最高的準(zhǔn)確率減少了17.44%??傻贸?種CNN模型按準(zhǔn)確率由低到高的順序?yàn)閂GG-19、Inception-v3、NASNetLarge、Densenet-201、Resnet-152v2,與整體識(shí)別影像集成的準(zhǔn)確率高低的順位相比,VGG-19與Inception-v3的結(jié)果有所改變,但其他模型順序相同。
表4 預(yù)測(cè)裁剪圖像集準(zhǔn)確率與平均F1-Score分類性能比較
本研究是識(shí)別堆放在堆放場(chǎng)的船體分段位置,旨在尋找假設(shè)具備訓(xùn)練影像集成的CNN模式時(shí),適合堆放分段具有較高準(zhǔn)確率的CNN模型識(shí)別性能比較實(shí)驗(yàn)。制作了船體分段模型,并利用這些模型獲得了多視點(diǎn)影像集成,通過(guò)學(xué)習(xí)比較了多種CNN模型的船體分段識(shí)別性能。用于比較的CNN模型包括VGGNet的VGG-19結(jié)構(gòu),GoogLeNet的Inception-v3結(jié)構(gòu),ResNet的Resnet-152v2結(jié)構(gòu),DenseNet的Densenet-201結(jié)構(gòu)以及NASNet的NASNetLarge結(jié)構(gòu)。
結(jié)果表明,在ResNet的Resnet-152v2 CNN模型中使用增強(qiáng)圖像集和應(yīng)用遷移學(xué)習(xí)的結(jié)果最佳,準(zhǔn)確率為99.11%,平均F1-Score為99.17%。采用CAM對(duì)準(zhǔn)確率最高的CNN模型和最低的CNN模型,以及準(zhǔn)確率最高的CNN模型中用于學(xué)習(xí)的圖像集和遷移學(xué)習(xí)的4種實(shí)驗(yàn)環(huán)境確定特征提取區(qū)域。結(jié)果表明,準(zhǔn)確率越高的CNN模型以及圖像個(gè)數(shù)越多的訓(xùn)練數(shù)據(jù)集,特征提取區(qū)域在目標(biāo)區(qū)域的分布越密集集中。為了減少堆放場(chǎng)實(shí)際獲取分段圖像之間的間隙,構(gòu)造由分段部分形狀而非分段全部形狀組成的圖像集,并將其用作識(shí)別圖像集。可知最高分類性能與使用全形狀識(shí)別圖像集的情況相同,Resnet-152v2表現(xiàn)出最高的準(zhǔn)確率。在今后的研究中,通過(guò)對(duì)船體分段圖形中的三維CAD數(shù)據(jù)進(jìn)行成像,構(gòu)成學(xué)習(xí)用的多視點(diǎn)圖像集,并通過(guò)采用數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)的Resnet-152v2模型進(jìn)行訓(xùn)練和識(shí)別的過(guò)程,可認(rèn)為是在造船廠現(xiàn)場(chǎng)研究實(shí)際適用的方法。