基于三維卷積神經(jīng)網(wǎng)絡(luò)的航運(yùn)監(jiān)控事件識別

2019-01-06 07:27王中杰張鴻

計算機(jī)應(yīng)用 2019年12期

關(guān)鍵詞：神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

王中杰　張鴻

摘要：針對傳統(tǒng)的機(jī)器學(xué)習(xí)算法對大數(shù)據(jù)量的航運(yùn)監(jiān)控視頻識別分類的效果不佳，以及現(xiàn)有的三維（3D）卷積的識別準(zhǔn)確率較低的問題，基于3D卷積神經(jīng)網(wǎng)絡(luò)模型，結(jié)合較為流行的視覺幾何組（VGG）網(wǎng)絡(luò)結(jié)構(gòu)以及GoogleNet的Inception網(wǎng)絡(luò)結(jié)構(gòu)，提出了一種基于VGG-16的3D卷積網(wǎng)絡(luò)并引入Inception模塊的VIC3D模型對航運(yùn)貨物實(shí)時監(jiān)控視頻進(jìn)行智能識別。首先，將從攝像頭獲取到的視頻數(shù)據(jù)處理成圖片;然后，將等間隔取幀的視頻幀序列按照類別進(jìn)行分類并構(gòu)建訓(xùn)練集與測試集;最后，在保證運(yùn)行環(huán)境相同并且訓(xùn)練方式相同的前提下，將結(jié)合后的VIC3D模型與原模型分別進(jìn)行訓(xùn)練，根據(jù)測試集的測試結(jié)果對各種模型進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明，VIC3D模型的識別準(zhǔn)確率在原模型的基礎(chǔ)上有所提升，相較于組約束循環(huán)卷積神經(jīng)網(wǎng)絡(luò)（GCRNN）模型的識別準(zhǔn)確率提高了11.1個百分點(diǎn)，且每次識別所需時間減少了1.349s;相較于C3D的兩種模型的識別準(zhǔn)確率分別提高了14.6個百分點(diǎn)和4.2個百分點(diǎn)。VIC3D模型能有效地應(yīng)用到航運(yùn)視頻監(jiān)控項(xiàng)目中。

關(guān)鍵詞：智能航運(yùn)監(jiān)控;視頻識別;深度學(xué)習(xí);三維卷積;神經(jīng)網(wǎng)絡(luò)

中圖分類號： TP391.4 文獻(xiàn)標(biāo)志碼：A

Shipping monitoring event recognition based on three-dimensional

convolutional neural network

WANG Zhongjie1，2*， ZHANG Hong1，2

（1. College of Computer Science and Technology， Wuhan University of Science and Technology， Wuhan Hubei 430065， China;

2. Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System

（Wuhan University of Science and Technology）， Wuhan Hubei 430065， China）

Abstract： Aiming at the poor effect of traditional machine learning algorithms on large data volume shipping monitoring video recognition classification and the low recognition accuracy of previous three-Dimensional （3D） convolution， based on 3D convolutional neural network model， combined with the popular Visual Geometry Group （VGG） network structure and GoogleNets Inception network structure， a new VGG-Inception 3D Convolutional neural network （VIC3D） model based on VGG-16 3D convolutional network and introduced Inception module was proposed to realize the intelligent recognition of the real-time monitoring video of shipping goods. Firstly， the video data acquired from the camera were processed into images. Then， the video frame sequences by equal interval frame fetching were classified according to the categories， and the training set and the testing set were constructed. Under the premise of the same operating environment and the same training mode， the VIC3D model after combination and the original model were trained separately. Finally， the various models were compared based on the test results of the testing set. The experimental results show that， compared with the original model， the recognition accuracy of VIC3D model is improved， which is increased by 11.1 percentage points compared to the Group-constrained Convolutional Recurrent Neural Network （GCRNN） model， and the time required for every recognition is reduced by 1.349s; the recognition accuracy of VIC3D model is increased by 14.6 percentage points and 4.2 percentage points respectively compared to the two models of C3D. The VIC3D model can be effectively applied to the shipping video surveillance projects.

Key words： intelligent shipping monitoring; video recognition; deep learning; three-Dimensional （3D） convolution; neural network

0 引言

近幾年人工智能[1]迅速發(fā)展，越來越多地應(yīng)用到計算機(jī)以外的行業(yè)，許多傳統(tǒng)行業(yè)開始不斷地智能化。特別是關(guān)于視頻監(jiān)控這一領(lǐng)域，很多傳統(tǒng)行業(yè)以及各大安全部門都設(shè)有相應(yīng)的監(jiān)控系統(tǒng)，一般是安排相關(guān)人員管理監(jiān)控室進(jìn)行人工監(jiān)控，并對異常情況發(fā)出警報。但由于人類會產(chǎn)生疲勞感并且在監(jiān)視大量的攝像頭時難免產(chǎn)生遺漏，因此有必要考慮引入人工智能實(shí)現(xiàn)自動化，也就是智能監(jiān)控系統(tǒng)[2-4]。

航運(yùn)監(jiān)控是針對江海中運(yùn)輸貨物的船舶進(jìn)行監(jiān)控，通過在船上安裝攝像頭來監(jiān)視船只，以防止船家偷取貨物，以及對船舶的異常狀態(tài)進(jìn)行預(yù)警。而監(jiān)控時產(chǎn)生的視頻數(shù)據(jù)是智能航運(yùn)監(jiān)控的數(shù)據(jù)集來源，這就需要使用視頻識別的方法來訓(xùn)練模型。

目前智能航運(yùn)監(jiān)控跟城市交通監(jiān)控系統(tǒng)[5]一樣，對攝像頭要求比較高，需要得到較高分辨率的視頻，并且拍攝角度的不同也會產(chǎn)生較大影響。還有江海上不良天氣的影響，如雨雪天氣、大霧以及光照不一等對識別率的影響也較大。這些因素使得獲取的視頻或者圖像數(shù)據(jù)質(zhì)量較差，而傳統(tǒng)方法對這類數(shù)據(jù)的訓(xùn)練效果不佳，并且傳統(tǒng)方法在訓(xùn)練數(shù)據(jù)量較大的模型時效果也不好。

近幾年隨著大量學(xué)者對深度學(xué)習(xí)[6-8]的不斷研究，越來越多的研究領(lǐng)域開始使用深度學(xué)習(xí)，深度學(xué)習(xí)方法在計算機(jī)視覺領(lǐng)域不斷取得突破，并且取得了相對較好的效果，特別是訓(xùn)練數(shù)據(jù)量較為龐大的模型時，其優(yōu)勢較為明顯。然而，以往的深度學(xué)習(xí)使用的卷積神經(jīng)網(wǎng)絡(luò)并不能用于處理視頻數(shù)據(jù)。因此，針對視頻識別領(lǐng)域，學(xué)者們以深度學(xué)習(xí)為基礎(chǔ)提出了一些新的網(wǎng)絡(luò)結(jié)構(gòu)，如：以文獻(xiàn)[9]為代表的雙流（two-stream）網(wǎng)絡(luò)，以文獻(xiàn)[10]為代表的三維卷積神經(jīng)網(wǎng)絡(luò)（three-Demensional Convolutional Neural Network， 3DCNN），以及以文獻(xiàn)[11]為代表的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)等。

本文基于3D卷積神經(jīng)網(wǎng)絡(luò)模型，對航運(yùn)貨物實(shí)時監(jiān)控視頻進(jìn)行智能識別，并對船的異常情況進(jìn)行預(yù)警，提出了基于視覺幾何組-16（Visual Geometry Group-16， VGG-16）網(wǎng)絡(luò)并與Inception結(jié)構(gòu)[12]融合的VIC3D（VGG-Inception 3D CNN）模型，對識別模型的準(zhǔn)確率進(jìn)行優(yōu)化。本文使用智能航運(yùn)監(jiān)控項(xiàng)目中獲取的數(shù)據(jù)集，并將其分為裝卸貨等8個類別進(jìn)行訓(xùn)練，將不同方法訓(xùn)練獲得的模型進(jìn)行檢測并比較分析。實(shí)驗(yàn)結(jié)果表明，本文模型在識別精度方面優(yōu)于基礎(chǔ)模型：在稍微降低識別速度的前提下將識別準(zhǔn)確率提高到了93.8%;相較于單純使用VGG-11結(jié)構(gòu)的模型，本文模型的準(zhǔn)確率提高了4.2個百分點(diǎn)，識別速度則平均僅慢了0.198s。

1 相關(guān)工作

近幾年深度學(xué)習(xí)的相關(guān)研究逐漸成熟后，國內(nèi)外眾多研究者針對視頻識別提出了許多新方法或者基于現(xiàn)有研究的改進(jìn)方法，基于這些方法，視頻識別領(lǐng)域的研究得到了迅速的發(fā)展?？梢詫⑵浯笾路譃閮深悾簜鹘y(tǒng)方法和深度學(xué)習(xí)方法。

1.1 傳統(tǒng)方法

傳統(tǒng)方法也就是深度學(xué)習(xí)引入之前的方法，通常從檢測時空興趣點(diǎn)（Space-Time Interest Points， STIP）[13]開始，然后用局部表示來描述這些點(diǎn)，基本步驟為關(guān)鍵點(diǎn)的選取、特征提取、特征編碼、訓(xùn)練分類器。比較經(jīng)典的有：密集軌跡（Dense Trajectories， DT）算法[14]，利用光流場獲取視頻序列中的一些軌跡，沿著軌跡提取光流直方圖（Histograms of Optical Flow， HOF）、定向梯度直方圖（Histograms of Oriented Gradients， HOG）、運(yùn)動邊界直方圖（Motion Boundary Histogram， MBH）和軌跡（trajectory）四種特征，最后利用Fisher矢量（Fisher Vector， FV）方法對特征進(jìn)行編碼，再基于編碼結(jié)果訓(xùn)練支持向量機(jī) （Support Vector Machine， SVM）分類器;改進(jìn)的密集軌跡（Improved Dense Trajectories， IDT）算法[15]，在DT算法的基礎(chǔ)上利用前后幀視頻間的光流和快速魯棒特征（Speeded Up Robust Features， SURF）關(guān)鍵點(diǎn)進(jìn)行匹配，從而消除/減弱相機(jī)運(yùn)動帶來的影響。相對來說，傳統(tǒng)方法計算速度快，結(jié)構(gòu)也相對簡單，但是數(shù)據(jù)量過大時識別準(zhǔn)確率較低。

1.2 深度學(xué)習(xí)方法

隨著深度學(xué)習(xí)方法的提出，卷積神經(jīng)網(wǎng)絡(luò)逐漸廣泛應(yīng)用于計算機(jī)視覺領(lǐng)域，無論是圖像分類、目標(biāo)檢測還是視頻識別方面，都有大量學(xué)者采用深度學(xué)習(xí)的方法來進(jìn)行研究。

文獻(xiàn)[16]使用固定大小的窗口來堆疊由卷積神經(jīng)網(wǎng)絡(luò)提取的每一幀特征圖，然后用時空卷積來學(xué)習(xí)視頻特征。文獻(xiàn)[17] 提出了一個多任務(wù)端到端聯(lián)合分類回歸遞歸神經(jīng)網(wǎng)絡(luò)，以更好地探索動作類型和時間定位信息，并通過采用聯(lián)合分類和回歸優(yōu)化目標(biāo)，自動定位動作的起點(diǎn)和終點(diǎn)。文獻(xiàn)[18]提出了時序保留卷積（Temporal Preservation Convolutional， TPC）網(wǎng)絡(luò)，采用時序卷積操作能夠在不進(jìn)行時序池化操作的情況下獲得同樣大小的感受野而不縮短時序長度，但在卷積解卷積卷積（Convolutional-Deconvolutional -Convolutional， CDC）濾波器之前時間上的下采樣存在一定時序信息的丟失。

文獻(xiàn)[19]在文獻(xiàn)[11]的基礎(chǔ)上將循環(huán)卷積神經(jīng)網(wǎng)絡(luò)加以改進(jìn)，提出了一種新的端到端深度神經(jīng)網(wǎng)絡(luò)模型——組約束卷積循環(huán)神經(jīng)網(wǎng)絡(luò)（Group-constrained Convolutional Recurrent Neural Network， GCRNN）用于時間序列分類（Time-Series Classification， TSC）。首先，采用并列的數(shù)個卷積神經(jīng)網(wǎng)絡(luò)對連續(xù)的幾個視頻幀提取特征并訓(xùn)練，再將前面提取的特征輸入到后續(xù)的門控循環(huán)單元（Gated Recurrent Unit， GRU）神經(jīng)元構(gòu)成的循環(huán)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)時序特征，最后進(jìn)行全連接并使用softmax層訓(xùn)練。

可以看出，上述GCRNN模型訓(xùn)練過程較為繁雜，并且計算量較大，進(jìn)行識別時所花的時間也相對較長。文獻(xiàn)[10]中的3D卷積神經(jīng)網(wǎng)絡(luò)則解決了該問題，該網(wǎng)絡(luò)將傳統(tǒng)的二維卷積擴(kuò)展到了三維，相比前面的方法，能更好地學(xué)習(xí)到視頻幀的時序特征。因?yàn)槎S卷積在進(jìn)行第一次卷積之后就將時序信息完全折疊了，而三維卷積則在卷積之后保留了時序信息。文獻(xiàn)[10]中采用的卷積網(wǎng)絡(luò)是VGG-11網(wǎng)絡(luò)，網(wǎng)絡(luò)結(jié)構(gòu)較為簡單并且訓(xùn)練速度非?？欤捎谟?xùn)練的節(jié)點(diǎn)信息較少所以準(zhǔn)確度相較于現(xiàn)在研究較為一般。因此基于上述考慮，本文將目前在識別準(zhǔn)確率方面明顯優(yōu)于VGG-11網(wǎng)絡(luò)的VGG-16網(wǎng)絡(luò)作為三維卷積網(wǎng)絡(luò)的骨干，并為了學(xué)習(xí)到更多的特征在此基礎(chǔ)上加入部分Inception網(wǎng)絡(luò)結(jié)構(gòu)，并取得了更高的識別精度。

2 VIC3D模型

由于船舶的狀態(tài)變化不明顯，采用短時間內(nèi)的連續(xù)幀的方法很難提取到有效的時序信息，對裝卸貨的識別準(zhǔn)確率影響較大。因此本文采用每5min取一幀的方法，將相鄰幀之間船舶的變化幅度擴(kuò)大使裝卸貨的過程中貨物量的變化更加明顯，以6幀時序幀序列作為輸入，以三維卷積作為基礎(chǔ)框架，使用VGG-16網(wǎng)絡(luò)并結(jié)合Inception網(wǎng)絡(luò)的VIC3D模型來訓(xùn)練數(shù)據(jù)集，最后用模型對航運(yùn)監(jiān)控中船舶一段時間內(nèi)的狀態(tài)進(jìn)行預(yù)警。

2.1 基于航運(yùn)監(jiān)控視頻的三維卷積方法

三維卷積神經(jīng)網(wǎng)絡(luò)既學(xué)習(xí)圖片的空間特征，也學(xué)習(xí)了視頻相鄰幀之間的時序信息，這得益于它采用的特殊卷積核。本文航運(yùn)監(jiān)控圖像三維卷積的方法如圖1所示。

從圖1中可以看出，三維卷積不僅提取了單幀圖片的空間特征，也提取了不同幀之間的時序特征，通過采用三維卷積核來提取相鄰幀中同一區(qū)域的特征，因此獲得的特征圖也是三維的，而圖中同種線型的線條代表提取特征時共享了權(quán)重。相較于使用傳統(tǒng)的二維卷積，該方法解決了以往卷積方式無法提取時序特征的問題;然而該方法在卷積過程中，每次卷積都會對時間維度進(jìn)行壓縮，因此只能采用淺層的神經(jīng)網(wǎng)絡(luò)，但最后的卷積過程仍使用二維卷積，導(dǎo)致時序信息提取失敗。

2014年牛津大學(xué)計算機(jī)視覺組合和Google DeepMind公司研究員提出了VGGNet系列的結(jié)構(gòu)之后，文獻(xiàn)[10]在文獻(xiàn)[20]的研究基礎(chǔ)上，引入了VGG-11網(wǎng)絡(luò)，將其擴(kuò)展到三維并經(jīng)過改進(jìn)后能保持使用三維卷積進(jìn)行特征提取，避免了因引入二維卷積而丟失時序信息。因此本文將后者作為基礎(chǔ)結(jié)構(gòu)并加以改進(jìn)。

2.2 基于三維卷積網(wǎng)絡(luò)的Inception結(jié)構(gòu)

最初，谷歌網(wǎng)絡(luò)（GoogLeNet）對網(wǎng)絡(luò)中的傳統(tǒng)卷積層進(jìn)行了修改，提出了Inception結(jié)構(gòu)，主要特點(diǎn)在于不僅增加了神經(jīng)網(wǎng)絡(luò)的深度，還增加了寬度，以此來提高神經(jīng)網(wǎng)絡(luò)的性能，從最開始的Inception v1不斷改進(jìn)延伸到Inception v4，均在當(dāng)時取得了不錯的效果。

本文采用了Inception v4中的第三個模塊（Inception-C），并對其中的各項(xiàng)參數(shù)作出調(diào)整來適用于本文的三維卷積神經(jīng)網(wǎng)絡(luò)模型。該模塊可以更方便地與本文的模型結(jié)合，并且不會讓模型過于復(fù)雜而導(dǎo)致計算資源不足的問題。由于網(wǎng)絡(luò)層次過深的話容易出現(xiàn)梯度彌散而導(dǎo)致模型性能下降，并且會導(dǎo)致實(shí)際應(yīng)用中的識別所需時間大幅增加，因此本文放棄了其他模塊的加入。本文改進(jìn)后的Inception-C結(jié)構(gòu)如圖2所示。

從圖2中可以看出，該結(jié)構(gòu)除了深度上的卷積層外，并列了多個卷積層以提取更多的特征，從而提高了模型的學(xué)習(xí)效果。

2.3 基于VGG與Incption網(wǎng)絡(luò)的三維卷積網(wǎng)絡(luò)模型

本文在上述三維卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，選用效果更優(yōu)的VGG-16網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)，加入了Inception-C模塊，并將最后一層卷積后的特征矩陣作為本文Inception-C結(jié)構(gòu)的輸入，在進(jìn)行了級聯(lián)操作后經(jīng)過3個全連接層，最后一層是softmax層。本文VIC3D模型結(jié)構(gòu)如圖3所示。

本文的輸入部分為等間隔取幀的連續(xù)6張圖片，針對這種輸入方式將VGG結(jié)構(gòu)的前3層中池化層的步長設(shè)置為了1×2×2，避免了過早地將時間維度壓縮而導(dǎo)致時序特征提取不夠充分的問題。

該VGG結(jié)構(gòu)的5層卷積層后的池化操作均采用了最大池化的方式，前2層卷積層均連續(xù)進(jìn)行2次卷積，后3層則均連續(xù)進(jìn)行3次卷積，共計13次卷積操作。

在第5層卷積層池化之后為Inception結(jié)構(gòu)，由圖2可以看出，該部分將前面卷積之后的特征圖分別并列進(jìn)行了4種卷積操作，最左側(cè)的平均池化操作中的步長為1×1×1，采用了Valid填充方式，因此不會使輸入的特征圖大小發(fā)生改變。由于本文輸入數(shù)據(jù)的時間維度為第一個維度，因此圖2中的1×3×3卷積核僅是對空間部分特征的提取，而3×1×1卷積核則是單獨(dú)對時間部分特征的提取，這種方式能夠提取更加豐富的特征。該結(jié)構(gòu)的最后部分是將5個特征圖并聯(lián)起來作為后續(xù)輸入。

本文三維卷積結(jié)構(gòu)的最后部分首先采用了一層平均池化層將時間維度進(jìn)行最后的壓縮，然后進(jìn)行全連接，這里將全連接層的大小改為2048以減少計算量。

此外，本文對基于VGG的三維卷積網(wǎng)絡(luò)加入了滑動平均來更新變量，滑動平均可以看作是變量的過去一段時間取值的均值，相較對變量直接賦值而言，滑動平均得到的值在圖像上更加平緩光滑，抖動性更小，不會因?yàn)槟炒蔚漠惓Ｈ≈刀沟没瑒悠骄挡▌雍艽?。變量的更新可以表示為?/p>

其中：變量v在t時刻更新之后記為v（t）;變量v在t時刻更新之前的取值為θ（t）;衰減率α決定了變量的更新速度，取值越大變量越趨于穩(wěn)定，一般選取接近1的值。

本文損失函數(shù)選用的多分類任務(wù)中常用的交叉熵（Cross-Entropy）損失函數(shù)，其定義如下：

其中：n表示樣本數(shù);m為類別數(shù);y為實(shí)際類別的one-hot向量;f∧（x）為預(yù)測的類別概率。用式（2）來計算softmax回歸處理之后預(yù)測概率分布與真實(shí)概率分布之間的距離。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集描述

本文采用的數(shù)據(jù)集為航運(yùn)智能監(jiān)控項(xiàng)目中積累的數(shù)據(jù)集，船上攝像頭的監(jiān)控視頻傳到服務(wù)器后處理成了連續(xù)的視頻幀，本文將從圖片服務(wù)器上獲取的數(shù)據(jù)按照相應(yīng)類別分好后形成了初步的數(shù)據(jù)集，并舍棄了黑夜部分的數(shù)據(jù)，僅保留了白天部分用作訓(xùn)練。

經(jīng)過長時間的篩選，去除了數(shù)據(jù)集中圖像質(zhì)量不佳、圖片顯示不完整以及一些嚴(yán)重受到天氣影響的數(shù)據(jù)，然后將剩下的數(shù)據(jù)集每一類的數(shù)量進(jìn)行了平衡，避免因不同類別之間數(shù)據(jù)量差異過大而導(dǎo)致模型訓(xùn)練不佳的問題;對那些數(shù)據(jù)量過大的類別，采取對同一條船同一天的數(shù)據(jù)適量選取的方法，既可以適當(dāng)削減該類別占數(shù)據(jù)集的比重，又可以豐富該類別數(shù)據(jù)的多樣性。

經(jīng)過上述篩選，截至目前為止，本文的數(shù)據(jù)集總共包含153000張圖片，相當(dāng)于25500個視頻片段，共計8個類別，其中裝貨以及卸貨部分?jǐn)?shù)據(jù)量最少，兩者分別為9990張和10800張。因此，在進(jìn)行數(shù)據(jù)預(yù)處理時按照適量選取的方式將每一類數(shù)據(jù)量控制在12000張圖片，也就是2000段視頻片段，并按照9∶1的比例建立訓(xùn)練集與測試集。

3.2 模型訓(xùn)練

1）GCRNN模型訓(xùn)練。

該部分采用的是GCRNN模型[17]對本文的數(shù)據(jù)集進(jìn)行訓(xùn)練，輸入的圖片大小為256×256，首先用6個卷積網(wǎng)絡(luò)對每張圖片進(jìn)行特征提取，然后將提取的特征合并后輸入循環(huán)神經(jīng)網(wǎng)絡(luò)（采用的GRU神經(jīng)元）學(xué)習(xí)時序特征，設(shè)置如下：丟失率為0.9，學(xué)習(xí)率為0.001，batch_size為32，訓(xùn)練總次數(shù)為7000。

本文在上述基礎(chǔ)上將前面提取特征的卷積網(wǎng)絡(luò)替換為了50層的殘差網(wǎng)絡(luò)（Resnet50），該網(wǎng)絡(luò)能更充分地提取圖像特征。對于該部分網(wǎng)絡(luò)提取的特征，經(jīng)過實(shí)驗(yàn)比較之后，最終選擇了第二模塊的最后一層特征圖作為后續(xù)循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入，因?yàn)閷訑?shù)過淺的特征提取得信息不夠完善，而層數(shù)過深的則損失了過多的船體結(jié)構(gòu)信息，導(dǎo)致后續(xù)循環(huán)神經(jīng)網(wǎng)絡(luò)部分提取的時序信息不足，從而影響模型的效果。其他參數(shù)的設(shè)置與上述一致。

2）以VGG與Inception結(jié)構(gòu)為基礎(chǔ)的三維卷積模型訓(xùn)練。

首先將分好的數(shù)據(jù)集進(jìn)行后續(xù)處理，按照每連續(xù)6張圖來建立一個子文件夾，這樣一個子文件夾就相當(dāng)于一段輸入視頻，由于VGG網(wǎng)絡(luò)的標(biāo)準(zhǔn)輸入為224×224，所以將連續(xù)的6張圖片縮放為224×224的大小作為VGG網(wǎng)絡(luò)的輸入，也就是輸入數(shù)據(jù)的大小為6×224×224×3。

首先，采用基于VGG-11網(wǎng)絡(luò)結(jié)構(gòu)的三維卷積模型進(jìn)行訓(xùn)練，設(shè)置：丟失率為0.8，batch_size為8，學(xué)習(xí)率為0.0001，滑動平均衰減率為0.9999，訓(xùn)練總次數(shù)為3000次。然后，在VGG-11網(wǎng)絡(luò)的最后一層卷積層之后加入Inception-C模塊，將訓(xùn)練次數(shù)設(shè)置為4000，其他參數(shù)不變。接著，將VGG-11網(wǎng)絡(luò)替換為VGG-16網(wǎng)絡(luò)，訓(xùn)練次數(shù)設(shè)置為4000。最后，將Inception-C模塊加入到VGG-16網(wǎng)絡(luò)中，其他參數(shù)不變。

3.3 結(jié)果分析

所有方法均以視頻監(jiān)控項(xiàng)目中收集的數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn)。將數(shù)據(jù)集按照9∶1的比例來建立訓(xùn)練集和測試集，分別采用每一種方法進(jìn)行訓(xùn)練，然后用測試集測試，最后統(tǒng)計了各類別的識別準(zhǔn)確率以及平均的準(zhǔn)確率，并且以平均準(zhǔn)確率作為不同方法之間比較的指標(biāo)，同時為了考慮方法的實(shí)用性，比較了每種模型的處理速度，結(jié)果如表1所示。

從表1可以看出，最初采用的方法GCRNN識別精度一般，而本文在此基礎(chǔ)上改進(jìn)的GCRNN（Resnet）相較于GCRNN將平均識別準(zhǔn)確率從0.827提高到了0.843，準(zhǔn)確率提高了1.6個百分點(diǎn)，但處理每一段視頻幀的耗時變長了0.4s左右。該速度雖然在客戶接受的范圍內(nèi)，但隨著業(yè)務(wù)量的增加，這種速度難以繼續(xù)滿足要求。沒有采用VGG結(jié)構(gòu)的三維卷積網(wǎng)絡(luò)（3DCNN）識別率較低，處理速度則是幾種方法中最快的，因?yàn)槠渚W(wǎng)絡(luò)層數(shù)很少，需要訓(xùn)練的參數(shù)也較少。而從表1中可以看出，VGG-11為基礎(chǔ)的的3DCNN（VGG-11），與GCRNN（Resnet）相比，其平均準(zhǔn)確率從0.843提高到了0.896，準(zhǔn)確率提高了5.3個百分點(diǎn)，并且大幅減少了每段視頻幀處理所需的時間。

同時從表1中可以看出，本文將VGG-11網(wǎng)絡(luò)替換為VGG-16網(wǎng)絡(luò)之后，3DCNN（VGG-16）相較3DCNN（VGG-11）平均準(zhǔn)確率提高了1.7個百分點(diǎn)，處理速度稍微下降，表明了VGG-16網(wǎng)絡(luò)相較于VGG-11能更有效地學(xué)習(xí)視頻特征。而與之相對的，采用VGG-11與Inception結(jié)構(gòu)相結(jié)合的方法VIC3D（VGG-11）比單純替換為VGG-16的方法3DCNN（VGG-16）平均準(zhǔn)確率提高了0.4個百分點(diǎn)，相較VGG-11的方法3DCNN（VGG-11）則提高了2.1個百分點(diǎn)。相較之前用到的三種三維卷積方法3DCNN（VGG-11）、VIC3D（VGG-11）、3DCNN（VGG-16），本文選用的最終方法VIC3D（VGG-16）的平均準(zhǔn)確率分別提高了4.2個百分點(diǎn)、2.1個百分點(diǎn)和2.5個百分點(diǎn)，處理每段視頻幀的速度也只是稍微下降，并且該處理速度在實(shí)際應(yīng)用中完全滿足需求。

通過對比不同方法的檢測結(jié)果可以發(fā)現(xiàn)：GCRNN中的循環(huán)神經(jīng)網(wǎng)絡(luò)部分雖然可以學(xué)習(xí)時序特征，但應(yīng)用到視頻識別方面的效果還是不太理想，并且模型過于復(fù)雜而導(dǎo)致了訓(xùn)練所需時長較長，收斂速度與處理速度也比較慢;沒有使用VGG網(wǎng)絡(luò)的三維卷積網(wǎng)絡(luò)3DCNN與使用的3DCNN（VGG-11）相比，準(zhǔn)確率差別達(dá)到了10.2個百分點(diǎn)，主要是因?yàn)?DCNN在卷積時折疊了時序特征，導(dǎo)致最后的特征圖中時序信息大部分丟失，從而影響了識別效果。對于基于VGG結(jié)構(gòu)的三維卷積網(wǎng)絡(luò)，加入了Inception模塊的方法在稍微犧牲處理速度的前提下準(zhǔn)確率均要優(yōu)于沒有加入該模塊的方法，并且本文提出的VIC3D方法在這些方法中取得了最高的識別準(zhǔn)確率。

表1中各個類別為客戶要求而選擇的類別劃分，從表1中可以看出，本文提出的VIC3D方法在各類別的識別準(zhǔn)確率相較其他方法要更高;但各類別之間識別率差別較大，裝卸貨、空倉以及雨布吹飛的準(zhǔn)確率相對較低，其中雨布吹飛容易錯分為正常行駛，空倉容易錯分為未蓋布，裝卸貨則容易錯分為停泊等，主要原因是有些類別之間的界限不是很明確，以及江海上惡劣天氣的影響。航運(yùn)智能監(jiān)控類別示意圖如圖4所示，其中：（1）～（3）為正常行駛，（4）～（6）為雨布吹飛，（7）～（9）為攝像頭遮擋，（10）～（12）為未蓋布行駛，（13）～（15）為停泊，（16）～（18）為空倉，（19）～（21）為裝貨，（22）～（24）為卸貨。

由于在實(shí)際應(yīng)用中客戶會對某一類別比較關(guān)注，這時僅采用準(zhǔn)確率作為衡量指標(biāo)不能滿足客戶需求，如出于對貨物安全的考慮，客戶對雨布吹飛這個類別更為關(guān)注，因此對于該類別，本文比較了不同方法的查全率、查準(zhǔn)率以及F1度量。不同方法對于雨布吹飛這個類別的上述三種指標(biāo)值的結(jié)果如表2所示。

從表2中可以看出，本文提出的方法VIC3D（VGG-16）取得了最高的查準(zhǔn)率和F1度量，并且查全率也相對較高，表明了本文所提模型有相對最優(yōu)的性能。

4 結(jié)語

針對傳統(tǒng)的機(jī)器學(xué)習(xí)算法對大數(shù)據(jù)量的航運(yùn)監(jiān)控視頻識別分類效果不佳，以及以往的三維卷積識別準(zhǔn)確率較低的問題，本文提出了一種基于VGG-16的三維卷積網(wǎng)絡(luò)并引入Inception模塊的VIC3D模型對航運(yùn)貨物實(shí)時監(jiān)控視頻進(jìn)行智能識別。實(shí)驗(yàn)中，使用智能航運(yùn)監(jiān)控項(xiàng)目中獲取的數(shù)據(jù)集，并將其分為裝卸貨等8個類別進(jìn)行訓(xùn)練，將不同方法訓(xùn)練獲得的模型進(jìn)行檢測并比較分析。在航運(yùn)智能監(jiān)控項(xiàng)目數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文提出的VIC3D模型能有效提高監(jiān)控視頻識別的準(zhǔn)確率，并且在處理每段視頻幀的速度上也足以滿足客戶需求。

本文方法是在多個現(xiàn)有方法的基礎(chǔ)上，針對該數(shù)據(jù)集以及現(xiàn)有研究上的不足，最后將不同網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行結(jié)合，以較高的準(zhǔn)確率對航運(yùn)監(jiān)控視頻作出類別預(yù)測，并在識別速度上滿足了需求。但本文方法最終的準(zhǔn)確率對于應(yīng)用到項(xiàng)目上來說還不是很高，個別類別準(zhǔn)確率仍有待于進(jìn)一步提升，因此還需要進(jìn)一步的研究以達(dá)到更高的準(zhǔn)確率。

參考文獻(xiàn) （References）

[1]HASSABIS D， KUMARAN D， SUMMERFIELD C， et al. Neuroscience-inspired artificial intelligence [J]. Neuron， 2017， 95（2）： 245-258.

[2]鄧昀，李朝慶，程小輝.基于物聯(lián)網(wǎng)的智能家居遠(yuǎn)程無線監(jiān)控系統(tǒng)設(shè)計[J].計算機(jī)應(yīng)用，2017，37（1）：159-165.（DENG J， LI C Q， CHENG X H. Design of remote wireless monitoring system for smart home based on Internet of things [J]. Journal of Computer Applications， 2017， 37（1）： 159-165.）

[3]梁光勝，曾華榮.基于ARM的智能視頻監(jiān)控人臉檢測系統(tǒng)的設(shè)計[J].計算機(jī)應(yīng)用，2017，37（S2）：301-305.（LIANG G S， ZENG H R. Design of intelligent video surveillance face detection system based on ARM [J]. Journal of Computer Applications， 2017， 37（S2）： 301-305.）

[4]GUAN Z， MIAO Q， SI W， et al. Research on highway intelligent monitoring and warning system based on wireless sensor network [J]. Applied Mechanics and Materials， 2018， 876： 173-176.

[5]LIU Z， JIANG S， ZHOU P， et al. A participatory urban traffic monitoring system： the power of bus riders [J]. IEEE Transactions on Intelligent Transportation Systems， 2017， 18（10）： 2851-2864.

[6]劉全，翟建偉，章宗長，等.深度強(qiáng)化學(xué)習(xí)綜述[J].計算機(jī)學(xué)報，2018，41（1）：1-27.（LIU Q， ZHAI J W， ZHANG Z Z， et al. A summary of deep reinforcement learning [J]. Chinese Journal of Computers， 2018， 41（1）： 1-27.）

[7]REN R， HUNG T， TAN K C. A generic deep-learning-based approach for automated surface inspection [J]. IEEE Transactions on Cybernetics， 2018， 48（3）： 929-940.

[8]SCHMIDHUBER J. Deep learning in neural networks： an overview [J]. Neural Networks， 2015， 61： 85-117.

[9]LAN Z， ZHU Y， HAUPTMANN A G， et al. Deep local video feature for action recognition [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway： IEEE， 2017： 1219-1225.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于三維卷積神經(jīng)網(wǎng)絡(luò)的航運(yùn)監(jiān)控事件識別