摘要:在霧霾天氣下,基于圖像處理的能見度檢測方法仍然在不斷研究中,對能見度估算值的精度依然具有提升空間。文章以大數(shù)據(jù)為基礎(chǔ),改進VGG卷積神經(jīng)網(wǎng)絡(luò)提取視頻數(shù)據(jù)的特征并利用Adam進行算法優(yōu)化,充分挖掘監(jiān)控視頻數(shù)據(jù)信息,以達到提高精度及降低設(shè)備成本的目的。相比于ResNet,這一方法充分利用了視頻數(shù)據(jù)的時空信息,在預(yù)測過程中表現(xiàn)出較高的精度和準確性。這項研究對提升機場能見度預(yù)測的效果提供了借鑒。
關(guān)鍵詞:能見度預(yù)測;卷積神經(jīng)網(wǎng)絡(luò);機場監(jiān)控視頻
中圖分類號:TP183 文獻標志碼:A
0 引言
根據(jù)飛行安全統(tǒng)計,機場能見度低是造成飛行事故的原因之一。目前,許多學(xué)者將機器視覺和深度學(xué)習應(yīng)用于能見度預(yù)測中。周開鵬等[1]對比神經(jīng)網(wǎng)絡(luò)模型和多元逐步回歸法的預(yù)報準確率,表明神經(jīng)網(wǎng)絡(luò)對低能見度的預(yù)測更接近實際變化。千月欣等[2]對比了基于Squeezenet的遷移學(xué)習模型和15層深度卷積神經(jīng)網(wǎng)絡(luò),表明搭建的15層深度卷積神經(jīng)網(wǎng)絡(luò)模型更適用于機場能見度預(yù)測。徐悅等[3]提出了一種基于U-Ne深度學(xué)習的霧天夜間機場能見度預(yù)測方法。祁媛等[4]選用ResNet卷積神經(jīng)網(wǎng)絡(luò)提取機場視頻數(shù)據(jù)的特征向量進行預(yù)測,模型精度達80.3%。黃晉等[5]探討了視頻數(shù)據(jù)與能見度估計的VGG卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習模型,模型精度則達到了88.3%。
因此,本文選用VGG卷積神經(jīng)網(wǎng)絡(luò)對視頻數(shù)據(jù)進行深度學(xué)習,充分挖掘視頻中的時空信息,并在對圖像進行分類前,對圖像進行有針對性的增強和降噪,以達到使模型具有更好魯棒性的效果。
1 視頻數(shù)據(jù)預(yù)處理
1.1 數(shù)據(jù)預(yù)處理
在大霧條件下,本文獲取了攝像頭拍攝的視頻,并同時收集了同一時間段的機場能見度數(shù)據(jù),包括RVR、MOR、VIS、光照強度、風、溫度和濕度等信息。為了便于分析,將視頻按幀截取圖像,設(shè)定間隔為22幀,獲得了2020年3月13日0時—7時59分00秒的27941幅影像。然后從每一分鐘內(nèi)的15 s、30 s、45 s和00 s提取圖像,生成了1860張圖像,構(gòu)成了機場能見度預(yù)測數(shù)據(jù)集。視頻中的數(shù)據(jù)與收集的能見度數(shù)據(jù)形成了一一對應(yīng)的關(guān)系。能見度有氣象光學(xué)視程(MOR)[6-7]、主導(dǎo)能見度(VIS)[8]、跑道視程(RVR)[9]3種。綜合比較MOR、VIS、RVR,本文在后續(xù)的研究中將會使用MOR值作為參考項進行分析。
對本文所需的視頻圖像數(shù)據(jù)進行必要的預(yù)處理,根據(jù)得到的能見度數(shù)據(jù),結(jié)合能見度等級表,使用等級分析法對能見度進行分級,粗略地劃分為4個等級:MOR≤50 m;50 m<MOR≤200 m;200 m<MOR≤500 m;500 m<MOR 。將這4個等級作為4種類別,建立基于視頻數(shù)據(jù)的能見度估計深度學(xué)習模型。
1.2 數(shù)據(jù)增強
考慮到數(shù)據(jù)集中各個能見度等級樣本數(shù)量的不平衡,本文對MID和HIGH等級的樣本進行重點增強。通過應(yīng)用各種圖像變換技術(shù),如旋轉(zhuǎn)、縮放、裁剪等,本文生成了額外的樣本,如表1所示,以平衡數(shù)據(jù)集中各類別的樣本數(shù)量。
同時,為了進一步提高模型的魯棒性和泛化性能,本文還對圖像進行了降噪處理。經(jīng)過實驗比對后,選取了Retinex方法進行圖像增強,并選擇中值濾波作為圖像降噪技術(shù)。增強后的圖像降噪可以顯著改善圖像質(zhì)量,消除或減輕圖像中的噪聲,提高圖像的視覺效果。
2 VGG卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是一種新興的具有深度學(xué)習能力的人工神經(jīng)網(wǎng)絡(luò)系統(tǒng),并且得到了廣泛的關(guān)注。卷積神經(jīng)網(wǎng)絡(luò)具有適應(yīng)性強、善于挖掘數(shù)據(jù)局部特征、全局訓(xùn)練特征抽取器和分類器等優(yōu)點,因此,被應(yīng)用到模式識別中的各個領(lǐng)域并取得了很好的成果。與傳統(tǒng)的圖像分類方法相比,卷積神經(jīng)網(wǎng)絡(luò)能夠直接將圖像數(shù)據(jù)作為輸入,不需要人工的預(yù)處理及特征提取等操作,通過局部感受野、權(quán)值共享、池化層下采樣減少了很多參數(shù),盡可能保留了重要參數(shù),同時具有一定程度的平移、旋轉(zhuǎn)、尺度和非線性形變穩(wěn)定性,可以保留鄰域的聯(lián)系和空間的局部特點。因此,本文選取VGG卷積神經(jīng)網(wǎng)絡(luò),該模型可以在保證整個網(wǎng)絡(luò)結(jié)構(gòu)簡潔的前提下,在保持相同感受野的同時能夠減少參數(shù)量,達到不錯的效果。
3 基于卷積神經(jīng)網(wǎng)絡(luò)的能見度預(yù)測
機場能見度的高低與大霧的形成消散過程密切相關(guān)。通過計算機圖像處理和判斷可以避免主觀和任意性,能夠在連續(xù)的時間范圍內(nèi)描述大霧的整個變化過程,具有成本低、連續(xù)性強、操作簡便和覆蓋范圍廣的優(yōu)點。本文利用機場視頻數(shù)據(jù)結(jié)合地面氣象觀測數(shù)據(jù)分析得到能見度的大小,根據(jù)視頻中的特征信息將其與能見度數(shù)據(jù)建立對應(yīng)的關(guān)系,建立深度學(xué)習模型,分析得到能見度也就是霧的濃厚程度,評估能見度并進行精度驗證。
3.1 建立深度學(xué)習模型
在基于VGG16特征提取網(wǎng)絡(luò)的基礎(chǔ)上,本文對全連接層進行了優(yōu)化。在深度學(xué)習中,全連接層是神經(jīng)網(wǎng)絡(luò)中最基本的組成部分,負責連接2個節(jié)點,實現(xiàn)數(shù)據(jù)的傳遞和計算。全連接層的優(yōu)化是深度學(xué)習性能提升的關(guān)鍵。原網(wǎng)絡(luò)中的全連接層使用4096個神經(jīng)元,不僅增加了算法的復(fù)雜度和參數(shù)量,還會致使訓(xùn)練時不易收斂。由于本文僅須要對4類圖像進行分類,所需參數(shù)相對較少,本文采取參數(shù)減少的策略,將2個全連接層的神經(jīng)元數(shù)量從4096個分別減少至256個和128個,顯著降低了參數(shù)量,使模型的速度和精度均獲得了提升。
同時,為了充分利用已訓(xùn)練好的大型網(wǎng)絡(luò)的特征提取能力,本文采用了遷移學(xué)習的思想。這使得模型能夠迅速適應(yīng)新的任務(wù),同時保持較高的性能。VGG16的主干特征提取部分經(jīng)過大量數(shù)據(jù)的訓(xùn)練,已經(jīng)具備了良好的魯棒性和特征提取效果。因此,本文直接使用VGG16特征提取網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重和參數(shù),并在訓(xùn)練過程中僅對全連接層進行微調(diào)。具體步驟如圖1所示。
激活函數(shù)在深度神經(jīng)網(wǎng)絡(luò)模型中占據(jù)著核心地位,其特性通常表現(xiàn)為非線性,這一性質(zhì)使得神經(jīng)網(wǎng)絡(luò)能夠有效地對實際問題中非線性分布的數(shù)據(jù)進行建模[10]。同時激活函數(shù)的選擇也會直接影響到整個模型是否能夠成功收斂及其收斂效果[11]。其中Sigmoid、Tanh、ReLU都是常用的激活函數(shù),但是有不同的函數(shù)特性。
Sigmoid函數(shù)的輸出范圍為0~1,導(dǎo)致其在輸入很大或很小時梯度接近于0,這會導(dǎo)致反向傳播過程中的梯度消失或飽和問題。Tanh函數(shù)雖然相對于Sigmoid函數(shù)在輸出范圍上有所改進,但仍然存在類似的問題。相比之下,ReLU函數(shù)在輸入大于0時不存在梯度飽和,如圖2所示,幾乎不會造成梯度彌散[12]。且神經(jīng)元的稀疏性有助于減少過擬合的發(fā)生。
綜合以上ReLU函數(shù)的優(yōu)點,故本文在全連接層選用ReLU函數(shù)作為激活函數(shù)。
3.2 模型優(yōu)化
模型訓(xùn)練過程采用了學(xué)習率調(diào)整器、早停機制和Adam優(yōu)化算法。學(xué)習率調(diào)整器根據(jù)驗證集性能動態(tài)調(diào)整學(xué)習率,加速訓(xùn)練并提高驗證集性能。早停機制監(jiān)控驗證集損失,避免過擬合。Adam算法自適應(yīng)估計低階矩,為每個參數(shù)設(shè)置不同的學(xué)習率,提升預(yù)測速度和準確性。
在實際應(yīng)用中,Adam算法往往展現(xiàn)出卓越的性能,相較于其他自適應(yīng)學(xué)習率算法,其收斂速度更快,學(xué)習效果更佳。算法的有效性在很大程度上取決于數(shù)據(jù)特點是否與算法特性相匹配[13]。Adam將隨機梯度下降法2種擴展的優(yōu)勢結(jié)合在一起,其在梯度下降中的優(yōu)化過程如下。
(1)初始化參數(shù):初始化模型的參數(shù)。
(2)計算梯度:使用隨機梯度下降(SGD)計算當前批次樣本的梯度。
(3)更新一階矩估計變量mt和二階矩估計變量vt:
mt=β1mt-1+(1-β1)gt(1)
vt=β2vt-1+(1-β2)g2t(2)
式中,gt表示當前梯度;β1和β2是可調(diào)節(jié)的指數(shù)衰減率,一般取值分別為0.900和0.999。
(4)mt和vt的初始均為零向量,因此衰減率在初始時間可能會偏向零向量,故需要進行偏差校正,公式如下:
的梯度帶權(quán)有偏方差。
(5)更新模型參數(shù)θt。
式中,θt表示模型的參數(shù);ε是一個很小的數(shù),用于避免除零錯誤;η為學(xué)習率。
4 網(wǎng)絡(luò)訓(xùn)練及預(yù)測
4.1 評價指標
本文主要采用損失函數(shù)、混淆矩陣來對模型進行評價。其中,損失函數(shù)為交叉熵,損失函數(shù)模型學(xué)習的過程就是模型的權(quán)重不斷更新的過程,直到損失函數(shù)值趨于穩(wěn)定[14]。其計算公式為:
式中,n是樣本數(shù);yi是第i個樣本的真實標簽;pi是樣本i預(yù)測的概率。
從混淆矩陣當中可以得到更高級的分類指標。
(1)Accuracy(精確率)。用來表示模型分類正確的樣本占總樣本的比例,即:
(2)Precision(正確率或者準確率)。表示預(yù)測為正類的樣本中真正為正類的樣本所占的比例,即:
(3)Recall(召回率)。表示在實際正樣本中,分類器能預(yù)測出多少正樣本,即:
4.2 實驗結(jié)果分析
本文的實驗基于一個包含5251個樣本的數(shù)據(jù)集,其中90%被用作訓(xùn)練集,剩余的樣本被用作測試集。模型的實現(xiàn)基于Tensorflow框架,在訓(xùn)練期間,單次傳遞給模型用以訓(xùn)練的數(shù)據(jù)(樣本)個數(shù)為16個,使用Adam優(yōu)化器進行訓(xùn)練,學(xué)習率設(shè)置為0.001。
運行出的結(jié)果如圖2所示,展示了損失函數(shù)值和準確率隨訓(xùn)練次數(shù)的變化情況。損失函數(shù)值隨訓(xùn)練次數(shù)的增加而不斷下降,趨于收斂。損失函數(shù)的橫坐標是訓(xùn)練的迭代次數(shù)(Epochs),縱坐標表示模型在每個訓(xùn)練迭代的損失值。精度圖的橫坐標表示訓(xùn)練的迭代次數(shù)(Epochs),與損失函數(shù)圖的橫坐標相同,縱坐標表示模型在每個訓(xùn)練迭代上的預(yù)測精度。
實驗發(fā)現(xiàn),設(shè)置Epoch為50個進行訓(xùn)練時,模型的效果最好。在50個Epoch內(nèi),模型共進行了36次迭代訓(xùn)練,當損失函數(shù)值趨于穩(wěn)定時,停止訓(xùn)練。
通過繪制混淆矩陣,如圖3所示,驗證VGG16模型在能見度變化規(guī)律的量化分析與預(yù)測中的有效性和可行性[15]。混淆矩陣的行表示真實標簽(True Label),列表示預(yù)測標簽(Predicted Label)。根據(jù)混淆矩陣的分析,可以觀察到優(yōu)化后的模型在區(qū)分LOW和HIGH 2種類別上表現(xiàn)較為優(yōu)越。這2種類別在圖像特征上具有顯著區(qū)別,因此模型相對容易做出正確分類。相比之下,MID和VERY_HIGH 2種類別則更容易被混淆,可能導(dǎo)致錯誤分類的情況發(fā)生。以此可得出模型評估參數(shù),如表2所示。
由表2可知,在本次基于視頻數(shù)據(jù)估計能見度的研究中,VGG16能夠獲得較好的預(yù)測精度。
5 結(jié)語
本文使用VGG16卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習模型來評估機場能見度,并對模型算法做出改進,使模型精度跟效率都得到提升,最后利用損失函數(shù)和混淆矩陣對能見度估計效果進行精度分析評價。本文所采用基于卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習的深度學(xué)習模型,能夠獲得較好的預(yù)測精度,訓(xùn)練準確率最高達到了90%。后續(xù)選取測試集對模型效果進行評估,精度達到89.7%,證明了模型估計能見度的準確性。
參考文獻
[1]周開鵬,黃萌,樊旭,等.基于逐步回歸和神經(jīng)網(wǎng)絡(luò)的北京市能見度預(yù)報對比[J].蘭州大學(xué)學(xué)報(自然科學(xué)版),2020(4):522-526.
[2]千月欣,王永忠,李佳駿,等.基于深度學(xué)習的機場能見度預(yù)測研究[J].云南民族大學(xué)學(xué)報(自然科學(xué)版),2021(6):615-620.
[3]徐悅,袁寶璽,米辰,等.基于深度學(xué)習的霧天夜間機場能見度預(yù)測方法[J].電子制作,2021(23):60-62.
[4]祁媛,樊輝,張瑞華,等.基于ResNet卷積神經(jīng)網(wǎng)絡(luò)的機場能見度預(yù)測[J].自動化應(yīng)用,2023(24):206-209.
[5]黃晉,李保強,呂明燕,等.基于VGG卷積神經(jīng)網(wǎng)絡(luò)的機場能見度預(yù)測[J].集成電路應(yīng)用,2022(3):58-59.
[6]黃儀方.航空氣象[M].西安:西安交通大學(xué)出版社,2011.
[7]劉敏,趙普洋.氣象光學(xué)視程(MOR)在民用航空地面氣象觀測中的應(yīng)用[J].氣象水文海洋儀器,2012(1):78-80.
[8]張高杰,強曉西,董愛民,等.西安機場低能見度天氣下RVR與VIS替代關(guān)系研究[J].科技創(chuàng)新導(dǎo)報,2020(14):117-118.
[9]楊帆.一次雪后跑道視程(RVR)數(shù)值偏低原因分析[J].成都航空職業(yè)技術(shù)學(xué)院學(xué)報,2021(1):46-48.
[10]李玥辰,趙曉,王若男,等.基于改進卷積神經(jīng)網(wǎng)絡(luò)的中藥飲片圖像識別[J].科學(xué)技術(shù)與工程,2024(9):3596-3604.
[11]牟晉娟.深度神經(jīng)網(wǎng)絡(luò)中激活函數(shù)的研究[J].電腦編程技巧與維護,2019(12):21.
[12]劉宇晴.一種新型自適應(yīng)神經(jīng)網(wǎng)絡(luò)激活函數(shù)用于深度學(xué)習研究[D].吉林:吉林大學(xué),2020.
[13]張益.基于卷積神經(jīng)網(wǎng)絡(luò)算法的海水循環(huán)冷卻污損生物分類模型[EB/OL].(2024-04-01)[2024-05-03].https://doi.org/10.19965/j.cnki.iwt.2023-1122.
[14]劉峰.融合神經(jīng)網(wǎng)絡(luò)和優(yōu)化算法的網(wǎng)絡(luò)安全態(tài)勢評估及預(yù)測模型研究[J].微型電腦應(yīng)用,2024(3):19-22.
[15]梁旭,王玲,趙書涵.基于殘差神經(jīng)網(wǎng)絡(luò)的雞蛋分類識別研究[J].河南農(nóng)業(yè)大學(xué)學(xué)報,2024(3):456-466.
Research on airport visibility prediction model
Abstract: In hazy weather, visibility detection methods based on image processing are still under continuous research, and the accuracy of visibility estimation is dependent on the accuracy of visibility estimation There is room for improvement. Based on big data, this paper improves VGG convolutional neural network to extract features of video data and uses Adam for algorithm optimization to fully mine surveillance video data information, so as to achieve the purpose of improving accuracy and reducing equipment cost. Compared with ResNet, this method makes full use of the spatio-temporal information of video data, and shows higher precision and accuracy in the prediction process. This study provides a reference for improving the effectiveness of airport visibility prediction.
Key words: visibility forecast; convolutional neural network; airport surveillance video