朱芯鴻 王虹力 陳黎茜 王孜 張治勇
摘?要:在科技發(fā)展快速的現(xiàn)代社會,將技術(shù)與傳統(tǒng)產(chǎn)業(yè)鏈結(jié)合是必然趨勢。在工業(yè)視覺領(lǐng)域應(yīng)用深度學(xué)習(xí)的案例及其常見。但是短時間內(nèi)基本的深度學(xué)習(xí)相關(guān)方法不會有大突破。大多數(shù)企業(yè)在利用傳統(tǒng)特征圖像算法在進(jìn)行很簡單的圖像識別、查找、比對等基礎(chǔ)工作,同時輔助相關(guān)設(shè)備會把握量度實現(xiàn)其檢測異常等相關(guān)功能。本文將基于深度學(xué)習(xí)的機(jī)器視覺技術(shù)分析在工業(yè)領(lǐng)域中的系列應(yīng)用,僅供讀者參考。
關(guān)鍵詞:深度學(xué)習(xí);機(jī)器視覺;工業(yè)
引言:
深度學(xué)習(xí)近乎成了計算機(jī)視研究及應(yīng)用的標(biāo)配。人臉識別、視頻識別、視頻識別、行人檢測、圖像識別、大規(guī)模場景的識別的有關(guān)論文大多提及到深度學(xué)習(xí)。深度學(xué)習(xí)相比于其他的AI實現(xiàn)方法,是一副碾壓的姿態(tài)。同時在工業(yè)領(lǐng)域,計算機(jī)視覺應(yīng)用積極廣泛,而計算機(jī)視覺又離不開深度學(xué)習(xí)。
1.深度學(xué)習(xí)概述
深度學(xué)習(xí)通過建立,模擬人腦的分層結(jié)構(gòu)來實現(xiàn)對外部輸入的數(shù)據(jù)進(jìn)行從低級到高級的特征提取,從而能夠解釋外部數(shù)據(jù)。[1]作者認(rèn)為深度學(xué)習(xí)主要是多層神經(jīng)網(wǎng)絡(luò)。目前,多層神經(jīng)網(wǎng)絡(luò)效果最佳的就是卷積神經(jīng)網(wǎng)絡(luò)。它雖然在自然語言處理大模塊中沒有體現(xiàn)出來,但它在音頻和圖像信號效果極佳。從統(tǒng)計學(xué)的角度來講,深度學(xué)習(xí)就是預(yù)通過系列特征點,預(yù)測數(shù)據(jù)的分布,甚至可以說是預(yù)測成一個具有特征的函數(shù)分布圖像。然后在通過這樣一個本身構(gòu)造的模型去預(yù)測新的數(shù)據(jù),要求是訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)是同類分布。
定義深度學(xué)習(xí)模型,是為了解決以下的問題:
1)激活函數(shù),對應(yīng)神經(jīng)元的激活值。一般的有 tanh、logistic、以及ReLU。
2)代價函數(shù)。代價函數(shù)大多采用歐式距離,也就是優(yōu)化問題。
3)優(yōu)化策略。最簡單的辦法就是梯度下降。
深度學(xué)習(xí)本質(zhì)就是機(jī)器學(xué)習(xí),它可以自動的學(xué)習(xí)特征,因為算法可以通過不斷迭代自動認(rèn)知并學(xué)習(xí)物體特征。
2.機(jī)器視覺技術(shù)的分析
機(jī)器視覺主要研究用計算機(jī)來模擬人的視覺功能從客觀事物的圖像中提取信息,進(jìn)行處理并加以理解,最終用于實際檢測,測量和控制。[2]它嚴(yán)重依賴于數(shù)據(jù)。因為不僅需要海量的數(shù)據(jù)組成數(shù)據(jù)庫,更需要平衡的數(shù)據(jù),令在特定場景下的所有數(shù)據(jù)是平均分布的。這就需要不斷地采集、標(biāo)注以及清洗,做好數(shù)據(jù)優(yōu)化和管理。
2.1圖像處理
圖像處理及視頻處理本身就是是大多數(shù)工業(yè)產(chǎn)品的基礎(chǔ),例如手機(jī)電視攝像頭等,隨著芯片的集成度越高,愈發(fā)離不開此技術(shù)。圖像處理本質(zhì)上就是在一定假設(shè)條件下的信號重建。這并非3d重建,而是指類似噪聲的原始信息,進(jìn)行相關(guān)信號處理。對于特征物體進(jìn)行去噪、去霧、去模糊、去鬼影等系列操作,并利用特定圖像濾波器生成具有特征的高頻分量。最后進(jìn)行恢復(fù)和著色,形成固定的框架模型。
2.2計算機(jī)視覺的預(yù)處理
計算機(jī)視覺需要采取特征,提取包括提取特征點,邊緣輪廓之類的圖像預(yù)處理。做這樣類似的處理時也不能放過細(xì)節(jié),因為細(xì)節(jié)會被過強的圖像線條掩蓋。一般操作是進(jìn)行特征提取、邊緣提取、進(jìn)行特征匹配。
2.3機(jī)器視覺的高層:環(huán)境理解
首先是進(jìn)行語義分割,利用特征分割演變成各類模型。其次,進(jìn)行特征檢測,最有代表性的莫過于人臉識別。最后就是目標(biāo)跟蹤,可以用CNN或者RNN模型求解。
3.基于深度學(xué)習(xí)的機(jī)器視覺技術(shù)——四大應(yīng)用場景
3.1通行空間檢測
需求:對車輛的可行駛區(qū)域與未知邊界進(jìn)行劃分。
檢測難點:難以應(yīng)對復(fù)雜的類似十字路口、綠化帶、坑洼路面、水坑等障礙物邊界。
實現(xiàn)方案:利用相機(jī)標(biāo)定或自適應(yīng)地調(diào)整標(biāo)定參數(shù),利用車輛IMU信息獲得的俯仰角獲取信息。深度學(xué)習(xí)在當(dāng)中扮演的是特征描述的角色,在很多具有不同特征的網(wǎng)站當(dāng)中進(jìn)行數(shù)據(jù)挖掘,連接特征點,構(gòu)造相應(yīng)的模型。
3.2動態(tài)物體檢測
需求:對行人車輛等動態(tài)物體的準(zhǔn)確識別。
檢測難點:測距精度足夠準(zhǔn)、檢測類別多、多目標(biāo)追蹤難度大
實現(xiàn)方案:給出3Dbounding box,給出車的高度類似的信息,加入多目標(biāo)跟蹤算法,根據(jù)現(xiàn)實場景增加一些幾何約束條件,降低誤檢率,提高檢測率。動態(tài)物體檢測當(dāng)中的深度學(xué)習(xí),實質(zhì)上是在圖像描述和語言描述之間建立橋梁。幫助理解圖像,及深入分析問題的組成,構(gòu)造模型描述之間的交互過程。
3.3靜態(tài)物體檢測
需求:對交通標(biāo)志、交通紅綠燈等靜態(tài)物體進(jìn)行檢測識別。
難點:交通標(biāo)識和紅綠燈屬于小物體檢測,在照片和視頻占比的像素點極小,首先需要對紅綠燈進(jìn)行準(zhǔn)確識別才可以進(jìn)行下一步操作。
實現(xiàn)方案:通過數(shù)據(jù)集采集進(jìn)行標(biāo)簽處理,同時誘發(fā)檢測模型訓(xùn)練。利用部署好的算法,追蹤后端優(yōu)化,做好接口開發(fā)。
3.4車道線檢測
需求:對對各類車道線包括線性的顏色和減速線等特殊的車道線進(jìn)行檢測。
難點:線型種類多、路線復(fù)雜例如上下坡、彎曲的車道線、遠(yuǎn)端的車道線、等都會造成車道的擬合線難度較大。
實現(xiàn)方案:通過攝像頭的校正,使用滑動窗口、直方圖等擬合車道曲線,打好標(biāo)簽,選取輕量級網(wǎng)絡(luò),更好的配適結(jié)合車輛信息,做好航位推算。
結(jié)語:
深度學(xué)習(xí)目前相對其它AI實現(xiàn)方法占優(yōu)的4個特點:工程框架、算法通用、統(tǒng)一精度好、特征推廣性好。這應(yīng)該可以解釋深度學(xué)在AI界有舉足輕重地位的原因。工業(yè)檢測領(lǐng)域具有廣闊應(yīng)用前景,給機(jī)器視覺等相關(guān)領(lǐng)域奠定了基石。隨著算法、傳感器的進(jìn)步,生產(chǎn)標(biāo)準(zhǔn)化的推廣,會展現(xiàn)出極大的商業(yè)價值。
參考文獻(xiàn)
[1]?郭麗麗,丁世飛. 深度學(xué)習(xí)研究進(jìn)展[J]. 計算機(jī)科學(xué),2015,042(005):28-33.
[2]?段峰,王耀南,雷曉峰,等. 機(jī)器視覺技術(shù)及其應(yīng)用綜述[J]. 自動化博覽,2002,19(3):59-61.