譚剛林 長沙民政職業(yè)技術(shù)學(xué)院
2015 年,國家提出“中國制造2025”的國家戰(zhàn)略,制造業(yè)的產(chǎn)業(yè)升級已經(jīng)成為大勢所趨。智能物流作為智能制造的一個重要組成部分,受到越來越多的關(guān) 注,AGV物流運(yùn)輸車作為智能物流的核心環(huán)節(jié),也成為國內(nèi)外眾多廠商角逐發(fā)力的重點,未來中國將成為機(jī)器人和物流設(shè)備自動化的主要市場。從圖2中可以看出我國AGV市場規(guī)模在迅速擴(kuò)大,AGV在“中國制造2025”中扮演越來越重要的角色。
隨著深度學(xué)習(xí)的技術(shù)進(jìn)步,深度學(xué)習(xí)已在語音識別、自然語言處理、計算機(jī)視覺、圖像與視頻分析、多媒體等諸多領(lǐng)域的應(yīng)用取得了巨大成功。深度學(xué)習(xí)作為目標(biāo)檢測已成為一個主流的研究方向,可以通過端到端訓(xùn)練自動學(xué)習(xí)任務(wù),實現(xiàn)多層的非線性變換,獲取圖像高層抽象描述。
全國職業(yè)院校技能大賽是中華人民共和國教育部發(fā)起,聯(lián)合國務(wù)院有關(guān)部門、行業(yè)和地方共同舉辦的一項年度全國性職業(yè)教育學(xué)生競賽活動。為充分展示職業(yè)教育改革發(fā)展的豐碩成果,集中展現(xiàn)職業(yè)院校師生的風(fēng)采,努力營造全社會關(guān)心、支持職業(yè)教育發(fā)展的良好氛圍,促進(jìn)職業(yè)院校與行業(yè)企業(yè)的產(chǎn)教結(jié)合,更好地為中國經(jīng)濟(jì)建設(shè)和社會發(fā)展服務(wù)。是專業(yè)覆蓋面最廣、參賽選手最多、社會影響最大、聯(lián)合主辦部門最全的國家級職業(yè)院校技能賽事。
全國職業(yè)院校技能大賽“嵌入式技術(shù)應(yīng)用開發(fā)”賽項是集單片機(jī)技術(shù)、傳感器技術(shù)、嵌入式技術(shù)、無線通信技術(shù)、語音識別、圖像處理、Android智能設(shè)備與控制技術(shù)于一體的綜合性賽項,賽項重點考察軟、硬件結(jié)合,可充分培養(yǎng)學(xué)生對嵌入式相關(guān)技術(shù)的綜合應(yīng)用能力。
深度學(xué)習(xí)根據(jù)其解決問題、應(yīng)用領(lǐng)域的不同分為多種深度神經(jīng)網(wǎng)絡(luò)模型。目前較為熱門的是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和 深 度 置 信 網(wǎng) 絡(luò)(Deep Belief Networks,DBN)。深度置信網(wǎng)絡(luò)DBN是一種貪婪的逐層學(xué)習(xí)的算法,可以使深度置信網(wǎng)絡(luò)的權(quán)重達(dá)到最優(yōu)化。DBN由若干層神經(jīng)元組成,其組成元件是限制玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)。 RBM是一種神經(jīng)感知器,有兩層網(wǎng)絡(luò)組成,一層叫“顯層(”visible layer),用于輸入訓(xùn)練數(shù)據(jù)。一層叫“隱層”(hidden layer),用于做特征檢測器。 將若干個RBM進(jìn)行“串聯(lián)”,則上一個RBM的隱層即為下一個RBM的顯層,上一個RBM的輸出即為下一個RBM 的輸入。
卷積神經(jīng)網(wǎng)絡(luò)CNN是一種熱門的深層深度學(xué)習(xí)模型,卷積神經(jīng)網(wǎng)絡(luò)核心的關(guān)鍵思想是局部連接、權(quán)值共享、池化和多層堆疊。權(quán)值共享是CNN相較于其他模型具有獨特優(yōu)越性的關(guān)鍵。它減少了神經(jīng)網(wǎng)絡(luò)中參數(shù)的個數(shù),從而降低了網(wǎng)絡(luò)的復(fù)雜度,使其更類似現(xiàn)實的生物神經(jīng)網(wǎng)絡(luò)。CNN模型一般來說含有三個部分:卷積層、池化、全連接層。卷積層中神經(jīng)網(wǎng)絡(luò)不再對圖片中的每個像素對處理,而是通過一個濾波器(即卷積核)對圖片中每一小塊像素區(qū)域進(jìn)行掃描,提取局部特征和其位置關(guān)系。在獲取了這些特征后,再進(jìn)一步對這些特征進(jìn)行分類。
本課題將CNN和DBN兩種深度學(xué)習(xí)模型應(yīng)用到AGV的視覺導(dǎo)引中,對比兩種模型的應(yīng)用效果,確定一種優(yōu)化后的網(wǎng)絡(luò)結(jié)構(gòu)模型,提高AGV視覺識別的準(zhǔn)確性和抗干擾能力。
圖像識別是深度學(xué)習(xí)最早嘗試的應(yīng)用領(lǐng)域。早在1989年,LeCun和他的同事發(fā)表了卷積神經(jīng)網(wǎng)絡(luò)。在很長時間里,CNN雖然在小規(guī)模的問題上,比如說手寫數(shù)字,取得當(dāng)時世界最好的結(jié)果,但一直沒有取得巨大成功。主要原因是CNN在大規(guī)模圖像上效果不好,比如像素很多的自然圖片內(nèi)容理解,所以沒有得到計算機(jī)視覺領(lǐng)域的足夠重視。這種情況一直持續(xù)到2012年10月,Hinton和他的兩個學(xué)生在著名的ImageNet問題上,用更深的CNN取得世界最好結(jié)果,使得圖像識別大踏步前進(jìn)。在Hinton的模型里,輸入就是圖像的像素,沒有用到任何的人工特征。為什么在之前沒有發(fā)生?原因當(dāng)然包括算法的提升,比如dropout 等防止過擬合技術(shù),但最重要的是GPU帶來的計算能力提升和更多的訓(xùn)練數(shù)據(jù)。2012年,百度將深度學(xué)習(xí)技術(shù)成功應(yīng)用于自然圖像OCR識別和人臉識別等問題上,并推出相應(yīng)的桌面和移動搜索產(chǎn)品。2013年,深度學(xué)習(xí)模型被成功應(yīng)用于一般圖片的識別和理解。深度學(xué)習(xí)應(yīng)用于圖像識別不但大大提升了準(zhǔn)確性,而且避免了人工特征抽取的時間消耗,從而大大提高了在線計算效率。深度學(xué)習(xí)將取代人工特征加機(jī)器學(xué)習(xí)的方法,逐漸成為主流圖像識別方法。
圖1為競賽需要識別的圖像。由于圖像旋轉(zhuǎn)角度不一致,加大了識別難度,不能采用傳統(tǒng)的圖像分割來進(jìn)行識別。為了增加競賽難度,拉開隊伍的競賽成績,2017年識別的圖像中又增加了星形,難度就更大了。
只要圖像是規(guī)則的,理論上來說傳統(tǒng)的識別方法還是可以很好地完成識別任務(wù)的,但實際情況并不如此,因為競賽場所的光線強(qiáng)弱不同及干擾,拍出來的圖片達(dá)不到理想的識別效果。采用卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行深度學(xué)習(xí)處理,處理后結(jié)果比傳統(tǒng)的方法準(zhǔn)確率提高了20%。
深度學(xué)習(xí)所運(yùn)用的知識遠(yuǎn)遠(yuǎn)超出高等職業(yè)院校的教學(xué)范疇,學(xué)生難以理解接收,怎樣將深度學(xué)習(xí)模型模塊化,學(xué)生直接調(diào)用,是后期加強(qiáng)和繼續(xù)研究的方向。采用CNN學(xué)習(xí)模型,準(zhǔn)確率還達(dá)不到理想的效果,更達(dá)不到商用的要求。深度學(xué)習(xí)技術(shù)在日新月異地演進(jìn)、提高,深度學(xué)習(xí)在機(jī)器學(xué)習(xí)上會處于主導(dǎo)地位。