聶振海 賈丹
摘 要:基于“深度神經(jīng)網(wǎng)絡(luò)”(DNN,深層神經(jīng)網(wǎng)絡(luò))的機器學(xué)習(xí)模型,已在語音識別、圖像識別和自然語言處理領(lǐng)域取得突破進展。深度學(xué)習(xí)極大地拓展了機器學(xué)習(xí)研究領(lǐng)域,并推動人工智能技術(shù)取得迅猛發(fā)展。深度學(xué)習(xí)通過多層人工神經(jīng)網(wǎng)絡(luò),從大量的訓(xùn)練數(shù)據(jù)集中無監(jiān)督學(xué)習(xí),不斷地歸納總結(jié)并可對新的數(shù)據(jù)樣本做出智能識別和準確預(yù)測。
關(guān)鍵詞:深度學(xué)習(xí) ?人工神經(jīng)網(wǎng)絡(luò) ?機器學(xué)習(xí)
中圖分類號:TP181 ? ? ? ? 文獻標識碼:A 文章編號:1674-098X(2015)10(c)-0224-02
20世紀80年代末,人工神經(jīng)網(wǎng)絡(luò)反向傳播算法(BP,反向傳播)發(fā)明,極大地擴展了機器學(xué)習(xí)的研究基礎(chǔ),繼而推進基于統(tǒng)計模型的機器學(xué)習(xí)范疇。BP算法允許使用的人工神經(jīng)網(wǎng)絡(luò)模型,從大量的統(tǒng)計規(guī)律,預(yù)測未知事件的訓(xùn)練樣本的學(xué)習(xí)。根據(jù)對比的實驗結(jié)果,基于人工規(guī)則的統(tǒng)計模型機器學(xué)習(xí)方法,結(jié)果表明具有相對優(yōu)越性?;谌斯ど窠?jīng)網(wǎng)絡(luò)BP算法,雖然被稱為多層感知器,但仍然是一個淺層的模型,只具有一個隱藏層節(jié)點。90年代以來,眾多基于淺層模型的機器學(xué)習(xí)算法應(yīng)運而生,如,支持向量機(SVM),Boosting,最大熵法(LR)等。這些模型的結(jié)構(gòu)通常只包含一個隱層節(jié)點(SVM,Boosting),或者不隱藏節(jié)點(LR)。在學(xué)術(shù)研究和工業(yè)應(yīng)用中證明:這些機器學(xué)習(xí)模型是一個巨大的成功。自2000年以來,隨著IT行業(yè)的蓬勃發(fā)展,智能分析和大數(shù)據(jù)預(yù)測的技術(shù)在互聯(lián)網(wǎng)領(lǐng)域呈現(xiàn)出巨大的市場需求,基于淺層模型的機器學(xué)習(xí)算法獲得不斷應(yīng)用推廣。如,移動應(yīng)用平臺的搜索廣告系統(tǒng),谷歌的AdWords廣告的點擊率估算,網(wǎng)絡(luò)搜索排序(如雅虎和Bing搜索引擎),垃圾郵件過濾系統(tǒng),社交媒體上的推薦系統(tǒng)內(nèi)容推廣。
傳統(tǒng)的機器學(xué)習(xí)模式是通過監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),人工控制采樣數(shù)據(jù)集的特征,淺層機器學(xué)習(xí)模型主要負責(zé)特征分類或預(yù)測。當(dāng)基于統(tǒng)計模型的特征提取時,特征提取的好壞將成為決定整個系統(tǒng)性能優(yōu)劣的關(guān)鍵因素。深度學(xué)習(xí)對機器學(xué)習(xí)模型和大量的訓(xùn)練數(shù)據(jù)的本質(zhì)不同在于,即通過有許多隱藏的多層神經(jīng)網(wǎng)絡(luò)中無監(jiān)督學(xué)習(xí)出更多隱含的特征,從而提高對數(shù)據(jù)集的分類或預(yù)測的準確性。深度學(xué)習(xí)模式不同于傳統(tǒng)的淺層學(xué)習(xí)模型:(1)機器模型結(jié)構(gòu)往往多于1層,通常有5層并隱含多層節(jié)點;(2)強調(diào)無監(jiān)督學(xué)習(xí),通過逐層功能的重要性變換映射出樣品從原來特征空間改造成一個新的特征空間表示,使得分類或預(yù)測變得容易實現(xiàn)。利用大數(shù)據(jù)的特點來機器學(xué)習(xí),闡明了基于深度學(xué)習(xí)的方法對比基于人工特征提取規(guī)則的傳統(tǒng)淺層機器學(xué)習(xí)方法,更能深刻揭示出數(shù)據(jù)背后所隱含的豐富信息。
支持深度學(xué)習(xí)的基礎(chǔ),是因為人類大腦系統(tǒng)確實含有豐富的層次。2006年,多倫多大學(xué)的杰弗里·辛頓教授發(fā)表了1篇文章,介紹了傳統(tǒng)機器學(xué)習(xí)的突破,即深度學(xué)習(xí)。(1)基于人工神經(jīng)網(wǎng)絡(luò)隱層的學(xué)習(xí)能力優(yōu)異的特性,無監(jiān)督學(xué)習(xí)更能深刻獲取大數(shù)據(jù)的隱含信息,從而方便地對數(shù)據(jù)進行可視化或分類處理;(2)深度學(xué)習(xí)的難度可以通過無監(jiān)督學(xué)習(xí)“逐層初始化”有效地克服。谷歌、Facebook等大數(shù)據(jù)頂尖的IT企業(yè)現(xiàn)在廣泛深入的進入深度學(xué)習(xí)研究領(lǐng)域,在大數(shù)據(jù)時代,更復(fù)雜,更強大的模型往往更深刻地揭示出豐富的數(shù)據(jù)信息內(nèi)涵,并對未來或未知事件作出更準確的預(yù)測。
1 語音識別
在語音識別領(lǐng)域,深度學(xué)習(xí)面臨的問題是海量數(shù)據(jù)信息處理問題。在其聲學(xué)建模部分,它通常面對10億級別以上的訓(xùn)練樣本。谷歌語音識別的研究小組發(fā)現(xiàn),比對訓(xùn)練DNN預(yù)測誤差和測試大致相等的樣本之后,預(yù)測誤差對訓(xùn)練樣本的通常模式將顯著小于測試樣品。由于大量的數(shù)據(jù)包含了豐富的信息層面,DNN大容量復(fù)雜的模型也是欠擬合狀態(tài)。
傳統(tǒng)的語音識別系統(tǒng),基于統(tǒng)計概率模型對每個建模單元描述時,大多采用高斯混合模型(GMM)。這種模式適用于大量數(shù)據(jù)的訓(xùn)練,成熟的區(qū)分度技術(shù)支持。但是高斯混合模型本質(zhì)上是一種淺層網(wǎng)絡(luò)建模,不能完全描述出空間分布特性的狀態(tài)。GMM建模特征尺寸通常為幾十維,不能充分地描述特征之間的相關(guān)性。最后,GMM模型本質(zhì)上是一種可能性的概率模型,雖然區(qū)分度訓(xùn)練可以模擬并將一般模式類區(qū)分開來,但效果一般?;谏窠?jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)深入徹底改變了原來的語音識別技術(shù)框架?;谏窠?jīng)網(wǎng)絡(luò)的深度可以充分地描述特征之間的相關(guān)性,它將語音設(shè)有多個連續(xù)的幀,多幀并在一起,構(gòu)成一個高維特征,神經(jīng)網(wǎng)絡(luò)的最終深度可用于模擬高維特征的訓(xùn)練。由于使用人腦的多層神經(jīng)網(wǎng)絡(luò)的仿真結(jié)果的深度,可以進行逐步信息特征提取,最終形成理想模式的分類特征。其具體使用方法如下:在實際解碼處理中,使用傳統(tǒng)的統(tǒng)計語言模型,解碼器使用常規(guī)的動態(tài)WFST譯碼器,采用傳統(tǒng)的HMM聲學(xué)模型的模型語音模型。當(dāng)聲音輸出分布模型計算,完全與神經(jīng)網(wǎng)絡(luò)的后驗概率乘以先驗概??率后輸出,以取代傳統(tǒng)的HMM模型輸出GMM的可能性概率。2011年,使用DNN技術(shù)的微軟語音識別研究組,相對于傳統(tǒng)的GMM語音識別系統(tǒng),執(zhí)行一個語音模型的語音識別系統(tǒng),其相對誤差的識別率下降25%,是語音識別領(lǐng)域的重大突破。
2 圖像識別
1989年,紐約大學(xué)教授揚·LeCun公布的卷積神經(jīng)網(wǎng)絡(luò)CNN的研究。CNN具有一個卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與深度,通常至少兩個非線性卷積層可訓(xùn)練,兩個非線性固定卷積層(池層)和一個完整的連接層,總共至少5個隱藏層。 CNN的結(jié)構(gòu)的靈感來自于著名的胡貝爾-威塞爾生物視覺模型,特別是模擬視皮層簡單細胞V1和V2復(fù)雜的細胞行為層。一段時間以來,CNN雖然對規(guī)模小的問題有比較好的效果,但對大規(guī)模高像素的圖像識別,如,高清晰度的自然圖像內(nèi)容的理解效果并不理想。2012年,杰弗里·辛頓在著名的ImageNet問題,利用更深層次的CNN獲得出更好的結(jié)果,并將錯誤率的評測從26%降低到15%。辛頓的模型,該輸入圖像的像素是不介入任何人工特征提取干預(yù)。識別效率變得優(yōu)異的部分原因是因為優(yōu)化的算法,從而防止過度擬合技術(shù),同時受益于硬件帶來GPU計算能力的提升和更多的訓(xùn)練數(shù)據(jù)集。深入學(xué)習(xí)將取代“人工特點+機器學(xué)習(xí)”的傳統(tǒng)模型,逐漸成為圖像識別的主流方法。
3 自然語言處理
深度學(xué)習(xí)的另一個應(yīng)用領(lǐng)域是自然語言處理(NLP)。加拿大蒙特利爾大學(xué)Yoshua Bengio教授,提議將詞映射到一個矢量表示空間用Embedding方法,然后用非線性神經(jīng)網(wǎng)絡(luò)模型來表示。在2008年,工業(yè)界成功使用結(jié)構(gòu)化和多維卷積解決嵌入詞性標注,組塊,命名實體識別,語義角色標注四種典型的NLP問題。相較于聲音和圖像,語言是人類獨有的創(chuàng)造性成果,全部符號的生成通過人類的大腦處理系統(tǒng),但人工神經(jīng)網(wǎng)絡(luò)模擬人腦的結(jié)構(gòu),在處理自然語言沒有顯示出明顯的優(yōu)勢。深度學(xué)習(xí)在自然語言處理方面廣泛的擴展空間。
在大數(shù)據(jù)時代,深度學(xué)習(xí)已經(jīng)推進機器學(xué)習(xí)研究的快速發(fā)展,引起學(xué)術(shù)界和工業(yè)界的充分重視。在實際應(yīng)用中,深度學(xué)習(xí)已經(jīng)在語音識別,圖像識別與自然語言處理方面取得了顯著的進步,從而促進人工智能的不斷發(fā)展。
參考文獻
[1] LeCun,Y.,Bengio,Y.and Hinton,G.E.(2015).Deep Learning.Nature,2015,521:436-444.
[2] Hinton,G.E.,Osindero,S.and Teh,Y.fast learning algorithm for deep belief nets[J].Neural Computation,2006(98):1527-1554.
[3] Hinton,G.E.and Salakhutdinov,R.R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(28):504-507.