溫博閣
(大連交通大學,遼寧 大連 116028)
人工智能神經網絡,是一種模仿生物神經網絡結構和功能的數學模型,它的構筑理念是受到生物(人或其他動物)神經網絡功能的運作啟發(fā)而產生的。我們通過利用神經網絡的非線性變換的能力來處理原本只能依靠人類大腦判斷的問題,這種方法比起正式的邏輯學推理演算更具有優(yōu)勢。
借助于人工智能在邏輯推理、識別、控制方面的巨大優(yōu)勢,使用人工智能技術建設智慧鐵路正在成為鐵路現代化和高質量發(fā)展的演進形態(tài)和重要標志。我國擁有世界上最龐大的高速鐵路網絡和服務最廣大群體的鐵路管理和服務體系,推動智能鐵路發(fā)展有利于全面提高我國超大規(guī)模鐵路網運輸能力效率效益和建設管理服務水平。
智慧鐵路[1]運輸系統(tǒng)最為重要的組成部分是控制、感知。這幾個方面與人工智能在邏輯判斷、圖像識別、強化學習等研究方面相符合,使其可以廣泛應用于智慧鐵路的控制和感知等相關領域,尤其是作為智慧鐵路重點建設的目標:智能裝備和智能運維方面。這兩方面囊括了自動駕駛、智能控制與決策、故障診斷、故障預測與健康管理、先進感知技術大數據分析等各種依賴于人工智能的技術。這些技術的應用將實現重載鐵路移動裝備及基礎設施的自感知、自診斷、自決策、自適應、自修復;實現重載列車自動及協(xié)同運行;線路、通信信號、基礎設施的最佳使用狀態(tài)。
人工智能在智能駕駛方面的應用主要集中在兩個方向,圖像識別和強化學習。其中圖像識別主要應用方向是智能駕駛方面的輔助,其特點是根據圖像進行司機行為識別、路面情況識別、特殊情況識別等一切無法直接測量,或需要主觀判斷的識別技術。
為了判斷圖像信息,人工智能早期使用了多層感知機進行特征判斷,其特點是利用了全連接層直接對物體類別進行分類判斷。基本上的多層感知機都使用了3層結構:輸入層,隱藏層,輸出層。結構較為簡單,但是識別效率較低,增加隱藏層的層數會帶來較為明顯的計算開銷,判斷準確率卻不會帶來提升。為了提升人工智能性能,在2012年ImageNet的圖像分類大賽中,Alex首次在其使用的神經網絡 AlexNet引入了卷積神經網絡,并在當年取得了最好的成績,其利用了卷積的權重共享機制,成功將網絡深度增加到了 8層,自此奠定了卷積神經網絡在圖像識別領域的地位。隨后多種基于卷積的神經網絡方法不斷涌現,直到VGG-19的誕生,人們意識到隨著神經網絡層數的增加,網絡的準確率會不升反降,這種情況被稱為深度模型的退化。其本質是神經網絡的非線性變換導致多層迭代后失去了恒等映射。自此無限增加網絡層數進而提高網絡表現的方法失效了。
為了解決這個問題,2015年 He-Kaiming提出的 ResNet[2]結構,因為深層的網絡已經很難擬合潛在的恒等映射函數(即深層退化)H(x)=x,那么通過將恒等映射作為網絡的一部分來把深層網絡轉化為淺層網絡即H(x)=F(x)+x。通過這種方式將問題轉化為學習一個殘差函數,并且實驗證明了擬合殘差要比擬合恒等映射要容易的多。
經過了殘差網絡后神經網絡可以有效的提升網絡深度,由當時VGG-19的19層一舉突破到了ResNet的101層。由于深層神經網絡對于特征提取的能力,以往僅僅被用于處理分類的網絡終于開始輸出更為復雜的結果。由此衍生出了各種應用,包括目標追蹤、多目標追蹤、物體定位、圖像分割、時序行為識別等。對于目標追蹤方面,基于 Siam雙分支結構可以有效的對目標物體的追蹤,可以應用于人物軌跡追蹤、貨物軌跡追蹤、手勢軌跡追蹤等。時序行為識別則利用了多層可分離卷積感受時序信息,結合卷積網絡提取的特征對時序行為進行判斷。從圖像識別發(fā)展路線上來看,網絡結構由淺到深,進而由深變寬,未來的網絡結構大概率不會繼續(xù)加深而是增加多個分支網絡結構,如超精細圖像分支用于提高輸出維度等。各網絡層數變化表1所示。
表1 卷積網絡結構Tab.1 Convolution network structure
基于上文所述,在智能駕駛輔助方面,對于異物入侵可以采用Yolo進行多目標識別,這將幫助司機定位出現在其駕駛盲區(qū)的突發(fā)事件。在司機行為監(jiān)控方面,可以利用 SiamMask進行肢體動作追蹤,同時利用 TSM 對于時序動作進行識別,可以有效檢測司機執(zhí)行動作的準確性。
強化學習[3]可以對環(huán)境做出相應的對策,因此其被應用于自動駕駛領域。相比較于汽車的自動駕駛,需要對自己的運行軌跡預測,同時考慮汽車自身周圍數米內人,車的預測軌跡,并作出最優(yōu)的決策避免出現事故。軌道交通領域所需考慮的場景則較為簡單,因其所處環(huán)境較為獨立,周圍環(huán)境干擾較小,因此是較為合適的應用強化學習的領域,除此之外強化學習所學習到的策略是可以超過人類水平的,這相比于目前的LKJ輔助駕駛[4]或者自動虛擬編組技術這種依靠人工指定的操作順序來控制的方法來說,其上限更高。強化學習輸出的列車控制策略理論上可以有更快的運行速度,更低的能源消耗,對列車運行間車鉤力最小化的能力,這將有效的提高整體運行的效率。
強化學習的本質是采用博弈方法來學習策略,當然這種博弈的方式也可以使用自博弈來進行,著名的 AlphaZero就是采用了自博弈的方式來進行的圍棋學習,其學習的效果超過了其初代版本AlphaGO(該版本使用了學習人類棋譜的能力來構筑博弈策略)。目前針對強化學習,多采用了多智能體學習方法,并且設計了若干策略池來連續(xù)的學習策略和對可能情況的反制策略。其中最著名的是 2019年發(fā)表于Nature上并作為封面的AlphaStar,該方法也代表了強化學習的最高水平。
強化學習本身也使用了多種網絡結構相互結合。例如在實際駕駛過程中,因環(huán)境要素較為復雜,感知環(huán)境的部分一般交由圖像識別網絡進行,例如YOLO可以有效的對出現在圖像中的物體進行定位并分類,對于傳感器反饋的數據也多采用自然語言處理的方式進行特征提取,強化學習更多的以這些網絡提取后的特征作為基礎,利用這些信息進行決策。并且強化學習本身可以與現有的自動駕駛規(guī)則相融合,可以只用來解決各種不適用于規(guī)則范圍內的場景或極端問題。對于這些極端問題,多智能體將一個復雜問題分解為多個子問題,通過這種方式將短期獎勵分解為長期獎勵分配,這更有利于結構化搜索和遷移學習,同時多智能體也降低了每個網絡的復雜程度。提升學習速度,降低不收斂的可能。總的來說,強化學習目前還在不斷發(fā)展過程中,新的概念不斷涌現,其對于復雜環(huán)境的感知和決策能力在逐步提升。從這幾年公布的研究成果來看,科研界越來越重視強化學習與多種網絡結合的端到端的解決方案。
自然語言[5]識別字面上看只能夠處理語言相關的問題,但其根本的定義是處理時序相關的數據。這種處理方法得名稱來源于早期人工智能處理不同數據類型時的分類。圖片類的靜態(tài)數據被稱為圖像識別,時序相關的簡單問題一般涉及到語言,所以被稱為自然語言處理。目前自然語言處理的方法已經在涉及到了關于時序信息處理的方方面面,從語言到傳感器數據,甚至視頻動作識別都有涉及。
自然語言識別基礎模型是循環(huán)神經網絡,其特點是每次輸入都結合了上一次輸出的結果與這一次輸入的結果相結合,這給了循環(huán)神經網絡感知連續(xù)的時序信息的能力,可以有效的將上下文的信息進行處理。當然其面臨兩個問題,第一個是傳輸效率問題。第二個就是傳遞距離問題,即過長的輸入會導致循環(huán)神經網絡快速遺忘之前的輸入。對于其改進型長短時記憶網絡則利用了關鍵的遺忘門來控制其對與之前輸入的遺忘程度,進而得到了較為不錯的長期記憶能力。之后誕生了重要的Attention結構,其核心是構造一個N進N出得網絡結構。接收整個時序得連續(xù)數據作為輸入,然后為每個輸入都做出一個輸出。但是與循環(huán)神經網絡不同的是,Attention結構能夠同時處理輸入中的所有信息,并且任意兩個信息之間的操作距離都是 1,這么一來就很好地解決了上面提到的循環(huán)神經網絡的效率問題和距離問題。
這種基于Attention計算的結構最早是由谷歌與2017年提出,并將這種網絡命名為Transformer網絡,其過程就是為連續(xù)輸入得每一個輸入本身做一次Attention。算出其他輸入對于這個輸入的權重,然后將這個輸入表示為所有輸入的加權和。同樣得,為了增加Transformer網絡的深度,在自然語言識別中也引入了圖像識別中得殘差網絡結構,將每一層得輸入于其標準化后得輸入出相加,進而湊成一個殘差結構擬合恒等映射。由于Transformer網絡中既不存在循環(huán)神經網絡,也不同于卷積神經網絡,一段連續(xù)輸入里的所有輸入都被同等的看待,所以時序輸入之間就沒有了先后關系。為了解決這個問題,Transformer提出了輸入向量方案,就是給每個輸入疊加一個固定的向量來表示它的位置然后針對每一列都疊加上一個相位不同或波長逐漸增大的波,以此來唯一區(qū)分位置。
很明顯得是輸入向量會隨著處理問題得逐漸復雜化而維度逐漸提高。例如要求其推理能力根據前后時序判斷其未來可能得輸出結構,或者相似度判斷等。基于此,需要一個更為通用化得模型來處理越來越復雜得輸入向量空間維度得增長。于是在2018年OpenAI提出了基于Transformer得大型網絡結構GPT模型。在增加了網絡深度得基礎上主要解決了大量無標記數據的訓練問題,精簡化網絡結構,使用了單向得 Transformer網絡,使得網絡只會關注當前輸入之前的信息,這為在線預測打下了基礎。同一時期谷歌也提出了基于Transformer的改進模型BERT[6]其與GPT最大不同在于可以利用雙向輸入去進行預測,這對于準確度有了很大得提高,但是也杜絕了一部分在線實時得應用場景。在2020年5月OpenAI提出了最新的GPT-3模型,其輸入已經包括了人機問答,數學推理,畫圖,制表,玩游戲,寫代碼等方方面面,可以說是目前為止最為全能的AI,對于任何時序數據上得推理,其能力已經較為接近于人類。但這一切是建立在其網絡包含了1750億參數才可以實現的,可以發(fā)現整個自然語言處理得演化進程就是不斷增加網絡深度,使其可以更加智能得推理和判斷。各網絡演進如表2所示。
表2 自然語言處理網絡結構Tab.2 Natural language processing network architecture
如上文所示,自然語言處理方面的網絡結構越來越深,其參數量也水漲船高。更高維度得參數量可以有效得識別更為龐大的輸入向量,使得其可以理解輸入之間更為深層次的聯(lián)系,進而得到其推理的結果。從智能運維的角度上來說,自然語言處理網絡可應用得場景十分廣泛。早期得PHM[7]系統(tǒng)中的專家診斷模塊就是簡單的利用了專家知識建模得到的,隨著列車系統(tǒng)得逐漸復雜化,越來越多得故障沒有辦法簡單建模得到,因為其形成機理中涉及到多個部件或零件間的運轉關系,所反映出來得傳感器信號與其單一運轉時不同,這使得傳統(tǒng)的故障模型建立往往難以對真實情況做出反應,只能在實驗室級別取得成果,無法真正轉化為實際應用。而對于多個部件間復雜的耦合關系又無法準確得通過理論解算,所以該問題一直難以處理。隨著高維度超大網絡的時序處理神經網絡得誕生,這一切問題都可以得到一種新的解決方案,從GPT-3中可以發(fā)現對于超大網絡,其捕捉信息得能力已經提高了幾個量級,脫離了人工標注得范圍,可以無監(jiān)督學習。這將極大的降低在訓練時人工標注的時間開銷。一個超大網絡可以有效的統(tǒng)合各類信息,并給出相應的推理結果。另一方面對于一些關鍵零部件,可以部署多個小型Transformer型網絡,對其健康數據記錄,學習,對關鍵零部件全壽命周期進行預測。
本文梳理了人工智能三大領域:圖像識別,自然語言處理和強化學習最新的研究進展,并且分析其演化方向,預測未來的發(fā)展方向。結合軌道交通領域實際應用情況,對自動駕駛,智能運維等相關領域可以改進的方向進行分析,并提出了可以借鑒使用的領域方向等。