高度專業(yè)化的計(jì)算機(jī)可以將周圍環(huán)境的景象勾勒成一幅圖像,但要達(dá)到人眼所能看到的畫面標(biāo)準(zhǔn)還需要對(duì)計(jì)算機(jī)進(jìn)行很長(zhǎng)時(shí)間的訓(xùn)練。
作為成年人,我們想當(dāng)然地認(rèn)為,用眼睛看東西是很自然的事情,自然得就像我們的呼吸一樣。其實(shí)不然,我們的雙眼要看清東西,需要長(zhǎng)期訓(xùn)練、掌握技巧才行。小孩子從小就本能地開始練習(xí)看的技巧,兩歲前喜歡凝視事物,讓眼睛聚焦觀察對(duì)象。一直到大約6歲時(shí),他們才能像成年人一樣,看清周圍的事物。同時(shí),他們還練習(xí)把眼睛看到的事物在腦子里形成3D圖像。其基本原理就像我們戴特制眼鏡看立體電影一樣,左右眼看到的影像略微有些差別,大腦從這些細(xì)微差別中感知遠(yuǎn)近距離信息,從而形成3D立體感。孩子們的眼睛和大腦就是這樣接受日常訓(xùn)練的,6歲左右已經(jīng)訓(xùn)練得接近成年人的水平了。計(jì)算機(jī)也一樣需要接受數(shù)年時(shí)間的學(xué)習(xí)和訓(xùn)練才能看明白周圍的環(huán)境。
計(jì)算機(jī)看世界要使用一款稱為神經(jīng)網(wǎng)絡(luò)的軟件程序,它是一種計(jì)算機(jī)圖像識(shí)別軟件。神經(jīng)網(wǎng)絡(luò)最早發(fā)表于1957年,當(dāng)時(shí),在天氣比較好的條件下,該軟件能夠識(shí)別樹林里經(jīng)過偽裝的坦克。目前,神經(jīng)網(wǎng)絡(luò)已經(jīng)可以識(shí)別人的面孔,實(shí)現(xiàn)圖片計(jì)算機(jī)自動(dòng)管理。只是,現(xiàn)在的神經(jīng)網(wǎng)絡(luò)還是固定代碼的應(yīng)用程序,不久的將來(lái),神經(jīng)網(wǎng)絡(luò)會(huì)自動(dòng)修改程序代碼,像小孩子一樣,在實(shí)際認(rèn)識(shí)過程中不斷發(fā)現(xiàn)錯(cuò)誤、改正錯(cuò)誤、提高識(shí)別能力。神經(jīng)網(wǎng)絡(luò)輸入的圖片越多,對(duì)圖片主要特征和觀察視角的把握就越接近我們?nèi)祟悺I窠?jīng)網(wǎng)絡(luò)已經(jīng)成為我們管理大量圖片的得力助手,能提供管理建議、進(jìn)行圖片歸類。盡管神經(jīng)網(wǎng)絡(luò)近年來(lái)發(fā)展很快,但還不能滿足廣泛復(fù)雜的應(yīng)用需求。
另外,人們給計(jì)算機(jī)配備多個(gè)傳感器,讓計(jì)算機(jī)能夠感知環(huán)境。多年前,微軟開啟了這個(gè)進(jìn)程,研發(fā)了游戲操縱使用的Kinect攝像機(jī)系統(tǒng)。該系統(tǒng)能感知游戲操作者的動(dòng)作?,F(xiàn)在,嵌入小巧的Google Project Tango平板電腦系統(tǒng)或英特爾新一代RealSense攝像單元的移動(dòng)設(shè)備具備了感知三維環(huán)境的能力。由于采用了RealSense攝像單元,戴爾Venue8 7000平板電腦能夠?qū)χ車h(huán)境生成立體影像。這是第一代RealSense攝像單元,名為R100,可為每張照片保存額外的空間信息。為此,該單元裝備了3個(gè)攝像頭,安放在一條直線上,彼此位置等距分開,同時(shí)拍攝。中間攝像頭拍攝實(shí)際影像,軟件算法查找左右兩個(gè)攝像頭所拍影像的相同點(diǎn)。自上而下的分析功能使用這些相同點(diǎn)來(lái)確定景物的遠(yuǎn)近,其數(shù)學(xué)基礎(chǔ)是三角測(cè)量原理(見右圖)。分析精度在1m以外是相當(dāng)精確的,但超過5m精度隨景物距離的增大而下降。這款戴爾平板電腦也可以測(cè)量?jī)蓚€(gè)物體之間的距離,還可以測(cè)量表面面積。業(yè)余建筑師和家庭裝修工不再需要拿卷尺測(cè)量計(jì)算裝修面積,只需用該平板電腦照張像,一切就可以搞定。
網(wǎng)格法測(cè)量空間
下一代RealSense攝像單元(R200)的測(cè)量精度將更高:使用紅外激光技術(shù),構(gòu)建測(cè)量網(wǎng)格,兩個(gè)紅外探頭接收這些點(diǎn)的測(cè)量數(shù)據(jù),軟件算法把這些點(diǎn)連成面,在屏幕上顯示景物遠(yuǎn)近立體圖像(見右圖)。例如,該軟件對(duì)人的臉孔構(gòu)建一個(gè)78點(diǎn)的測(cè)量網(wǎng)格,捕捉臉孔不同部位的深淺變化,借以紀(jì)錄人的表情:憤怒、快樂、沮喪。該軟件還能感知面部顏色的變化,測(cè)量人的心跳速率。將來(lái),移動(dòng)設(shè)備能夠感知機(jī)主和聊友們的心情,有了神經(jīng)網(wǎng)絡(luò),移動(dòng)設(shè)備對(duì)環(huán)境的感知能力將越來(lái)越強(qiáng)。
前述微軟的Kinect攝像機(jī)系統(tǒng)采用了英特爾RealSense攝像單元,即使選擇低分辨率,如320×240或360×480測(cè)量點(diǎn)網(wǎng)格,該系統(tǒng)需要記錄測(cè)量視頻,假如幀頻是每秒60幀,那么系統(tǒng)每秒需要執(zhí)行1 800萬(wàn)次與距離相關(guān)的運(yùn)算才不會(huì)丟失信息。為達(dá)到必要的網(wǎng)格測(cè)量精度,英特爾還要求攝像機(jī)必須緩慢移動(dòng),被測(cè)景物最好靜止不動(dòng)。這些使用要求表明,用于移動(dòng)設(shè)備的硬件性能還遠(yuǎn)不能滿足諸如全自動(dòng)駕駛的定位測(cè)量需求。另一個(gè)挑戰(zhàn)是RealSense攝像單元的體積如何縮小到能裝進(jìn)手機(jī)里。微軟公司的一個(gè)研發(fā)團(tuán)隊(duì)已經(jīng)找到縮小傳感器的方法,在攝像機(jī)鏡頭周圍安裝一圈紅外發(fā)光二極管(見右圖),因此,攝像機(jī)內(nèi)部的紅外濾波器就可以去掉,還能感應(yīng)這種特定波長(zhǎng)的光。Depth4Free系統(tǒng)能識(shí)別附近人的姿態(tài),但該系統(tǒng)不能用于空間測(cè)量。
Google的Project Tango平板電腦系統(tǒng)卻能勝任空間測(cè)量工作,而且相關(guān)的研發(fā)項(xiàng)目有望在2015年年底前找到嵌入客戶設(shè)備的方法。該系統(tǒng)計(jì)劃首次應(yīng)用于美國(guó)NASA(美國(guó)國(guó)家航空航天局)的SPHERES機(jī)器人。這些足球大小的機(jī)器人將在國(guó)際空間站內(nèi)飄來(lái)飄去,測(cè)量?jī)?nèi)部空間。
迄今為止,只有一款Google Tango平板電腦配置了類似RealSense的傳感器。另外,一個(gè)運(yùn)動(dòng)軌跡跟蹤系統(tǒng)也使用紅外測(cè)量技術(shù),拍下照片的同時(shí)還記錄系統(tǒng)所在位置。假如你在家里拿著該平板電腦走動(dòng),它在記錄行走路線的同時(shí),還能測(cè)量室內(nèi)空間。假如你再退回幾步,平板電腦將進(jìn)行數(shù)據(jù)同步操作,并發(fā)現(xiàn)它曾到過這個(gè)位置,很快,它就相當(dāng)熟悉家里的環(huán)境了。
人們做上述圖像識(shí)別和距離測(cè)量工作有什么意義呢?有現(xiàn)實(shí)意義,例如,預(yù)計(jì)幾年內(nèi),在計(jì)算機(jī)系統(tǒng)的控制下,全自動(dòng)駕駛汽車將會(huì)紛紛上路。這些車要在不斷變化的環(huán)境里找到行駛方向,需要配置多種傳感器。30m內(nèi)景物的距離,用前述立體攝像機(jī)來(lái)計(jì)算足夠精確了(見右上圖),它們能分辨道路和交通信號(hào)。但只能處理前方50°~60°的小視角范圍。全自動(dòng)駕駛汽車配置一個(gè)Li-DAR激光雷達(dá)系統(tǒng),能夠計(jì)算出周圍360°范圍內(nèi)景物的距離。這種雷達(dá)發(fā)射激光脈沖,測(cè)量激光從景物返回所需時(shí)間。在數(shù)百米范圍內(nèi),這種雷達(dá)測(cè)距的精度相當(dāng)高。然而,只測(cè)距對(duì)自動(dòng)駕駛來(lái)說還不夠,車載計(jì)算機(jī)必須把這些測(cè)量數(shù)據(jù)與一個(gè)詳細(xì)的、包含所在位置的三維地圖同步,還需要人行道位置、交通信號(hào)等信息,才能計(jì)算出行駛的路徑。另外,車載計(jì)算機(jī)必須辨別人、自行車或動(dòng)物,以便預(yù)測(cè)他們的移動(dòng)軌道。這些任務(wù)都將由神經(jīng)網(wǎng)絡(luò)來(lái)完成。
神經(jīng)網(wǎng)絡(luò)自我完善
神經(jīng)網(wǎng)絡(luò)回答“什么時(shí)候一匹馬確實(shí)是一匹馬?”之類的問題。為此,神經(jīng)網(wǎng)絡(luò)要讀入大量的有關(guān)馬的圖片,從中過濾出馬的可用于識(shí)別的特征,如鬃毛、尾巴、鼻子、腿和蹄子。假如研究人員訓(xùn)練神經(jīng)網(wǎng)絡(luò)達(dá)到足夠的強(qiáng)度,理論上講,神經(jīng)網(wǎng)絡(luò)檢測(cè)出馬對(duì)交通構(gòu)成潛在危險(xiǎn)的能力,可以達(dá)到與我們?nèi)祟愐粯涌煽康某潭?。神?jīng)網(wǎng)絡(luò)識(shí)別物體的突破性進(jìn)展,是在研究人員使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)時(shí)獲得的。該識(shí)別算法建立一個(gè)卷積濾波器。
人們?cè)趫D像處理中銳化或鈍化圖像時(shí),實(shí)際上已經(jīng)用到了上述卷積濾波器。CNN重復(fù)多次這個(gè)處理過程,處理后的圖像越來(lái)越抽象,最后呈現(xiàn)出一些直線、曲線和邊界線等刻畫眼睛、鼻子和嘴巴特征。為此,CNN同時(shí)啟動(dòng)成千上萬(wàn)次這種濾波運(yùn)算,直到最后CNN作出決定,是的,圖片上明顯是一匹馬。
當(dāng)今世界頂尖的CNN專家都在像斯坦福這樣的大學(xué)工作,他們通常最終為大型服務(wù)供應(yīng)商工作,如Google、Facebook或微軟公司。這些大公司使用CNN梳理并分類海量圖片。2015年2月,斯坦福大學(xué)和雅虎實(shí)驗(yàn)室的研究人員宣布臉部識(shí)別技術(shù)取得突破。他們的CNN可從任意角度識(shí)別臉孔,甚至被部分遮擋的臉孔也能被識(shí)別。他們給CNN輸入20萬(wàn)張包含臉孔的圖片和2 000萬(wàn)張無(wú)臉孔的圖片。在識(shí)別訓(xùn)練結(jié)束前,CNN運(yùn)行了5萬(wàn)個(gè)批量圖片處理進(jìn)程,每批包含128張圖片。Facebook公司甚至宣稱它的DeepFace神經(jīng)網(wǎng)絡(luò)識(shí)別臉孔的成功率達(dá)97.25%,接近我們?nèi)祟愖R(shí)別臉孔的平均水平。
德國(guó)弗朗霍夫研究所的博士Mark Asbach說,即便是在一個(gè)復(fù)雜圖片里識(shí)別單個(gè)物體,CNN也會(huì)遇到很多困難。如果識(shí)別對(duì)象只有部分顯現(xiàn),那么CNN可能需要評(píng)估每張圖片里數(shù)百萬(wàn)個(gè)部分。這樣將導(dǎo)致識(shí)別錯(cuò)誤爆發(fā)性增加。
同樣的道理,假如對(duì)CNN做過特殊訓(xùn)練,并且重要參數(shù)不多,那么CNN的識(shí)別率就高、識(shí)別速度就快。新澤西州羅格斯大學(xué)的研究人員建立了一個(gè)CNN,用于識(shí)別畫家和他們的繪畫風(fēng)格。該CNN通過繪畫作品鑒別作者的正確率達(dá)60%,鑒別繪畫風(fēng)格的正確率達(dá)50%。2015年4月底,微軟在hao-old.net網(wǎng)站推出了一個(gè)CNN,嘗試評(píng)估人的年齡。只是可惜,評(píng)估正確率不理想。為了改善評(píng)估效果,微軟不得不在CNN里引入反饋功能。
為手機(jī)研制的專用芯片在進(jìn)行之中
將來(lái),CNN不再局限于大型網(wǎng)站服務(wù)器,經(jīng)過高強(qiáng)度訓(xùn)練后,一個(gè)CNN可以在任何計(jì)算機(jī)上運(yùn)行。識(shí)別功能將做成編程語(yǔ)言(如Wolfram Alpha)的一部分。軟件開發(fā)人員只需將模塊化的CNN集成到自己的應(yīng)用軟件中即可。高通,這位移動(dòng)處理器市場(chǎng)的領(lǐng)導(dǎo)者,未來(lái)甚至?xí)峁┖厥庥布K的驍龍(Snapdragon)芯片組,用于處理CNN中大量并行計(jì)算操作。在未來(lái)的幾年里,這些芯片可能會(huì)像現(xiàn)代音頻或視頻轉(zhuǎn)換信號(hào)芯片一樣,成為新的智能手機(jī)模塊里的一部分。
CNN的研發(fā)進(jìn)展頗具戲劇性,僅僅幾年前,CNN還不是人們偏愛的神經(jīng)網(wǎng)絡(luò),而現(xiàn)在,CNN已經(jīng)站在神經(jīng)網(wǎng)絡(luò)的最前沿。Mark Asbach擔(dān)心,未來(lái)將只有大型網(wǎng)絡(luò)服務(wù)提供商才有能力為新需求建設(shè)較好的神經(jīng)網(wǎng)絡(luò),而個(gè)體研究人員不再支付得起日益上升的神經(jīng)網(wǎng)絡(luò)訓(xùn)練費(fèi)用。據(jù)他所言,神經(jīng)網(wǎng)絡(luò)的下一步發(fā)展將涉及到自我訓(xùn)練,預(yù)計(jì)幾年后,當(dāng)今的CNN將被新的識(shí)別方案取代,那時(shí),將不再需要尋找訓(xùn)練樣本的專家和高強(qiáng)度的訓(xùn)練。
綜上所述,關(guān)于何時(shí)計(jì)算機(jī)能像一個(gè)6歲孩子那樣看明白這個(gè)世界,還沒有結(jié)論性的答案。