計(jì)算機(jī)科學(xué)和密碼學(xué)的先驅(qū)艾倫·麥席森·圖靈在1950年撰寫了《計(jì)算機(jī)器與智能》一文,提出了一項(xiàng)經(jīng)典的測試:如果一臺機(jī)器與人類展開對話,超過30%的測試人類誤以為在和人類說話而非機(jī)器,那么就可以說這臺機(jī)器具有智能。這就是人工智能行業(yè)知名的“圖靈測試”,圖靈預(yù)言在20世紀(jì)末一定會有電腦通過這項(xiàng)測試,但事實(shí)上直到2014年,人工智能軟件“尤金·古斯特曼”才第一個(gè)通過了圖靈測試。這也從側(cè)面反映出一個(gè)事實(shí):雖然早在70多年前就已經(jīng)有科學(xué)家進(jìn)行了猜想,但賦予機(jī)器人“靈魂”,卻仍然任重道遠(yuǎn)。那么問題來了,目前的人工智能處于相對高速的發(fā)展階段,我們有哪些能讓機(jī)器人與我們交互呢?
作為地球上最有智慧的生物,人類獲取信息的渠道83%來自視覺、11%來自聽覺、3.5%來自嗅覺,而1.5%來自觸覺、1%來自味覺,而既然要模擬人類的思維方式,其核心就是讓機(jī)器通過深度學(xué)習(xí),根據(jù)所收集的數(shù)據(jù)信息做出相應(yīng)的反饋,考慮到我們大部分信息的來源都是視覺,所以,讓機(jī)器人“看到”物體和場景,進(jìn)而對圖像內(nèi)容給予解釋就成了機(jī)器人靈魂的核心。
目前隨著人工智能視覺技術(shù)的不斷進(jìn)化,包括物體識別、目標(biāo)追蹤、導(dǎo)航、避障已成為各類智能設(shè)備的前端通用技術(shù),我們在工業(yè)生產(chǎn)自動化、流水線控制、汽車自動駕駛、安防監(jiān)控、遙感圖像分析、無人機(jī)、農(nóng)業(yè)生產(chǎn)以及機(jī)器人等各個(gè)方面都能找到很多案例。
而對于移動機(jī)器人來說,就需要使用多種不同傳感器來實(shí)現(xiàn)環(huán)境感知,比如大家在飯店餐館可能會看到自動傳菜機(jī)器人,抑或是在工廠里很常見的運(yùn)輸機(jī)器人,它們會通過搭載激光雷達(dá)、立體視覺攝像頭、紅外以及超寬頻傳感器來“分辨”環(huán)境并構(gòu)建地圖,從而擁有識別、感知、理解、判斷及行動能力。
環(huán)境感知能力是機(jī)器人最基本的功能,這意味著這類機(jī)器人更適用于服務(wù)型工作,目前來看這類機(jī)器人還可以通過模塊化裝備,完成人員異常行為監(jiān)測、人員檢測及記錄、異常高溫或火災(zāi)報(bào)警、環(huán)境數(shù)據(jù)異常報(bào)警等功能,甚至通過遠(yuǎn)程監(jiān)控模塊,可以代替人員進(jìn)入危險(xiǎn)場所,完成勘察任務(wù)。
人形雙臂機(jī)器人通過攝像頭識別和算法精準(zhǔn)定位匹配,可實(shí)現(xiàn)擰瓶蓋等操作
工廠里最常見的機(jī)器人也同樣有著豐富的感知傳感器
看似簡單的對話,卻蘊(yùn)含了多個(gè)解析步驟
如果只是通過環(huán)境感知來完成工作,這樣的機(jī)器人算得上“聰明”么?站在人類的角度來看不過也都是自動化的工具而已,離咱們想象中電影里那樣的智能化機(jī)器人有著非常明顯的差距,其實(shí)很大程度上產(chǎn)生這種感覺的原因在于,服務(wù)型機(jī)器人大多都不會與人進(jìn)行交互,而我們?nèi)祟惤换サ暮诵姆绞骄褪钦f話聊天。70多年前提出的圖靈測試還是通過文字形式來驗(yàn)證,而現(xiàn)在如果要重新定義的話,語音交互應(yīng)該是必考項(xiàng)目,比爾·蓋茨就曾說“人類自然形成的與自然界溝通的認(rèn)知習(xí)慣和形式必定是人機(jī)交互的發(fā)展方向”。
人機(jī)交互技術(shù)主要包含語音識別、語義理解、人臉識別、圖像識別、體感/手勢交互等技術(shù),其中語音人機(jī)交互過程中包含信息輸入和輸出、語音處理、語義分析、智能邏輯處理以及知識和內(nèi)容的整合。
就目前來看,人工智能語音技術(shù)可以分為近場語音和遠(yuǎn)場語音兩個(gè)分類,近場語音基本上是為了滿足一些輔助使用需求,比如蘋果Siri和微軟小冰就是近場語音產(chǎn)品,而很多智能音箱則可以實(shí)現(xiàn)遠(yuǎn)場語音,用戶能在5米外的距離語音指示它控制智能家居設(shè)備。這些看起來似乎很簡單的工作,事實(shí)上對準(zhǔn)確性的要求非常高,從處理過程來看先要通過聲學(xué)處理我們的聲音和周圍環(huán)境,再通過語音識別技術(shù)將聽到的聲音翻譯成文字,語義理解技術(shù)則會分析這些文字的意義,最后機(jī)器去執(zhí)行用戶的指令或者通過語音合成技術(shù)把要表達(dá)的內(nèi)容合成語音。
但在真實(shí)環(huán)境下,受噪聲等環(huán)境因素影響,機(jī)器仍然無法完全準(zhǔn)確識別自然語言,機(jī)器將聽到的語音翻譯成文字時(shí),重音、口音模糊、語法模糊等又很影響成功率,而且人類語言太復(fù)雜,受到單詞邊界模糊、多義詞、句法模糊、上下文理解等影響,再加上中文存在大量的方言,語義理解是一個(gè)巨大的障礙。
所以,現(xiàn)階段的人工智能語音系統(tǒng)更多用在垂直使用場景,比如汽車的車載智能語音系統(tǒng)、兒童娛樂和教育軟件、人工智能客服等等。尤其是人工智能客服,很多人應(yīng)該都接到過銀行或金融機(jī)構(gòu)的智能客服電話,大多數(shù)情況下它的表現(xiàn)都跟真人沒有太大差別,但嚴(yán)重缺乏變通能力,只能在相對狹窄的范圍內(nèi)進(jìn)行溝通,準(zhǔn)確率也并不高,但它一則可以實(shí)現(xiàn)客戶需求的快速響應(yīng),二來在一定程度上能夠節(jié)約時(shí)間和人工成本,所以在未來也一定會隨著滲透率的不斷加深而繼續(xù)進(jìn)化。
機(jī)器人的語義理解能力目前仍處于較低水平
機(jī)器人抓取姿態(tài)判別深度學(xué)習(xí)方案
姿態(tài)識別也是機(jī)器人視覺學(xué)習(xí)的關(guān)鍵點(diǎn)之一
既然我們說到了機(jī)器人的智能進(jìn)化,可能有讀者朋友會問:那它是怎樣進(jìn)化的呢?最知名的方法就是深度學(xué)習(xí),早在2011年,谷歌一家實(shí)驗(yàn)室的研究人員就從視頻網(wǎng)站中抽取了1000萬張靜態(tài)圖片,把它“喂”給谷歌大腦,目標(biāo)是從中尋找重復(fù)出現(xiàn)的圖片,而在足足3天后,谷歌大腦才完成了這一挑戰(zhàn),而谷歌大腦就是一個(gè)由1000臺電腦、16000顆處理器組成的10億神經(jīng)單元深度學(xué)習(xí)模型。
深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,本質(zhì)上是構(gòu)建含有多隱層的機(jī)器學(xué)習(xí)架構(gòu)模型,通過大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,得到大量更具代表性的特征信息,從而對樣本進(jìn)行分類和預(yù)測,提高分類和預(yù)測的精度。比如抓取姿態(tài)判別,對于人類來說,想要拿起一個(gè)東西只需要看幾眼就知道該用怎樣的手勢去拿,而對機(jī)器人來說這卻是一個(gè)不小的挑戰(zhàn),涉及到的研究包括智能學(xué)習(xí)、抓取位姿判別、機(jī)器人運(yùn)動規(guī)劃與控制等,而且還需要根據(jù)抓取物體的材料性質(zhì)來隨機(jī)應(yīng)變,調(diào)整抓取姿勢和力度。
不過,創(chuàng)造一個(gè)強(qiáng)大的神經(jīng)網(wǎng)絡(luò)需要更多處理層,這就需要很強(qiáng)的數(shù)據(jù)處理能力,所以深度學(xué)習(xí)的背后往往都有上游硬件大佬的“撐腰”,這些年圖形處理器、超級計(jì)算機(jī)和云計(jì)算的迅猛發(fā)展,讓深度學(xué)習(xí)脫穎而出,NVIDIA、英特爾、AMD等芯片巨頭都站到了人工智能學(xué)習(xí)的舞臺中央。
深度學(xué)習(xí)技術(shù)建立在大量實(shí)例基礎(chǔ)上,給它學(xué)習(xí)的數(shù)據(jù)越多,它就越聰明。因?yàn)榇髷?shù)據(jù)的不可或缺,所以目前深度學(xué)習(xí)做得最好的基本是擁有大量數(shù)據(jù)的IT巨頭,如谷歌、微軟、百度等。與此同時(shí),深度學(xué)習(xí)技術(shù)在語音識別、計(jì)算機(jī)視覺、語言翻譯等領(lǐng)域,均戰(zhàn)勝傳統(tǒng)的機(jī)器學(xué)習(xí)方法,甚至在人臉驗(yàn)證、圖像分類上還超過人類的識別能力,比如短視頻時(shí)代很熱門的人工智能“換臉”,就是將原視頻里的人臉逐幀導(dǎo)出,再通過大量想要替換的人臉照片來進(jìn)行模型訓(xùn)練,訓(xùn)練的過程你會直觀看到替換的人臉從模糊逐漸變得清晰,根據(jù)電腦配置的不同,在訓(xùn)練數(shù)小時(shí)甚至數(shù)十小時(shí)后就能得到一個(gè)相當(dāng)不錯(cuò)的替換結(jié)果,這就是深度學(xué)習(xí)的典型過程。
對于機(jī)器人來說,深度學(xué)習(xí)的應(yīng)用面除了圖像識別之外還有很多,比如工業(yè)或安防機(jī)器人需要用到的復(fù)雜環(huán)境路線規(guī)劃和室內(nèi)導(dǎo)航,教育機(jī)器人識別學(xué)生坐姿、舉手、摔倒的人體姿態(tài)判斷等。在未來,計(jì)算方法可能更趨向于與大數(shù)據(jù)、云計(jì)算相結(jié)合,使機(jī)器人利用云平臺更好地存儲資源和自主學(xué)習(xí),同時(shí)在大數(shù)據(jù)環(huán)境下,數(shù)量龐大的機(jī)器人共同分享學(xué)習(xí)內(nèi)容,疊加學(xué)習(xí)模型,更有效地分析和處理海量數(shù)據(jù),從而提高學(xué)習(xí)和工作效率,發(fā)展智能機(jī)器人的潛力。
當(dāng)然,這些發(fā)展還存在很多隱藏的問題,比如在機(jī)器人與云平臺相結(jié)合時(shí),因?yàn)榧夹g(shù)還不夠成熟,在資源分配、系統(tǒng)安全、可靠有效的通信協(xié)議,以及如何打通各大上游廠商之間的技術(shù)壁壘等都是下一步研究中需要關(guān)注的問題。