宋繼強(qiáng)
一個(gè)完整的人工智能系統(tǒng)必須具備感知、推理、行動(dòng)、適應(yīng)等四大能力。如果要將這四大能力良好貫穿,必須具備較強(qiáng)的記憶能力。
很多人會(huì)把人工智能與深度學(xué)習(xí)劃等號(hào),認(rèn)為人工智能就是深度學(xué)習(xí),但這并不是一個(gè)全面的認(rèn)識(shí)。如何全面地了解人工智能?人工智能無(wú)論從硬件或者軟件系統(tǒng)看,都應(yīng)具備類(lèi)似人的智能方式對(duì)外界的輸入做出反應(yīng)。
人工智能的系統(tǒng)需要具備四個(gè)能力。第一是感知能力,感知能力系統(tǒng)可以把外界輸入,從物理信號(hào)轉(zhuǎn)變成數(shù)字信號(hào),在計(jì)算機(jī)系統(tǒng)中進(jìn)行處理。第二是推理,系統(tǒng)需要具備場(chǎng)景的理解能力,系統(tǒng)能在場(chǎng)景中進(jìn)行獨(dú)立的推理并做出決策。第三是行動(dòng),系統(tǒng)可以進(jìn)行相應(yīng)的決策或行為規(guī)劃。第四是適應(yīng)性,適應(yīng)性是真正體現(xiàn)系統(tǒng)是否具備學(xué)習(xí)和自我改善的重要一點(diǎn)。如果一個(gè)系統(tǒng)不具備適應(yīng)性,那么該系統(tǒng)只是一個(gè)設(shè)定好的智能系統(tǒng)。
人工智能的技術(shù)可以分為兩大類(lèi)。一類(lèi)是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)是通過(guò)大量的數(shù)據(jù)輸入到一個(gè)算法中,使算法自動(dòng)尋找數(shù)據(jù)中的規(guī)律,并形成若干個(gè)模型來(lái)表示某些問(wèn)題該如何解決。用訓(xùn)練好的模型、算法再去處理數(shù)據(jù)獲得結(jié)果。目前人工智能領(lǐng)域最優(yōu)秀的工具是深度學(xué)習(xí),用高達(dá)千層的深度神經(jīng)網(wǎng)絡(luò),對(duì)場(chǎng)景進(jìn)行學(xué)習(xí)然后解決一個(gè)問(wèn)題。第二類(lèi)是,數(shù)據(jù)量對(duì)所需要解決的問(wèn)題應(yīng)具備完整性,要符合問(wèn)題的本質(zhì)。對(duì)于英特爾中國(guó)研究院來(lái)講,我們希望未來(lái)自主智能設(shè)備都可以感知、理解,同時(shí)對(duì)不同場(chǎng)景可以進(jìn)行相應(yīng)的行動(dòng)、反饋和適應(yīng)。怎樣運(yùn)用先進(jìn)的科技給設(shè)備帶來(lái)上述能力?首先感知能力非常關(guān)鍵,而且還需要能進(jìn)行理解和決策,最后再指導(dǎo)行動(dòng)。
隨著AI時(shí)代的到來(lái),AI的感知和認(rèn)識(shí)都是發(fā)展AI的重要的環(huán)節(jié)。目前深度學(xué)習(xí)發(fā)展火熱,很多企業(yè)和院校都在從事AI深度學(xué)習(xí)的開(kāi)發(fā),來(lái)解決感知層面的問(wèn)題,但是如何解決跨領(lǐng)域或跨輸入模態(tài)下的AI感知問(wèn)題?第一,算法本身要有很好的改進(jìn)和推動(dòng);第二,在硬件領(lǐng)域要改變傳統(tǒng)的加速的模式和機(jī)器學(xué)習(xí)方式。
在算法層面。以視覺(jué)理解為例,早期的人臉識(shí)別包括人的性別、年齡、面部表情等屬性。通過(guò)傳統(tǒng)的方法,或者通過(guò)深度學(xué)習(xí)的方法,可以解決早期的人臉識(shí)別問(wèn)題。如果在一個(gè)動(dòng)態(tài)的視頻中運(yùn)用傳統(tǒng)的方法進(jìn)行人臉識(shí)別,則相對(duì)困難。如果把三維的信息進(jìn)行重建,得知人臉和身體在一個(gè)環(huán)境中的朝向,這樣可以很好地指導(dǎo)在某個(gè)環(huán)境中人的運(yùn)動(dòng)和操作。同時(shí),如果對(duì)人進(jìn)行理解,情感識(shí)別也非常重要,如果只對(duì)人臉開(kāi)發(fā)一個(gè)人臉識(shí)別ID,對(duì)于AI的發(fā)展推動(dòng)十分有限,若使用無(wú)人機(jī)、機(jī)器人,或家庭的智能設(shè)備等為人提供服務(wù),必須理解人的情感。
這要從人臉識(shí)別的視覺(jué)感應(yīng)向前推進(jìn),可利用多種模態(tài)共同處理。什么是多模態(tài)?模態(tài)一詞是指一種輸入的形式和格式。通過(guò)模態(tài)和知識(shí)的相互融合,可以將視頻自動(dòng)轉(zhuǎn)化成文字描述,便可以進(jìn)行語(yǔ)義信息的后續(xù)輸出?;蛘咄ㄟ^(guò)視頻中問(wèn)答,來(lái)理解環(huán)境中多個(gè)物體之間所存在的關(guān)系,或者跨時(shí)間尋找物體之間的關(guān)系。
而多模態(tài)的視覺(jué)理解的發(fā)展,可以使機(jī)器人獲得更加復(fù)雜的場(chǎng)景理解能力。特別是服務(wù)型機(jī)器人,一定要對(duì)場(chǎng)景有深刻的理解,才能幫助人進(jìn)行服務(wù)。同時(shí)我們面對(duì)的是非結(jié)構(gòu)化環(huán)境,這種環(huán)境存在很多不確定性。現(xiàn)在的芯片技術(shù)是否可以滿(mǎn)足非結(jié)構(gòu)化環(huán)境?目前一種神經(jīng)擬態(tài)計(jì)算芯片,可以幫助沒(méi)有的計(jì)算能力的設(shè)備,具備計(jì)算能力。
機(jī)器學(xué)習(xí)可以幫助解決經(jīng)驗(yàn)驅(qū)動(dòng),同時(shí)獲得更多數(shù)據(jù)。為什么說(shuō)經(jīng)驗(yàn)驅(qū)動(dòng)?因?yàn)楫?dāng)數(shù)據(jù)被人發(fā)掘后,便可以知道這些數(shù)據(jù)所對(duì)應(yīng)的是什么,并對(duì)數(shù)據(jù)進(jìn)行標(biāo)注加以機(jī)器訓(xùn)練操作,但是如果人無(wú)法讀出數(shù)據(jù)的規(guī)律,將無(wú)法實(shí)現(xiàn)端到端的機(jī)器訓(xùn)練,因?yàn)闄C(jī)器學(xué)習(xí)非常依賴(lài)于數(shù)據(jù)的可獲得性、可觀測(cè)性和可標(biāo)注性,只有形成數(shù)據(jù)的這三個(gè)特性,所形成的自然智能,對(duì)場(chǎng)景進(jìn)行理解和推理的自然智能才能自主地進(jìn)行學(xué)習(xí)。在傳統(tǒng)的計(jì)算機(jī)編程中,開(kāi)發(fā)者可以根據(jù)所需要解決的問(wèn)題,清晰地規(guī)劃出該問(wèn)題的處理流程,并對(duì)流程進(jìn)行相應(yīng)的開(kāi)發(fā),而這一過(guò)程也被稱(chēng)為已知過(guò)程。那么深度學(xué)習(xí)在其中可以解決什么問(wèn)題?比如在進(jìn)行人臉識(shí)別、語(yǔ)音識(shí)別時(shí),中間的過(guò)程很難被描述,這要通過(guò)大量的數(shù)據(jù)訓(xùn)練,來(lái)顯示中間過(guò)程。
那么,當(dāng)數(shù)據(jù)并沒(méi)有那么多,而且還存在不確定性時(shí)應(yīng)當(dāng)如何解決?其實(shí)人腦與深度學(xué)習(xí)所運(yùn)用的計(jì)算支撐差別很大,深度學(xué)習(xí)至少需要200W以上的功耗,但是人腦功耗最多20W,人腦依靠少量的數(shù)據(jù)通過(guò)不斷地訓(xùn)練來(lái)達(dá)到強(qiáng)化效果。所以我們希望通過(guò)神經(jīng)擬態(tài)計(jì)算來(lái)解決機(jī)器學(xué)習(xí)問(wèn)題。神經(jīng)擬態(tài)被命名為L(zhǎng)OIHI,著這種計(jì)算的模式逐漸給人們提供新的探索機(jī)會(huì)。自我學(xué)習(xí)是它的特點(diǎn),它可以幫助我們解決,比如機(jī)器學(xué)習(xí)、傳統(tǒng)的編程模式的規(guī)則問(wèn)題,神經(jīng)原的密度和連接的可用性決定了它的能力,它是直接受益于摩爾定律的推動(dòng)。另外通過(guò)推動(dòng)輸入輸出找在場(chǎng)景中的關(guān)聯(lián)性,最后通過(guò)強(qiáng)化學(xué)習(xí)反復(fù)交叉驗(yàn)證自己推導(dǎo)出來(lái)的決策是否正確。
(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)endprint