武子睿
(北京理工大學(xué)附屬中學(xué),北京,100089)
現(xiàn)如今智能機(jī)器人已經(jīng)從科幻電影中的形象發(fā)展成為走進(jìn)千家萬戶的產(chǎn)品,而AlphaGo大戰(zhàn)人類頂級圍棋手則標(biāo)志著人類的智慧正在被機(jī)器超越。其中,人工智能技術(shù),被認(rèn)為是這類機(jī)器的核心。人們將人工智能大致劃分成兩個(gè)類別:弱人工智能與強(qiáng)人工智能。弱人工智能是指不具有推理分析能力,只能使其看起來像是智能的,而實(shí)際卻只能通過一系列創(chuàng)造者設(shè)定好的程序運(yùn)行,現(xiàn)在主流的科研集中在弱人工智能上,并已經(jīng)取得了可觀的成果;強(qiáng)人工智能與前者相反,人們一般認(rèn)為這種機(jī)器是具有推理和解決問題的能力的,是有知覺、自我意識的,歷史上曾有過不少科學(xué)家嘗試開發(fā)出真正的強(qiáng)人工智能,但他們最后都沒有得到實(shí)質(zhì)性的突破,所以這樣的機(jī)器現(xiàn)在還只停留在理想階段。在弱人工智能技術(shù)不斷發(fā)展的基礎(chǔ)上,智能機(jī)器人的技術(shù)也在不斷的進(jìn)步、更新。智能機(jī)器人,即運(yùn)用人工智能技術(shù),表現(xiàn)出部分“人”的特征的機(jī)器,現(xiàn)代智能機(jī)器人主要通過感知、交互、運(yùn)動(dòng)三大能力來完成所希望達(dá)到的功能??梢哉f,智能機(jī)器人的智能化程度取決于人工智能的發(fā)展進(jìn)程,而人工智能各主要研究領(lǐng)域的一個(gè)典型應(yīng)用場景就是智能機(jī)器人。
自1956年達(dá)特茅斯會(huì)議上,第一次提出人工智能這一概念以來,其發(fā)展歷程已經(jīng)跨越半個(gè)世紀(jì)。20世紀(jì)70年代,史上第一個(gè)專家系統(tǒng)—DENDRAL系統(tǒng)出現(xiàn),該系統(tǒng)可通過分析質(zhì)譜信息從而確定化合物分子結(jié)構(gòu)。在DENDRAL 系統(tǒng)誕生后,又有許多系統(tǒng)相繼而出,人工智能技術(shù)一度成為了熱門。70年代后期,學(xué)界對人工智能的發(fā)展過于樂觀,而彼時(shí)的計(jì)算機(jī)性能不足以支撐機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜度,由此導(dǎo)致絕大多數(shù)人工智能領(lǐng)域的研究進(jìn)入瓶頸期。社會(huì)層面上對人工智能的關(guān)注大大下降,政府和科研機(jī)構(gòu)對該項(xiàng)研究的支持程度也日益減少,這段時(shí)期被稱為AI衰退期。80年代的神經(jīng)網(wǎng)絡(luò)國際會(huì)議標(biāo)志著人工智能的復(fù)蘇,BP算法和決策樹算法的提出,使得人工智能的發(fā)展進(jìn)入新紀(jì)元。十幾年來的飛速發(fā)展,使得人工智能技術(shù)重回大眾視野:1997年,IBM的超級計(jì)算機(jī)“深藍(lán)”戰(zhàn)勝了當(dāng)時(shí)的國際象棋大師Garry Kasparov;2016年3月,Google開發(fā)的AlphaGo以4∶1的成績戰(zhàn)勝了世界圍棋冠軍李世石,對世界冠軍的勝利大大鼓舞了人工智能研究者的信心,也預(yù)示著人工智能即將進(jìn)入千家萬戶,用自己的“智慧”改變?nèi)藗兊纳睢?/p>
2.1.1 計(jì)算視覺的技術(shù)背景
計(jì)算機(jī)視覺是計(jì)算機(jī)對生物視覺的一種模擬,它主要通過對外部圖像進(jìn)行處理,來讓計(jì)算機(jī)能夠感知環(huán)境。在計(jì)算機(jī)視覺的發(fā)展過程中,逐漸分化出了一個(gè)主要的研究領(lǐng)域,主要包括圖像處理技術(shù)、模式識別與圖像理解技術(shù)。
2.1.2 計(jì)算機(jī)視覺的發(fā)展歷程
計(jì)算機(jī)視覺的開端始于20世紀(jì)50年代,人們對二維圖像的分析和識別,如光學(xué)字符的識別、顯微圖片、工件表面的分析等。70年代中期時(shí),美國麻省理工學(xué)院的人工智能實(shí)驗(yàn)室開設(shè)了計(jì)算機(jī)視覺的課程,吸引力許多國際知名學(xué)者參與計(jì)算機(jī)視覺的理論、算法研究。David Marr 教授在1977年提出了不同于“積木世界”分析方法的計(jì)算機(jī)視覺理論,為80年代計(jì)算機(jī)視覺領(lǐng)域發(fā)展提供了一個(gè)十分重要的理論框架[1]。20世紀(jì)80年代,計(jì)算機(jī)視覺迅速發(fā)展,主動(dòng)視覺理論框架、基于感知特征群的物體識別理論框架等新興理論不斷涌現(xiàn)出來。到了90年代,計(jì)算機(jī)視覺技術(shù)開始在工業(yè)中的到廣泛的應(yīng)用。今天,隨著計(jì)算機(jī)視覺與計(jì)算機(jī)圖形學(xué)的不斷融合與互相影響,基于圖像的繪制逐漸成為了研究熱點(diǎn)。
2.1.3 計(jì)算機(jī)視覺在智能機(jī)器人上的應(yīng)用對于智能機(jī)器人來說,視覺一直是一中十分重要的對外界進(jìn)行感知的途徑,因此,計(jì)算機(jī)視覺被廣泛的應(yīng)用在生產(chǎn)、生活中,來幫助機(jī)器人對目標(biāo)的位置,形態(tài)進(jìn)行分析。在生產(chǎn)中,搬運(yùn)機(jī)器人需要搬運(yùn)各種不同大小、規(guī)格、質(zhì)量的工件,來減少工人的勞動(dòng)強(qiáng)度,在搬運(yùn)過程中,機(jī)器人需要對工件的位置進(jìn)行分析,并依據(jù)位置數(shù)據(jù)對機(jī)器人操作進(jìn)行調(diào)整,來提高機(jī)器人工作的準(zhǔn)確性、穩(wěn)定性[2]。在家庭生活中,計(jì)算機(jī)視覺技術(shù)主要被應(yīng)用在精確的抓取物品以及對人體姿態(tài)的識別與分析上。在抓取物品時(shí),機(jī)器人需要對物品進(jìn)行準(zhǔn)確的定位,并運(yùn)用計(jì)算機(jī)視覺技術(shù)協(xié)助機(jī)械設(shè)備進(jìn)行調(diào)整[3],在人體姿態(tài)識別分析上,人們通常采用關(guān)節(jié)點(diǎn)的分離與識別來構(gòu)建用戶的人體骨架模型,從而識別用戶的姿態(tài)動(dòng)作。
2.2.1 機(jī)器學(xué)習(xí)的技術(shù)背景
機(jī)器學(xué)習(xí),是指計(jì)算機(jī)在算法的作用下,通過對大量數(shù)據(jù)的自動(dòng)學(xué)習(xí),從而得到數(shù)據(jù)集中蘊(yùn)含的內(nèi)在規(guī)律,并在實(shí)際中加以應(yīng)用,為人類提供幫助。普遍分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩大類[4]。
BP算法是機(jī)器學(xué)習(xí)中較為經(jīng)典的一個(gè)算法,這種算法屬于監(jiān)督學(xué)習(xí),主要通過期望輸出對實(shí)際輸出的反饋不斷調(diào)整每個(gè)神經(jīng)元信號的權(quán)值來不斷逼近期望輸出。這種算法容易陷入局部最優(yōu)和過擬合的情況中。
2.2.2 機(jī)器學(xué)習(xí)的發(fā)展歷程
機(jī)器學(xué)習(xí)的概念最早在1943年,Warren McCulloch和Walter Pitts提出的神經(jīng)網(wǎng)絡(luò)層次結(jié)構(gòu)模型中出現(xiàn),而在1957年,第一個(gè)計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)算法的出現(xiàn),使得機(jī)器學(xué)習(xí)逐漸成為了計(jì)算機(jī)科學(xué)領(lǐng)域中的一個(gè)重要分支。1969年,在一部機(jī)器學(xué)習(xí)著作《Perceptron》中的XOR問題讓人們對機(jī)器學(xué)習(xí)的研究進(jìn)入了冷靜期,直到1980年夏天在美國卡內(nèi)基·梅隆大學(xué)舉辦的機(jī)器學(xué)習(xí)國際研討會(huì),機(jī)器學(xué)習(xí)的發(fā)展才重新回到正軌。隨著人們研究的不斷深入,新的模型結(jié)構(gòu)與學(xué)習(xí)算法正在不斷的涌現(xiàn)出來,如Liu Yan等人提出的DDBNs算法被成功的應(yīng)用在了圖像的分類上?,F(xiàn)如今,機(jī)器學(xué)習(xí)已經(jīng)成為各大高校中一門重要學(xué)科,融合了多種學(xué)習(xí)算法而形成的集成式學(xué)習(xí)系統(tǒng)在不斷興起。
2.2.3 機(jī)器學(xué)習(xí)在智能機(jī)器人上的應(yīng)用
在智能機(jī)器人的技術(shù)中,尋路技術(shù)一直是受人們廣大關(guān)注的話題。如何使機(jī)器人順利的避開障礙物,自主尋路來到目標(biāo)地點(diǎn),準(zhǔn)確的夾取或放下物品是當(dāng)下研究的重點(diǎn)[5]。機(jī)器學(xué)習(xí)技術(shù)不斷發(fā)展的今天,許多研究者采用學(xué)習(xí)技術(shù)來賦予機(jī)器人在復(fù)雜環(huán)境中尋找道路的能力[6]。
人們通常采用強(qiáng)化學(xué)習(xí)作為尋路算法的核心,它主要采用在機(jī)器人運(yùn)動(dòng)過程中對實(shí)際運(yùn)動(dòng)路徑的獎(jiǎng)懲措施來實(shí)現(xiàn)網(wǎng)絡(luò)中權(quán)重大小的調(diào)節(jié)[7]。
2.3.1 自然語言處理的技術(shù)背景
自然語言處理就是一門研究計(jì)算機(jī)和人類自然語言之間相互作用的學(xué)科。它主要研究以下兩大方面:自然語言理解和自然語言生成。
(1)自然語言理解
要實(shí)現(xiàn)人與計(jì)算機(jī)之間直接的自然語言溝通,首先遇到的第一個(gè)難點(diǎn)就是如何使計(jì)算機(jī)理解人類所表達(dá)的意思。它主要分為語言的分析和語義的理解。在拆分句子時(shí)。人們主要采用編碼的方式,將計(jì)算機(jī)難以理解的自然語言,轉(zhuǎn)換為可以理解并進(jìn)行處理的編碼,我們一般會(huì)使用大量的訓(xùn)練數(shù)據(jù)來訓(xùn)練編碼器,從而得到可靠的權(quán)重。在語義理解時(shí),人們主要通過建立語言模型,從語法、詞法、詞義等多方面來理解語言中所表達(dá)的含義。
(2)自然語言生成
自然語言生成是研究使計(jì)算機(jī)可以像人類一樣將事物表達(dá)為人可以聽懂并理解的自然語言的學(xué)科,也即,能夠根據(jù)計(jì)算機(jī)中的信息,自動(dòng)生成出一段可理解的文本。它的工作與前文所提到的自然語言理解正好相反,它需要將一段編碼反編譯為文本信息。如何使編譯出的文本符合人們?nèi)粘I钏玫牧?xí)慣是現(xiàn)在研究的難點(diǎn)與重心。
2.3.2 自然語言處理的發(fā)展歷程
20世紀(jì)40年代末期,有關(guān)自然語言理解的相關(guān)領(lǐng)域就已經(jīng)開始發(fā)展,那時(shí),計(jì)算機(jī)剛剛開始發(fā)展,人們首先遇到的難題集中在機(jī)器翻譯上。在60年代,學(xué)界對機(jī)器翻譯曾有過大規(guī)模的研究工作,但是,當(dāng)時(shí)的人們低估了自然語言的復(fù)雜程度,耗費(fèi)巨資但沒有得到很大的成果。從90年代起,自然語言處理領(lǐng)域逐漸發(fā)生了巨大的變化。人們開始將眼光著眼于大規(guī)模真實(shí)文本的處理,而不是僅僅限于幾個(gè)簡單的句子的處理,且在此同時(shí),對語義理解的要求也逐漸升高。20世紀(jì)以來,基于人工神經(jīng)網(wǎng)絡(luò)的自然語言處理研究不斷發(fā)展,深度學(xué)習(xí)開始被應(yīng)用于這方面研究[8],如今,在深度學(xué)習(xí)技術(shù)的不斷完善與GPU技術(shù)的不斷深化的共同作用下,人們對于自然語言理解已經(jīng)有了不錯(cuò)的成果,而對于自然語言生成,我們還有很長的路要走。
2.3.3 自然語言處理在智能機(jī)器人上的應(yīng)用
自然語言對于智能機(jī)器人的應(yīng)用主要集中在與人類對話、交流和對指令的理解分析上。這種技術(shù)可以使機(jī)器人能夠更加“人性化”的對外界信號進(jìn)行反應(yīng),同時(shí),機(jī)器人也可以更好的理解人類所下達(dá)的命令,從而減少人類表述指令的難度。
機(jī)器人的對話交流主要通過將音頻傳入設(shè)備發(fā)出的音頻信號數(shù)字化,并應(yīng)用自然語言處理技術(shù)對信號編碼,轉(zhuǎn)化成計(jì)算機(jī)可以理解的語言,接著對信號進(jìn)一步分析,理解其中所表達(dá)的含義并進(jìn)行相關(guān)的處理,再經(jīng)過自然語言生成技術(shù)將處理結(jié)果表達(dá)為文本,經(jīng)由揚(yáng)聲器輸出,如此往復(fù)來達(dá)到人機(jī)交互的目的。而指令理解通常需要對特定的指令語句進(jìn)行模型分析,建立對應(yīng)的語法、語義分析法則。如,在家庭機(jī)器人的尋路過程中,通過自然語言處理,將用戶所表達(dá)的路徑信息轉(zhuǎn)化為實(shí)際的命令,在配合前文所述的其他技術(shù),讓機(jī)器人運(yùn)動(dòng)到指定的地點(diǎn)。
本文中,我們主要從機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺以及自然語言處理等幾個(gè)方面探討了人工智能技術(shù)的發(fā)展歷程、現(xiàn)狀及未來的發(fā)展方向,并以智能機(jī)器人為例說明以上幾個(gè)領(lǐng)域在智能機(jī)器人技術(shù)中的應(yīng)用。
人工神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)的突躍為人工智能技術(shù)帶來了一次巨大的技術(shù)革新,而計(jì)算機(jī)視覺以及自然語言處理分別為其提供了必要的支持,這些技術(shù)在不斷的共同進(jìn)化中,也為我們的生活帶來了無與倫比的好處,如今,智能機(jī)器人已經(jīng)大量應(yīng)用于實(shí)際生活,并為我們提供著方便、快捷的服務(wù)。
未來人工智能的發(fā)展面臨著以下的幾個(gè)問題:相關(guān)算法的時(shí)間復(fù)雜度和精度可能依然無法滿足人們的需要,我們?nèi)孕璋l(fā)現(xiàn)更加高效、準(zhǔn)確的算法來實(shí)現(xiàn)我們的目的;如今的人工智能技術(shù)還停留在弱人工智能的層次,要真正實(shí)現(xiàn)可以自主思考的強(qiáng)人工智能,我們還需要一次新的技術(shù)革新。