• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      踏踏實實地研究人工智能

      2019-04-29 10:48:04郭毅可
      自然雜志 2019年2期
      關鍵詞:機器深度樣本

      郭毅可

      上海大學 計算機學院,上海 200444;英國帝國理工學院 數(shù)據(jù)科學研究所,英國 倫敦 SW7 2AZ

      2018年中關村峰會邀請我作報告,我把發(fā)言題目定為《踏踏實實地研究人工智能》。取這個題目,我當時有點忐忑,因為《踏踏實實地研究人工智能》這個題目好像是說我對今天人工智能的發(fā)展有一定的看法。可就在這時,我讀到了習總書記的一個講話,他說要進一步推動我國新一代人工智能的健康發(fā)展。我認為總書記說的“健康”非常重要,“踏踏實實”實際上是健康發(fā)展的一個重要的部分。所以,我很高興就這個問題發(fā)表一下我的看法。

      大家都知道,人工智能風起云涌,中國和美國是兩大人工智能的主要戰(zhàn)場。美國有2 000多個AI 公司,中國也有1 000多,發(fā)展都很快。從投資角度來說,我們可以看到,投資量不斷增長,中國的投資量還高于美國??墒侵袊鴮I的投資在2018年有一個拐點,就是人工智能的投資增長的速度降下來了。為什么呢?因為大家注意到我們有些浮躁了。浮躁在哪里?一是表現(xiàn)在對人工智能技術理解的片面性和不合現(xiàn)實的期望;二是表現(xiàn)在對人工智能技術應用的簡單化;三是表現(xiàn)在對人工智能技術對社會發(fā)展的影響和作用的神化或妖魔化。

      人工智能是人類用機械解放了自己的體力之后,希望通過計算機來解放自己的腦力的努力。所以,人工智能是計算機科學發(fā)展的初心。我們講到的人工智能,實際上有三個重要的部分。

      第一個部分是模仿我們的感知。感知的意義范圍很廣,主要意思是指通過感覺器官對外部世界在人腦中獲得的有意義的印象,而機器的感知就是通過作為機器感覺的器官,即傳感器,獲得外部世界的信息,并建立對它的理解。

      第二部分是模仿我們的認知,即模仿人們獲得知識的過程。 圖靈獎獲得者赫伯特·西蒙認為,人的認知有3種基本過程:①問題求解,即在已有知識的基礎上,通過分析、推理等思維過程來解決問題;②模式識別能力,即建立對事物的抽象,包括對事物特征元素的把握、對各元素之間關系的建立,并根據(jù)元素之間的關系構成模式,形成抽象;③學習,就是把獲取的感知信息通過模式識別,以及與已有的知識聯(lián)系得到新的知識,并把它們的組織貯存起來。模仿這樣的認知過程是今天人工智能研究的主要內容:機器推理是問題求解的基本技術;模式識別是機器學習的一個關鍵領域,而對人類學習的模仿包括了機器學習(知識的獲取)、知識表達、知識庫的全部研究。

      最后,人腦通過感知獲得外界輸入的信息,經(jīng)過頭腦的認知,轉換成內在的心理活動,進而支配人的行為對環(huán)境作出改變,那就是第三部分——決策。這里對環(huán)境作出改變應該是有一個目標的,且這樣的目標應該是有益的。為了達到目標,也要繼續(xù)學習以獲取知識,這樣在決策過程中的不斷學習正是強化學習的場景。

      我們也知道,這幾年深度學習發(fā)展很快。深度學習是知識獲取的一種形式。如圖1所示,橫軸是時間軸,縱軸是計算量,隨著時間的推移,我們的數(shù)據(jù)量和計算能力在不斷增長,這導致我們獲取知識的能力也越來越強。開始時是從手工獲取知識,像20世紀70、80年代做的專家系統(tǒng)。把專家知識編碼成規(guī)則輸入到計算機中,這樣的知識獲取方法既受到我們自己知識內容的限制,也受到對知識編碼形式的限制。所以,專家系統(tǒng)的發(fā)展到80年代后期就停滯了,取而代之的很多研究就在于機器自動獲得知識的方法。開始我們把它叫作數(shù)據(jù)挖掘,而后又稱為知識發(fā)現(xiàn),今天又把它稱之為機器學習。機器學習的目標在于完全自動化進行知識獲取。深度學習就是這樣一種方法,它用到大量的數(shù)據(jù)和算力。深度學習的算法早就有了,今天的技術,包括大量的數(shù)據(jù)和強大的算力,使得它有了普遍使用的可能。

      圖1 知識獲取途徑的變化:從手工化的知識獲取到深度學習

      現(xiàn)在我們來看人工智能,特別是機器學習,雖然有很大的發(fā)展,但是也應該非??陀^地看到,它基本的方法、基本的思路還是比較原始、比較簡單的。那么,現(xiàn)在的人工智能,用我的觀點來說是著重于智能外延的人工智能,也就是說著重于模擬人的智能的外在功能,而模擬的方法基本上是以統(tǒng)計為基本原理的。今天的機器學習,無論是什么方法,基本的思路都是給出一大堆數(shù)據(jù)作為學習樣本,然后尋找一個函數(shù)來擬合數(shù)據(jù),這個函數(shù)就代表了對于數(shù)據(jù)反映的世界的模型和抽象。所謂的深度學習是說這樣的函數(shù)比較復雜,我們用復雜的非線性函數(shù)來擬合樣本。我們可以對機器學習作一個簡單的描述:我們需要足夠大的樣本,再搜索一個最好的函數(shù)來擬合樣本。這樣的最好是局部化的,是局部最優(yōu)。所有的機器學習都是一個優(yōu)化過程,所有的學習都是給出一個擬合目標,然后根據(jù)數(shù)據(jù)學習一個函數(shù),來最好地接近這個目標。所有的學習做的都是搜索擬合最優(yōu)化的過程。搜索的方法就是用梯度下降的方法,通過求導數(shù)來找到局部最優(yōu)解的方向。

      所以,可以用一句話講清楚深度學習:我們現(xiàn)在的深度學習就是在足夠的樣本上用梯度下降的方法做出一個足夠大的參數(shù)化模型,來擬合樣本。

      是不是人工智能就只是這樣?當然不是!人工智能最重要,也是最困難的地方在于理解智能的機制。也就是說,不僅是擬合函數(shù),還要理解知識的表達和知識的應用。知識的表達不僅包括概念本身的發(fā)現(xiàn),也要發(fā)現(xiàn)概念之間的關系,知識圖譜就是一個方法。人的一個非常大的智能行為就是抽象,譬如用一個方程描述自然現(xiàn)象,機器要做到這樣非常困難。要研究機器的抽象能力。人的智能行為不僅僅是獲取知識——這往往是感知的任務,而且人類智能的一個重要的能力在于知識融會貫通的應用, 而這樣知識應用和知識獲取往往又是分不開的。我們總是在知識的指導下來學習,來獲取知識。這些機制在今天的機器學習中并沒有很好的研究。我們還要研究人對于客觀的反映形式,對于不確定性情況下的推理機制。這些都是著眼人工智能的內涵研究的課題,就是研究智能的基本機制。

      當我們只注重智能外延研究的時候,它有非常大的局限。2011年圖靈獎獲得者朱迪亞·珀爾(Judea Pearl)教授曾經(jīng)講過一句話,“鷹和蛇的視覺系統(tǒng)都比我們在實驗室能做的系統(tǒng)更好,但是鷹和蛇都不能做出眼鏡、望遠鏡或者顯微鏡來?!?/p>

      我們首先來談談知識,或者說常識,在機器學習中的重要性。圖2是一個小孩含著一把牙刷。目前的深度學習模型可以生成對圖的理解,但這個理解不知道一個小孩拿的是牙刷,因為學習模型時,沒有牙刷這個樣本。機器也不知道棒球棒不能放在嘴里的常識。這就是單純的數(shù)據(jù)驅動來進行學習的一個很大的弱點。 有一個很有意思的笑話:當有許多人不斷去撞墻時,你問一個孩子“你會去撞嗎?”, 那個孩子一定說“不”;而你問一個機器學習算法時,它的回答一定是“會!”。

      圖2 目前的深度學習可以生成對圖的理解,但并不能理解常識

      沒有利用知識的學習就無法得到具有足夠普遍性的知識,形成概念;而且模型對于數(shù)據(jù)的依賴也使得模型非常的不穩(wěn)定。我們常??吹揭恍├?,在圖像中引入一些小小的噪聲就會破壞整個模型的識別結果,最后學習的結果,即模型,也無法解釋,因此我們只能把識別過程作為一個黑箱來用。這顯然是非常不合理的。試想,你愿意接受一個機器給你的診斷,而無法知道這個診斷的理由嗎?所以,如何在學習中應用知識是一個重要的課題, 也是人工智能發(fā)展的必然方向。

      今天的學習基本上是一個線性的過程(圖3)。我們強調數(shù)據(jù)驅動, 強調“端到端”即從數(shù)據(jù)到知識(模型),沒有人的參與。人的知識的輸入僅僅是通過對數(shù)據(jù)的標注。

      圖3 數(shù)據(jù)驅動深度學習的線性過程

      這樣的學習模式的高度自動化帶來的優(yōu)越性并不能掩蓋它缺乏知識應用的弱點。所以,在未來的機器學習中,這樣“端到端”的學習將只是整個學習過程的一個局部模塊中的學習方式, 而從全局來看,如圖4所示,機器學習的過程將會是一個機器與機器、機器與人的一個交互環(huán)境,其中各種知識的交互、融合將是學習的一個重要特征。這里有機器把學到的知識應用到充滿不確定性的現(xiàn)實世界中來進行推理,從而認識模型的性質,并對它不斷地改進。這就是不確定性推理 (reasoning with uncertainty)的研究。我們學習的知識也應該是可解釋的, 而可解釋的關鍵是找到一個從機器模型空間到人的概念知識空間的映射。這樣的映射的建立有賴于我們對知識表達和知識管理研究的重新認識和發(fā)展。我們稱這樣的研究為可解釋的AI(Interpretable AI)。 我們知道所有的機器學習都強調用數(shù)據(jù)來發(fā)現(xiàn)模型,可是有很多是模型已經(jīng)知道的,比如說許多物理模型,都是我們知道的定理。這些模型怎么應用到機器學習當中去成為重要的先驗知識,也很重要。今天的機器學習的統(tǒng)計學基礎是貝葉斯理論。深度學習之父杰弗里·辛頓就認為研究大腦的最好方法,就是將它想象成一臺貝葉斯概率機(Bayesian probability machine)。19世紀赫曼·馮·亥姆霍茲(Hermann von Helmholtz)在其工作中就曾提出過這一觀點,認為大腦以概率的方式計算和感知世界,根據(jù)接收到的信息調整想法,進行預判。在最流行的現(xiàn)代貝葉斯模型中,大腦像個“推理引擎”,目的是最大限度減少“預測誤差”。貝葉斯理論的精髓就是對先驗知識的應用。我們稱這樣的學習為知識支持下的學習 (knowledge supported learning)。

      在經(jīng)典的人工智能中,把先驗知識融合到機器學習中的成功例子很多,諸如在機器人和自動駕駛中常用的卡爾曼濾波器和即時定位與地圖構建技術(SLAM技術)都是這個方向上的杰出成果。這方面的工作也在工程模擬上有很大的應用,其中數(shù)據(jù)同化的理論和技術正是典型的一種知識支持的學習研究。近年來,英國科學家卡爾·弗里斯頓(Karl Friston)提出了自由能量原理,認為認知過程就是減少大腦期望狀態(tài)與測量狀態(tài)之差,即自由能量最小化。這里期望狀態(tài)來自于我們腦中的知識,而測量狀態(tài)就是我們感知的數(shù)據(jù)。這一理論的提出,實際上奠定了知識支持下學習的認知學基礎。我們還要強調的是機器如何從經(jīng)驗學習。實際上人也是一樣,我們往往從經(jīng)驗中獲得知識,而不是從數(shù)據(jù)中。如何從經(jīng)驗中進行學習,機器和機器能夠互相交流學習經(jīng)驗,這是非常重要的研究方向?,F(xiàn)在AlphaGo下棋下得這么好,很重要的原因是用到了機器和機器對弈的概念,機器和機器之間進行相互學習,這是自動學習(AutoML)的思想。

      雖然今天的人工智能技術還有很多局限,但在應用上還是有非常大的突破,同傳翻譯就是一個好例子。在現(xiàn)在的會議上,同傳翻譯翻譯得很快,也很有意思。同傳的知識理解往往不夠,所以常常翻譯得不對,但是基本上能給出一個大概的意思。這就是人工智能的現(xiàn)狀,可用,但還不好用!

      我們希望把知識融合進學習過程的未來機器學習做得更好。還是以同傳翻譯為例,就是說它翻譯的時候能夠理解報告人講話的背景和整個上下文的關系,這就要用到在不確定情況下的推理,在不斷變化觀察中尋找因果關系。翻譯中不但要翻譯語言,還要進行推理和理解,使翻譯更準確?,F(xiàn)在有很多機器學習的工作是圍繞知識的,比如怎么樣實現(xiàn)零樣本學習。當孩子看見一個物體,比如一只熊貓,他不需要很多樣本,只要知道熊、貓的特點,知道有熊貓這個概念,即便他是第一次看到熊貓,也會推理出這個動物叫熊貓。機器有沒有這個能力?沒有。我們能不能通過實現(xiàn)這個機制使得學習更智慧?這就是零樣本學習的思想。我們可以把動物的知識圖譜融合到學習中,這樣,在學習中就可以根據(jù)熊貓的特征,利用知識圖譜進行“概念插值”,從知識圖譜中推斷出熊貓的分類來。知識支持下學習的另一個方向就是研究如何把學到的知識再用于學習。現(xiàn)在許多機器學習的技術,如轉換學習、聯(lián)邦學習等都是把學到的知識再用于學習的例子。

      這樣有知識的學習有廣泛的應用價值。舉一個簡單的例子,我們做的工作是醫(yī)學圖像的識別,用機器來做圖像分割,確定病區(qū)。這可以用深度學習做,需要大量的數(shù)據(jù),但醫(yī)學里面使用大量的數(shù)據(jù)不現(xiàn)實,數(shù)據(jù)很貴。那我們是否可以換一個思路?假定給出一個精度要求,我們探究是否可以用最少的數(shù)據(jù)做到。這意味著要對原來的數(shù)據(jù)作很多領域知識的理解。我們用到了醫(yī)學圖像中幾何的知識,并把它用到標圖之中,這樣我們用十分之一的數(shù)據(jù)就能獲得非常精準的圖像分割。這就是有了知識以后學習的有效性。

      最后,我想用幾句話來總結一下本文的觀點。我用毛主席的幾句話:

      第一句是“前途是光明的,道路是曲折的?!笔紫纫吹诫m然人工智能發(fā)展很快,但我們認識智能的道路很曲折,實際上我們僅在一些專用領域、專用功能上體現(xiàn)智能,離真正的智能水平相差很遠,所以我們有很多工作要做。我們不要把現(xiàn)在的技術窮盡以后再做新的技術,要大大加強人工智能的基礎研究。第二句是“百花齊放,百家爭鳴。”人工智能是個交叉學科,我們必須堅持多學科的交叉,不要趕一種技術的時髦。 把認知科學、腦科學、生理學、心理物理學、數(shù)學、統(tǒng)計學結合起來對智能進行研究會有很大的前景。第三句是“經(jīng)濟基礎決定上層建筑?!蔽覀儾灰雎匀斯ぶ悄軐ι鐣挠绊懙难芯浚浞挚吹饺斯ぶ悄軐θ祟惿鐣陌l(fā)展在倫理、法律、治理各方面提出的新課題、新挑戰(zhàn),要認真研究,不然人工智能的發(fā)展就不會是可持續(xù)的。

      我們在人工智能關鍵技術上不能有短板,要抓好算料、算力和算法這“三算之綱”!算力不僅是芯片,還包括平臺、操作系統(tǒng),這才是真正的人工智能核心技術。然后還有算料。大家都說中國的數(shù)據(jù)很多,但數(shù)據(jù)要有質量才能用來訓練模型,有高精度的數(shù)據(jù),才會有好的模型。這樣的高質量數(shù)據(jù)還不多。我們不僅要搞“大數(shù)據(jù)”,還要搞“金數(shù)據(jù)”,把高質量的數(shù)據(jù)作為我們的國家資源,儲備好,用好。區(qū)塊鏈是數(shù)據(jù)資本化的關鍵技術,要在數(shù)據(jù)資本化場景下發(fā)展好這個技術。 還有就是新的算法。不要人云亦云,亦步亦趨,唯馬首是瞻,要大力提倡有思想性的創(chuàng)新。最后,人工智能對社會倫理的研究也十分重要。這都是在人工智能方面不能有的短板。

      人工智能的發(fā)展取決于人才,我們培養(yǎng)的人工智能的人才不能是人工智能中的人工,而是智能的創(chuàng)造者。人工智能的科學家應該是具有哲學思想、數(shù)學抽象、物理理解、計算機實現(xiàn)等能力的認知科學家。同時,我們的人工智能工程師也需要和領域科學家相互結合,真正成為“智能+”的社會財富創(chuàng)造者。

      最后,我用圖靈一句話結束此文:“我們沒有能力看得太遠,我們卻能看到在不遠的將來,我們也有許多事要去做?!边@就是說,我們一定要踏踏實實地把很多的關鍵科學技術問題研究好,不要認為人工智能已經(jīng)完成了它的研究征程,沒有,遠遠沒有!人工智能的研究才剛剛開始,有許多事情要做,有許多事情可以做,有許多事情等待我們去創(chuàng)新。

      猜你喜歡
      機器深度樣本
      機器狗
      機器狗
      用樣本估計總體復習點撥
      深度理解一元一次方程
      深度觀察
      深度觀察
      未來機器城
      電影(2018年8期)2018-09-21 08:00:06
      深度觀察
      推動醫(yī)改的“直銷樣本”
      隨機微分方程的樣本Lyapunov二次型估計
      西华县| 漳州市| 甘洛县| 哈巴河县| 尚志市| 新和县| 咸丰县| 佛山市| 芮城县| 女性| 凌海市| 璧山县| 松原市| 滦平县| 太仓市| 宁安市| 承德市| 桦甸市| 潜山县| 广饶县| 土默特右旗| 莲花县| 封丘县| 郯城县| 察哈| 富民县| 日照市| 沭阳县| 青浦区| 沾化县| 武功县| 常州市| 界首市| 双柏县| 杭锦后旗| 老河口市| 鄂尔多斯市| 外汇| 新沂市| 新巴尔虎左旗| 黑河市|