劉宗凡
圖靈與人工智能
談到人工智能,我們就不得不提起計(jì)算機(jī)先驅(qū)——圖靈。艾倫·麥席森·圖靈(Alan Mathison Turing,1912—1954),英國(guó)數(shù)學(xué)家、邏輯學(xué)家,被稱為計(jì)算機(jī)之父、人工智能之父。
圖靈在1950年發(fā)表了一篇論文《計(jì)算機(jī)器與智能》,提出了著名的“圖靈測(cè)試”,指出如果第三者無(wú)法辨別人類與人工智能機(jī)器反應(yīng)的差別,則可以論斷該機(jī)器具備人工智能。后來(lái)人們根據(jù)圖靈的描述,將圖靈測(cè)試具體化了:測(cè)試者在與被測(cè)試者(一個(gè)人和一臺(tái)機(jī)器)隔開(kāi)的情況下,通過(guò)一些裝置(如鍵盤(pán))向被測(cè)試者隨意提問(wèn)。進(jìn)行多次測(cè)試后,如果有超過(guò)30%的測(cè)試者不能確定出被測(cè)試者是人還是機(jī)器,則這臺(tái)機(jī)器被認(rèn)為具有人類智能。
在圖靈提出這個(gè)構(gòu)想以后,不斷有科學(xué)家試圖挑戰(zhàn),但眾所周知,圖靈提出的人工智能,是具備了人類思維方式的,要挑戰(zhàn)的難度可想而知。圖靈測(cè)試沒(méi)有規(guī)定問(wèn)題的范圍,如果某臺(tái)機(jī)器能夠通過(guò)測(cè)試,則其必須存儲(chǔ)人類所有可能想到的問(wèn)題及合適的回答,還需要理智地做出選擇。
2014年,英國(guó)雷丁大學(xué)宣稱人工智能軟件尤金·古斯特曼(Eugene Goostman)通過(guò)了圖靈測(cè)試。尤金·古斯特曼是由Vladimir Veselov(現(xiàn)居美國(guó))開(kāi)發(fā)的智能軟件,模仿的是一位13歲的男孩,尤金設(shè)法讓測(cè)試人相信被測(cè)試者33%的答復(fù)為人類所為,這意味著這臺(tái)超級(jí)計(jì)算機(jī)通過(guò)了圖靈測(cè)試。
當(dāng)然,圖靈測(cè)試中所謂的30%,是當(dāng)時(shí)圖靈對(duì)2000年時(shí)機(jī)器的一個(gè)預(yù)測(cè),并且雷丁大學(xué)宣稱尤金讓測(cè)試人相信33%的答復(fù)為人類所為,和圖靈所稱的30%以上的人完全分辨不出來(lái)對(duì)方是人類還是機(jī)器,其實(shí)差別是非常大的:雷丁大學(xué)進(jìn)行的測(cè)試,只不過(guò)是測(cè)試人員相信其33%的答復(fù)為人類所為,換句話說(shuō)沒(méi)有一個(gè)人完全被機(jī)器所騙,和圖靈所稱讓30%的人完全上當(dāng),其實(shí)并不是一個(gè)標(biāo)準(zhǔn)。所以這次測(cè)試結(jié)果并沒(méi)有在科學(xué)界引起大的波瀾。
以后還會(huì)不斷有人挑戰(zhàn)圖靈測(cè)試,可以想象,如果真有一天有機(jī)器能通過(guò)圖靈測(cè)試,這將是人工智能的一場(chǎng)狂歡,是一次質(zhì)的突破。
人工智能(Artificial Intelligence,AI)一詞,是1956年于Dartmouth學(xué)會(huì)上提出的,比圖靈提出圖靈測(cè)試的時(shí)間遲,至今也沒(méi)有一個(gè)統(tǒng)一的定義。它是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)。人工智能包含非常多的學(xué)科和領(lǐng)域,如機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、語(yǔ)言識(shí)別、自然語(yǔ)言理解、控制系統(tǒng)、仿真系統(tǒng)等,并且仍在不斷擴(kuò)展之中。總的說(shuō)來(lái),人工智能的目的就是讓計(jì)算機(jī)能夠像人一樣思考。
現(xiàn)在我們普遍把人工智能分成三個(gè)層次:①弱人工智能Artificial Narrow Intelligence(ANI)。弱人工智能是擅長(zhǎng)于單個(gè)方面的人工智能。比如能戰(zhàn)勝象棋世界冠軍的人工智能,但是它只會(huì)下象棋,回答不了其他任何方面的問(wèn)題。目前我們的人工智能研究,可以說(shuō)還停留在弱工人智能的起步階段,只有去年在圍棋大戰(zhàn)中戰(zhàn)勝李世石的“阿爾法狗”,堪稱弱人工智能里程碑式的突破。②強(qiáng)人工智能Artificial General Intelligence(AGI)。人類級(jí)別的人工智能。強(qiáng)人工智能是指在各方面都能和人類比肩的人工智能,人類能干的腦力活它都能干。Linda Gottfredson教授把智能定義為“一種寬泛的心理能力,能夠進(jìn)行思考、計(jì)劃、解決問(wèn)題、抽象思維、理解復(fù)雜理念、快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)等操作”。③超人工智能Artificial Super Intelligence(ASI)。牛津哲學(xué)家、知名人工智能思想家Nick Bostrom把它定義為“在幾乎所有領(lǐng)域都比最聰明的人類大腦還聰明很多,包括科學(xué)創(chuàng)新、通識(shí)和社交技能”。
圍棋與“阿爾法狗”
棋牌類運(yùn)動(dòng)是人類智慧的結(jié)晶,人們把戰(zhàn)場(chǎng)的金戈鐵馬、自然的山川丘壑、人生的酸甜苦辣等都融入其中,在方寸之間殫精竭慮、斗智斗勇。棋牌體現(xiàn)出無(wú)窮的魅力,國(guó)際象棋和圍棋是其中的佼佼者,深得人們喜愛(ài)。
把時(shí)鐘撥回到二十年前的1997年5月,國(guó)際象棋屆發(fā)生了一件轟動(dòng)一時(shí)的大事:國(guó)際象棋世界冠軍、人類有史以來(lái)最頂尖的棋手卡斯帕羅夫和IBM公司的超級(jí)電腦“深藍(lán)”進(jìn)行了6盤(pán)對(duì)弈,最終以2.5:3.5的比分告負(fù),這標(biāo)志著計(jì)算機(jī)在智力領(lǐng)域正式對(duì)人類吹響了挑戰(zhàn)的號(hào)角。
深藍(lán)是一臺(tái)超級(jí)計(jì)算機(jī),在當(dāng)年的超級(jí)電腦中排名259位,每秒鐘可以運(yùn)行113.8億次浮點(diǎn)運(yùn)算,可以計(jì)算出2億步棋(當(dāng)然,在現(xiàn)在動(dòng)輒每秒億億次浮點(diǎn)運(yùn)算的超級(jí)計(jì)算機(jī)面前,深藍(lán)的計(jì)算速度已經(jīng)不值一曬)。IBM公司將100多年來(lái)所有國(guó)際象棋特級(jí)大師的開(kāi)局和殘局的下法輸入電腦,共有約200萬(wàn)局。比賽時(shí)每場(chǎng)對(duì)局結(jié)束后,IBM深藍(lán)小組都會(huì)根據(jù)卡斯帕羅夫的情況相應(yīng)地修改特定的參數(shù),深藍(lán)雖不會(huì)思考,但這些工作實(shí)際上起到了強(qiáng)迫它學(xué)習(xí)的作用,這也是卡斯帕羅夫始終無(wú)法找到一個(gè)對(duì)付深藍(lán)的有效辦法的主要原因。
從現(xiàn)在的發(fā)展來(lái)看,深藍(lán)之所以能戰(zhàn)勝人類最頂尖高手,主要是依靠它無(wú)窮無(wú)盡的計(jì)算能力。冷酷無(wú)情的機(jī)器,只要抓住人類下法中的一個(gè)失誤,就可以將人類打敗。但是,它的最大的一個(gè)缺陷就是不會(huì)“思考”,所以只能說(shuō)它是一個(gè)集人類國(guó)際象棋經(jīng)驗(yàn)大成的一位“智者”。在卡斯帕羅夫以后,人類還和電腦進(jìn)行了多次較量,雖然電腦勝多負(fù)少,但也不是說(shuō)它是不可戰(zhàn)勝的。因?yàn)殡m然國(guó)際象棋每走一步后對(duì)手能走的方案是有限的,但要算盡所有可能,目前也是不可能的。如果從人工智能的角度來(lái)說(shuō),深藍(lán)還處于“暴力”搜索的初級(jí)階段。
雖然計(jì)算機(jī)早早就戰(zhàn)勝了國(guó)際象棋的頂尖高手,但在圍棋方面,人工智能卻遲遲無(wú)法取得突破。雖然圍棋在全球普及程度遠(yuǎn)不如國(guó)際象棋,但作為中國(guó)四大藝術(shù)“棋琴書(shū)畫(huà)”之一,它在中、日、韓等國(guó)深受人們喜愛(ài)。圍棋是我國(guó)的傳統(tǒng)棋種,它的發(fā)明可以追溯到堯舜以棋教子的傳說(shuō)。圍棋在春秋戰(zhàn)國(guó)時(shí)期就廣為傳播,歷史悠久,源遠(yuǎn)流長(zhǎng),歷朝歷代都涌現(xiàn)出許多才華蓋世的棋手,留下了許多膾炙人口的棋壇佳話。
和國(guó)際象棋相比較,圍棋規(guī)則非常簡(jiǎn)潔,棋盤(pán)上縱橫十九道,三百六十一個(gè)交叉點(diǎn),只有沒(méi)“氣”的點(diǎn)不允許落子,此外可以說(shuō)沒(méi)有任何禁忌。從理論上來(lái)說(shuō),一手棋后,對(duì)方的應(yīng)對(duì),可以有三百余種可能。雙方交替落子,這意味著圍棋總共可能有10^171(10的171次方)種可能性。這個(gè)數(shù)字到底有多大,你可能沒(méi)有感覺(jué)。按通行的說(shuō)法,宇宙中的原子總數(shù)是10^80(10的80次方),即使窮盡整個(gè)宇宙的物質(zhì)也不能存下圍棋的所有可能性。所以中國(guó)歷來(lái)就有“千古不同局”的說(shuō)法。將國(guó)際象棋和圍棋的復(fù)雜性相比較,可以說(shuō)它們是一滴水和大海的關(guān)系。正因?yàn)槿绱耍?jì)算機(jī)技術(shù)在圍棋領(lǐng)域一直沒(méi)有什么突破。
2016年3月9日開(kāi)始,谷歌旗下DeepMind團(tuán)隊(duì)開(kāi)發(fā)的阿爾法狗(AlphaGo)程序和韓國(guó)頂尖棋手之一的李世石(李世乭)進(jìn)行了一次五番棋對(duì)決,結(jié)果震驚全球:阿爾法狗以4:1的絕對(duì)優(yōu)勢(shì)擊敗了集十四個(gè)國(guó)際冠軍頭銜于一身的人類代表!
這是一個(gè)令絕大多數(shù)人目瞪口呆的結(jié)果。如果按照深藍(lán)的思路和圍棋的復(fù)雜程度,這個(gè)結(jié)果確實(shí)有些不可思議。我們可以簡(jiǎn)單地說(shuō),阿爾法狗令人震驚的地方,是它不是利用計(jì)算機(jī)超快的速度來(lái)窮舉各種可能,而是它具備了“思考”的能力!它不是亦步亦趨地將以往棋手的經(jīng)驗(yàn)集中起來(lái)對(duì)付人類,而是具有自己的圍棋觀點(diǎn)和思路。在棋戰(zhàn)中阿爾法狗下出了很多人類不能理解的招數(shù),開(kāi)始的時(shí)候被職業(yè)棋手評(píng)論為錯(cuò)招、臭棋,但最后證明這只不過(guò)這些職業(yè)棋手無(wú)法理解的招數(shù),也就是說(shuō),阿爾法狗已經(jīng)有了“創(chuàng)新”的能力。不僅是程序作者不理解它的下法,連最強(qiáng)的職業(yè)棋手也無(wú)法理解。阿爾法狗顛覆了職業(yè)棋手的圍棋觀,讓幾千年來(lái)的圍棋理論出現(xiàn)了動(dòng)搖。
由于圍棋的變化太過(guò)復(fù)雜與多樣,于是,人們認(rèn)為,在可以預(yù)見(jiàn)的時(shí)間里,人工智能可以在所有智力游戲中戰(zhàn)勝人類。阿爾法狗的橫空出世,橫掃了人類高手,展示了人工智能取得的突破性進(jìn)展。阿爾法狗的這次勝利,無(wú)疑將會(huì)載入人工智能發(fā)展的史冊(cè)。
深度神經(jīng)網(wǎng)絡(luò)與蒙特卡洛樹(shù)搜索
我們?cè)隗@嘆于阿爾法狗的所向無(wú)敵之余,會(huì)禁不住思考,到底是什么造就了它如此的輝煌?
對(duì)于人工智能來(lái)說(shuō),圍棋因其巨大的搜索空間、評(píng)估棋局和評(píng)估落子地點(diǎn)的難度而被認(rèn)為是最具有挑戰(zhàn)性的經(jīng)典博弈游戲。我們給電腦圍棋程序引入一種新的方法,這個(gè)方法使用估值網(wǎng)絡(luò)來(lái)評(píng)估棋局,以及使用策略網(wǎng)絡(luò)來(lái)選擇如何落子。這些深度神經(jīng)網(wǎng)絡(luò)被一種新的組合來(lái)訓(xùn)練:使用了人類專業(yè)比賽數(shù)據(jù)的監(jiān)督學(xué)習(xí),以及自我對(duì)弈的強(qiáng)化學(xué)習(xí)。沒(méi)有使用任何預(yù)測(cè)搜索的方法,神經(jīng)網(wǎng)絡(luò)下圍棋達(dá)到了最先進(jìn)的蒙特卡洛樹(shù)搜索程序的水準(zhǔn),該這程序模擬了數(shù)以千計(jì)的自我對(duì)弈的隨機(jī)博弈。我們同時(shí)也引入了一種新的搜索算法,該算法把蒙特卡洛模擬和估值、策略網(wǎng)絡(luò)結(jié)合在一起。(谷歌研究人員發(fā)表于《自然》雜志的論文Mastering the game of Go with deep neural networks and tree search的摘要)
從論文中我們可以看出幾個(gè)關(guān)鍵詞,即神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、蒙特卡洛樹(shù)搜索。
1.神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)作為一個(gè)計(jì)算模型的理論,最初是由科學(xué)家Warren McCulloch和Walter Pitts在1943年提出來(lái)的。康內(nèi)爾大學(xué)教授Frank Rosenblatt于1957年提出的“感知器”(Perceptron),是第一個(gè)用算法來(lái)精確定義神經(jīng)網(wǎng)絡(luò)、第一個(gè)具有自組織自學(xué)習(xí)能力的數(shù)學(xué)模型,是日后許多新的神經(jīng)網(wǎng)絡(luò)模型的始祖。Rosenblatt樂(lè)觀地預(yù)測(cè),感知器最終可以“學(xué)習(xí)、做決定、翻譯語(yǔ)言”。神經(jīng)網(wǎng)絡(luò)沒(méi)有一個(gè)嚴(yán)格的正式定義,它的基本特點(diǎn)是試圖模仿大腦的神經(jīng)元之間傳遞,處理信息的模式(如下頁(yè)圖)。
一個(gè)計(jì)算模型要?jiǎng)澐譃樯窠?jīng)網(wǎng)絡(luò),通常需要大量彼此連接的節(jié)點(diǎn)(也稱“神經(jīng)元”),并且具備兩個(gè)特性:①每個(gè)神經(jīng)元,通過(guò)某種特定的輸出函數(shù)(也叫激勵(lì)函數(shù)activation function),計(jì)算處理來(lái)自其他相鄰神經(jīng)元的加權(quán)輸入值。②神經(jīng)元之間的信息傳遞的強(qiáng)度,用所謂加權(quán)值來(lái)定義,算法會(huì)不斷自我學(xué)習(xí),調(diào)整這個(gè)加權(quán)值。在此基礎(chǔ)上,神經(jīng)網(wǎng)絡(luò)的計(jì)算模型依靠大量的數(shù)據(jù)來(lái)訓(xùn)練。
神經(jīng)網(wǎng)絡(luò)算法模擬生物神經(jīng)網(wǎng)絡(luò),是一類模式匹配算法。通常用于解決分類和回歸問(wèn)題。人工神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個(gè)龐大的分支,有幾百種不同的算法。而深度學(xué)習(xí)就是其中的一類算法。
2.深度學(xué)習(xí)
深度學(xué)習(xí)算法是對(duì)人工神經(jīng)網(wǎng)絡(luò)的發(fā)展。在計(jì)算能力變得日益廉價(jià)的今天,深度學(xué)習(xí)試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò)。很多深度學(xué)習(xí)的算法是半監(jiān)督式學(xué)習(xí)算法,用來(lái)處理存在少量未標(biāo)識(shí)數(shù)據(jù)的大數(shù)據(jù)集。常見(jiàn)的深度學(xué)習(xí)算法包括受限波爾茲曼機(jī)(Restricted Boltzmann Machine,RBN)、Deep Belief Networks(DBN)、卷積網(wǎng)絡(luò)(Convolutional Network)、堆棧式自動(dòng)編碼器(Stacked Auto-encoders)。
監(jiān)督式學(xué)習(xí):在監(jiān)督式學(xué)習(xí)下,輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”,每組訓(xùn)練數(shù)據(jù)都有一個(gè)明確的標(biāo)識(shí)或結(jié)果。在建立預(yù)測(cè)模型的時(shí)候,監(jiān)督式學(xué)習(xí)會(huì)構(gòu)建一個(gè)學(xué)習(xí)過(guò)程,將預(yù)測(cè)結(jié)果與“訓(xùn)練數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較,并不斷調(diào)整預(yù)測(cè)模型,直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。阿爾法狗在早期輸入了大量人類高手對(duì)局的棋譜,用KGS圍棋服務(wù)器的3000萬(wàn)個(gè)棋局,訓(xùn)練了13層的策略網(wǎng)絡(luò)。在輸入留存測(cè)試數(shù)據(jù)的所受特征時(shí),這個(gè)網(wǎng)絡(luò)預(yù)測(cè)人類專家下棋的精準(zhǔn)率達(dá)到了57%。
非監(jiān)督式學(xué)習(xí):在非監(jiān)督式學(xué)習(xí)中,數(shù)據(jù)并不被特別標(biāo)識(shí),學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。阿爾法狗借助現(xiàn)在無(wú)窮的計(jì)算機(jī)能力,不斷進(jìn)行自我對(duì)弈,在海量的對(duì)局中,提高對(duì)局勢(shì)的判斷能力,這就是非監(jiān)督式學(xué)習(xí)。
半監(jiān)督式學(xué)習(xí):在此學(xué)習(xí)方式下,輸入數(shù)據(jù)部分被標(biāo)識(shí),部分沒(méi)有被標(biāo)識(shí),這種學(xué)習(xí)模型可以用來(lái)進(jìn)行預(yù)測(cè),但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),以便用合理的組織數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè)。
3.搜索與蒙特卡洛樹(shù)搜索
計(jì)算機(jī)最大的優(yōu)勢(shì)在于計(jì)算能力,而搜索的本質(zhì)是窮舉——列出每一種可能出現(xiàn)的情況,所以計(jì)算機(jī)能戰(zhàn)無(wú)不勝了。
搜索在實(shí)現(xiàn)時(shí)的最普遍方法有兩種:一種是深度優(yōu)先搜索,另一種是廣度優(yōu)先搜索。以“走迷宮”為例,深度優(yōu)先就是按照規(guī)則一直往前走,直到無(wú)路可走時(shí)往回走,再按照規(guī)則往前走,這種方法一定可以找到出口或證明沒(méi)有出口。無(wú)路可走時(shí)往回走,這種方法也叫回溯法。在玩游戲《仙劍奇?zhèn)b傳》時(shí),面對(duì)復(fù)雜的迷宮,我們有一種笨辦法,從起點(diǎn)往前走,如果有分叉就選左邊的路走,走到路的盡頭就往回走,再在分叉的路口選左邊的路走(已經(jīng)走過(guò)的路在意識(shí)中將它刪除),用這種方法一定可以走出迷宮。這種方法就是深度優(yōu)先搜索。
與深度優(yōu)先搜索不同,廣度優(yōu)先搜索是站在某個(gè)路口,先試探所有可以走一步的路,看有沒(méi)有哪個(gè)路口到達(dá)了出口。如果沒(méi)有,則把所有相鄰路口記下來(lái),按某種規(guī)則搜索這些路口所有相鄰的路口,直到到達(dá)出口。廣度優(yōu)先搜索找到的第一個(gè)出口是最近的出口,但搜索樹(shù)的寬度擴(kuò)展太快,需要大量空間來(lái)存儲(chǔ)已經(jīng)走過(guò)的路口。
這兩種搜索的過(guò)程,都會(huì)形成一棵搜索樹(shù)。比如下棋,有些地方是根本不允許落子的,我們花力氣去搜索是沒(méi)有意義的;有些地方明顯是敗招,也不需要去搜索。不需要搜索的路徑我們不再走,就是在搜索樹(shù)上把某些枝條去掉,我們稱為搜索剪枝。搜索剪枝能大大減少計(jì)算機(jī)的搜索量,但相對(duì)棋類運(yùn)動(dòng)來(lái)說(shuō),工作量還是太大。
下棋時(shí),每個(gè)棋子代表的價(jià)值和走在不同位置的作用都不同,我們?cè)谒阉鲿r(shí)要區(qū)別對(duì)待。我們引入一個(gè)估值函數(shù),對(duì)下一步要走的路口進(jìn)行估值,選一個(gè)最值得走的路口走,這樣就能最快走到終點(diǎn),這就是A*搜索。
當(dāng)然,迷宮是一個(gè)人走,下棋是兩個(gè)人下,在搜索中,人們發(fā)明了“極小化極大算法”(minmax algorithm),就是計(jì)算機(jī)在尋找下一步棋的時(shí)候,優(yōu)先選擇不管對(duì)方怎么下,對(duì)我們都不會(huì)太壞的地方。我們進(jìn)一步縮小搜索空間,以便計(jì)算機(jī)能在某些分支搜索得更深,而不把時(shí)間花在一看就不行的廢棋上,其中一個(gè)重要的算法叫Alpha-Beta剪枝。深藍(lán)就是主要運(yùn)用了Minmax搜索和Alpha-Beta剪枝,并加上局勢(shì)評(píng)估和往前看。深藍(lán)的局勢(shì)評(píng)估考慮了棋子的重要性、每個(gè)棋子的影響范圍、王的安全系數(shù)、先手等因素。這個(gè)評(píng)估是動(dòng)態(tài)的,要往前窮舉數(shù)步棋中的所有變化。據(jù)說(shuō)深藍(lán)可以往前推12步,12步大概有10^ 24(10的24次方)種變化,加上剪枝和深藍(lán)強(qiáng)大的運(yùn)算能力,是可以實(shí)現(xiàn)的。而人類頂尖高手大概可以推算10步,因此計(jì)算機(jī)面對(duì)人類高手基本上穩(wěn)操勝券。
但圍棋的變化實(shí)在過(guò)于復(fù)雜,遠(yuǎn)遠(yuǎn)不是國(guó)際象棋可以比擬的。不過(guò)深藍(lán)還是帶給我們非常多的啟發(fā),就是如何尋找一個(gè)精確的形勢(shì)評(píng)估函數(shù)。圍棋的形勢(shì)判斷非常微妙,并沒(méi)有一個(gè)比較客觀的方式。不同的職業(yè)棋手對(duì)同一步棋,可能會(huì)形成截然相反的評(píng)判意見(jiàn)。比如什么是勢(shì)?什么是厚?什么是?。坎煌L(fēng)格的棋手都會(huì)有不同看法。
那圍棋中有沒(méi)有絕對(duì)客觀的呢?只有一條,那就是最終的勝負(fù)。但要窮盡整個(gè)搜索樹(shù),在可預(yù)見(jiàn)的未來(lái)那是不可能實(shí)現(xiàn)的。在搜索樹(shù)中,我們可能有幾個(gè)分支是導(dǎo)向勝利的,那我們需要把所有分支都窮盡找到最優(yōu)的方法嗎?不需要的,我們可以抽樣統(tǒng)計(jì)其優(yōu)劣。如何抽樣?當(dāng)然在計(jì)算機(jī)允許的時(shí)間內(nèi)越多越好。比如下在某個(gè)位置的這手棋到底好不好?我們可以在這個(gè)基礎(chǔ)上下一千局、一萬(wàn)局乃至更多。到底多少局好?我們可以算到讀秒時(shí)間結(jié)束為止。像這樣在確定時(shí)間內(nèi)完成的隨機(jī)算法,就叫做蒙特卡洛算法。深藍(lán)用過(guò)的搜索算法,現(xiàn)在一樣能用:只要把局面評(píng)估方法換成蒙特卡洛就行了(用模擬對(duì)局的最終勝率而不是評(píng)分值來(lái)評(píng)價(jià)當(dāng)前局面的好壞),這就是所謂的“蒙特卡洛樹(shù)搜索”。
因?yàn)閲逯畼?shù)實(shí)在太大,每個(gè)結(jié)點(diǎn)模擬次數(shù)多,時(shí)間不夠用,模擬次數(shù)少,答案又不精確。阿爾法狗的主體仍然是蒙特卡洛樹(shù),但它巧妙地用了兩個(gè)深度學(xué)習(xí)模型,一個(gè)預(yù)測(cè)下一手,一個(gè)判斷形勢(shì)。預(yù)測(cè)的結(jié)果,降低了搜索寬度;而形勢(shì)判斷,則減小了搜索深度。深度學(xué)習(xí)從人類的經(jīng)驗(yàn)中學(xué)來(lái)了棋感與大局觀,它們使蒙特卡洛如虎添翼。
人工智能與“后圍棋時(shí)代”
2016年12月29日,一位名叫“Maser”的棋手登錄弈城網(wǎng)、野狐網(wǎng)(專業(yè)圍棋對(duì)弈網(wǎng)站),掀起了圍棋界的“腥風(fēng)血雨”,以60連勝的戰(zhàn)績(jī)橫掃當(dāng)前所有頂尖高手?,F(xiàn)在我們已經(jīng)知道,“Master”就是阿爾法狗的升級(jí)版本。
DeepMind公司創(chuàng)始人哈薩比斯此前在一次采訪中曾透露,他們的團(tuán)隊(duì)正在嘗試訓(xùn)練一個(gè)沒(méi)有學(xué)習(xí)過(guò)人類棋譜的人工智能,這也可能就是Master和阿爾法狗不同的原因。如果Master真的沒(méi)有學(xué)習(xí)過(guò)人類棋譜,卻有了突飛猛進(jìn)的實(shí)力,那就恰恰印證了谷歌AI技術(shù)的全新突破。
如此強(qiáng)悍的阿爾法狗,是不是已經(jīng)成了“圍棋之神”?也就是說(shuō)它是不是已經(jīng)對(duì)圍棋的每一步都能應(yīng)對(duì)正確、永無(wú)失誤?其實(shí),要成為“圍棋之神”,就要窮盡圍棋的每一種可能,而我們知道,圍棋的可能性是趨向無(wú)窮,目前還不能說(shuō)阿爾法狗的每一步棋都是圍棋真理,只是它的每一步棋,都盡量保證必勝。
在大戰(zhàn)Master以后,古力說(shuō):“夜深了,心情漸漸平復(fù),但腦海里依然浮現(xiàn)著這幾天的奇幻之旅——從勇士集結(jié)到一一抬走,從信心滿滿到麻木絕望。相對(duì)于恒定的Master大師,我們?nèi)祟惖南才?lè),對(duì)未知的憧憬與探索,也許正是我們活下去的最深層的動(dòng)力。阿爾法狗的出現(xiàn)已經(jīng)徹底顛覆了我們棋手對(duì)局勢(shì)原有的掌控、判斷。那我不禁要問(wèn),多年后的某一天,當(dāng)你發(fā)現(xiàn)自己曾經(jīng)的意識(shí)、認(rèn)知、抉擇都是錯(cuò)誤的時(shí)候,你會(huì)一如既往地錯(cuò)下去,還是否定自己,給自己重新開(kāi)始的機(jī)會(huì)呢?致最好的時(shí)代or最壞的時(shí)代!”
最好的時(shí)代or最壞的時(shí)代?這就是人工智能對(duì)圍棋領(lǐng)域的顛覆。圍棋千百年來(lái)積淀的理論、定式等,在人工智能的幫助下,將揭開(kāi)新的一頁(yè),圍棋正式進(jìn)入“后圍棋時(shí)代”。
小米總裁雷軍說(shuō):“相比以往人工智能的嘗試,阿爾法狗的表現(xiàn)空前地像人,又超越人。策略、直覺(jué)、意識(shí)等方面,從來(lái)都被認(rèn)為是人類的專屬能力,而現(xiàn)在阿爾法狗的表現(xiàn)完全顛覆了這些過(guò)往的‘定論。過(guò)去,科技帶來(lái)的人類能力的延展基本是物理性的,遠(yuǎn)的有紡織機(jī)代替手工作坊、汽車(chē)代替馬車(chē),近的有GPS實(shí)現(xiàn)全球定位,‘通信+智能終端實(shí)現(xiàn)實(shí)時(shí)資訊傳輸、交互等,但眼下則是完全不同的維度。這應(yīng)該是第一次進(jìn)入了真正思維領(lǐng)域,可能將為人類帶來(lái)分析、判斷、決策思維的直接效率提升?!?/p>
日本現(xiàn)代圍棋史上最杰出的棋手之一藤澤秀行曾經(jīng)說(shuō)過(guò),“棋道一百,我知七”。人們以前都認(rèn)為這是棋圣的謙虛說(shuō)法,現(xiàn)在我們?cè)賮?lái)看這句話,何嘗不是人類的真實(shí)寫(xiě)照。在人工智能領(lǐng)域,我們所知的也許還不到百分之七,但阿爾法狗引領(lǐng)的這次人工智能的突破,將如旭日東升,噴薄而出,開(kāi)啟一個(gè)新的時(shí)代。