作者/宮書暢,江蘇省南京第一中學(xué)
2016年3月,由谷歌旗下DeepMind公司的團(tuán)隊開發(fā)的圍棋人工智能程序AlphaGo以4:1的戰(zhàn)績擊敗了世界圍棋冠軍李世石。1970年以前,人們普遍認(rèn)為只會執(zhí)行固定程序的電腦不可能在國際象棋和圍棋的比賽中戰(zhàn)勝人類冠軍;20世紀(jì)70年代,國際象棋程序的算法思路大致奠定,智能程序開始取得勝績。1997年,“深藍(lán)”計算機戰(zhàn)勝卡斯帕羅夫,成為首個在公開化比賽中戰(zhàn)勝國際象棋人類冠軍的計算機,圍棋隨之成為人機對弈的下一個主戰(zhàn)場。2015年10月,AlphaGo程序在一場公開比賽中5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾[1]。人工智能快速發(fā)展的同時也讓人感到憂慮。國內(nèi)外有很多小說和電影描述了智能機械脫離控制、引發(fā)叛亂甚至奴役人類的場景。物理學(xué)家斯蒂芬·霍金也表達(dá)了它對人工智能的擔(dān)憂。他說:“成功制造出一臺人工智能機器人將是人類歷史上的里程碑。但不幸的是,它也可能會成為人類歷史上最后的一個里程碑。”
本文的工作主要分為兩個方面。一方面從AlphaGo的核心算法進(jìn)行分析,詳細(xì)的論證了AlphaGo的工作原理。另一方面,作者結(jié)合人工智能的現(xiàn)狀,從技術(shù)等角度提出對人工智能發(fā)展前景的思考,從而得出人工智能發(fā)展不會威脅人類社會的結(jié)論。
在AlphaGo之前,國際象棋人工智能程序“深藍(lán)”主要采用的是暴力窮舉法,即在國際象棋有限的棋盤上,找出所有的能走的走法,然后對它們進(jìn)行分析和估值,最后找出所有走法中最佳的一個。由于國際象棋棋盤小,走法數(shù)量不會太大,所以通過暴力窮舉法“深藍(lán)”得以取得勝利。但是圍棋棋盤大,交叉的網(wǎng)格點多達(dá)361個。加之對棋盤上的多個交戰(zhàn)點和大局觀的把控,暴力窮舉法很顯然是不可取的。
AlphaGo主要采用的是神經(jīng)網(wǎng)絡(luò)和蒙特卡洛搜索相結(jié)合的方法,其神經(jīng)網(wǎng)絡(luò)主要實現(xiàn)了決策過程,即決定下一步的走法,而蒙特卡洛樹搜索則是決定了每一步的前進(jìn)過程。因此,本文將從以下兩個方面對AlphaGo的核心算法進(jìn)行詳細(xì)分析。
為了實現(xiàn)圍棋對弈的過程,AlphaGo使用了四個神經(jīng)網(wǎng)絡(luò),分別為三個策略網(wǎng)絡(luò):快速走子網(wǎng)絡(luò)(Rollout policy)、監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)(SL policy network)、強化學(xué)習(xí)策略網(wǎng)絡(luò)(RL policy network)和一個值網(wǎng)絡(luò)(Value network)。快速走子網(wǎng)絡(luò)是一個簡單的神經(jīng)網(wǎng)絡(luò)。它的準(zhǔn)確率不是很高,但是它運算速度極快??焖僮咦泳W(wǎng)絡(luò)能夠快速地模擬對弈,提高了對棋盤上局面的評估能力。監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)比快速走子網(wǎng)絡(luò)復(fù)雜很多,是一個13層的深度卷積網(wǎng)絡(luò),它可以根據(jù)當(dāng)前棋盤的布局給出下一步的走法。這兩個神經(jīng)網(wǎng)絡(luò)都是通過儲存在KGS圍棋平臺上的3000萬條數(shù)據(jù)進(jìn)行訓(xùn)練的。強化學(xué)習(xí)策略網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)是由監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)得到的,這樣能進(jìn)一步強化神經(jīng)網(wǎng)絡(luò)。因此,強化學(xué)習(xí)策略網(wǎng)絡(luò)得到的結(jié)果更加接近最優(yōu)策略。[2]值得注意的是,正是對局中之所以使用監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)產(chǎn)生備選走法而不是強化學(xué)習(xí)策略網(wǎng)絡(luò),是因為后者使用的訓(xùn)練數(shù)據(jù)是由神經(jīng)網(wǎng)絡(luò)產(chǎn)生的,這使得它產(chǎn)生的走法過于單一,而前者使用的訓(xùn)練數(shù)據(jù)來自于人類大師,其方法更為多元化更有利于找到最優(yōu)解。值網(wǎng)絡(luò)輸出的值表示了在所有玩家都使用了最優(yōu)策略的情況下,最終的勝率是多少。而最優(yōu)策略的獲得是來自于強化學(xué)習(xí)策略網(wǎng)絡(luò),訓(xùn)練值網(wǎng)絡(luò)所需的數(shù)據(jù)又來自于強化學(xué)習(xí)策略網(wǎng)絡(luò)所產(chǎn)生的結(jié)果。
蒙特卡洛樹搜索算法的原理是先隨機走子,然后通過棋局最后輸贏的結(jié)果來更新原先的走法,并設(shè)定隨機走子的概率與先前計算出的走子價值成正比。多次的隨機模擬后,使最好的方案涌現(xiàn)出來。[3]蒙特卡洛樹搜索對評估函數(shù)的要求非常簡單,只要可以判斷棋局最后的輸贏結(jié)果就行了。AlphaGo沿用了深藍(lán)時代的算法框架,在狀態(tài)空間中使用的信息匯總策略也與蒙特卡洛樹搜索方法完全一樣。但AlphaGo運算能力明顯提高的主要原因是成功地改進(jìn)并使用了狀態(tài)空間搜索的策略和一個合理的棋局評估函數(shù),即上文所闡述的4個神經(jīng)網(wǎng)絡(luò)。AlphaGo通過傳統(tǒng)的蒙特卡洛樹搜索將策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)結(jié)合起來,使得AlphaGo具有了更加類似于人類思維的“深思熟慮”。
圍棋是人類智慧的集大成者,是人類智慧的巔峰。然而李世石的失敗似乎標(biāo)志了人工智能已經(jīng)攻破了這一高峰,擁有了比人類更高等的智慧。人類在為這一突破而感到興奮的同時,也不禁感到了一絲恐懼:人類不再是地球上最具智慧的存在了。智能機械在未來與人類是敵是友,我們不得而知。
“智械危機”一詞來源于《守望先鋒》的游戲背景故事中。奧尼卡公司對機器人生產(chǎn)技術(shù)進(jìn)行了革命性改良,因此整個世界的經(jīng)濟(jì)大幅度發(fā)展。被稱為“智械中樞”的可以自動生產(chǎn)機器和可以自我改良的軟件算法被授予了專利。這是一個有著學(xué)習(xí)能力、可以自我升級、分布區(qū)域廣泛的人工智能。隨后,智械中樞開始崩潰。當(dāng)這些失去作用的智能機械覺醒后,立即對所有人類發(fā)動了戰(zhàn)爭。沒有任何一個國家可以靠一己之力關(guān)閉一個智械中樞。曾經(jīng)令人類引以為豪的機械適應(yīng)能力,如今成為了最危險的敵人。而這一切危機的源頭正是對人工智能的開發(fā)和應(yīng)用。人工智能代表了科技的高峰,是對人類思想的模擬。它比任何理論科學(xué)都更加接近于人類的生活。它潛藏著人類對人類本身學(xué)習(xí)力以及對科學(xué)技術(shù)的恐懼。人類越是依賴技術(shù)的革新帶來的生活水平上的提高,就越是擔(dān)心科技這把雙刃劍的劍鋒有一天會砍向自己。但是,從理性的角度來看,世界上運算再快的人也比不過計算器,跑得再快的人也追不上火車。機器在各個方面早已超越了人類多年。但僅憑這些,并不能說明計算機和火車比人類更加高等。除此之外,就目前人工智能的研究現(xiàn)狀看來,人工智能還不能完完全全地做到像人類一樣獨立地思考,人工智能的行為均是依賴于外界訓(xùn)練集的輸入,所以本文認(rèn)為在科幻作品中的智械危機是不會出現(xiàn)在現(xiàn)實當(dāng)中的。
如同上個世紀(jì)的計算機一樣,人工智能將會在未來發(fā)揮巨大的作用。現(xiàn)在,人工智能已經(jīng)被廣泛運用了。比如郵箱的垃圾郵件過濾器、iPhone的助手Siri、科大訊飛的語音輸入、乃至谷歌開發(fā)的無人駕駛車等,可見人工智能已經(jīng)極大的方便了人類生活。目前人工智能是科學(xué)研究的焦點之一,谷歌、Facebook、百度、騰訊等互聯(lián)網(wǎng)公司均設(shè)立了人工智能實驗室將人工智能技術(shù)作為未來研究的重點。在歐美,發(fā)達(dá)國家也都在致力研究人工智能計劃,如歐盟“人腦工程項目”、美國“大腦研究計劃”等。[4]
在未來,人工智能將會取代許多傳統(tǒng)行業(yè),例如快遞員、售貨員、會計、司機、清潔工等職業(yè)。[5]這些人工智能機器不需要工資,只需要提供電和網(wǎng)絡(luò)就會一直工作。這些人工智能機器在為社會創(chuàng)造更多財富的同時,也不可避免的會造成大量人群的失業(yè),但是,這也會使人們會努力尋找新的產(chǎn)業(yè),世界的產(chǎn)業(yè)結(jié)構(gòu)從而發(fā)生改變,從而人類社會得到進(jìn)步。
AlphaGo與李世石的對弈是由4個神經(jīng)網(wǎng)絡(luò)通過蒙特卡洛樹搜索的方式來完成的。這4個學(xué)習(xí)網(wǎng)絡(luò)包括3個策略網(wǎng)絡(luò)和1個值網(wǎng)絡(luò),它們都是在3000萬條圍棋數(shù)據(jù)直接或間接的訓(xùn)練下得到的。策略網(wǎng)絡(luò)中監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)負(fù)責(zé)對當(dāng)前局勢提供走法,強化學(xué)習(xí)策略網(wǎng)絡(luò)和快速走子網(wǎng)絡(luò)負(fù)責(zé)預(yù)估棋局走向。而值網(wǎng)絡(luò)負(fù)責(zé)對棋局的最終結(jié)果進(jìn)行預(yù)估。蒙特卡洛樹搜索把4個神經(jīng)網(wǎng)絡(luò)結(jié)合了起來,通過大量的模擬對弈篩選出贏面最大的走法。AlphaGo在擊敗人類圍棋大師的同時,人們也開始擔(dān)心人工智能在未來潛伏的威脅。雖然在各種科幻小說和電影中智械危機都有出現(xiàn),但是通過分析,本文認(rèn)為這些情況是不會出現(xiàn)在現(xiàn)實生活中的。人工智能將在未來更快的發(fā)展,并協(xié)助人類工作,提高人類的生活質(zhì)量,創(chuàng)造出大量的財富,甚至推動社會的進(jìn)步。從更強大的搜索引擎、高精度的語音識別功能到能夠獨立完成大量工作的智能機械,從可以照顧孩子的教育機器人到能夠關(guān)心老人的陪伴機器人,人工智能在今后的發(fā)展將會為人類社會帶來福音。
* [1]黃鉑鈞 . AlphaGo 來了 ![J]. 科學(xué)世界 , 2016(4)∶4—11.
* [2]黃鉑鈞 . 程序也能作畫 [J]. 科學(xué)世界 , 2016(11)∶92—95.
* [3]陶九陽, 吳琳, 胡曉峰. AlphaGo技術(shù)原理分析及人工智能軍事應(yīng)用展望[J]. 指揮與控制學(xué)報, 2016, 2(2)∶114—120.
* [4]阮曉東. 從AlphaGo的勝利看人工智能的未來[J]. 新經(jīng)濟(jì)導(dǎo)刊 , 2016(6)∶69—74.
* [5]許嘉凝. 從AlphaGo的勝利看人工智能[J]. 自然科學(xué)∶全文版,2016(3)∶00149—00149.