馬堯
阿法狗的核心技術(shù)是深度學習方法,也就是說,它的圍棋知識不是像“深藍”那樣是編在程序里的,而是它通過大量棋譜和自我對弈自己學會掌握的。
3月9日一15日,為期七天的阿法狗與李世石的圍棋“人機大戰(zhàn)”落下帷幕后,谷歌智能系統(tǒng)阿法狗以4:1的絕對性優(yōu)勢戰(zhàn)勝韓國頂級棋手李世石。
起源于中國的圍棋一向是智者的運動。其變化多端以及對大局觀和戰(zhàn)略觀的高度要求常常被人稱道。1998年電腦深藍戰(zhàn)勝國際象棋冠軍卡斯帕羅夫之后,圍棋被認為是人工智能無法戰(zhàn)勝人類的最后一項棋類運動。然而事情發(fā)生了變化:最近的人機大戰(zhàn)中,電腦阿法狗(AlphaGo)繼5:0戰(zhàn)勝歐洲冠軍樊麾三段后,又以4:1的總比分將現(xiàn)世界圍棋職業(yè)大賽百靈杯亞軍、前世界圍棋第一人并奪取過14個世界冠軍頭銜的韓國圍棋名將李世石九段挑落下馬。這不僅是世界圍棋史上的大事,也是人工智能發(fā)展的新階段。
圍棋是中國的國粹,在南北朝時傳入日本。在唐朝年間,兩國棋手也有過不少切磋,中國圍棋名家顧師言以三十三手“鎮(zhèn)神頭”擊敗“日本國王子”的故事更是流傳甚廣。就競技水平而言,中國圍棋水平在日本之上。此后,中日圍棋交流一直沒有中斷,一直到明清時代。進入16世紀,日本圍棋開始走上職業(yè)化的道路,棋手水平開始反超中國。特別是進入近代之后,中國國力貧弱,圍棋水平不升反降。圍棋名手吳清源甚至不惜在抗戰(zhàn)期間背負罵名加入日本國籍,以此來維系自己的職業(yè)生涯。
改革開放之后的中國與日本在各方面開展了交流,圍棋自然也不例外。1984年開始的中日圍棋擂臺賽成就了聶衛(wèi)平和常昊等國手的威名。正當中國棋手在中日圍棋擂臺賽上斬將奪旗,大展雄風之際,韓國圍棋開始異軍突起,并開始對棋壇長達十數(shù)年的統(tǒng)治。自從1988年曹薰鉉擊敗聶衛(wèi)平奪得應氏杯冠軍以來,韓國至2015年1月在世界大賽中共計57次奪冠,超過中日兩國的總和。其中李昌鎬、李世石、曹薰鉉分別奪得17、14和9個冠軍,位列前三位。一時間,韓國圍棋壓得中日同行喘不過氣來。
隨著2010年第14屆LG棋王杯決賽中國棋手孔杰零封李昌鎬奪得虎年首冠,中國圍棋開始吹響反攻的號角。在古力領軍的中國圍棋80后選手的強力反擊下,韓國圍棋甚至在2013年度顆粒無收。而韓國天王級的棋手李昌鎬5年期間收獲8個亞軍;李世石則在2014年后再沒有登上世界冠軍的領獎臺,最近結(jié)束的百靈杯中以半目告負于中國小將柯潔,成就了這位少年英雄的三冠夢想。讓韓國圍棋界灰心的是,自二李之后,韓國圍棋界再無天才,除樸廷桓和申真谞外,其他皆不堪重用。日本更慘,所謂的少年天才井山裕太被柯潔殺得“血濺五步”,連招架之功都沒有。至于一力遼之流,更是不值一提。反觀中國,除柯潔外,時越、陳耀燁、羋昱廷、唐韋星、江維杰等一大批少年天才棋手橫空出世,標志著中國圍棋的復興已經(jīng)成為現(xiàn)實,中國棋手統(tǒng)治棋壇的時代已經(jīng)到來。
國運興,棋運興。日本棋手橫行棋壇的時代正是日本國勢強盛的時代;韓國棋手稱雄棋壇的十年正是韓國經(jīng)濟騰飛的十年;而中國棋手統(tǒng)治棋壇的那一年,中國的GDP超過日本,成為世界第二,三年之后,中國成為世界上最大的工業(yè)國。
然而,正當人們對世界圍棋格局的中國王朝進行展望時,一位“棋手”橫空出世,“他”不是中日韓棋手,甚至不是人,而是人工智能棋手——阿法狗。
2016年1月27日英國《自然》雜志刊登文章稱,谷歌的人工智能系統(tǒng)阿爾法圍棋2015年10月份以5比0的戰(zhàn)績完勝歐洲冠軍、職業(yè)圍棋二段樊麾,這是人類歷史上,圍棋人工智能(AI)第一次在公平比賽中戰(zhàn)勝職業(yè)圍棋手。2016年3月,人機大戰(zhàn)開始升級:阿法狗的對手換成了韓國名將,14次世界冠軍的獲得者李世石九段。盡管與世界圍棋第一人柯潔九段交手的記錄為難堪的2勝8負,但誰也不敢小覷這位百靈杯的新科榜眼的實力。李世石與阿爾法圍棋的圍棋人機大戰(zhàn)為五番棋挑戰(zhàn),但無論比分如何將下滿五局,比賽采用中國圍棋規(guī)則,執(zhí)黑一方貼3又3/4子(即7.5目),各方用時為2小時,3次60秒的讀秒機會。
2016年3月9日,圍棋人機大戰(zhàn)首局在韓國首爾四季酒店打響。賽前猜先阿爾法圍棋猜錯,李世石選擇黑棋,等阿爾法圍棋下了186手,李世石算清后投子認輸。3月10日,圍棋人機大戰(zhàn)展開第二局較量。阿爾法圍棋執(zhí)黑先行,最終阿爾法圍棋執(zhí)黑于211手獲勝且優(yōu)勢明顯,總比分2比0領先。3月12日,圍棋人機大戰(zhàn)展開第三局較量。李世石執(zhí)黑先行,到阿爾法圍棋下了176手后,李世石只有投子認負。圍棋人機大戰(zhàn)前三盤人類三連敗。3月13日,圍棋人機大戰(zhàn)展開第四局較量。在接連三局負于“阿爾法圍棋”后,“輸?shù)弥皇Q濕谩钡睦钍朗畔掳ぃK于迎來了“圍棋人機大戰(zhàn)”的首次勝利。3月15日,圍棋人機大戰(zhàn)展開第五局對決。第280手,李世石投子認負。這次圍棋人機大戰(zhàn)的最終比分定格為1比4。
阿法狗之所以獲勝,在其具備的三個巨大優(yōu)勢:第一,與“深藍”完全不同的學習能力。1997年“深藍”戰(zhàn)勝國際象棋大師卡斯帕羅夫,但它的意義完全不能同阿法狗。相比。阿法狗的核心技術(shù)是深度學習方法,也就是說,它的圍棋知識不是像“深藍”那樣是編在程序里的,而是它通過大量棋譜和自我對弈自己學會掌握的。而且,這種學習能力具有相當大的通用性。自己學習的能力,使得計算機有了進化的可能;而通用性,則使其不再局限在圍棋領域。盡管這個能力目前還很初級,但卻展現(xiàn)了極好前景,使得以前困擾我們的人工智能自我學習問題,有了解決的可能。這是一個很大的創(chuàng)新和進步。
第二,局部落子和整體棋局著法的平衡能力。阿法狗通過深度學習產(chǎn)生出來的策略網(wǎng)絡(或稱走棋網(wǎng)絡),在對抗過程中可以實現(xiàn)局部著法的優(yōu)化;通過估值網(wǎng)絡實現(xiàn)對全局的不間斷的評估,用于判定每一步棋對全局棋勝負的影響。而且,還可以通過快速走子算法和蒙特卡洛樹搜索機制,加快走棋速度,實現(xiàn)對弈質(zhì)量和速度保證的合理折衷。這些技術(shù)使得計算機初步可以既考慮局部得失,又考慮全局整體勝負。而這種全局性“直覺”平衡能力,正是過去我們認為是人類獨有的。
第三,超出人類對圍棋博弈規(guī)律的理解能力。在五番棋的對抗過程中,從觀戰(zhàn)的超一流棋手討論和反應可以發(fā)現(xiàn),阿法狗的著法有些超出了他們的預料,但事后評估又認為是好棋。有棋手就認為,人類真的可以向計算機學習圍棋,加深對圍棋規(guī)律的理解,覺得“它可能比我們更接近圍棋之神”。這意味什么?意味著阿法狗的深度學習算法,甚至可以從大數(shù)據(jù)中發(fā)現(xiàn)人類千百年來還未發(fā)現(xiàn)的規(guī)律和知識,為人類擴展自己知識體系開辟了新的認識通道。
阿法狗如此神奇,是不是就無法戰(zhàn)勝?也未必。有專家提出兩點克制方式:一、攻其策略網(wǎng)絡,加大搜索空間。進入中盤后,職業(yè)選手如能建立起比較復雜的局面,每一步棋都牽連很多個局部棋的命運(避免單塊、局部作戰(zhàn)),則阿法狗需要搜索空間則急劇加大,短時間內(nèi)得到的解的精度就會大打折扣。通俗地說,非常復雜的變化,人算不清楚,現(xiàn)階段計算機的計算力更沒辦法。李世石九段的第四局棋就有這個意思,所以扳回一局。
二、攻其價值網(wǎng)絡,萬劫不復。阿法狗的價值網(wǎng)絡極大地提高了之前單純依靠MCTS來做局勢判斷的精度,但離準確判斷圍棋局勢還有不小的差距。神經(jīng)網(wǎng)絡還不能完全避免在某些時候出現(xiàn)一些怪異(甚至錯誤)的判斷,更何況其訓練樣本還遠遠不足。這也是為什么有了價值網(wǎng)絡還仍然需要依靠快速走棋來判斷局勢。不能說阿法狗不會打劫,而是害怕在棋局早期的多劫并存。即,打劫要乘早,太晚了搜索空間變小,即便價值網(wǎng)絡失效,還可以靠快速走棋網(wǎng)絡來彌補。開劫應該以在剛剛進入中盤時期為好(太早劫財還不夠),并且保持長時間不消劫,最好在盤面上能同時有兩處以上打劫。沒有了價值網(wǎng)絡的阿法狗其實水平也就職業(yè)3-5段左右。
當今世界第一人柯潔已經(jīng)放出豪言,要和阿法狗一較高下。這將是一場勝利。首先,在剛剛過去的人機大戰(zhàn)中,阿法狗的優(yōu)勢和缺點想必柯潔已經(jīng)了然于胸并引起足夠重視,相比起李世石剛開始迎戰(zhàn)時的無知無畏甚至自大,柯潔的心理狀態(tài)應該更好;其次,柯潔對李世石的勝率達到80%,棋力遠在后者這個過氣明星之上,因此,柯潔對陣阿法狗的勝率更高。何況李世石也曾贏過一局,說明阿法狗并非不可戰(zhàn)勝。
然而這場人機大戰(zhàn)的意義不僅僅是在圍棋領域,更在于人工智能方面。一般說來,機器智能主要分為三大類:計算智能、感知智能和認知智能。在計算智能領域,以科學運算、邏輯處理、統(tǒng)計查詢等形式化規(guī)則運算為核心,在有些方面計算機早已超過了人類,比如“天河”的科學運算和“深藍”基于規(guī)則的暴力搜索。但也有些還無法超越人類,比如復雜符號推理。在感知智能領域,以圖像理解、語音識別、語言翻譯、運動控制等為代表,近期由于深度學習方法的突破,取得了重大進展,開始逐步趨于實用水平。
但是,在認知智能領域,以理解、推理和決策為代表,強調(diào)“會思考”、“能決策”等,因其綜合性更強,更接近人類智能,研究難度更大,長期以來一直進展緩慢。阿法狗在深度學習技術(shù)上的突破,使其在自主學習、理解和推理能力上取得重大進步,使我們終于在認知智能方面看到了曙光,盡管現(xiàn)在還非常非常的初步。然而這種進步對人類來說帶來的并非全是福音。由于人工智能在催生更多的聰明武器和自主化無人平臺、提高對戰(zhàn)場態(tài)勢的認知速度、拓展認識信息化戰(zhàn)爭機理的新途徑、助推兵棋推演實現(xiàn)真正的人機對抗、使指揮信息系統(tǒng)克服智能輔助上瓶頸等防務領域的巨大價值,必然會被用于戰(zhàn)爭,如果是這樣,恐非人類之福。
(本文作者為上海外國語大學國際關系與公共事務學院特約研究員)