楊柳
從兩年前AI棋手擊敗李世石起,關(guān)于AI圍棋的話題就沒有斷過。不少公司利用自有的計算資源開始研究AI圍棋,并且?guī)е约褹I圍棋參加各種比賽。
今年7月末,“2018騰訊世界人工智能圍棋大賽”總決賽在中國棋院舉行。在這場比賽中,最終騰訊的AI圍棋絕藝拔得頭籌,獲得40萬元人民幣獎金,這也是絕藝第三次奪得世界性AI圍棋比賽冠軍。
這次的比賽共有11支AI棋手隊伍參加,其中4支來自中國,3支來自日本,一支來自比利時,一支來自美國。經(jīng)過6月份的預(yù)選賽,剩下八支隊伍進入決賽。經(jīng)過7月29日的半決賽后,來自中國的絕藝、星陣,美國的ELFOpenGo,日本的AQ成功晉級總決賽。
在從預(yù)賽到?jīng)Q賽的比賽過程中,這些AI棋手不按套路出牌的對弈過程和意外情況,讓觀戰(zhàn)的專業(yè)棋手也覺得驚訝。
在復(fù)賽中,絕藝對陣星陣,由于遇到了一個AI圍棋中常見的“征子”bug,導(dǎo)致絕藝在極短的時間內(nèi)就落敗。
在絕藝對AQ的一場比賽中,開局不久絕藝就使用了尖頂招法,這種下法一般作攻擊用,在人類資深選手的對弈中,幾乎不會一開始就出尖頂,負責(zé)解說的九段棋手柯潔稱:“這種棋小時候肯定會被老師罵俗手。”不過柯潔補充道,AI們動輒開局第五六手就尖頂,超出了人們長久以來的圍棋認知,完全是一場技術(shù)革新。
在另一場絕藝對AQ的比賽中,絕藝執(zhí)黑先落子,AQ則使出了模仿戰(zhàn)術(shù):不管絕藝先走到哪里,AQ就以圍棋正中央為中心,下到與絕藝對稱的點去。直到第147手,絕藝下到唯一的中心點上去,讓AQ不能模仿,才結(jié)束了這一僵局,之后僅僅過了30手,AQ就落敗。
在比賽中,作為解說員的資深棋手也在感嘆,AI的學(xué)習(xí)能力太強。
有人問柯潔,這些AI棋手和人類棋手的差距有多大,柯潔表示:“AI們都是太厲害了,以前絕藝在野狐平臺下過讓二子棋,但因為有貼目,基本相當(dāng)于讓先,人類頂尖高手應(yīng)該要好一些,但AI發(fā)展一日千里,以后隨著它的發(fā)展,人類估計二子都夠嗆了?!焙茈y想象去年還曾被AI棋手“虐”哭過的柯潔,現(xiàn)在會對AI有這么高的評價。
在決勝局的解說過程中,解說員四段棋手高星問九段棋手古力是否與AI交過手,古力回答說:“其實和AI學(xué)習(xí)還蠻多的,以前還爆冷贏過,當(dāng)然那是AI剛出來的時候,但人工智能的發(fā)展太迅猛了,到后面就望塵莫及了。經(jīng)常你看到勝利就在眼前,往往覺得還能下的時候,其實很可能已經(jīng)不行了。經(jīng)常是兩步棋下完,AI的勝率就已經(jīng)顯示99%了,人工智能就是這么不可思議?!?/p>
為什么圍棋對AI重要
圍棋作為一種東方棋類,本來并不應(yīng)該是西方科技研究者所能關(guān)注的領(lǐng)域,為什么能吸引到這么多AI團隊深入這一領(lǐng)域?
這要從“深藍”說起。1996年,IBM開發(fā)的國際象棋AI“深藍”首次挑戰(zhàn)國際象棋世界冠軍卡斯帕羅夫,但被擊敗,許多人說AI并不能同人類相提并論。但第二年,經(jīng)過改進的國際象棋AI“深藍”再一次挑戰(zhàn)卡斯帕羅夫,取得了勝利,在世界引起轟動。
但還有人對此并不擔(dān)心,因為當(dāng)時有一種觀點是:圍棋才是對弈過程最富變化的棋類,AI棋手不可能勝利。在國際象棋中,平均每回合有35種可能,一盤棋可以有80回合;而圍棋的每回合有250種可能,一盤棋可以長達150回合。若是用窮舉法,恐怕沒有誰想進行這么大數(shù)量級的窮舉,而人類則可以憑借腦中對棋盤的理解來判斷棋子的落腳點。
從這時起,在圍棋上取得突破成為一些AI研究者的目標(biāo)。AI棋手勝過人類,不僅是一個技術(shù)上的目標(biāo),更是對AI極限的探索。
這一目標(biāo)在2016年初終于被實現(xiàn)。2016年初,《自然》雜志封面文章報道了谷歌Deepmind研究者開發(fā)的新圍棋AI。這款名為“阿爾法狗”(AlphaGo)的人工智能在沒有任何讓子的情況下以5比0完勝職業(yè)圍棋二段的樊麾,三個月后,阿爾法狗與圍棋世界冠軍、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn),以4比1的總比分獲勝,在世界引起轟動。與樊麾、李世石對弈的阿爾法狗結(jié)合了數(shù)百萬人類圍棋專家的棋譜,同時用強化學(xué)習(xí)的方法進行自我訓(xùn)練。
但此后的升級版本即使沒有人類專家棋譜也能進行學(xué)習(xí)。阿爾法狗升級后的版本名為AlphaGoZero,也被稱為阿爾法狗元。阿爾法狗元的能力在此前版本的基礎(chǔ)上有了質(zhì)的提升,研究團隊不再向其提供人類棋譜進行學(xué)習(xí),而是讓它在棋盤上隨意下棋,進行自我博弈,以自己下過的棋為經(jīng)驗。阿爾法狗元用了2000個TPU、自我訓(xùn)練了40天,到第40天還沒有達到其極限。
阿爾法狗元的無師自通直觀證明了AI擁有強大的學(xué)習(xí)能力。具備這樣強大的學(xué)習(xí)能力的AI棋手,對人類有什么用?
AI圍棋走向何方
目前人類段位最高的圍棋等級是職業(yè)九段,而目前的AI已經(jīng)擊敗了這個段位的棋手,并且實現(xiàn)了完全的自我學(xué)習(xí)。除了解決一些既定bug,再深入發(fā)展的空間并不大,所以不少AI棋手都選擇了開源、退役,把代碼提供給各個行業(yè)的人借鑒,退役的棋手包括曾經(jīng)的風(fēng)云AI棋手——阿爾法狗。
圍棋在西方國家并不盛行,而在亞洲還有大量職業(yè)選手,AI棋手在亞洲則可以成為人類棋手的陪練,甚至于導(dǎo)師。
今年4月,絕藝就進入中國圍棋隊訓(xùn)練室,成為國家隊訓(xùn)練專用AI。但這也不意味著人人都對著電腦訓(xùn)練,棋手要使用AI必須到訓(xùn)練室,必要的集體討論還是要繼續(xù)進行。
圍棋教練俞斌曾對外表示:“絕藝的作用很大,過去我們爭論不休,誰也說服不了誰的局部,AI全部給出數(shù)字,這個是棋手最需要的。”