AI棋手再獲勝 AI圍棋未來之路是人類導(dǎo)師

2018-09-10 07:22:44楊柳

電腦報 2018年31期

楊柳

從兩年前AI棋手擊敗李世石起，關(guān)于AI圍棋的話題就沒有斷過。不少公司利用自有的計算資源開始研究AI圍棋，并且?guī)е约褹I圍棋參加各種比賽。

今年7月末，“2018騰訊世界人工智能圍棋大賽”總決賽在中國棋院舉行。在這場比賽中，最終騰訊的AI圍棋絕藝拔得頭籌，獲得40萬元人民幣獎金，這也是絕藝第三次奪得世界性AI圍棋比賽冠軍。

這次的比賽共有11支AI棋手隊伍參加，其中4支來自中國，3支來自日本，一支來自比利時，一支來自美國。經(jīng)過6月份的預(yù)選賽，剩下八支隊伍進入決賽。經(jīng)過7月29日的半決賽后，來自中國的絕藝、星陣，美國的ELFOpenGo，日本的AQ成功晉級總決賽。

在從預(yù)賽到?jīng)Q賽的比賽過程中，這些AI棋手不按套路出牌的對弈過程和意外情況，讓觀戰(zhàn)的專業(yè)棋手也覺得驚訝。

在復(fù)賽中，絕藝對陣星陣，由于遇到了一個AI圍棋中常見的“征子”bug，導(dǎo)致絕藝在極短的時間內(nèi)就落敗。

在絕藝對AQ的一場比賽中，開局不久絕藝就使用了尖頂招法，這種下法一般作攻擊用，在人類資深選手的對弈中，幾乎不會一開始就出尖頂，負責(zé)解說的九段棋手柯潔稱：“這種棋小時候肯定會被老師罵俗手。”不過柯潔補充道，AI們動輒開局第五六手就尖頂，超出了人們長久以來的圍棋認知，完全是一場技術(shù)革新。

在另一場絕藝對AQ的比賽中，絕藝執(zhí)黑先落子，AQ則使出了模仿戰(zhàn)術(shù)：不管絕藝先走到哪里，AQ就以圍棋正中央為中心，下到與絕藝對稱的點去。直到第147手，絕藝下到唯一的中心點上去，讓AQ不能模仿，才結(jié)束了這一僵局，之后僅僅過了30手，AQ就落敗。

在比賽中，作為解說員的資深棋手也在感嘆，AI的學(xué)習(xí)能力太強。

有人問柯潔，這些AI棋手和人類棋手的差距有多大，柯潔表示：“AI們都是太厲害了，以前絕藝在野狐平臺下過讓二子棋，但因為有貼目，基本相當(dāng)于讓先，人類頂尖高手應(yīng)該要好一些，但AI發(fā)展一日千里，以后隨著它的發(fā)展，人類估計二子都夠嗆了?！焙茈y想象去年還曾被AI棋手“虐”哭過的柯潔，現(xiàn)在會對AI有這么高的評價。

在決勝局的解說過程中，解說員四段棋手高星問九段棋手古力是否與AI交過手，古力回答說：“其實和AI學(xué)習(xí)還蠻多的，以前還爆冷贏過，當(dāng)然那是AI剛出來的時候，但人工智能的發(fā)展太迅猛了，到后面就望塵莫及了。經(jīng)常你看到勝利就在眼前，往往覺得還能下的時候，其實很可能已經(jīng)不行了。經(jīng)常是兩步棋下完，AI的勝率就已經(jīng)顯示99%了，人工智能就是這么不可思議?！?/p>

為什么圍棋對AI重要

圍棋作為一種東方棋類，本來并不應(yīng)該是西方科技研究者所能關(guān)注的領(lǐng)域，為什么能吸引到這么多AI團隊深入這一領(lǐng)域？

這要從“深藍”說起。1996年，IBM開發(fā)的國際象棋AI“深藍”首次挑戰(zhàn)國際象棋世界冠軍卡斯帕羅夫，但被擊敗，許多人說AI并不能同人類相提并論。但第二年，經(jīng)過改進的國際象棋AI“深藍”再一次挑戰(zhàn)卡斯帕羅夫，取得了勝利，在世界引起轟動。

但還有人對此并不擔(dān)心，因為當(dāng)時有一種觀點是：圍棋才是對弈過程最富變化的棋類，AI棋手不可能勝利。在國際象棋中，平均每回合有35種可能，一盤棋可以有80回合；而圍棋的每回合有250種可能，一盤棋可以長達150回合。若是用窮舉法，恐怕沒有誰想進行這么大數(shù)量級的窮舉，而人類則可以憑借腦中對棋盤的理解來判斷棋子的落腳點。

從這時起，在圍棋上取得突破成為一些AI研究者的目標(biāo)。AI棋手勝過人類，不僅是一個技術(shù)上的目標(biāo)，更是對AI極限的探索。

這一目標(biāo)在2016年初終于被實現(xiàn)。2016年初，《自然》雜志封面文章報道了谷歌Deepmind研究者開發(fā)的新圍棋AI。這款名為“阿爾法狗”（AlphaGo）的人工智能在沒有任何讓子的情況下以5比0完勝職業(yè)圍棋二段的樊麾，三個月后，阿爾法狗與圍棋世界冠軍、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn)，以4比1的總比分獲勝，在世界引起轟動。與樊麾、李世石對弈的阿爾法狗結(jié)合了數(shù)百萬人類圍棋專家的棋譜，同時用強化學(xué)習(xí)的方法進行自我訓(xùn)練。

但此后的升級版本即使沒有人類專家棋譜也能進行學(xué)習(xí)。阿爾法狗升級后的版本名為AlphaGoZero，也被稱為阿爾法狗元。阿爾法狗元的能力在此前版本的基礎(chǔ)上有了質(zhì)的提升，研究團隊不再向其提供人類棋譜進行學(xué)習(xí)，而是讓它在棋盤上隨意下棋，進行自我博弈，以自己下過的棋為經(jīng)驗。阿爾法狗元用了2000個TPU、自我訓(xùn)練了40天，到第40天還沒有達到其極限。

阿爾法狗元的無師自通直觀證明了AI擁有強大的學(xué)習(xí)能力。具備這樣強大的學(xué)習(xí)能力的AI棋手，對人類有什么用？

AI圍棋走向何方

目前人類段位最高的圍棋等級是職業(yè)九段，而目前的AI已經(jīng)擊敗了這個段位的棋手，并且實現(xiàn)了完全的自我學(xué)習(xí)。除了解決一些既定bug，再深入發(fā)展的空間并不大，所以不少AI棋手都選擇了開源、退役，把代碼提供給各個行業(yè)的人借鑒，退役的棋手包括曾經(jīng)的風(fēng)云AI棋手——阿爾法狗。

圍棋在西方國家并不盛行，而在亞洲還有大量職業(yè)選手，AI棋手在亞洲則可以成為人類棋手的陪練，甚至于導(dǎo)師。

今年4月，絕藝就進入中國圍棋隊訓(xùn)練室，成為國家隊訓(xùn)練專用AI。但這也不意味著人人都對著電腦訓(xùn)練，棋手要使用AI必須到訓(xùn)練室，必要的集體討論還是要繼續(xù)進行。

圍棋教練俞斌曾對外表示：“絕藝的作用很大，過去我們爭論不休，誰也說服不了誰的局部，AI全部給出數(shù)字，這個是棋手最需要的。”