陳鵬
2016年3月15日,一場引人矚目的圍棋人機(jī)大戰(zhàn)在韓國首爾落下帷幕。Google旗下公司DeepMind研發(fā)的人工智能程序AlphaGo最終以4∶1的比分戰(zhàn)勝了圍棋世界冠軍、韓國傳奇圍棋大師李世乭。賽后,AlphaGo被韓國棋院授予“名譽(yù)職業(yè)九段”稱號。盡管這次比賽讓人工智能占了上風(fēng),但這也表現(xiàn)了人類智能在人工智能領(lǐng)域的重大突破。
為何以圍棋測“智”
圍棋看起來規(guī)則很簡單,但它卻具有令人難以置信的深度和微妙之處。圍棋棋盤上共有361個交叉點(diǎn),每個點(diǎn)上都有黑、白、空三種可能狀態(tài)。按照圍棋的規(guī)則,下滿整個棋盤會有361?。?61的階乘)種不同的過程,這是一個天文數(shù)字,所以,圍棋一直被認(rèn)為是人類智慧最后的堡壘。在1997年IBM公司超級國際象棋電腦“深藍(lán)”戰(zhàn)勝了國際象棋界棋王加里·卡斯帕羅夫后,人們曾經(jīng)斷言,由于圍棋計(jì)算量龐大,在50年內(nèi),計(jì)算機(jī)在圍棋上贏不了人類。
象棋和圍棋這種棋類游戲的對弈規(guī)則比較明確,可以很方便地轉(zhuǎn)化為計(jì)算機(jī)語言。對于計(jì)算機(jī)而言,圍棋對弈就像是一棵枝繁葉茂的大樹,從樹干經(jīng)過樹枝最終到達(dá)樹葉的每一條路徑都可以認(rèn)為是一個棋譜,從樹干走到末端樹葉的過程就是對弈的過程。樹上的每一個分叉點(diǎn)都代表棋盤某個時刻的狀態(tài),連接相鄰分叉點(diǎn)的樹枝就是選擇怎樣走棋。
計(jì)算機(jī)可以根據(jù)這棵棋類游戲的“決策樹”盡可能多地“了解”走棋方法。但只知道走法還不行,還要評價走的到底是不是一著好棋,這就需要一個合適的評估函數(shù)來幫助它進(jìn)行選擇。在象棋中,程序可以通過判斷棋盤上棋子的數(shù)量判斷得分,比如馬3分,炮4分等。而在圍棋中,職業(yè)高手在下棋的時候,往往會憑感覺去判斷落子和局勢,即所謂的“棋感”,由于難以把“棋感”準(zhǔn)確地轉(zhuǎn)化為計(jì)算機(jī)可以理解的計(jì)算問題,計(jì)算機(jī)程序?qū)宓钠灞P局面判斷標(biāo)準(zhǔn)就不明確,從而難以量化每步棋走法的優(yōu)劣。
綜上所述,圍棋落子可能性太多、計(jì)算量特別大以及計(jì)算機(jī)對棋盤局面判斷標(biāo)準(zhǔn)不明確,這都導(dǎo)致計(jì)算機(jī)程序難以在合適的時間內(nèi)計(jì)算出合理的結(jié)果。在AlphaGo之前,還從未有任何計(jì)算機(jī)程序可以戰(zhàn)勝職業(yè)圍棋手。所以,以圍棋測“智”,可以有效判斷人工智能到底有沒有新的進(jìn)展和突破。
AlphaGo的“伎倆”
近幾年,隨著人工神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等相關(guān)理論的日益完善,人們終于有了新的有力武器來進(jìn)行人工智能領(lǐng)域的突破。
圍棋棋盤可以看作是一個19×19個交叉點(diǎn)的圖,通過對大量的實(shí)際存在的完整棋譜進(jìn)行分析處理,最終可以自動根據(jù)某一棋盤狀態(tài)判斷出下一步棋子的落子位置的概率分布,比如落在某一位置的概率是10%,另一個位置是17%等,于是AlphaGo根據(jù)概率的降序一一進(jìn)行計(jì)算。
在AlphaGo計(jì)算的過程中,評估函數(shù)會判斷每一步走棋的勝率,一旦勝率過低,便會停止計(jì)算。但是,如果計(jì)算到比較高的勝率,也會停止計(jì)算,直接按這種走法行棋。總的來說,AlphaGo不會計(jì)較整盤棋贏得漂亮不漂亮,而只會盡量保持較高的勝率。這樣一來,AlphaGo也許也會走出不那么漂亮的棋,但細(xì)看卻是保持了比較穩(wěn)妥的棋風(fēng)。事實(shí)上正是如此,因?yàn)槠滹L(fēng)格就是來自于人類的大量棋譜。
如此一來,就基本解決了計(jì)算量大的問題。與此同時,AlphaGo的評估函數(shù)是基于機(jī)器學(xué)習(xí)的,可以進(jìn)行不斷自動更新,AlphaGo就會采用更簡單的走棋策略(節(jié)省計(jì)算量)直至決勝節(jié)點(diǎn)。按照上述算法計(jì)算出的走棋策略,如果勝利,AlphaGo會保證下一輪計(jì)算時此番策略更為優(yōu)先被計(jì)算;反之,下一輪則會優(yōu)先考慮其他的走棋策略。
在不斷的學(xué)習(xí)過程中,AlphaGo會提取它認(rèn)為正確的下法中所隱含的原理,調(diào)整它的走棋策略,逐步提高能力。此外,AlphaGo還可以自我對弈,“進(jìn)化”速度非???。Google對AlphaGo實(shí)現(xiàn)自我對弈3000萬盤棋的生成訓(xùn)練集只需要一天左右的時間。通俗來講,AlphaGo一天下的棋比整個歷史上人類下的棋都多,人類在這方面處于絕對劣勢。
運(yùn)用簡化計(jì)算、優(yōu)化評估函數(shù)和自我對弈的策略,AlphaGo在測試階段就“完爆”其他所有的圍棋程序,也難怪它能在與圍棋大師李世乭的對弈中占得先機(jī)。
人工智能與人類智能的雙贏
讀到這里,是不是要對AlphaGo的“智能”刮目相看?可事實(shí)上,人工智能也只是一群科學(xué)家的研究成果,說到底也只是人類實(shí)現(xiàn)智力成果的工具而已,并無自我意識,也沒有創(chuàng)造出自我意識的基礎(chǔ)。不可否認(rèn),AlphaGo是人工智能發(fā)展的勝利果實(shí),但它同樣也是人類智能發(fā)展的偉大成就。
人類使用工具的歷史就是人類發(fā)展的歷史,從古代的石器、金屬工具,到近現(xiàn)代的電燈、電話、互聯(lián)網(wǎng)等科技成果都在不同程度上解放了人類自身。伴隨著人工智能的發(fā)展,人類的智力也將開始得到解放,人類將擁有某些智力方面更為好用的人工智能。人類自己創(chuàng)建的人工智能,也將為人類自身創(chuàng)造更為便捷、智能化的生活。