“數”拓新土道不遠人

2016-05-21 22:39:12李喆

讀書 2016年5期

關鍵詞：選點阿爾法棋手

李喆

一、震驚世界的人機大戰(zhàn)

一九九六年二月，計算機國際象棋軟件“深藍”挑戰(zhàn)棋王卡斯帕羅夫，以二比四落敗。

一九九七年五月，“深藍”卷土重來，以三點五比二點五戰(zhàn)勝卡斯帕羅夫。此后，國際象棋軟件不斷變強，成為人類棋手學習的工具。

中國象棋、國際跳棋、五子棋、日本將棋……計算機在這些棋類項目迅速突破，很長一段時間里，圍棋成了最后的堡壘。

二○一五年十一月，北京舉行了一次世界計算機圍棋錦標賽，奪冠的韓國軟件挑戰(zhàn)中國職業(yè)棋手連笑，在受讓四子、五子的條件下仍然落敗，只在受讓六子的條件下取得了勝利。這樣巨大的差距使人們認為，計算機在圍棋競技上擊敗人類棋手，仍然相當遙遠。

“阿爾法圍棋”（AlphaGo）的出現顛覆了這一判斷。二○一六年一月，谷歌旗下“深度思維”（DeepMind）團隊在英國《自然》雜志上發(fā)表文章，公布了“阿爾法圍棋”在去年十月以五比零擊敗歐洲圍棋冠軍樊麾的棋譜，并確認將挑戰(zhàn)韓國職業(yè)棋手李世石九段。消息一出，舉世關注。李世石九段是近十幾年世界圍棋競技賽場成績最優(yōu)者，獲得過十四次世界冠軍。人機對弈之前，棋界大多數人認為李世石必勝無疑，科技界則大約一半人認為李世石會贏。

今年三月九日至十五日，圍棋人機大戰(zhàn)吸引了全世界的目光。結果出乎多數人預料，“阿爾法圍棋”以四比一的比分戰(zhàn)勝了李世石。

震驚、興奮、不解、懷疑……“阿爾法圍棋”是怎么贏的？

二、“阿爾法圍棋”的“直覺”與“大局觀”

圍棋是一個封閉的復雜空間，其復雜程度是棋類之最，人和計算機都難以通過暴力計算達到窮盡?！鞍柗▏濉比〉猛黄频暮诵脑谟谏疃葘W習方法，這一方法也是目前人工智能領域最熱門的方向。它構建了兩套神經網絡，對人類大量的棋譜進行學習，在此基礎上進行“左右互博”，即自對弈學習。深度學習的一大特點是，它不依賴于任何對象的具體知識，只需通過大量圖像和結果的比對就能完成學習。深度學習的方法在二○○六年就已經出現，但在近年大數據的背景下才展現出驚人的威力。

“阿爾法圍棋”通過深度學習，在形式上達到了擬人的效果。最顯著的特點是類似人的“直覺”。棋手面對一個局面，通常會有所謂的“第一感”，這是棋手的直覺。直覺起到了非常關鍵的剪枝作用，把棋盤上眾多的點都直接排除在外，只用考慮直覺留下的一些選點，對它們進行深入的計算和比較?！鞍柗▏濉蓖ㄟ^深度學習的訓練獲得了類似的“直覺”，大幅縮小選點范圍，同樣起到了剪枝的作用。

對一步棋做出決策，人和“阿爾法圍棋”同樣是使用了剪枝+計算這樣的形式。但是，在具體剪枝和計算的方法上，人與“阿爾法圍棋”又非常不同。具體到每一手棋，人的直覺來自對類似局面的印象和知識?，F代競技圍棋所強調的“熟練度”，在很大程度上因為熟練程度與印象的準確性有很強的關聯(lián)。知識則主要是如“定式”“棋形”“套路”等等人類經驗的抽象?！鞍柗▏濉钡摹爸庇X”是由神經網絡給出的選點，其本質是大數據和圖像。

剪枝之后，還需要對這些選點進行計算和決策。棋手的決策由多環(huán)節(jié)構成，主要部分是概念的抽象和邏輯演繹，有時在局部近似地使用窮舉，有時輔以綜合了經驗和數學的全局判斷，最終做出選點決策?！鞍柗▏濉钡乃阉饔嬎闶褂昧嗣商乜宸椒?，對全局進行隨機模擬，最后與神經網絡結合，給出選點的勝率預估。

“阿爾法圍棋”基于全局勝率的算法導致了一個結果，即它的“大局觀”強于“局部計算”，這是很多人沒有想到的。計算機確實應該強于計算，但對于“阿爾法圍棋”來說本來就沒有“局部”的概念。這是它的弱點，也是長處。蒙特卡洛的隨機性使得“阿爾法圍棋”不追求最優(yōu)，最優(yōu)的判定依賴于邏輯，“阿爾法圍棋”的決策則依賴概率，概率的準確性不如邏輯。因此我們常常會看到“阿爾法圍棋”下出一些急于“定型”甚至稍虧的棋，這是由于它認為對方雖然大概率會正確應對，但每步棋都有犯錯的概率?！岸ㄐ汀钡南路ㄓ蒙蕴潛Q取這個概率，對于它的勝率而言是有利的。當然，從邏輯的角度，這類定型對方犯錯的概率可以忽略不計，因此棋手通常會選擇“保留變化”。

棋手常常無法對全局有十分清晰的把握，因此希望在局部通過計算和邏輯找到最優(yōu)下法，對全局的判斷也常常是根據局部優(yōu)劣的疊加。“阿爾法圍棋”“不拘小節(jié)”，卻總是對全局有更為清晰的認識。這讓我們反思，對局部最優(yōu)的追求是否遮蔽了我們對全局的把握？

大局觀，整體性，“阿爾法圍棋”給人類上了一課——雖然它“自己”并不知道。

三、“阿爾法圍棋”的“創(chuàng)造力”分析

春信香深雪，冰肌瘦骨絕。梅花不可知，何處東風約。

這是一首詠梅絕句，作者名叫“薇薇”。

薇薇是個人工智能。

三月十日下午，“阿爾法圍棋”對陣李世石第二局，落下第三十七手。這是圍棋中少見的驚艷一手，吳清源大師的風采躍然盤上。

“阿爾法圍棋”是個人工智能。

讀者若以為薇薇是一女子，或許會由此詩而產生與作者的情感共通。那么，詩中傳遞的情感與美，究竟是作者所賦予，還是讀者所賦予？“阿爾法圍棋”的“創(chuàng)造性”著法，究竟意味著什么？

機器本身沒有情感，但當我們把機器的作品誤認為人的作品時，便很可能從作品里體會到作者的“情感”。這是藝術學里一個值得探討的重要問題。克萊夫·貝爾將藝術的本質屬性定義為“有意味的形式”，那么，機器是否也能“創(chuàng)造”出這種“有意味的形式”？

在這次人機對弈之前，我們認為圍棋軟件沒有創(chuàng)造力，它只是會單純地模仿人類棋譜而已。但在這五局棋中，我們看到“阿爾法圍棋”下出了很多超出定式范圍的、棋譜中沒有的精彩招法。其“創(chuàng)新頻率”遠高于任何一名職業(yè)棋手。

這是一件值得深思的事情：“阿爾法圍棋”到底有沒有創(chuàng)造力？

如果“阿爾法圍棋”這五盤棋是一個人類棋手下出來的，我們不僅會贊嘆他的實力，還會評價他“極富創(chuàng)造力”。圍棋盤上的“創(chuàng)造力”，正是體現在超出尋常經驗的有效選點和構思。這樣的創(chuàng)新，是許多追求棋道的棋士窮其一生去追尋的東西，它標志著對固有思維的突破、對平庸的超越，以及對真理的趨近。

“阿爾法圍棋”本質上是一個工具?；\統(tǒng)來看，“阿爾法圍棋”與人對弈，是它接收一個數據，然后輸出一個數據的過程。深度學習和蒙特卡洛算法，使接收和輸出的數據變得更強，更接近正確的圍棋下法，但并未改變它的本質。在哲學的意義上，“阿爾法圍棋”不是一個主體。它沒有自我意識，沒有自由意志，沒有創(chuàng)造和爭奪的欲望。它下出的在我們看來很有“創(chuàng)造力”的著法，只是它一局棋中輸出的一百多次數據中平凡的幾次而已。它并不知道自己在下棋—甚至它也沒有“自己”的概念。

雖然“阿爾法圍棋”所有的“創(chuàng)造性”招法都只是工具對于數據信息處理之后的反饋，但對于我們人類，這些招法卻有巨大的價值。價值的根源在于，“阿爾法圍棋”用數據的方式給出的選點，人類可以用道理的方式來接收。這導向了兩方面的價值：其一是圍棋技術的提升。這些新招拓寬了棋手的視野，使人類棋手在圍棋的天地中有了一個很好的參照物，從而能夠離圍棋真理更近一點點；其二是思維方式的提升，隨著對這些新招的逐漸理解、對圍棋真理的不斷趨近，我們的思維也能夠得到提升。

一首詩，在它呈現給讀者的時候，便不再只屬于作者了。

四、工具的進化與反思

電影《2001太空漫游》的開頭，一個猿人從動物尸骨中拿起了一根骨頭。繼而，他所在的族群開始使用骨頭捕獵，并擊退了前來競爭水源的同類。導演庫布里克用這樣一個事件來描繪“工具”的出現。如果真的存在這個事件，那么它很可能會是人類歷史上最重要的時刻之一。一九六八年上映的這部電影里，骨頭的意象穿越時空，變成了太空飛船。飛船執(zhí)行任務的過程中，操作飛船的計算機接收到兩個矛盾的命令，導致它選擇殺死飛船上的所有人，由“自己”去執(zhí)行任務，這一事件則引發(fā)了一系列人類不能理解的類似進化的變化。一個充滿寓意的黑色方碑貫穿了整個影片。

人工智能，在迄今為止的工具進化史中，它的出現很晚。越晚出現的工具，力量通常會越強，人們對它的迷戀和恐懼也會越大。二○一六年，人工智能的進度雖然還沒有如科幻小說和電影中設想的那樣對人類造成威脅，但在圍棋上完成了壯舉。

從衣食住行到人際交往，現代人的生活中充滿了各種工具。人工智能，或許是人類創(chuàng)造的工具中最獨特的一種。它近似地擁有了人類的一些能力，甚至在很多方面可以比人類做得更好。隨著深度學習引發(fā)的這一波熱潮，人工智能在醫(yī)療等領域中的廣泛應用可以預見。如之前的很多工具發(fā)明一樣，這些人工智能的應用會改善我們的生活品質，將人們從一些繁瑣的勞動中解放出來。與傳統(tǒng)工具不同的是，人工智能有很大的發(fā)展空間，這也使一些人產生了擔憂。

科幻小說和電影中，常常描繪人工智能反制人類的情境。一旦計算機有了情感好惡，能夠自主選擇行為，那么它不斷強大的力量既可以保護人類，也可以毀滅人類。當然，這種情境的發(fā)生需要一個預設條件：計算機能夠產生自我意識和自由意志。在實現這個條件之前，人工智能不是主體，只是工具。

自我意識與自由意志，關于它們的來源，人類自身也知之甚少。有一種還原論的傾向，認為自我意識與自由意志都可以分解為低級的元素，最終被數學和物理解決，但顯然目前這只是一個猜想或主張。而哲學上對它們的討論也是眾說紛紜，其中一個有代表性的觀點來自康德，他把自由意志看作一個對人而言必要的懸設。

我們不知道如何能夠賦予他物以自我意識和自由意志。斯皮爾伯格的電影《人工智能》里，科學家給一個機器人輸入了情感，使他走向了尋找自我和人性的道路。這個輸入究竟是否可能實現？以我們目前的知識體系來看，是相當可疑的——單是數據的疊加和算法的改進，不足以使工具成為主體。

但是，對人工智能的擔憂仍然并非完全沒有道理?！皺C器人不得傷害人類，或坐視人類受到傷害”，這是阿西莫夫著名的機器人第一定律。這一定律的可靠性受到他自己小說的攻擊，其中典型的案例是：“機器人認為將人類軟禁起來才能夠防止他們互相傷害?！比斯ぶ悄軐γ畹亩嘣斫饪赡軙е率Э?，這是比人工智能產生意識更值得擔憂的事情。

另一個更大的危險則在于，人類對人工智能的惡性使用。作為工具的計算機本身并無善惡，但人心卻有善惡。人工智能的發(fā)展將為人類社會帶來很多效益，但也增加了人類自我毀滅的能力和概率。此外，隨著計算機能力的增強和廣泛應用，與人工智能相關的倫理建設將會成為非常重要并且相當困難的課題。但是，現階段的人工智能，仍然只是工具?！鞍柗▏濉钡某霈F并未對這一結論產生任何影響，也沒有增加計算機產生自我意識的可能性。

與其他工具不同，人工智能在工具效用之外，還有幫助人類進行反思的作用。當我們的許多能力和勞動被人工智能取代，作為人的我們，其本質究竟是什么？應該追求的又是什么？隨著人工智能的不斷發(fā)展，這些反思性問題的重要性將會呈現給大眾，而在人工智能與人類的比較之中，這些反思的推進會變得更為容易。

“阿爾法圍棋”的出現，也對圍棋指向了這樣的反思性問題。

五、道理的普遍性——圍棋文化的根基

圍棋的競技性有其明顯的限制。相比于其他體育項目，它的觀賞門檻太高。這使得它的競技價值極大地依賴于競技者身份。從早期的門派對抗、地域對抗，到現代的國別對抗，再到今天的人機對抗，每一次圍棋競技的熱點都依賴于對局者的身份，這是它發(fā)展的瓶頸。人機對抗的熱點過后，圍棋需要找到競技之外更堅實的價值落腳點——圍棋文化。

圍棋之所以能夠流傳如此之久，正是因為它在不同的時代背景之下能夠衍生出不同的價值。每一次時代精神的革新變化都不會將它淘汰，反而會催發(fā)它新的意涵。人們用某一種知識體系去認識它、使用它，它就會展現出與之相適應的價值。子曰“君子不器”，莊子談“無用之用”，這些品質都在圍棋中得到呈現。圍棋文化的深刻意涵也隱藏在這種獨特的品質之中?！鞍柗▏濉弊鳛楣ぞ叩囊粋€重要意義，是幫助我們反思圍棋。這種反思在某種程度上幫我們打通了圍棋本質與文化之間的通路。

圍棋的核心規(guī)則極為簡易：“交替落子，氣盡棋亡，禁止循環(huán)，子多為勝。”簡易的規(guī)則，卻衍生出近乎無窮的變化。二○一六年一月，普林斯頓的研究人員算出十九路圍棋的精確合法位置數在10171這一數量級。這個數只是靜態(tài)盤面的總和，尚未包含不同的動態(tài)次序。對于人類而言，這一數量級近乎無窮。即使是計算機，也離窮舉有非常遙遠的距離。但是，圍棋畢竟是一個封閉的空間，它的變化數在本質上仍然是有限的。

圍棋的變化數與棋盤的大小直接相關。在很小的棋盤上，如三路圍棋，人類甚至可以窮盡其變。再大一些，人類雖不能窮盡其變，但可以算出其最優(yōu)解。我在去年做過一個七路圍棋的最優(yōu)解研究，憑人力計算其中的有效變化，得出了其最優(yōu)解的理論值，即雙方最優(yōu)下法的盤面差距（亦即正確貼子數）。最優(yōu)解下法是一個集合，包含了很多不同的變化，這些變化都導向了最終雙方完全平等的和棋，這樣的殊途同歸是圍棋中絕妙的平衡。

極為重要的發(fā)現是：在我們計算七路棋盤的最優(yōu)解時，我們完全不需要用到任何抽象的概念和道理，只需要將每一個選點對應的最優(yōu)解數據進行比較，便能得出最優(yōu)解的結論。但是，在面對十九路圍棋時，人的有限性呈現了出來。我們計算的極限離最優(yōu)解還有非常遙遠的距離，因此無法將盤面做數據化的處理。

面對這樣的情境，人類思維的特長展現了出來：我們使用了很多抽象的方法來分析盤面，再用道理的方式幫助決策。我們將子和子的關系抽象為術語，如“跳”“飛”“長”等；又抽象出一些具體的知識，如“定式”“棋形”“諺語”等；再往上，我們還抽象出如“厚薄”“虛實”“輕重”“緩急”等等二元概念，這些概念帶有強烈的中國文化印記，起到了幫助我們定義局面的作用。在定義局面的基礎上，我們使用道理的方式來幫助決策，這就是所謂“策略”。圍棋十訣就是對道理的一些經典闡述：不得貪勝，入界宜緩，攻彼顧我，棄子爭先，舍小就大，逢危須棄，慎勿輕速，動須相應，彼強自保，勢孤取和。這些道理的方式不僅可以用在圍棋上，還可以舉一反三，用在世間萬物。面對世界上所有人類無法完全用計算方式達到的事物，人們便用道理的方式去理解。圍棋提供了對思維的訓練場所，這個場所的獨特優(yōu)勢在于通過勝負和復盤我們可以很輕易地分析自己思維的正誤，從而使我們的思維能力得到提升。

在心性的層面，圍棋同樣能起到鍛煉的效果。圍棋十訣的每一條，實際上都是對欲望、情緒的克制，對理性的發(fā)揚。在對局的過程中，一旦理性未能居于主導地位，就很容易受到對手的懲罰。通過圍棋的練習，我們能夠更好地安排理性、激情和欲望的位置關系。

七路棋盤人類可以計算出最優(yōu)解，卻只能得出這個數而沒有什么更多的意義。但在十九路棋盤，人類的有限性使我們永不能用計算達到最優(yōu)解，便使用了道理的方式來理解和思考圍棋——恰是這些道理的方式賦予圍棋以價值。應用在如一盤棋這樣具體的可計算事物上，道理的效用不如計算機的計算很正常。道理的普遍性才是人類思維的獨特優(yōu)勢，正是看到了道理的普遍性，才使我們能夠踏實地說一句：棋如人生。

即使未來有一天計算機窮盡了圍棋變化，得出了最優(yōu)解集合，圍棋的競技性蕩然無存，圍棋的這個根本價值依然存在。那時人類仍然要用道理的方式來接收這些最優(yōu)解，而最優(yōu)解能使道理的根基更強，從而使道理更強。

“阿爾法圍棋”用“數”的方式達到了很強的能力，而人類則用“道”的方式來接收和理解它的下法。在這個過程中，我們不僅能夠得到圍棋技術的提升，從而不斷趨近圍棋真理，更重要的是，通過道理的接收、理解和分析，我們能夠獲得思維的提升，這種提升是因抽象而具有普遍性的。

當我們用智慧的方式來對待圍棋，圍棋便成為智慧的源泉。

“數”拓新土 道不遠人

一、震驚世界的人機大戰(zhàn)

二、“阿爾法圍棋”的“直覺”與“大局觀”