從“深藍”到“深思”

2021-03-11 11:22:55盧昌海

南方周末 2021-03-11

南方周末特約撰稿　盧昌海

2016年圍棋人機大戰(zhàn)第4局，全局被動時李世石妙手逆轉(zhuǎn)局面?！∫曈X中國　?圖

人工智能一旦在某個領(lǐng)域擊敗人類，這種擊敗就是不可逆轉(zhuǎn)的。從“深藍”到“深思”，在不到一代人的時間內(nèi)，人工智能跨越了好幾個里程碑，在某些方面甚至超出了最大膽的預(yù)測。

如今40歲以上的人——尤其是象棋或科技的愛好者——也許大都對發(fā)生在1997年5月的一個有趣事件留有記憶。在那個月里，國際象棋世界冠軍加里·卡斯帕羅夫與IBM公司名叫“深藍”的超級電腦進行了總計六盤棋的對決，結(jié)果“深藍”以3.5∶2.5（二勝三和一負）的總比分勝出。

這是人工智能首次在國際象棋領(lǐng)域以總比分勝出的方式擊敗人類頂尖棋手。

服還是不服

“深藍”在人工智能的發(fā)展史上有很大的象征意義，甚至可以說是一個里程碑。對這一里程碑，起碼在最初一段時間，很多人心理上難以承受，而且也不甚服氣。不服氣的一條理由是“深藍”與卡斯帕羅夫只賽了六盤棋，數(shù)量太少，勝負有較大的偶然性。卡斯帕羅夫本人同樣不甚服氣，提議跟“深藍”再次對決。

不幸為這種不服氣推波助瀾的是：IBM公司不僅拒絕了卡斯帕羅夫提議的再次對決，甚至干脆將“深藍”大卸八塊，以一種消極的方式保持了勝果。

這種有失氣派的做法無可避免地給人留下了僥幸獲勝、見好就收的印象，可以說是公關(guān)上的失敗。但另一方面，計算機領(lǐng)域有一個著名的“摩爾定律”，與硬件指數(shù)式發(fā)展齊頭并進的，則是軟件的突飛猛進。兩者共同發(fā)展的必然推論是：人工智能作為以這種發(fā)展為后盾的技術(shù)，其演進速度絕非人類智能的演進速度可比。也因此，人工智能一旦在某個領(lǐng)域擊敗人類，那么這種擊敗就是不可逆轉(zhuǎn)的。任何心理上或公關(guān)上的因素都改變不了這一宿命。事實上，盡管IBM公司的公關(guān)有落人口實之處，能讓人在心理上以此為由“阿Q”一番，但人工智能在國際象棋領(lǐng)域擊敗人類仍很快變成了鐵的事實。

這一事實在2015年以一種特別悲劇性的方式得到了體現(xiàn)。

那年4月，在迪拜國際象棋公開賽上，格魯吉亞國際特級大師蓋奧茲·尼加利澤被發(fā)現(xiàn)利用手機上的國際象棋程序作弊。尼加利澤當即被逐出了比賽，其國際特級大師的頭銜也遭撤銷。但國際特級大師居然用手機上的國際象棋程序作弊，實在是特別悲劇性地揭示出了人工智能在國際象棋領(lǐng)域已何等地超越人類。要知道，昔日的“深藍”可是位列世界500強之內(nèi)的超級電腦。不到20年的時間，人工智能在國際象棋領(lǐng)域的硬件門檻居然從超級電腦降為了手機，甚至有人戲稱說哪怕用微波爐芯片也能打敗世界冠軍，對人類真是情何以堪啊。

宿命論

人工智能在國際象棋領(lǐng)域擊敗人類，也自動意味著人類在一系列更簡單的同類游戲中“全軍盡墨”。從數(shù)學(xué)上講，這類游戲的“淪陷”幾乎是必然的。因為從數(shù)學(xué)上講，這類游戲?qū)儆谒^的“有完全信息的組合游戲”——這其中“有完全信息”指的是不帶概率（即不帶骰子之類），也不帶隱藏信息（即不像撲克那樣只能看到自己的而非全部的牌），“組合游戲”則是指游戲的難度源自巨大的組合數(shù)（即源自每一步都必須從數(shù)量巨大的可能性中作出選擇這一特點）。

在軟硬件不夠發(fā)達的年代，這類游戲所包含的巨大的組合數(shù)是人類直覺的馳騁空間，對人工智能則是門檻，阻擋了它的“入侵”。但這種阻擋注定是暫時的，因為在數(shù)學(xué)上可以證明，只要有足夠強大的計算能力，任何“有完全信息的組合游戲”要么雙方都有必和策略，要么其中一方有必勝策略。這個結(jié)果在很大程度上意味著，對任何“有完全信息的組合游戲”來說，一旦人工智能的計算能力超過某個門檻，游戲的勝負就會變得越來越“宿命”。這其中，計算能力遠遜于人工智能的人類的宿命只能是落敗——雖然游戲越復(fù)雜，宿命可以越推遲。

最后的面子

既然這樣，那么一個自然的問題就是：國際象棋“淪陷”后，在人類流行的“有完全信息的組合游戲”中，還有哪個能暫時阻擋人工智能的“入侵”，將人類落敗的宿命盡可能推遲呢？

答案是圍棋。

圍棋是一種遠比國際象棋更復(fù)雜的游戲，兩者——及很多其他棋盤類游戲——的復(fù)雜度可以共同地用一個粗略而有效的方式來描述。這個描述只取決于游戲的兩個基本特征：一是平均每步棋有多少種可能的下法——這被稱為游戲的“廣度”，二是平均每盤棋會下多少步——這被稱為游戲的“深度”。如果用b表示前者，d表示后者，則簡單的組合估算告訴我們，游戲所涉及的可能的下法總計約有bd種。對國際象棋來說，棋盤較小，棋子移動的限定較多，b約為35；每盤棋則平均可在80步左右下完，即d約為80。由此得出的可能的下法有35^80≈3×10^123種，這也就是國際象棋的復(fù)雜度，它是一個天文數(shù)字，比可觀測宇宙中的原子數(shù)目還多1,000億億億億倍。那么圍棋呢？它的棋盤比國際象棋的棋盤大得多，落子的限制則小得多，b約為250；同時，一盤圍棋往往能下到一兩百手，因此d也比國際象棋的大得多，約為150。由此得出的可能的下法有250^150≈5×10^359種，這也就是圍棋的復(fù)雜度，它比國際象棋的復(fù)雜度高出約1萬億……億（總共要寫29個“億”?。┍丁?/p>

由于圍棋遠比國際象棋更復(fù)雜，因此在“深藍”擊敗卡斯帕羅夫之后的十幾年里，人工智能在圍棋領(lǐng)域依然無法逾越巨大的組合數(shù)帶來的門檻，至多能跟業(yè)余棋手一較高下，卻無法捋職業(yè)棋手的“虎須”（除非被讓四到五子）。

狗拿圍棋

但這一局面在2015年開始出現(xiàn)轉(zhuǎn)變——而且很快轉(zhuǎn)為“雪崩”式的快速轉(zhuǎn)變。那一年，總部位于英國的“深思”公司研發(fā)的一個名為“阿爾法狗”（AlphaGo，譯名中的“狗”系代表圍棋的“Go”的諧音，更文雅的譯名是“阿爾法圍棋”）的人工智能圍棋系統(tǒng)脫穎而出，以499勝1負的壓倒性優(yōu)勢，戰(zhàn)勝了其他幾種同類系統(tǒng)，成為人工智能圍棋系統(tǒng)的“霸主”。同年10月，“阿爾法狗”在跟法籍華裔職業(yè)二段棋手樊麾的“五番棋”較量中，以5∶0的總比分橫掃后者，取得了人工智能在圍棋領(lǐng)域平手對決人類職業(yè)棋手的首度勝利。

而真正轟動世界的，則是一個跟昔日“深藍”擊敗卡斯帕羅夫完全類似的對決。

這一對決發(fā)生在2016年3月，距離“阿爾法狗”擊敗樊麾還不到半年。在這一對決中，進一步優(yōu)化后的“阿爾法狗”以4:1的總比分擊敗了人類頂尖棋手之一，曾經(jīng)14次榮膺世界冠軍的韓國職業(yè)九段棋手李世石，正式攀上了圍棋世界的巔峰，并被韓國棋院授予了榮譽九段。這個版本的“阿爾法狗”則被紀念性地稱為了“阿爾法狗·李”。李世石在唯一的勝局——第四局——之后曾經(jīng)表示：“這次勝利是如此珍貴，用世上的任何東西來換我都不會換”。如今回味這句話，李世石說得簡直太對了，那一局確實彌足珍貴，不僅對他，而且也是對人類。因為那是“阿爾法狗”與人類職業(yè)棋手的74次正式對決中人類的唯一勝利，并且實際上也是人類最后一次在圍棋領(lǐng)域戰(zhàn)勝人工智能。

橫掃一切高手

跟昔日“深藍”的見好就收不同，“阿爾法狗”在擊敗李世石后并未“退隱”，而是在繼續(xù)優(yōu)化后批上“大師”的馬甲，于2016年底開始，與人類頂尖棋手展開了為期數(shù)天的一系列網(wǎng)絡(luò)快棋對決。

這一系列對決極好地演示了我們的前文所言，即人工智能一旦在某個領(lǐng)域擊敗人類，那種擊敗就是不可逆轉(zhuǎn)的。這一系列對決的對手幾乎囊括了所有的人類頂尖棋手，其中包括大家熟悉的中國“棋圣”聶衛(wèi)平、與李世石并稱“絕代雙驕”的古力，及當時排名猶在李世石之上的柯潔。對決的結(jié)果則創(chuàng)下了圍棋史上罕見的秋風掃落葉的戰(zhàn)績：60∶0，也完全證實了“大師”這一馬甲的名副其實。這個優(yōu)化版的“阿爾法狗”如今被稱為了“阿爾法狗·大師”。2017年5月，作為給人類棋手的最后機會，“阿爾法狗·大師”與當時的人類圍棋第一高手柯潔進行了一場正式的（即并非快棋的）“三番棋”較量，結(jié)果以3∶0的總比分勝出，并被中國圍棋協(xié)會授予了職業(yè)九段。

在“阿爾法狗”的強大戰(zhàn)力和輝煌戰(zhàn)績面前，我們再也聽不到像昔日“深藍”獲勝之后的那種不服氣了。2019年11月，36歲的李世石宣布退役，并在退役感言中坦承自己永遠無法擊敗人工智能：“我意識到……即便成為世界第一，我也不可能站在圍棋的巔峰”，因為“即便我成為世界第一，有一種東西（人工智能）依然無法被擊敗”。

“阿爾法狗”之所以有如此強大的戰(zhàn)力，能取得如此輝煌的戰(zhàn)績，除計算能力超卓外，還有一個很具“智能”色彩的特點，那就是：它有很強的自我訓(xùn)練能力，能從自我對弈中學(xué)習(xí)并優(yōu)化自己。經(jīng)過這種“左右手互博”式的自我訓(xùn)練，“阿爾法狗”能自創(chuàng)出連它的設(shè)計者都無法預(yù)測的新招。其中的某些新招人類棋手不僅從未下過，甚至從未意識到能夠那樣下。

在“阿爾法狗”與李世石的對決接近尾聲時，鳳凰衛(wèi)視的“鏘鏘三人行”節(jié)目曾邀請到中國九段棋手江鑄久評論“阿爾法狗”與李世石的對決，江鑄久在評論中表示，“阿爾法狗”的某些新招簡直讓他熱烈盈眶。自我訓(xùn)練、自創(chuàng)新招，這些無疑都深具“智能”色彩，使這種色彩更為鮮明的，則是“阿爾法狗”甚至有自己的“棋品”，在局勢足夠無望時不會死纏到底，而是會像人類棋手那樣中盤認輸。當然，這種模擬人類棋手的風度和禮貌的背后實際上是一個有關(guān)勝率的數(shù)學(xué)條件——比如“阿爾法狗·李”一旦發(fā)現(xiàn)勝率低于20%，就會中盤認輸。

除自創(chuàng)新招外，“阿爾法狗”在下棋策略上也有新穎之處。具體地說，“阿爾法狗”的下棋策略是注重取勝概率大過取勝幅度。如果有兩個棋招，一個能比另一個能取得更大幅度的優(yōu)勢，但整盤棋的取勝概率低于后者，“阿爾法狗”會青睞后者。用“深思”公司首席執(zhí)行官杰米斯·哈薩比斯的話說，“跟人類不同，‘阿爾法狗的目標是使取勝概率最大化，而不是盡可能擴大贏面”?！鞍柗ü贰钡倪@一特點一度使人迷惑過。江鑄久在前述“鏘鏘三人行”節(jié)目中曾經(jīng)提到，“阿爾法狗”擊敗樊麾后，很多高段位的職業(yè)棋手不以為然，因為“阿爾法狗”雖然贏了，但看上去似乎并不比樊麾厲害很多。由于樊麾只不過是職業(yè)二段，跟李世石那樣的頂尖棋手相差很遠，因此很多人——包括李世石本人——起初并不認為“阿爾法狗”能對像李世石那樣的人類頂尖棋手造成威脅。江鑄久同時也提到，他當時看“阿爾法狗”的棋卻有一種不同的觀感，覺得“阿爾法狗”似乎是遇強則強，讓人看不出真實水平。這個觀感若確系當時的觀感而非事后諸葛，可以說是目光如炬了。

從零開始

在“阿爾法狗”的強大戰(zhàn)力和輝煌戰(zhàn)績面前，如果說仍有什么東西能讓人類棋手“阿Q”一下的話，也許是“阿爾法狗”的程序之中包含了大量的人類棋譜，并在自我訓(xùn)練時用到過那些棋譜。從這個意義上講，“阿爾法狗”的“軍功章”上可以說是有人類棋手的一半。不過，人工智能的飛速發(fā)展很快將這“一半”洗滌一空。繼“阿爾法狗·李”和“阿爾法狗·大師”之后，“深思”公司又研發(fā)出了一個新版本的人工智能圍棋系統(tǒng)，叫作“阿爾法狗·零”。這個版本如它的名字所預(yù)示，可以從“零”開始，在只知曉圍棋規(guī)則的情形下，完全不依賴人類棋譜，通過單純的自我對弈學(xué)習(xí)圍棋，堪稱是徹底的“自學(xué)成才”。而它所達到的水平，則不僅人類棋手望塵莫及，就連橫掃人類棋界的前兩條“阿爾法狗”也無法抗衡。2017年10月，距離“阿爾法狗·大師”在“三番棋”較量中擊敗柯潔還不到半年，經(jīng)過短短3天“自學(xué)”的“阿爾法狗·零”就以100∶0的全勝比分拿下了“阿爾法狗·李”。稍后，“自學(xué)”21天的“阿爾法狗·零”又以89∶11的壓倒性比分戰(zhàn)勝了“阿爾法狗·大師”。

這還不是故事的終結(jié)，2017年12月，距離“阿爾法狗·零”的推出才兩個月，“深思”公司的又一個新穎的人工智能系統(tǒng)問世了，這個取名為“阿爾法零”的新系統(tǒng)采用了跟“阿爾法狗·零”相類似的算法，也能夠從“零”開始“自學(xué)成才”，但與“阿爾法狗·零”只會玩圍棋不同，“阿爾法零”有更大的普適性，不僅會玩圍棋，而且能玩包括國際象棋在內(nèi)的其他幾十種棋盤類游戲（因此把名字中代表圍棋的“狗”字去掉了）。更厲害的是，在所有“阿爾法零”能玩的游戲里，它都顯示了“王者之風”。比如拿國際象棋來說，“阿爾法零”只訓(xùn)練了4小時就達到了“魚干”的水平，訓(xùn)練到9小時后，在跟“魚干”的100場對決中，“阿爾法零”取得了28勝72和的不敗戰(zhàn)績，在后來進行的多達千盤的更大規(guī)模的對決中，也以壓倒性的優(yōu)勢勝出。只有圍棋，因為有算法相似的“阿爾法狗·零”坐鎮(zhèn)，情勢不那么一邊倒，但戰(zhàn)果依然可觀：只訓(xùn)練了30個小時就超過了“阿爾法狗·李”，訓(xùn)練到13天后，則在跟訓(xùn)練程度相同的“阿爾法狗·零”的對決中以60%左右的勝率占優(yōu)。

所有這些后續(xù)對決——無論國際象棋還是圍棋——都發(fā)生在水平遠遠超出人類的人工智能系統(tǒng)之間，仿佛九天之上的諸神之戰(zhàn)，其中再也不會有人類棋手的蹤跡了。對人類來說，這也許是有些傷感的，但另一方面，這也是一件很能滿足人類好奇心的事。

由于“阿爾法狗·零”和“阿爾法零”都是從“零”學(xué)起的，完全脫離了人類棋手的經(jīng)驗，這些人工智能系統(tǒng)的游戲風格也因此在很大程度上變得獨立于人類。設(shè)想一個有趣的問題：倘若一種具有極高智慧的外星生命拿到了人類的游戲，在他們的世界里用同樣的規(guī)則玩那些游戲，他們的游戲風格會是怎樣的？我覺得，“阿爾法狗·零”和“阿爾法零”也許就是一種答案（雖然不是唯一答案），甚至不完全從“零”玩起的“阿爾法狗”也在一定程度上可算是一種近似答案。事實上，已有不止一位人類棋手在跟這些人工智能系統(tǒng)對決或看過棋譜后，不約而同地用“外星生命”或“外星人”來形容后者的游戲風格。比如丹麥國際象棋特級大師彼得·尼爾森表示“阿爾法零”仿佛是一個超越人類的外星生命；韓國九段圍棋手睦鎮(zhèn)碩也表示自己喜歡“阿爾法狗”的棋風，因為“我?guī)缀跤X得自己在跟外星人玩”。

而這一切從“阿爾法狗·李”算起，只經(jīng)過了不到兩年的時間，確實是“雪崩”式的快速轉(zhuǎn)變。

連規(guī)則也不要了

人工智能游戲系統(tǒng)發(fā)展到“阿爾法零”，在大方向上是否仍有改進空間？或者換個問法：“阿爾法零”作為人工智能游戲系統(tǒng)是否仍有局限性？　使勁找的話，確實還能找到一條，那就是它必須事先知曉游戲規(guī)則。將這條列為局限性其實有些吹毛求疵，因為多數(shù)人類玩家在玩游戲之前也是事先知曉游戲規(guī)則的。

但隨著人工智能的飛速發(fā)展，就連這個吹毛求疵的局限性也被突破了。2019，“深思”公司推出了一個更加新穎的人工智能系統(tǒng)，稱為“Mu-Zero”?！癕uZero”甚至連游戲規(guī)則都無需事先知曉，而可以通過“觀察”、對弈、試錯，從無到有地構(gòu)建起來。這種構(gòu)建規(guī)則的能力讓人聯(lián)想到一部近來很熱門的影片：《后翼棄兵》。

在那部影片中，一位天才的小女孩通過看人下棋歸納出了國際象棋的規(guī)則。由于連游戲規(guī)則都無需事先知曉，“MuZero”的適用面甚至比“阿爾法零”更廣，除了能玩“阿爾法零”能玩的那些棋盤類的游戲外，還“自學(xué)”掌握了幾十種圖像游戲。（注：“MuZero”這一名字在一定程度上效仿了“阿爾法零”，體現(xiàn)在兩者都有一個“零”，代表從“零”開始，不依賴人類棋譜?！癕uZero”中的“Mu”近于日文“無”的發(fā)音，代表的是連游戲規(guī)則也可以從“無”到有地構(gòu)建起來。如果要為“MuZero”取一個譯名的話，或可譯為“無零”。）

更令人印象深刻的是，從“阿爾法狗·李”到“阿爾法狗·大師”“阿爾法狗·零”“阿爾法零”，再到“Mu-Zero”，所有這些進展都不是“失之東隅，收之桑榆”那樣的有得有失，而是純粹的推進?！癕uZero”能玩更多的游戲，卻并不是以犧牲水準為代價的“博而不精”。相反，在幾乎所有“阿爾法零”能玩的游戲上，“MuZero”都達到甚至超過了“阿爾法零”的水準。

就人工智能游戲系統(tǒng)而論，推進到“MuZero”的程度，已基本達到甚至超越了對人類玩家的終極模擬，在大方向上差不多可以算窮盡了，剩下的也許只是算法細節(jié)上的追求——那自然是永無止境的。但人工智能若只能玩游戲，恐怕免不了仍會被譏諷，就像一個只懂得玩耍的人，再聰明也會被認為沒什么大出息。

阿爾法折疊

正如聰明人早晚會超越只懂得玩耍的年紀，人工智能也并非只能玩游戲。2020年底，繼游戲領(lǐng)域的連串新聞之后，“深思”公司一個名叫“阿爾法折疊”的人工智能系統(tǒng)（確切地說，是該系統(tǒng)的第二代）再次刷了很多人的屏——但這回不是玩游戲，而是做科研，是研究蛋白質(zhì)的三維結(jié)構(gòu)。

具體地說，“阿爾法折疊”用人工智能的手段挑戰(zhàn)了生物學(xué)領(lǐng)域中一個被稱為“蛋白質(zhì)折疊問題”的知名難題。由于這個難題的阻亙，確定一種復(fù)雜的蛋白質(zhì)結(jié)構(gòu)往往要耗時一年以上，耗資也不菲。在已知的蛋白質(zhì)中，生物學(xué)界經(jīng)過半個多世紀的努力，能確定結(jié)構(gòu)的仍只占不到千分之一。而“阿爾法折疊”確定一種蛋白質(zhì)結(jié)構(gòu)只需幾天時間，準確率也達到了能與傳統(tǒng)方法相比擬的程度，有望成為強大助益。有人甚至大膽預(yù)測，人工智能距離摘取第一個諾貝爾科學(xué)獎已為時不遠了。

從“深藍”到“深思”，是人工智能飛速發(fā)展的一個縮影。在不到一代人的時間內(nèi)，人工智能跨越了好幾個里程碑，其中的某些甚至超出了最大膽的預(yù)期，可謂前途無量。