朱信明
柯潔知道自己會輸,但是希望輸?shù)镁省?/p>
與AlphaGo的三番棋,首局落后四分之一子,后兩局均中盤投子認輸,這不是意料之外的成績,但他還是哭了。
從2016年3月韓國首爾光化門四季酒店的五番對弈,到2017年5月中國烏鎮(zhèn)西柵互聯(lián)網(wǎng)國際會展中心的三番較量,圍棋人工智能程序AlphaGo,給人們的認知帶來翻天覆地的轉變。最初,幾乎沒有人認為李世乭會輸;如今,很難還有誰覺得柯潔能贏。
“感覺AlphaGo和去年判若兩人,當時覺得它的棋很接近人,現(xiàn)在感覺越來越像圍棋上帝?!?017年5月23日,“中國烏鎮(zhèn)·圍棋峰會”第一局結束后,目前等級分排名世界第一的職業(yè)九段棋手柯潔說。棋圣聶衛(wèi)平甚至尊AlphaGo為“阿老師”。
人工智能對圍棋施加的影響,已經(jīng)得到淋漓盡致的展現(xiàn),這一切,DeepMind公司只用了一年。不過,DeepMind的目標并非下圍棋,公司的愿景是“解決智能問題”。
“我認為電腦是不可能贏人的”
如果從項目正式啟動算起,那么AlphaGo的生日應該在2014年的2月。三年的學習時間,與人類傳承千年的經(jīng)驗相抗衡,至少在一年前,圍棋界覺得這是不可思議的。
2016年3月聶衛(wèi)平在公開演講中說:“我認為電腦是不可能贏人的。你們說的這些東西我認為是忽悠?!?/p>
聶衛(wèi)平說這番話不是憑空而來,早在1988年他就接觸過會下圍棋的電腦。當時的比賽,人類棋手讓電腦九個子,結果在形勢極好的情況下,電腦突然認輸了。聶衛(wèi)平認定,即使是現(xiàn)在的技術,電腦依舊學不會判斷圍棋的形勢。
最初的AlphaGo團隊只有三個人:戴密斯·哈薩比斯、大衛(wèi)·席爾瓦、黃士杰。三個人的身份分別是:老板、項目帶頭人、資深研究員。他們一開始就確定了研究方向:深度學習和強化學習。
哈薩比斯曾說:希望能夠通過研究,使機器擁有直覺和創(chuàng)造力。他們要攻破通用人工智能,目標不止于讓機器理解語言或是識別人像,而是通過機器學習和系統(tǒng)神經(jīng)科學讓網(wǎng)絡學會自己決策,像人類一樣。
項目啟動的一年里,黃士杰負責建立AlphaGo的引擎,其中一部分技術來自他過去開發(fā)的圍棋程序Erica。當年夏天,通過卷積神經(jīng)網(wǎng)絡,AlphaGo學習大量圍棋高手的對局,3毫秒內能做出不輸于人類的圍棋直覺,黃士杰為其命名“策略網(wǎng)絡”。一年后,AlphaGo擁有強大的分布式搜索技術,它不僅能閱讀棋局檢索多種局面變化,而且可以計算出之后的40到60步下法。再過兩個月,席爾瓦給AlphaGo帶來“價值網(wǎng)絡”:輸入落子的位置,然后輸出0至1之間的數(shù)字,越接近0,表示對手贏面大;接近1,表示自己贏面大。
當AlphaGo集齊戰(zhàn)勝人類棋手的武器,業(yè)余6段身份的黃士杰回憶:“當時AlphaGo已經(jīng)可以碾壓我了?!边@之后,2015年10月蟬聯(lián)三屆歐洲圍棋冠軍的職業(yè)二段棋手樊麾,在五局正式對弈中被AlphaGo零封;五個月后,世界頂級棋手職業(yè)九段李世乭四比一落敗。在獲知樊麾輸棋后,聶衛(wèi)平說:“樊麾水平太低,給我們丟臉了?!笨聺崉t表示:“就算阿法狗戰(zhàn)勝了李世乭,但它贏不了我?!?/p>
DeepMind母公司谷歌的CEO桑達爾·皮查伊在AlphaGo戰(zhàn)勝李世乭當月的月底,現(xiàn)身聶衛(wèi)平在北京的圍棋道場。參與此次會面的不只有聶衛(wèi)平的兩位徒弟,古力、柯潔,還有中國圍棋隊的領隊華學明。華學明曾對媒體說:“條件允許的話,會在未來積極推動中國棋手與電腦的對抗。”就在中國版人機大戰(zhàn)開打前,升級過的AlphaGo先后在圍棋網(wǎng)站弈城和野狐,注冊名為“Master”的賬號,在2016年12月29日至2017年1月4日,連勝諸多職業(yè)棋手60局快棋。徹底震驚整個圍棋界。
頂級棋手們前赴后繼般地挑戰(zhàn)AlphaGo,大多在中盤前就敗下陣來。代AlphaGo落子的“人肉臂”黃士杰告訴本刊,在事后的復盤中,他與網(wǎng)名為“Hopeldo”的日本職業(yè)九段井山裕太的對局中,他下錯AlphaGo計算的落子位置。當然,最終并沒影響比賽。
“阿老師”
為了對付AlphaGo,中國圍棋界在峰會前冥思苦想。想出的招數(shù)包括延長棋手用時、團體賽“群毆”、將局面導入復雜戰(zhàn)斗以及下出模仿棋等。但幾天的比賽下來,證明這些招數(shù)基本沒有用。
為了“群毆”AlphaGo,“打狗天團”在賽前還進行一次預演,柯潔“扮演”AlphaGo。因為棋風差異,“場均一條龍”時越、“棋壇攪王”唐韋星、“小鋼炮”陳耀燁、“激進派”羋昱廷、“均衡派”周睿羊,對行棋的看法各不相同,以至于幾個人彼此互不相讓,唐韋星告訴本刊:“確實吵得比較兇?!币驗閷κ质强聺?,唐韋星當時希望“進攻性足一點”。但是五個人真正要面對的其實是AlphaGo,后來他一想,可能開始時應該“穩(wěn)一點”。
如何面對這種超越過往經(jīng)驗的存在,開始成為職業(yè)生涯中無法繞開的問題。向AlphaGo學幾招,目前已在職業(yè)棋手中成為普遍現(xiàn)象。
2016年3月22日,柯潔在弈城網(wǎng)和韓國棋手樸廷桓下棋,兩名棋手的前36手,幾乎就是在復制“李世乭人機大戰(zhàn)”的第二局,只是落子的次序稍有差別。
職業(yè)九段周睿羊的新外號叫“阿爾法羊”。因為頻繁使用AlphaGo的招法,從去年底到今年初的勝率不低,一度拿到九連勝,戰(zhàn)勝多為九段棋手。雖然周睿羊笑稱自己是“瞎下”,但畢竟戰(zhàn)勝了曾經(jīng)阻止自己拿到第二個世界冠軍的古力。
自從棋手們紛紛開始學習AlphaGo,唐韋星明顯感覺圍棋的下法發(fā)生很多改變,“思維比以前活躍多了”。他感覺以前的理論正在刷新,但一切都只是剛剛開始。柯潔曾對媒體說:“阿爾法圍棋強大的地方很多,很多棋手在模仿和借鑒它的招法,我也在吸取它的一些東西……要學習它的思想,單純的模仿肯定不行,最終還是要下自己的棋,不理解的棋,我也不會去下。”
中國圍棋隊教練余斌對本刊介紹:雖然現(xiàn)在棋手們大多是在網(wǎng)上與人工智能對弈,但棋院愿意接受專家學者的幫助,來專門訂制能夠輔助棋手訓練的程序?!肮鈱χ娔X圍棋很難完全學好,得有競爭的伙伴,有十來個人的團體。應該有好的老師,有競爭的環(huán)境,將來再有電腦輔助?!?/p>
臺灣圍棋世界冠軍周俊勳所在的海峰棋院,去年已經(jīng)開始嘗試與科研機構合作,測試人機合作動態(tài)學習平臺。他告訴本刊:“慢慢的我們會以AI的棋來當解說的重點,把AlphaGo的下法跟下一代小朋友講。”
5月27日,距比賽現(xiàn)場18公里的桐鄉(xiāng)北港小學三年級的幾十名小學生觀看了柯潔的第三場比賽。忍受不住漫長的棋局,不少孩子像小熊貓般在座位爬上爬下。田寧(化名)比同學們更安靜些,他學棋三年多,視柯潔為偶像。自從AlphaGo在網(wǎng)上連贏60局后,圍棋培訓班的老師偶爾會向他提起人工智能。在田寧的認識中,這家伙是“帶著一千臺電腦一起練棋的”,會投擲虛擬的骰子來下棋,也能學習人類的棋譜。
人工智能必須攻克的“游戲”
了解哈薩比斯的人生軌跡,你就不會對這個創(chuàng)立DeepMind,開發(fā)出AlphaGo的人感到意外。他13歲時成為該年齡段排名世界第二的國際象棋大師;17歲設計出包含人工智能元素的游戲《主題公園》;22歲創(chuàng)立自己的游戲公司;29歲去倫敦大學攻讀認知神經(jīng)科學博士,其研究成果在兩年后被學術期刊《科學》評委“年度突破”。
棋牌玩家、游戲設計師、商人、神經(jīng)科學家,從這個走向看,開發(fā)人工智能簡直就是人生的最后一塊拼圖。
在接受谷歌收購時,DeepMind在一點上毫不妥協(xié)——總部要繼續(xù)留在倫敦。哈薩比斯認為,“如果你從劍橋拿到博士學位,想干點改變世界的科技,(除了倫敦)沒啥別的選擇,而硅谷的機會遍地都是。但是如果你關注的是長期目標,硅谷可能就是泡沫——人們總是希望下一秒創(chuàng)造出另一個Snapchat,整個體系里有很多噪音?!?/p>
在倫敦國王十字車站后的一座六層大樓里,幾個房間以阿蘭·圖靈、達芬奇和尼古拉·特斯拉等巨匠命名,這里就是DeepMind總部,人們安靜地進行計算。
雖然AlphaGo是公司目前最知名的項目,但對于人工智能自我學習的探索,圍棋并非DeepMind最先嘗試的領域。他們研發(fā)的人工智能程序起初將大把時間用在玩電子游戲上,而且還是在史上首部真正意義上的家用游戲主機系統(tǒng)“雅達利2600”。
習慣了電腦和智能手機的新一代棋手們,對這種來自于“上古時代”的產(chǎn)物陌生?!把胚_利2600”于1977年發(fā)布,直到1992年才停止發(fā)售。在70后和80后的記憶中,這臺需要連接電視,插游戲卡帶,用搖桿操作的游戲機,帶來《乒乓》、《太空侵略者》、《打磚塊》等經(jīng)典游戲。
哈薩比斯曾在不同場合多次介紹過,Deepmind的人工智能可以在玩電子游戲上達到“堪比人類水平的表現(xiàn)”。在時長1分12秒的演示視頻里,哈薩比斯展示了人工智能作為一名電子游戲玩家,玩《打磚塊》游戲的蛻變過程。
前100次游戲,人工智能還無法完全領會游戲的規(guī)則,放任小球下落而不去接住;玩到200次,雖然掌握了玩法,但它還只是個“手殘”玩家;400次后,順利進行游戲已經(jīng)不在話下;到600次時,人工智能開始將小球集中反彈到磚墻的一側打出通道,讓小球能夠繞到磚墻的后方大量打碎磚塊,輕松得分。顯然,人工智能找到這款游戲的最佳策略。
DeepMind的成果被整理成論文,2015年2月在英國科學雜志《自然》發(fā)表。名為Deep-Q Network的算法,搭載在一顆GPU(圖形處理單元)上,這個系統(tǒng)通過自主學習,玩了49款游戲,其中43款玩得比其他人工智能好,23款達到擊敗職業(yè)玩家的程度。
這是其他人工智能從未達到的成績,但是在DeepMind公司的創(chuàng)始人哈薩比斯看來,“雅達利2600”這個平臺的魅力相比圍棋,還遜色了一些。“圍棋就是終極,是所有游戲的頂峰,所需的智力深度也最高……令我們感到激動的不只是我們掌握這個游戲,還有我們在其中使用的神奇有趣的算法?!惫_比斯在接受《衛(wèi)報》的專訪時說。
圍棋一直都是人工智能必須攻克的游戲。這個擁有千年歷史,依靠人類的經(jīng)驗、策略甚至直覺來進行的游戲,提供豐富到難以讓程序進行窮舉搜索的變化,更不要說從浩如煙海的可能性中,尋找到通往勝利的路徑。所以,圍棋能夠成為人工智能構建和理解運算的最佳實驗平臺。
對于人類來說,決定在圍棋領域有所作為,就意味著人生進入一個與眾不同的體系。他們大多在孩童時期開始學棋,10歲前就已經(jīng)在家鄉(xiāng)棋壇難覓敵手;之后孩子們會被家長送到著名的圍棋道場中深造,接收全日制訓練;再過幾年,定段,打職業(yè)聯(lián)賽,甚至進入國家隊。
從一名學期孩童到世界冠軍,1997年出生的柯潔用了12年。雖然國棋國手們的經(jīng)歷各不相同,但多都如同柯潔一樣,因圍棋而使人生加速。他們的一生大概能下兩三萬局棋,再加上前人傳授的經(jīng)驗,以及與生俱來的天賦,其中最偉大的那個人,所能達到的極限就是稱霸棋壇一段時間。
退場的AlphaGo和進擊的人工智能
“最后三盤,人生最后三盤了?!笨粗謾C里柯潔和AlphaGo第一局較量的實況轉播,正在吃午飯的古力發(fā)出感慨。
賽前柯潔在微博發(fā)文章稱:“無論輸贏,這都將是我與人工智能最后的三盤對局?!币驗槿斯ぶ悄艿娜諠u強大,面對它時無法感受到對圍棋的熱愛,柯潔選擇盡全力一戰(zhàn)后不再面對這樣的對手。
這個對手寄宿在配置4個TPU(Tensor Processing Unit)的單機版服務器上,連接著“計算云”。起初它學習一些人類棋譜,隨后過渡到自我對弈,可以對特定手段進行自我分析和學習。具體到圍棋上,以前的AlphaGo能模仿歷代圍棋大師,現(xiàn)在的AlphaGo則能夠下出它自己的圍棋。它比對戰(zhàn)李世乭的版本強三子(無貼目),使用40層神經(jīng)網(wǎng)絡,按黃士杰的話說,它是“大量自我對弈的成果”。
從結果上看,第一局柯潔輸了四分之一子。這是中國規(guī)則下最小的差距。棋手們不是沒有思考過AlphaGo的弱點,唐韋星始終認為,既然對手是個算法,就一定有弱點存在,“但是我們不知道”,就算找到也會因為水平有限,“無法抓住”。
5月24日,唐韋星獨自到會場旁聽“人工智能高峰論壇”,一位負責國內某個基金的管理者上前求合影。他建議唐韋星,跟AlphaGo下棋時要把局面引入混戰(zhàn),唐韋星回答:“我們是想引導,但是引導不過去啊?!?/p>
當天也有研究人工智能的朋友向唐韋星建議,把棋局復雜化,下到雙方都算不清的程度,“就是不怕搞大事。”唐韋星將對話發(fā)到微博,柯潔留言:“紙上談兵,說的總是比別人做的容易。”
5月25日第二局,當柯潔執(zhí)白棋在第114手下出“斷”以后,全盤至少有10塊未活之棋絞殺在一起。難掩興奮的胡耀宇九段感慨:“這樣的大格局,別說是跟阿爾法狗的對局中很難出現(xiàn),就連人類比賽中也很罕見!”
現(xiàn)場觀戰(zhàn)的棋迷不知局面是好是壞,議論紛紛,當柯潔的母親周柳萍看到大屏幕上,兒子用手拍胸口時,她知道這棋可能會贏。周柳萍告訴本刊:“我知道他的性格,他捂胸口的時候應該已經(jīng)贏到了?!?/p>
但柯潔選擇在白棋128手時引爆棋局左下角的劫爭,在胡耀宇看來,開劫的時機并不穩(wěn)妥,這步棋后局勢逐漸倒向AlphaGo。唐韋星說:“如果下對,那么局面將極端復雜。雖說也未必能贏,但至少可以看看電腦的極限?!?/p>
賽后哈薩比斯發(fā)布推特表示:“第二局比賽形勢復雜,令人驚嘆!雖AlphaGo最終獲勝,但柯潔一度將AlphaGo逼至極限!”他還透露自己一直在觀察數(shù)據(jù),對局的前50手,柯潔表現(xiàn)完美;前100手是迄今人類棋手與AlphaGo最接近的局面,“沒有其他棋手達到這個水準”。哈薩比斯將這次的比賽視作一個競技程序所能企及的巔峰。
5月27日第三局,柯潔再次執(zhí)白棋,還是輸了??聺嵍啻伪苊馀cAlphaGo在局部糾纏,著眼全局希望重現(xiàn)第二局的復雜戰(zhàn)斗,堅持三個半小時以上。
不甘心的柯潔坐在已經(jīng)結束的棋局前復盤,他的手攪動著棋子。會場里,人們的議論聲變低了,能聽見嘩啦嘩啦的棋子聲。
三局人機大戰(zhàn)后,中國圍棋協(xié)會授予AlphaGo職業(yè)九段證書。自此,AlphaGo將退出圍棋的競技舞臺。不過,DeepMind的舞臺早已延至別處。去年,DeepMind利用深度學習算法,幫助谷歌數(shù)據(jù)中心的冷卻系統(tǒng)節(jié)約用電40%,為谷歌每年節(jié)省幾億美元電費。
人工智能首現(xiàn)“政府工作報告”
一場國家層面的競技比賽
東西方科技領域的力量平衡正在發(fā)生改變,特別是中國大力押注人工智能之后。上??萍即髮W下屬實驗室助理教授師澤仁在德國完成有關自主機器人的博士后研究,理論上,他應該會去人工智能研究領先和成熟歐美。但他選擇去中國。
在接受《紐約時報》采訪時,師澤仁表示,他在中國拿到的撥款是在歐洲或美國的六倍多。這讓他有機會搭建起一個完整的人工智能實驗室?!懊绹蜌W洲的研究資金在縮水,但中國的明顯在增加?!?/p>
就在今年3月5日召開的十二屆全國人大五次會議上,國務院總理李克強在政府工作報告中提出,“要全面實施戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃,加快新材料、人工智能、集成電路、生物制藥、第五代移動通信等技術研發(fā)的轉化?!?/p>
這是人工智能首次出現(xiàn)在政府工作報告中。
據(jù)報道,過去六年里,中國投資者為51家美國人工智能公司提供資金,融資額達七億美元。
企業(yè)對人工智能的反應要比政府快得多。今年“兩會”,百度李彥宏的三項政協(xié)提案各個聚焦人工智能。在其中的一項提案中,他明確提出,應當加強人工智能的行業(yè)應用,從而幫助構建國家創(chuàng)新型經(jīng)濟。
百度也是BAT中率先發(fā)力人工智能的企業(yè),面部識別、語音識別、無人車、醫(yī)療大腦、機器人小度等都取得不錯成績。小度曾在江蘇衛(wèi)視的《最強大腦》第四季,以3:2的比分戰(zhàn)勝人類“最強大腦”王峰。
地方政府也開始行動。湖南湘潭市承諾拿出20億美元發(fā)展人工智能。在蘇州,領先的人工智能企業(yè)在當?shù)卦O立分支機構可獲得約80萬美元的補助。深圳則為在當?shù)氐娜斯ぶ悄茼椖刻峁?00萬美元資金。
除此之外,企業(yè)與政府部門也展開合作。比如百度利用面部識別技術,推出“百度尋人”平臺,幫助走失人員回歸家庭。通過與民政部的合作,平臺對接數(shù)萬條走失人員信息。曠視科技的人臉識別技術已經(jīng)在20多個省、市落地并試點,協(xié)助警方抓捕逃犯的案例達500多起。
除了下棋,人工智能將對實體經(jīng)濟、行業(yè)升級、國家治理等各方面發(fā)揮不可替代的作用。正如李彥宏所說,人工智能時代已經(jīng)到來,這一技術也將改變中國的各行各業(yè),讓經(jīng)濟煥發(fā)新活力,更讓中國變得不一樣,如此不一樣的未來值得每一個人期待。