陳經(jīng)
前不久,Deep?mind在《自然》上發(fā)表論文,介紹了“阿爾法狗”(Al?phaGo)取得的重大進展。與之前的版本不同,AlphaGoZero完全不需要人類棋譜,從零開始自學(xué)習(xí),只用3天就以100∶0的壓倒性成績,擊敗曾贏下韓國棋手李世石的那版AlphaGo。
人工智能(AI)與人類的關(guān)系,在2016年的AI爆發(fā)后備受關(guān)注。對于給定規(guī)則的博弈問題,AI是需要人類的知識提供“第一推動”,還是可以自己從“元規(guī)則”開始反復(fù)實踐總結(jié),發(fā)展出知識體系,是個有趣的問題。對于像“打磚塊”這樣的簡單游戲,AI從零知識開始反復(fù)試玩,達到超過人類玩家的分?jǐn)?shù),2015年就實現(xiàn)了。但是圍棋這樣復(fù)雜的游戲,人們還有疑問,也許人類提供一些知識對高水平AI是必需的,從零知識開始也許AI會陷入局部陷阱中出不來。
現(xiàn)在AlphaGoZero給出了答案:對于AI來說,人類對圍棋的知識積累不是必須的!而且從零知識開始訓(xùn)練,可以達到更高水平。人類棋譜中有一些“成見”,如一些自以為正確的本能定式下法,其實反而阻止了學(xué)習(xí)者達到更高水平。Al?phaGoZero從零開始自學(xué)習(xí),完全不受人類棋譜的“污染”,就可以突破“成見”,真正進入自由的天地,達到更高的水平。
AlphaGo能不依賴人類的知識就學(xué)習(xí)成功,其關(guān)鍵之處在于:圍棋是有確定規(guī)則的,是一個“客觀”的游戲。不需要人主觀評判,機器按行棋規(guī)則下,終局就有確定的勝負(fù)結(jié)果出來。這樣,AlphaGo的學(xué)習(xí)就不需要人類的干預(yù),完全可以自動進行海量的實踐。AlphaGoZe?ro的成功,是自學(xué)習(xí)方法的突破,也是“實踐檢驗”哲學(xué)原理的成功。
人類的社會活動或者AI的博弈,需要通過實踐不斷提升效率與表現(xiàn)。實踐總是需要在一定的規(guī)則之內(nèi)進行,這是基礎(chǔ),就如穩(wěn)定的社會、現(xiàn)代銀行體系、圍棋的行棋與終局規(guī)則。實踐時,人類本能地會借鑒前輩的一些“經(jīng)驗”作為思考的出發(fā)點。學(xué)校、政府、公司都有教育體系,正如圍棋AI會學(xué)習(xí)人類高手的棋譜生成“策略網(wǎng)絡(luò)”作為優(yōu)先選擇。然而這些“經(jīng)驗”,到底能起什么樣的作用,值得仔細觀察。
在實踐不足的情況下,參考前人經(jīng)驗與人類棋譜,顯然是有益的,能夠快速“上手”。但是,在發(fā)展遇到瓶頸的時候,可能就會顯出前人經(jīng)驗的不足,照本宣科會限制思維,無法突破。想取得突破,就需要從本原出發(fā),敢于懷疑,拋棄成見大膽實踐學(xué)習(xí),下出“新手”,作出改革。這說明,人類的實踐活動可以借鑒前人的經(jīng)驗,但是如果有了好的實踐反饋學(xué)習(xí)框架,完全可以進行揚棄,取得理論突破。中國改革開放的歷程也說明,全社會持續(xù)不斷地學(xué)習(xí)與主動變革實踐,正是社會奮發(fā)向上不斷取得突破的哲學(xué)基礎(chǔ)。
AlphaGo雖然再次震驚世人,但無須對AI的快速發(fā)展和驚人實力感到神傷。目前,AI仍只是人類的工具,還沒有自己的思維。▲
(作者是科技與戰(zhàn)略風(fēng)云學(xué)會研究員)