10月18日,《自然》雜志網(wǎng)站公布的論文顯示,此前戰(zhàn)勝人類圍棋世界冠軍的電腦程序AlphaGo(阿爾法狗)的開發(fā)團隊又出力作——新程序AlphaGo Zero(阿爾法元)不依靠人類指導(dǎo)和經(jīng)驗,僅憑自身算法強化學(xué)習(xí),就以100:0的戰(zhàn)績擊敗了AlphaGo。
對于這個程序,人類的輸入僅僅限于一張棋盤和一副棋子,沒有任何人類數(shù)據(jù)參與。“阿爾法元”只用到了一張神經(jīng)網(wǎng)絡(luò),這張網(wǎng)絡(luò)經(jīng)過訓(xùn)練,專門預(yù)測程序自身的棋步和棋局的贏家,讓“阿爾法元”在每次自我對弈中進步。
通過3天的訓(xùn)練——包括近500萬局自我對弈——“阿爾法元”已能超越人類并打敗之前的“阿爾法狗”版本。英國倫敦深度思維公司AlphaGo項目的主要負(fù)責(zé)人戴維·西爾弗表示,“阿爾法元”遠(yuǎn)比“阿爾法狗”強大,它已不再為人類的知識所限,而能夠自行發(fā)現(xiàn)新知識。endprint