橫掃圍棋棋壇的AlphaGo(阿爾法狗)如今遇到了對手,不過戰(zhàn)勝它的并不是人類,而是它的升級(jí)版Alpha?GoZero。據(jù)英國《金融時(shí)報(bào)》19日報(bào)道,在高調(diào)推出AlphaGo不到兩年后,谷歌旗下位于倫敦的人工智能公司Deep?Mind宣布開發(fā)出人工智能技術(shù)的又一里程碑。該團(tuán)隊(duì)以一種新的“強(qiáng)化學(xué)習(xí)”方式創(chuàng)造出AlphaGoZero,并在科學(xué)期刊《自然》(Nature)發(fā)表了相關(guān)細(xì)節(jié)。
AlphaGoZero僅擁有4個(gè)TPU(張量處理單元),無人類經(jīng)驗(yàn)。《金融時(shí)報(bào)》稱,前幾代AlphaGo最初都是通過分析成千上萬場優(yōu)秀人類玩家間的對決來發(fā)現(xiàn)制勝招數(shù)。而新開發(fā)的Alpha?GoZero則未用到任何人類圍棋數(shù)據(jù),開發(fā)者僅向其教授了圍棋規(guī)則。英國《每日電訊報(bào)》稱,在未經(jīng)過指導(dǎo)的情況下,AlphaGoZero用3天時(shí)間自我摸索,通過與自己下棋,從數(shù)百萬份棋譜中找出了最佳對弈方法,并在與AlphaGo的對弈中,十分輕松地以100比0取得勝利。在隨后的40天自學(xué)時(shí)間內(nèi),Alpha?GoZero又與自己對弈了2900萬局,學(xué)到了人類積累3000多年才得到的下圍棋經(jīng)驗(yàn)。
英國圍棋協(xié)會(huì)主席羅杰稱,Alpha?GoZero的出現(xiàn)不僅體現(xiàn)出其在圍棋方面的成功,還意味著人工智能的發(fā)展取得重大飛躍。DeepMind團(tuán)隊(duì)表示,人工智能的最大挑戰(zhàn)就是要研發(fā)一種能從零開始、以超人類的水平學(xué)習(xí)復(fù)雜概念的算法。AlphaGoZero之所以如此強(qiáng)大,正是因?yàn)樗痪窒抻谌祟惖闹R(shí)。DeepMind首席執(zhí)行官哈薩比斯認(rèn)為,在接下來的十年內(nèi),AlphaGo的更新版本很有可能被應(yīng)用于多個(gè)科學(xué)領(lǐng)域。▲
(李曉驍)