●黃珊
大衛(wèi)·席爾瓦
近日,2019 年ACM(國(guó)際計(jì)算機(jī)學(xué)會(huì))計(jì)算獎(jiǎng)?lì)C出,由于在計(jì)算機(jī)游戲領(lǐng)域取得突破性進(jìn)展,“AlphaGo 之父”、DeepMind 首席科學(xué)家、倫敦大學(xué)學(xué)院教授大衛(wèi)·席爾瓦獲得最新一屆的ACM 計(jì)算獎(jiǎng)。
大衛(wèi)·席爾瓦是深度學(xué)習(xí)領(lǐng)域的先驅(qū)人物,他在人工智能領(lǐng)域的一系列成績(jī)中,又以他帶領(lǐng)打造的AlphaGo 最為人所知。大衛(wèi)·席爾瓦通過巧妙地結(jié)合深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、蒙特卡洛搜索樹和大規(guī)模計(jì)算的思想,開發(fā)了AlphaGo 算法,AlphaGo 由此戰(zhàn)勝了頂尖的人類棋手,更是被公認(rèn)為人工智能(AI)研究的一個(gè)里程碑。
根據(jù)ACM 官方報(bào)道,最初,AlphaGo 會(huì)經(jīng)過來自人類專業(yè)棋手經(jīng)驗(yàn)的小范圍訓(xùn)練,然后,它會(huì)通過強(qiáng)化學(xué)習(xí)來不斷改善性能。AlphaGo 之后,大衛(wèi)·席爾瓦和他的團(tuán)隊(duì)創(chuàng)造了更新穎的方法,來實(shí)現(xiàn)更高的性能和通用性,AlphaZero 就此誕生。與AlphaGo 不同,AlphaZero 完全通過與自己玩游戲來進(jìn)行學(xué)習(xí),不需要任何人類數(shù)據(jù)或先驗(yàn)知識(shí)(游戲規(guī)則除外)。而且,AlphaZero 同時(shí)在國(guó)際象棋、將棋和圍棋游戲中有超過人類的表現(xiàn),證明了其AI算法的通用性。
早在大衛(wèi)·席爾瓦于艾伯塔大學(xué)(University of Alberta)攻讀博士學(xué)位時(shí),他就開始探索開發(fā)一種可以掌握圍棋智慧的計(jì)算機(jī)程序,這也成為了他后續(xù)一直在專注的研究興趣。在2013 年的NeurIPS 會(huì)議上,席爾瓦展示了一種算法,它可以在雅達(dá)利游戲中展現(xiàn)達(dá)到人類水平的技巧。這個(gè)程序?qū)W會(huì)了在游戲過程中僅僅通過觀察像素和分?jǐn)?shù)來玩游戲。
2015 年,大衛(wèi)·席爾瓦和他的同事發(fā)布開創(chuàng)性論文“Human Level Control Through Deep Reinforcement Learning ”,在這個(gè)研究中,他們將強(qiáng)化學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合,論文發(fā)表在《自然》雜志上,且至今被引用近1 萬(wàn)次,對(duì)該領(lǐng)域產(chǎn)生了巨大影響。隨后,席爾瓦和他的同事繼續(xù)用新技術(shù)改進(jìn)這些深度強(qiáng)化學(xué)習(xí)算法,這些算法仍然是機(jī)器學(xué)習(xí)中應(yīng)用最廣泛的工具之一。
2016 年3 月,團(tuán)隊(duì)開發(fā)的AlphaGo 擊敗世界圍棋冠軍李世石,這被譽(yù)為AI 里程碑式的時(shí)刻。同年,解析AlphaGo 背后技術(shù)的論文“Mastering the Game of Go with Deep Neural Networks and Tree Search ”公開發(fā)布在《自然》雜志上。
AlphaGo 和AlphaZero 之后,DeepMind 的游戲AI 探索的另一個(gè)重點(diǎn)是征服《星際爭(zhēng)霸II》。就在去年,由席爾瓦領(lǐng)導(dǎo)的DeepMind 團(tuán)隊(duì)開發(fā)了AlphaStar,它掌握了多人即時(shí)戰(zhàn)略游戲《星際爭(zhēng)霸II》,這類游戲被認(rèn)為是游戲AI 需要攀登的高峰。
現(xiàn)在,在DeepMind——這家谷歌旗下最星光熠熠的AI 公司,大衛(wèi)·席爾瓦和他的同事仍在尋求將機(jī)器學(xué)習(xí)和神經(jīng)科學(xué)方面的進(jìn)展進(jìn)行技術(shù)融合,以構(gòu)建功能強(qiáng)大的通用學(xué)習(xí)算法。大衛(wèi)·席爾瓦在深度強(qiáng)化學(xué)習(xí)上的諸多工作也已被應(yīng)用于提高英國(guó)電網(wǎng)效率、幫助谷歌數(shù)據(jù)中心降低功耗、為歐洲航天局策劃太空探測(cè)器軌跡等領(lǐng)域。DeepMind 團(tuán)隊(duì)還將繼續(xù)推進(jìn)這些技術(shù),并為其找到更多的應(yīng)用場(chǎng)景。(摘自美《深科技》)