“AlphaGo 之父”獲最新一屆ACM 計(jì)算獎(jiǎng)

2020-05-16 16:16:48黃珊

海外星云 2020年5期

●黃珊

大衛(wèi)·席爾瓦

近日，2019 年ACM(國(guó)際計(jì)算機(jī)學(xué)會(huì))計(jì)算獎(jiǎng)?lì)C出，由于在計(jì)算機(jī)游戲領(lǐng)域取得突破性進(jìn)展，“AlphaGo 之父”、DeepMind 首席科學(xué)家、倫敦大學(xué)學(xué)院教授大衛(wèi)·席爾瓦獲得最新一屆的ACM 計(jì)算獎(jiǎng)。

大衛(wèi)·席爾瓦是深度學(xué)習(xí)領(lǐng)域的先驅(qū)人物，他在人工智能領(lǐng)域的一系列成績(jī)中，又以他帶領(lǐng)打造的AlphaGo 最為人所知。大衛(wèi)·席爾瓦通過巧妙地結(jié)合深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、蒙特卡洛搜索樹和大規(guī)模計(jì)算的思想，開發(fā)了AlphaGo 算法，AlphaGo 由此戰(zhàn)勝了頂尖的人類棋手，更是被公認(rèn)為人工智能（AI）研究的一個(gè)里程碑。

根據(jù)ACM 官方報(bào)道，最初，AlphaGo 會(huì)經(jīng)過來自人類專業(yè)棋手經(jīng)驗(yàn)的小范圍訓(xùn)練，然后，它會(huì)通過強(qiáng)化學(xué)習(xí)來不斷改善性能。AlphaGo 之后，大衛(wèi)·席爾瓦和他的團(tuán)隊(duì)創(chuàng)造了更新穎的方法，來實(shí)現(xiàn)更高的性能和通用性，AlphaZero 就此誕生。與AlphaGo 不同，AlphaZero 完全通過與自己玩游戲來進(jìn)行學(xué)習(xí)，不需要任何人類數(shù)據(jù)或先驗(yàn)知識(shí)（游戲規(guī)則除外）。而且，AlphaZero 同時(shí)在國(guó)際象棋、將棋和圍棋游戲中有超過人類的表現(xiàn)，證明了其AI算法的通用性。

早在大衛(wèi)·席爾瓦于艾伯塔大學(xué)（University of Alberta）攻讀博士學(xué)位時(shí)，他就開始探索開發(fā)一種可以掌握圍棋智慧的計(jì)算機(jī)程序，這也成為了他后續(xù)一直在專注的研究興趣。在2013 年的NeurIPS 會(huì)議上，席爾瓦展示了一種算法，它可以在雅達(dá)利游戲中展現(xiàn)達(dá)到人類水平的技巧。這個(gè)程序?qū)W會(huì)了在游戲過程中僅僅通過觀察像素和分?jǐn)?shù)來玩游戲。

2015 年，大衛(wèi)·席爾瓦和他的同事發(fā)布開創(chuàng)性論文“Human Level Control Through Deep Reinforcement Learning ”，在這個(gè)研究中，他們將強(qiáng)化學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合，論文發(fā)表在《自然》雜志上，且至今被引用近1 萬(wàn)次，對(duì)該領(lǐng)域產(chǎn)生了巨大影響。隨后，席爾瓦和他的同事繼續(xù)用新技術(shù)改進(jìn)這些深度強(qiáng)化學(xué)習(xí)算法，這些算法仍然是機(jī)器學(xué)習(xí)中應(yīng)用最廣泛的工具之一。

2016 年3 月，團(tuán)隊(duì)開發(fā)的AlphaGo 擊敗世界圍棋冠軍李世石，這被譽(yù)為AI 里程碑式的時(shí)刻。同年，解析AlphaGo 背后技術(shù)的論文“Mastering the Game of Go with Deep Neural Networks and Tree Search ”公開發(fā)布在《自然》雜志上。

AlphaGo 和AlphaZero 之后，DeepMind 的游戲AI 探索的另一個(gè)重點(diǎn)是征服《星際爭(zhēng)霸II》。就在去年，由席爾瓦領(lǐng)導(dǎo)的DeepMind 團(tuán)隊(duì)開發(fā)了AlphaStar，它掌握了多人即時(shí)戰(zhàn)略游戲《星際爭(zhēng)霸II》，這類游戲被認(rèn)為是游戲AI 需要攀登的高峰。

現(xiàn)在，在DeepMind——這家谷歌旗下最星光熠熠的AI 公司，大衛(wèi)·席爾瓦和他的同事仍在尋求將機(jī)器學(xué)習(xí)和神經(jīng)科學(xué)方面的進(jìn)展進(jìn)行技術(shù)融合，以構(gòu)建功能強(qiáng)大的通用學(xué)習(xí)算法。大衛(wèi)·席爾瓦在深度強(qiáng)化學(xué)習(xí)上的諸多工作也已被應(yīng)用于提高英國(guó)電網(wǎng)效率、幫助谷歌數(shù)據(jù)中心降低功耗、為歐洲航天局策劃太空探測(cè)器軌跡等領(lǐng)域。DeepMind 團(tuán)隊(duì)還將繼續(xù)推進(jìn)這些技術(shù)，并為其找到更多的應(yīng)用場(chǎng)景。（摘自美《深科技》）