• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      阿爾法元:每一次它都變得更聰明

      2017-11-23 08:30:38
      方圓 2017年21期
      關(guān)鍵詞:李昕棋局阿爾法

      阿爾法元通過與自身對弈實現(xiàn)了自身能力的提升,每一次它都變得更聰明,每一次棋局也更有挑戰(zhàn)性

      在金庸的小說《射雕英雄傳》里,周伯通“左手畫圓,右手畫方”,左手攻擊右手,右手及時反搏,自娛自樂,終無敵于天下。這個橋段著實留在一代人的記憶中。

      現(xiàn)實世界中,亦有這么一個“幼童”,他沒見過一個棋譜,也沒有得到一個人指點,從零開始,自娛自樂,自己參悟,用了僅僅40天,便稱霸圍棋武林。

      這個“幼童”,叫阿爾法元(AlphaGo Zero),就是今年5月在烏鎮(zhèn)圍棋峰會上打敗了人類第一高手柯潔的阿爾法狗強化版AlphaGo Master的同門“師弟”。不過,這個遍讀人類幾乎所有棋譜、以3∶0打敗人類第一高手的師兄,在“師弟”阿爾法元從零自學(xué)第21天后,便被其擊敗。

      10月19日,一手創(chuàng)造了AlphaGo神話的谷歌DeepMind團(tuán)隊在Nature雜志上發(fā)表重磅論文Mastering the game of Go without human knowledge,介紹了團(tuán)隊最新研究成果——阿爾法元的出世,引起業(yè)內(nèi)轟動。雖師出同門,但是師兄弟的看家本領(lǐng)卻有本質(zhì)的差別。

      “過去所有版本的AlphaGo都從利用人類數(shù)據(jù)進(jìn)行培訓(xùn)開始,它們被告知人類高手在這個地方怎么下,在另一個地方又怎么下?!?DeepMind阿爾法狗項目負(fù)責(zé)人David Silver博士在一段采訪中介紹,“而阿爾法元不使用任何人類數(shù)據(jù),完全是自我學(xué)習(xí),從自我對弈中實踐。”

      David Silver博士介紹,在他們所設(shè)計的算法中,阿爾法元的對手,或者叫陪練,總是被調(diào)成與其水平一致?!八运菑淖罨A(chǔ)的水平起步,從零開始,從隨機(jī)招式開始,但在學(xué)習(xí)過程中的每一步,它的對手都會正好被校準(zhǔn)為匹配器當(dāng)前水平,一開始,這些對手都非常弱,但是之后漸漸變得越來越強大?!?/p>

      這種學(xué)習(xí)方式正是當(dāng)今人工智能最熱門的研究領(lǐng)域之一—強化學(xué)習(xí)(Reinforcement learning)。

      昆山杜克大學(xué)和美國杜克大學(xué)電子與計算機(jī)工程學(xué)教授李昕博士介紹,DeepMind團(tuán)隊此次所利用的一種新的強化學(xué)習(xí)方式,是從一個對圍棋沒有任何知識的神經(jīng)網(wǎng)絡(luò)開始,然后與一種強大的搜索算法相結(jié)合,“簡單地解釋就是,它開始不知道該怎么做,就去嘗試,嘗試之后,看到了結(jié)果,若是正面結(jié)果,就知道做對了,反之,就知道做錯了,這就是它自我學(xué)習(xí)的方法?!?/p>

      這一過程中,阿爾法元成為自己的“老師”,神經(jīng)網(wǎng)絡(luò)不斷被調(diào)整更新,以評估預(yù)測下一個落子位置以及輸贏,更新后的神經(jīng)網(wǎng)絡(luò)又與搜索算法重新組合,進(jìn)而創(chuàng)建一個新的、更強大的版本,然而再次重復(fù)這個過程,系統(tǒng)性能經(jīng)過每一次迭代得到提高,使得神經(jīng)網(wǎng)絡(luò)預(yù)測越來越準(zhǔn)確,阿爾法元也越來越強大。

      其中值得一提的是,以前版本的阿爾法狗通常使用預(yù)測下一步的“策略網(wǎng)絡(luò)(policy network)”和評估棋局輸贏的“價值網(wǎng)絡(luò)”(value network)兩個神經(jīng)網(wǎng)絡(luò)。而更為強大的阿爾法元只使用了一個神經(jīng)網(wǎng)絡(luò),也就是兩個網(wǎng)絡(luò)的整合版本。

      從這個意義上而言,“AlphaGo Zero”譯成“阿爾法元”,而不是字面上的“阿爾法零”,“內(nèi)涵更加豐富,代表了人類認(rèn)知的起點——神經(jīng)元?!崩铌拷淌谡f。

      上述研究更新了人們對于機(jī)器學(xué)習(xí)的認(rèn)知?!叭藗円话阏J(rèn)為,機(jī)器學(xué)習(xí)就是關(guān)于大數(shù)據(jù)和海量計算,但是通過阿爾法元,我們發(fā)現(xiàn),其實算法比所謂計算或數(shù)據(jù)可用性更重要?!盌avid Silver博士說。

      李昕教授長期專注于制造業(yè)大數(shù)據(jù)研究,他認(rèn)為,這個研究最有意義的一點在于,證明了人工智能在某些領(lǐng)域,也許可以擺脫對人類經(jīng)驗和輔助的依賴?!叭斯ぶ悄艿囊淮箅y點就是,需要大量人力對數(shù)據(jù)樣本進(jìn)行標(biāo)注,而阿爾法元則證明,人工智能可以通過 無監(jiān)督數(shù)據(jù)(unsupervised data) ,也就是人類未標(biāo)注的數(shù)據(jù),來解決問題?!?/p>

      有人暢想,類似的深度強化學(xué)習(xí)算法,或許能更容易地被廣泛應(yīng)用到其他人類缺乏了解或是缺乏大量標(biāo)注數(shù)據(jù)的領(lǐng)域。不過,究竟有多大實際意義,能應(yīng)用到哪些現(xiàn)實領(lǐng)域,李昕教授表示“還前途未卜”,“下圍棋本身是一個比較局限的應(yīng)用,人類覺得下圍棋很復(fù)雜,但是對于機(jī)器來說并不難。而且,下圍棋只是一種娛樂方式,不算作人們在生活中遇到的實際問題?!?/p>

      那么,谷歌的AI為什么會選擇圍棋?

      據(jù)報道,歷史上,電腦最早掌握的第一款經(jīng)典游戲是井字游戲,這是1952年一位博士在讀生的研究項目;隨后是1994年電腦程序Chinook成功挑戰(zhàn)西洋跳棋游戲;3年后,IBM深藍(lán)超級計算機(jī)在國際象棋比賽中戰(zhàn)勝世界冠軍加里·卡斯帕羅夫。

      除了棋盤游戲外,IBM的Watson系統(tǒng)在2011年成功挑戰(zhàn)老牌智力競賽節(jié)目Jeopardy游戲一戰(zhàn)成名;2014年,Google自己編寫的算法,學(xué)會了僅需輸入初始像素信息就能玩幾十種Atari游戲。

      但有一項游戲仍然是人類代表著頂尖水平,那就是圍棋。谷歌DeepMind創(chuàng)始人兼CEO Demis Hassabis博士曾在2016年AlphaGo對陣?yán)钍朗瘯r就做過說明,有著3000多年歷史的圍棋是人類有史以來發(fā)明出來的最復(fù)雜的游戲,對于人工智能來說,這是一次最尖端的大挑戰(zhàn),需要直覺和計算,要想熟練玩圍棋需要將模式識別和運籌帷幄結(jié)合。

      “圍棋的搜索空間是漫無邊際的——比圍棋棋盤要大1個古戈爾(數(shù)量級單位,10的100次方,甚至比宇宙中的原子數(shù)量還要多)?!币虼耍瑐鹘y(tǒng)的人工智能方法也就是“為所有可能的步數(shù)建立搜索樹”,在圍棋游戲中幾乎無法實現(xiàn)。

      而打敗了人類的AlphaGo系統(tǒng)的關(guān)鍵則是,將圍棋巨大無比的搜索空間壓縮到可控的范圍之內(nèi)。David Silver博士此前曾介紹,策略網(wǎng)絡(luò)的作用是預(yù)測下一步,并用來將搜索范圍縮小至最有可能的那些步驟。另一個神經(jīng)網(wǎng)絡(luò)“價值網(wǎng)絡(luò)”(valuenetwork)則是用來減少搜索樹的深度,每走一步估算一次游戲的贏家,而不是搜索所有結(jié)束棋局的途徑。

      李昕教授對阿爾法元帶來的突破表示欣喜,但同時他也提到,“阿爾法元證明的只是在下圍棋這個游戲中,無監(jiān)督學(xué)習(xí)(unsupervised learning)比有監(jiān)督學(xué)習(xí)(supervised learning) 更優(yōu) ,但并未證明這就是最優(yōu)方法,也許兩者結(jié)合的semi-supervised learning,也就是在不同時間和階段,結(jié)合有監(jiān)督或無監(jiān)督學(xué)習(xí)各自的優(yōu)點,可以得到更優(yōu)的結(jié)果?!?/p>

      李昕教授說,人工智能的技術(shù)還遠(yuǎn)沒有達(dá)到人們所想象的程度,“比如,互聯(lián)網(wǎng)登錄時用的reCAPTCHA驗證碼(圖像或者文字),就無法通過機(jī)器學(xué)習(xí)算法自動識別”,他說,在某些方面,機(jī)器人確實比人做得更好,但目前并不能完全替換人?!爸挥挟?dāng)科研證明,一項人工智能技術(shù)能夠解決一些實際問題和人工痛點時,才真正算作是一個重大突破?!?/p>

      昆山杜克大學(xué)常務(wù)副校長、中美科技政策和關(guān)系專家丹尼斯·西蒙(Denis Simon)博士在接受采訪時表示,阿爾法元在圍棋領(lǐng)域的成功說明它確實有極大的潛力。阿爾法元通過與自身對弈實現(xiàn)了自身能力的提升,每一次它都變得更聰明,每一次棋局也更有挑戰(zhàn)性。這種重復(fù)性的、充分參與的學(xué)習(xí)增強了阿爾法元處理更高層次的、戰(zhàn)略復(fù)雜問題的能力。但缺點是這是一個封閉的系統(tǒng)?!鞍柗ㄔ绾文軌虺^自身的局限獲得進(jìn)一步的成長?換句話說,它能跳出框框思考嗎?”(文章來源: 澎湃新聞)endprint

      猜你喜歡
      李昕棋局阿爾法
      極狐阿爾法S HI版
      汽車觀察(2022年12期)2023-01-17 02:19:24
      “螢火蟲-阿爾法”小型火箭首飛概述
      國際太空(2021年10期)2021-12-02 01:32:42
      Characteristics of a kHz helium atmospheric pressure plasma jet interacting with two kinds of targets
      ARCFOX極狐阿爾法S
      汽車觀察(2021年11期)2021-04-24 18:04:58
      傳祺海外新棋局
      汽車觀察(2018年10期)2018-11-06 07:05:16
      安凱運游棋局
      汽車觀察(2018年9期)2018-10-23 05:46:46
      西咸新棋局
      華林 國際大棋局
      阿爾法磁譜儀(AMS)
      太空探索(2014年5期)2014-07-12 09:53:44
      趕集
      大理市| 香格里拉县| 西盟| 社旗县| 绵竹市| 习水县| 和田县| 新昌县| 象山县| 游戏| 高碑店市| 禄劝| 安丘市| 栾城县| 米泉市| 天津市| 潞西市| 东乡县| 万州区| 穆棱市| 藁城市| 饶河县| 嘉黎县| 漯河市| 长子县| 闽清县| 武邑县| 凤城市| 团风县| 阳朔县| 克山县| 云和县| 科尔| 合水县| 静宁县| 屯留县| 当阳市| 丽水市| 辉南县| 合阳县| 广东省|