• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      “阿爾法狗”:下一盤比圍棋更大的棋

      2017-02-09 16:14李斑子
      看世界 2017年3期
      關(guān)鍵詞:蒙特卡洛棋譜對局

      李斑子

      自從2016年12月29日在圍棋網(wǎng)絡(luò)對戰(zhàn)平臺現(xiàn)身之后,截至2017年1月4日晚,一個名為“Master”的神秘賬號在與人類圍棋高手的車輪戰(zhàn)中取得了60勝0負(fù)1和的戰(zhàn)績,手下敗將不乏柯潔、樸廷桓、古力等世界頂尖名將,甚至在對局中看不到這些頂尖名將有一點(diǎn)點(diǎn)能和Master扳手腕的可能(Master戰(zhàn)績中唯一的和棋還是因?yàn)閷κ株愐珶钤趯?zhàn)時掉線)。在和古力最后一戰(zhàn)前,Master承認(rèn)自己就是升級版的“阿爾法狗”(AlphaGo,谷歌旗下DeepMind公司的一款圍棋人工智能)。

      人算不如“狗”算

      1月3日晚,在接連贏下樸廷桓和元晟溱之后,Master在圍棋網(wǎng)絡(luò)對戰(zhàn)平臺的連勝紀(jì)錄達(dá)到49場。當(dāng)晚第50場的對手是“潛伏”,該賬號的持有者被一致認(rèn)為是世界頭號選手柯潔。根據(jù)最新的世界圍棋排名,柯潔是如今世界棋壇積分排名第一的選手,也是榜單上唯一一名排在“阿爾法狗”之前的棋手。

      這場對局在Master的快速攻擊面前,“潛伏”漸漸有些捉襟見肘,最終投子認(rèn)負(fù)?!疤ё撸乱粋€?!边@是觀戰(zhàn)的網(wǎng)友們?yōu)橼A棋后的Master設(shè)計的對白。

      而在去年“阿爾法狗”對陣?yán)钍朗摹皣迦藱C(jī)大戰(zhàn)1.0”之際,柯潔曾表示:“就算它戰(zhàn)勝了李世石,但它贏不了我?!贝撕笏€在微博上放出豪言,“管你是阿法狗還是阿法貓!我柯潔在棋上什么大風(fēng)大浪沒見過?讓風(fēng)暴再來得猛烈點(diǎn)吧……”

      與之形成鮮明對比的是,2016年的最后一天,正當(dāng)Master大殺四方之時,柯潔在微博中寫道:“新的風(fēng)暴即將來襲。我從3月份到現(xiàn)在研究了大半年的棋軟,無數(shù)次的理論、實(shí)踐,就是想知道計算機(jī)到底強(qiáng)在哪里?昨夜輾轉(zhuǎn)反側(cè),不想竟一夜難眠,人類數(shù)千年的實(shí)戰(zhàn)演練進(jìn)化,計算機(jī)卻告訴我們?nèi)祟惾清e的。我覺得,甚至沒有一個人沾到圍棋真理的邊……”

      那么問題來了,這只“阿爾法狗”是怎么下棋的?為什么這么強(qiáng)?到底強(qiáng)在哪里?

      還記得1997年IBM公司的“深藍(lán)”計算機(jī)戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫那次劃時代的“人機(jī)大戰(zhàn)”嗎?“深藍(lán)”贏得比賽用的就是人類最不屑的辦法——窮舉——把棋盤里可能出現(xiàn)的所有情況都模擬出來,然后對手下的每一步棋都“了然于胸”,再選擇最能贏的走法。就像拿著幾個億去買彩票,所有有可能的組合全部下注,最后中了個500萬。

      人工智能能在國際象棋領(lǐng)域這么做,完全是因?yàn)閲H象棋的所有可能性是10^47,以電腦的“腦力”要列舉這么多種可能性還是夠用的。但要想用一模一樣的辦法稱霸圍棋棋壇,面對圍棋的十九路棋盤,“阿爾法狗”要應(yīng)付的可能性是2x10^170,換成自然數(shù)的形式就是2后邊跟著170個0……要窮舉這么多的棋譜,電腦的“腦力”顯然是不夠用的。要知道,全宇宙的所有原子總數(shù)也不過是10^80個。

      但是,窮舉還是要有的,不過要用一種聰明點(diǎn)的辦法縮小窮舉的范圍。人類不是下了幾千年的圍棋嗎?那就先拿3000萬份棋譜來學(xué)習(xí)一下人類下棋的基本套路?!鞍柗ü贰眲傞_始通過自身的“人工神經(jīng)網(wǎng)絡(luò)”來“深度學(xué)習(xí)”圍棋時,就是從網(wǎng)絡(luò)圍棋對戰(zhàn)平臺KGS拿來的3000萬份棋譜開始的。不過這顯然是不夠的,所以在繼續(xù)找更多的棋譜的同時“阿爾法狗”還開始了和自己下棋玩——通過學(xué)習(xí)得來的人類下棋套路來模擬博弈,盡可能地得到更加多的棋譜來學(xué)習(xí)。

      這樣一來,孜孜不倦地學(xué)習(xí)了數(shù)以千萬計的棋譜“阿爾法狗”就對如何合理地下棋這件事有了自己的豐富經(jīng)驗(yàn),這就形成了自己“價值網(wǎng)絡(luò)”——估算每一張棋譜里的每一步棋對最后贏棋有多大幫助,并找出其中的一些規(guī)律——這大概就是人類常說的“棋感”。而再看看人類,一輩子也下不了一萬盤棋,還要記要分析要總結(jié)規(guī)律?想想就心累。

      “阿爾法狗”學(xué)習(xí)了海量棋譜得來的“棋感”用來模仿和預(yù)測人類下棋已經(jīng)有很高的把握了,據(jù)“阿爾法狗”團(tuán)隊(duì)2016年的說法,“阿爾法狗” 下圍棋時的落子選擇能正確符合57%的人類高手。就是說有57%的人類高手在面對同樣的棋局時會選擇和“阿爾法狗”一樣的下一步,而不符合人類高手想法的那部分并不意味著“阿爾法狗”是錯的,也更有可能是人類自己犯錯而已。

      有了深厚的內(nèi)力加持還是不夠的,“阿爾法狗”還需要在對戰(zhàn)時把自己的積淀用到實(shí)處。先前說過,“阿爾法狗”和“深藍(lán)”在迎戰(zhàn)人類的方法并沒有什么本質(zhì)上的差別,都是窮舉。雖然現(xiàn)在“阿爾法狗”已經(jīng)懂得有規(guī)律地窮舉了,但是它的運(yùn)算能力還是不足以窮舉規(guī)律之中的棋局的所有可能走勢,畢竟這個運(yùn)算量對于計算機(jī)來說依然是個天文數(shù)字。

      所以,“阿爾法狗”引進(jìn)了另一個大殺器,蒙特卡洛樹搜索(MCTS)算法。蒙特卡洛算法,是由美國數(shù)學(xué)家烏拉姆最早提出,再經(jīng)數(shù)學(xué)天才馮·諾伊曼發(fā)展和完善,以賭城蒙特卡洛命名的一種算法。在過于復(fù)雜的局面中,人工智能由于硬件缺陷,無法實(shí)現(xiàn)窮舉級別的采樣,而蒙特卡洛算法正是在采樣不足的情況下,通過盡可能多次的隨機(jī)采樣,一步一步接近最優(yōu)解。舉個簡單例子,有一堆鉆石,每次隨機(jī)選一枚,選中更大的就留下。那么經(jīng)過越來越多次隨機(jī)選擇,最終留下的那枚鉆石,就必然越來越接近這堆鉆石中最大的。

      1997年5月,IBM公司的國際象棋電腦“深藍(lán)”打敗國際象棋世界冠軍卡斯帕羅夫

      具體到“阿爾法狗”下圍棋這件事上,蒙特卡洛樹搜索算法就是把“阿爾法狗”的“棋感”認(rèn)為有可能的接下來的棋局都先過一遍(有時是走幾十步之后,有時是走到對局結(jié)束),把對自己不利的都刪除掉,剩下的便是勝率最高的走法,而且是每下一步棋時這么過一遍。

      猜你喜歡
      蒙特卡洛棋譜對局
      創(chuàng)意地面棋(體育游戲)
      運(yùn)用蒙特卡洛模擬仿真算法分析機(jī)電系統(tǒng)技術(shù)
      第29屆歐洲象棋錦標(biāo)賽對局選評
      蒙特卡洛應(yīng)用于知識產(chǎn)權(quán)證券化資產(chǎn)風(fēng)險量化分析
      左右十三步
      趙國榮先勝呂欽
      囚犯與棋譜
      圍棋神童吳清源
      馬爾科夫鏈蒙特卡洛方法及應(yīng)用
      對局中的平衡觀戰(zhàn)斗力量的平衡
      梧州市| 礼泉县| 嘉义县| 牙克石市| 雅安市| 新沂市| 南川市| 清苑县| 永新县| 龙川县| 甘谷县| 馆陶县| 金山区| 安福县| 望城县| 射洪县| 察哈| 科技| 贺兰县| 宁陕县| 沁源县| 沧源| 博湖县| 运城市| 巴彦县| 兴和县| 侯马市| 怀来县| 和平县| 阿荣旗| 武汉市| 全南县| 谢通门县| 蒲城县| 田林县| 科技| 凤阳县| 霍城县| 子长县| 若尔盖县| 盐亭县|