• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      會(huì)玩德州撲克的AI,為什么比AlphaGo更厲害?

      2017-08-11 00:07金姬
      新民周刊 2017年30期
      關(guān)鍵詞:桑德撲克德州

      金姬

      沒有追隨深度學(xué)習(xí)潮流的“冷撲大師”,或許在現(xiàn)實(shí)生活中擁有更廣闊的用武之地:金融交易、網(wǎng)絡(luò)安全、商業(yè)拍賣、政治談判……因?yàn)檫@些情景都是充滿了各種博弈的“非完美信息”游戲。

      提到人機(jī)大戰(zhàn),普羅大眾比較熟悉的是戰(zhàn)勝人類圍棋的AI“阿爾法狗”(AlphaGo)。但在人工智能(AI)界,業(yè)內(nèi)人士更關(guān)注的是另一項(xiàng)人機(jī)大戰(zhàn)——德州撲克。因?yàn)樵谶@個(gè)領(lǐng)域,AI系統(tǒng)沒有海量的棋譜可以深度學(xué)習(xí),比賽雙方掌握的信息也不對(duì)等,這就需要AI系統(tǒng)利用博弈論等其他理論來進(jìn)行決策。

      2017年1月,美國(guó)賓州匹茲堡的大河賭場(chǎng)(Rivers Casino)舉行了一場(chǎng)德州撲克的“人機(jī)大戰(zhàn)”——連續(xù)20個(gè)比賽日中,一個(gè)名為“冷撲大師”(Libratus)的AI在共計(jì)12萬手的一對(duì)一無限注德?lián)浔荣愔袚魯×怂拿敿馊祟惛呤?,共?jì)領(lǐng)先人類團(tuán)隊(duì)176萬美元籌碼。令人咋舌的是,這是“冷撲大師”第一次和人類交手。

      3個(gè)月后,“冷撲大師”又在中國(guó)海南戰(zhàn)勝了6位頂尖華人撲克選手。此次比賽發(fā)起人、人工智能工程院院長(zhǎng)李開復(fù)賽后如此評(píng)價(jià)道:“如果AlphaGo是超級(jí)IQ天才,那么‘冷撲大師就是超級(jí)EQ天才?!?/p>

      7月下旬,“冷撲大師”的開發(fā)者、美國(guó)卡內(nèi)基梅隆大學(xué)(CMU)計(jì)算機(jī)教授托馬斯·桑德霍姆(Tuomas Sandholm)再次來到中國(guó),在“2017鈦媒體-杉數(shù)科技AI大師圓桌會(huì)”現(xiàn)場(chǎng)與他的學(xué)生、清華大學(xué)計(jì)算經(jīng)濟(jì)學(xué)研究室主任、博士生導(dǎo)師唐平中,上海財(cái)經(jīng)大學(xué)教授、國(guó)際奧數(shù)金牌、杉數(shù)科技科學(xué)家何斯邁,上海財(cái)經(jīng)大學(xué)交叉科學(xué)研究院院長(zhǎng)、杉數(shù)科技首席科學(xué)家葛冬冬討論了商業(yè)實(shí)際場(chǎng)景中真正需要的AI,給大家分享了“AI賭神”的獲勝秘訣。他表示:沒有追隨深度學(xué)習(xí)潮流的“冷撲大師”,或許在現(xiàn)實(shí)生活中擁有更廣闊的用武之地:金融交易、網(wǎng)絡(luò)安全、商業(yè)拍賣、政治談判……因?yàn)檫@些情景都是充滿了各種博弈的“非完美信息游戲”(imperfect-info games)。

      為什么要讓AI玩德?lián)洌?/p>

      “德?lián)銩I之父”桑德霍姆用帶有芬蘭口音的英語(yǔ)說,之前著名的人機(jī)大戰(zhàn),無論是IBM的國(guó)際象棋AI“深藍(lán)”、還是谷歌的圍棋AI“阿爾法狗”,比賽雙方獲得的信息都是一樣的,這就是“完美信息游戲”。但現(xiàn)實(shí)生活中這種信息完全對(duì)等的情況很少發(fā)生,而更多是“非完美信息游戲”,德州撲克就是這樣一例。也就是說,即便在一對(duì)一的情況下,比賽雙方獲得的信息是不一樣的、或者說只是部分的——雙方都不知道五張公共牌會(huì)開出怎樣的結(jié)果,也不知道對(duì)手猜測(cè)自己握有怎樣的手牌。這樣的游戲就不存在單一的最優(yōu)玩法。

      對(duì)于AI團(tuán)隊(duì)而言,研究“非完美信息游戲”不但更富挑戰(zhàn)性,也更有實(shí)際運(yùn)用價(jià)值。而“冷撲大師”打開了AI解決隨機(jī)事件和隱藏信息的大門。

      根據(jù)《量子位》的報(bào)道,“德?lián)銩I”的最早研發(fā)可以追溯到2014年8月,當(dāng)時(shí)剛剛完成碩士學(xué)業(yè)的諾阿姆·布朗(Noam Brown)繼續(xù)留在CMU攻讀計(jì)算機(jī)科學(xué)的博士學(xué)位。當(dāng)年,他就和導(dǎo)師桑德霍姆教授一起開發(fā)出德?lián)銩I:Tartanian7以及后續(xù)版本Baby Tartanian8,并且連續(xù)贏得電腦撲克大賽(電腦VS電腦)的冠軍。

      師生倆乘勝追擊,開始研究德?lián)淙藱C(jī)大戰(zhàn)。兩人創(chuàng)造了Claudico,當(dāng)時(shí)的桑德霍姆以為Claudico有五成勝算。誰知,在2015年4月美國(guó)匹茲堡的大河賭場(chǎng),Claudico在兩周時(shí)間內(nèi)和四位人類頂級(jí)玩家交鋒8萬手,累計(jì)輸?shù)?3.2萬美元的籌碼。之所以選擇這個(gè)賭場(chǎng),因?yàn)榭▋?nèi)基梅隆大學(xué)也在匹茲堡。

      2017年1月11日,全新的“冷撲大師”(Libratus)卷土重來。還是四位人類對(duì)手,不過時(shí)長(zhǎng)變?yōu)?0天,累積交鋒12萬手。這次德?lián)銩I沒給人類玩家機(jī)會(huì),一路以碾壓的態(tài)勢(shì)完勝。

      “冷撲大師”的獲勝秘籍是什么?

      以往AI處理“不完美信息游戲”采用一種縮略的方法,例如將對(duì)手下注249美元近似為200美元進(jìn)行簡(jiǎn)化處理,采用這一模式的Claudico在人類面前不堪一擊。而“冷撲大師”就不同了,它會(huì)對(duì)每一手牌進(jìn)行單獨(dú)的處理,根據(jù)不同的牌面制訂出不同的戰(zhàn)略。對(duì)它而言,249美元就是249美元,它不會(huì)像以往的AI那樣嘗試聚類,而是馬上實(shí)時(shí)計(jì)算,得出勝算最大的策略。

      這種算法最大的特點(diǎn),是開發(fā)者可以獲得一定程度的“確定性”。而“確定性”正是時(shí)下大熱的深度學(xué)習(xí)最缺乏的。有評(píng)論指出,深度學(xué)習(xí)有兩大局限性:一方面,深度學(xué)習(xí)的本質(zhì)是機(jī)器通過分析海量數(shù)據(jù)習(xí)得一些模式,但并不是所有領(lǐng)域都能采集到海量數(shù)據(jù)。以自動(dòng)駕駛為例,顯然通過積累海量事故經(jīng)驗(yàn)來習(xí)得避免事故發(fā)生是不現(xiàn)實(shí)的。另一方面,深度學(xué)習(xí)是一個(gè)知其然而不知其所以然的“黑匣子”,這在許多重大安全事件上并不能令人放心。自動(dòng)駕駛的事故問責(zé)問題就是一例。

      值得注意的是,“冷撲大師”在今年1月人機(jī)大戰(zhàn)之前沒有研究過人類如何打德州撲克,也沒有和人類職業(yè)玩家有過交手。在投入實(shí)戰(zhàn)之前,它和自己對(duì)戰(zhàn)了幾百萬手牌,其中有不少是帶有特定目的的殘局,真正機(jī)器和機(jī)器之間的交手,大約是幾十萬手。

      更有意思的是,“詐?!保╞luff)這種看似與心理有關(guān)的人類技能,“冷撲大師”通過算法也“自學(xué)成才”。詐唬是德?lián)涞囊环N經(jīng)典策略——當(dāng)你手中的牌面不夠大,可以通過虛張聲勢(shì)加注嚇退對(duì)手,逼對(duì)手棄牌。而計(jì)算機(jī)會(huì)根據(jù)選手過去的表現(xiàn)來判斷對(duì)手牌面大的概率有多少,從而做出當(dāng)下的最佳策略。

      在桑德霍姆看來,“冷撲大師”的這套AI系統(tǒng)有十分廣闊應(yīng)用空間:從戰(zhàn)略定價(jià)到金融領(lǐng)域、從談判到網(wǎng)絡(luò)安全、從政治競(jìng)選到拍賣、從醫(yī)療資源規(guī)劃到軍事領(lǐng)域……現(xiàn)在唯一的問題是,運(yùn)行“冷撲大師”,需要匹茲堡超算中心的Bridges超級(jí)計(jì)算機(jī)。不過桑德姆斯研究團(tuán)隊(duì)樂觀表示,算法還可以被優(yōu)化,再加上計(jì)算硬件的提升,可能5年之內(nèi)就能一部手機(jī)搞定一切了。

      猜你喜歡
      桑德撲克德州
      小撲克打出大品牌
      德州大陸架石油工程技術(shù)有限公司
      德州魯源貨場(chǎng)信號(hào)聯(lián)鎖設(shè)備關(guān)鍵技術(shù)的應(yīng)用
      德州地區(qū)懸鈴木方翅網(wǎng)蝽的綜合防治措施
      最環(huán)保的撲克版空氣加濕器
      河北桑德再生塑料園區(qū)綠色發(fā)展研討會(huì)舉辦
      蝴蝶翅膀上的26個(gè)字母
      巧擺撲克等
      扶沟县| 合作市| 陆丰市| 保亭| 临武县| 武功县| 齐齐哈尔市| 错那县| 莆田市| 城固县| 瑞安市| 柘荣县| 枣庄市| 安阳县| 岳西县| 万源市| 乌审旗| 墨江| 探索| 遂平县| 信阳市| 元朗区| 龙游县| 五原县| 古丈县| 西和县| 景洪市| 昭通市| 和顺县| 定州市| 南部县| 淮北市| 佳木斯市| 黄龙县| 临泽县| 大同县| 新田县| 扎鲁特旗| 阳城县| 青岛市| 土默特左旗|