Sora
卡內(nèi)基-梅隆大學的計算機科學教授桑德霍爾姆
2017年的賭場錦標賽期間,一個名為Libratus的撲克游戲程序,在1.2萬手雙人撲克比賽中,巧妙地擊敗了4名職業(yè)選手。但該程序的聯(lián)合創(chuàng)作者托馬斯·桑德霍爾姆,并不認為人工智能可以在與更多的選手對陣時達到類似的表現(xiàn)。
兩年后,來自卡內(nèi)基-梅隆大學的計算機科學教授桑德霍爾姆,證明了他自己是錯的。桑德霍爾姆和他的合作伙伴,共同開發(fā)了一個名為Pluribus的人工智能程序,它可以在六人無限制撲克比賽中一直擊敗人類職業(yè)牌手。桑德霍爾姆說:“我一生中從未想過可以達成這個目標?!?h3>多人決策
過去,人工智能對人類的勝利,僅涉及兩人或兩隊的對戰(zhàn)比賽,如跳棋、國際象棋、圍棋和雙人無限制撲克。這些游戲都是零和游戲—游戲只有一個勝利方和一個失敗方。但是,六人撲克則更接近現(xiàn)實生活,在這種情況下,一方必須在不了解多個對手的決策過程和資源的情況下,做出決定。
臉書的人工智能研究科學家、Pluribus的聯(lián)合創(chuàng)始人諾姆·布朗說:“這是我們第一次超越零和游戲這種常規(guī)模式。即使在通常情況下,人工智能也能做得很好?!?/p>
Pluribus程序在與5名人類玩家對抗的比賽中,贏得了獎金。人類玩家來自15名撲克職業(yè)玩家組成的輪換陣容,他們中的每個人都在撲克錦標賽中贏得過至少100萬美元的獎金。比賽歷時12天,進行了超過1萬手出牌。
《科學》雜志上發(fā)表的一篇論文,詳細介紹了這個成功案例。盡管Pluribus并未達到與Libratus以及另一個名為DeepStack的雙人撲克程序一樣高的勝率,但它的勝率仍然非常可觀。“當機器人與人類坐在一起時,它賺了很多錢,”布朗說,“我當然會將其描述為‘超人的表現(xiàn)?!?h3>低耗模擬
Pluribus首先要在許多模擬的撲克對局中與自己對抗,制定戰(zhàn)略藍圖。
Pluribus解決六人撲克游戲的重大突破,來自其“深度限制搜索功能”。該組件允許人工智能向前看幾步,并根據(jù)對手可能的決定,為游戲的剩余部分找出更好的策略。
許多其他的撲克游戲程序,也使用了類似的搜索功能,但為了六人撲克游戲這么做,需要動用極大的計算內(nèi)存量:每個玩家持有的牌數(shù),每個人認為其他玩家所擁有的手牌,以及隨后的所有投注決定……這其中有太多場景需要模擬。
Libratus只在最后四輪中的兩輪投注里,使用搜索來克服運算瓶頸。該解決方案在僅有兩個玩家的對局中,就需要使用100個CPU來處理數(shù)據(jù)。
職業(yè)撲克選手通常認為進行“反主動下注”是一個錯誤,但是Pluribus卻會頻繁地使用這種手段。
具體來說,在一場現(xiàn)場撲克游戲中,Pluribus是在一臺只有2個中央CPU和128GB內(nèi)存的機器上運行的?!八梢栽跊]有圖形處理單元和其他高端硬件的情況下運行?!鄙5禄魻柲氛f。相比之下,DeepMind著名的AlphaGo程序,在2016年與頂級職業(yè)棋手李世石九段對決的圍棋比賽中,使用了1920個CPU和280個GPU。
Pluribus采用的深度限制搜索功能,考慮對手在基本投注策略中如何選擇:有人偏向棄牌,有人偏向于叫牌,還有人偏向于加注。這個經(jīng)過調(diào)整的搜索功能,有助于解釋為什么Pluribus在六人撲克比賽中獲得成功—需要的計算資源和內(nèi)存相對最小。
卡內(nèi)基-梅隆大學和臉書,計劃制作Pluribus的偽代碼(一種算法描述語言),詳細解釋該程序中的每個必要步驟,并與已發(fā)表的論文一起提供,以便其他人工智能研究人員可以重現(xiàn)這些效果。
不過,該團隊最后決定不發(fā)布該代碼,因為它可能會促進人工智能撲克程序的傳播,對在線撲克社區(qū)和撲克行業(yè)造成極大的破壞。
而且,即使沒有代碼,人類也可以從人工智能的策略中學習。例如,職業(yè)撲克選手通常認為進行“反主動下注”是一個錯誤—上一輪進行了非積極投注之后,對新開始的一輪進行積極投注。但是Pluribus卻會頻繁地使用這種手段。
除了撲克之外,該人工智能可以應用在人類沒有充分了解或思考的任何場景中。這些領(lǐng)域可能包括網(wǎng)絡安全、金融交易、商業(yè)談判和競價。桑德霍爾姆表示,這個人工智能甚至可以在2020年美國總統(tǒng)大選的黨內(nèi)初選中起作用:理論上來說,參與競爭的候選人可以從人工智能的建議中獲益,這些建議包括只需花費恰好足夠的廣告資金在關(guān)鍵州獲勝,充分利用有限的競選資金。
桑德霍爾姆創(chuàng)立了三家初創(chuàng)公司,包括戰(zhàn)略機器和戰(zhàn)略機器人公司,很可能會將這種人工智能融入為商業(yè)和軍事客戶提供的服務中。
諾姆·布朗計劃進一步探索人工智能如何適應更復雜的多人游戲場景?!岸嗳藫淇艘呀?jīng)是最后一個里程碑了,”布朗說,“現(xiàn)在我們正在尋求將其應用擴展到撲克之外?!?/p>