2019年8月,微軟公司曾推出一個(gè)名為Suphx的麻將人工智能系統(tǒng),并在麻將游戲社區(qū)Tenhou中對(duì)其進(jìn)行測(cè)試。據(jù)悉,Tenhou是世界上最大的麻將社區(qū)之一,擁有超過(guò)35萬(wàn)活躍用戶。根據(jù)測(cè)試結(jié)果,Suphx最高成績(jī)?yōu)?0段。這是目前為止,世界上第一個(gè)也是唯一一個(gè)達(dá)到10段水平的人工智能。
近日,微軟團(tuán)隊(duì)發(fā)布了一份修訂版預(yù)印本文件,對(duì)Suphx進(jìn)行了全面介紹。目前,這項(xiàng)研究發(fā)表在學(xué)術(shù)網(wǎng)站上,論文題目為《Suphx:用深度強(qiáng)化學(xué)習(xí)打麻將(Suphx:Mastering Mahjong with Deep Reinforcement Learning)》。
研究人員選擇用日本4人麻將(Riichi Mahjong)規(guī)則訓(xùn)練Suphx模型,訓(xùn)練數(shù)據(jù)來(lái)自Tenhou社區(qū)。培訓(xùn)過(guò)程耗時(shí)兩天,研究人員在44個(gè)圖形處理單元上、用150萬(wàn)個(gè)游戲?qū)δP瓦M(jìn)行了訓(xùn)練。Suphx學(xué)習(xí)了5種模式來(lái)處理不同的情況,分別是棄牌(discard)模式、Riichi模式、Chow模式、Pong模式和Kong模式。所有模式都用網(wǎng)絡(luò)結(jié)構(gòu)表示。棄牌模式對(duì)應(yīng)34張牌,有34個(gè)輸出神經(jīng)元。其他模式僅有兩個(gè)輸出神經(jīng)元,分別對(duì)應(yīng)執(zhí)行或不執(zhí)行操作。
除上述設(shè)定外,研究團(tuán)隊(duì)還引入了其他幾種技術(shù):一是全局獎(jiǎng)勵(lì)預(yù)測(cè)器(GRU網(wǎng)絡(luò))。該預(yù)測(cè)器可以提前預(yù)測(cè)游戲的最終結(jié)局,提供有效的學(xué)習(xí)信號(hào),從而使策略網(wǎng)絡(luò)可執(zhí)行。二是Oracle代理。相比標(biāo)準(zhǔn)的深度學(xué)習(xí)過(guò)程,利用Oracle代理進(jìn)行訓(xùn)練可加速模型的學(xué)習(xí)過(guò)程。三是參數(shù)化的蒙特卡羅策略自適應(yīng)算法(pMCPA)。pMCPA會(huì)不斷調(diào)整離線學(xué)習(xí)策略,使其能適應(yīng)突發(fā)的游戲情節(jié)(比如4個(gè)玩家丟棄了公共牌)。