微軟麻將AI論文發(fā)布首次公開(kāi)技術(shù)細(xì)節(jié)

2020-05-18 02:43:04

中國(guó)計(jì)算機(jī)報(bào) 2020年14期

2019年8月，微軟公司曾推出一個(gè)名為Suphx的麻將人工智能系統(tǒng)，并在麻將游戲社區(qū)Tenhou中對(duì)其進(jìn)行測(cè)試。據(jù)悉，Tenhou是世界上最大的麻將社區(qū)之一，擁有超過(guò)35萬(wàn)活躍用戶。根據(jù)測(cè)試結(jié)果，Suphx最高成績(jī)?yōu)?0段。這是目前為止，世界上第一個(gè)也是唯一一個(gè)達(dá)到10段水平的人工智能。

近日，微軟團(tuán)隊(duì)發(fā)布了一份修訂版預(yù)印本文件，對(duì)Suphx進(jìn)行了全面介紹。目前，這項(xiàng)研究發(fā)表在學(xué)術(shù)網(wǎng)站上，論文題目為《Suphx：用深度強(qiáng)化學(xué)習(xí)打麻將（Suphx：Mastering Mahjong with Deep Reinforcement Learning）》。

研究人員選擇用日本4人麻將（Riichi Mahjong）規(guī)則訓(xùn)練Suphx模型，訓(xùn)練數(shù)據(jù)來(lái)自Tenhou社區(qū)。培訓(xùn)過(guò)程耗時(shí)兩天，研究人員在44個(gè)圖形處理單元上、用150萬(wàn)個(gè)游戲?qū)δＰ瓦M(jìn)行了訓(xùn)練。Suphx學(xué)習(xí)了5種模式來(lái)處理不同的情況，分別是棄牌（discard）模式、Riichi模式、Chow模式、Pong模式和Kong模式。所有模式都用網(wǎng)絡(luò)結(jié)構(gòu)表示。棄牌模式對(duì)應(yīng)34張牌，有34個(gè)輸出神經(jīng)元。其他模式僅有兩個(gè)輸出神經(jīng)元，分別對(duì)應(yīng)執(zhí)行或不執(zhí)行操作。

除上述設(shè)定外，研究團(tuán)隊(duì)還引入了其他幾種技術(shù)：一是全局獎(jiǎng)勵(lì)預(yù)測(cè)器（GRU網(wǎng)絡(luò)）。該預(yù)測(cè)器可以提前預(yù)測(cè)游戲的最終結(jié)局，提供有效的學(xué)習(xí)信號(hào)，從而使策略網(wǎng)絡(luò)可執(zhí)行。二是Oracle代理。相比標(biāo)準(zhǔn)的深度學(xué)習(xí)過(guò)程，利用Oracle代理進(jìn)行訓(xùn)練可加速模型的學(xué)習(xí)過(guò)程。三是參數(shù)化的蒙特卡羅策略自適應(yīng)算法（pMCPA）。pMCPA會(huì)不斷調(diào)整離線學(xué)習(xí)策略，使其能適應(yīng)突發(fā)的游戲情節(jié)（比如4個(gè)玩家丟棄了公共牌）。