基于Expectimax 搜索與Double DQN 的非完備信息博弈算法

2021-03-18 08:04:16雷捷維王嘉旸閆天偉

計算機(jī)工程 2021年3期

雷捷維，王嘉旸，任航，閆天偉，黃偉

（1.南昌大學(xué)信息工程學(xué)院，南昌 330031；2.江西農(nóng)業(yè)大學(xué)軟件學(xué)院，南昌 330000）

0 概述

博弈論是研究具有斗爭或競爭性質(zhì)現(xiàn)象的數(shù)學(xué)理論和方法，是經(jīng)典的研究領(lǐng)域之一。博弈問題存在于人們生活各個方面。例如，商品定價可看作商人和顧客之間的博弈，國家之間的經(jīng)濟(jì)與軍事競爭也可視為博弈問題?，F(xiàn)實中博弈問題比較復(fù)雜，人們通常將其經(jīng)過抽象處理轉(zhuǎn)化為便于研究的游戲模型再加以解決。博弈主要分為完備信息博弈和非完備信息博弈。在完備信息博弈中，玩家可看到全部游戲狀態(tài)信息，不存在隱藏信息。例如，圍棋、國際象棋和五子棋等均為完備信息博弈。在非完備信息博弈中，玩家僅可看到自身游戲狀態(tài)信息和公共信息，而無法獲取其他游戲信息。例如，麻將、橋牌和德州撲克等均為非完備信息博弈。由于現(xiàn)實中許多博弈問題無法獲取全部信息而被歸類為非完備信息博弈，因此非完備信息博弈問題受到廣泛關(guān)注。研究非完備信息博弈，可解決金融競爭［1］、交通疏導(dǎo)［2］、網(wǎng)絡(luò)安全［3］和軍事安全［4］等領(lǐng)域的問題。

近年來，關(guān)于完備信息博弈和非完備信息博弈的研究在多個應(yīng)用領(lǐng)域取得突破性進(jìn)展。在圍棋應(yīng)用方面，Google 公司DeepMind 團(tuán)隊開發(fā)出AlphaGo、AlphaGoZero 和AlphaZero 等系列圍棋博弈程序，并結(jié)合蒙特卡洛樹搜索與深度強(qiáng)化學(xué)習(xí)算法［5-7］進(jìn)行實現(xiàn)。2016 年，AlphaGo 以4∶1 擊敗韓國專業(yè)圍棋選手李世石引發(fā)社會關(guān)注。在德州撲克應(yīng)用方面，2015 年BOWLING 等人［8］在《Science》雜志發(fā)表關(guān)于CFR+算法的論文，證明該算法已完全解決兩人受限的德州撲克博弈問題。2017 年，阿爾伯塔大學(xué)開發(fā)出DeepStack系統(tǒng)，結(jié)合CFR 算法與多層深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）［9］解決了德州撲克一對一無限注博弈問題。此外，人們還對《星際爭霸II》等多人非合作游戲進(jìn)行研究，取得眾多研究成果［10-12］。

相關(guān)研究顯示，麻將的復(fù)雜度要高于圍棋和德州撲克［13］，然而目前關(guān)于麻將研究較少，大多數(shù)麻將程序僅基于人工經(jīng)驗進(jìn)行設(shè)計，未結(jié)合最新的強(qiáng)化學(xué)習(xí)等方法。目前麻將程序設(shè)計主要采用Expectimax 搜索算法［14-15］。2008 年，林典余［16］根據(jù)Expectimax 搜索算法以贏牌最快為原則設(shè)計麻將程序LongCat。2015 年，荘立楷［17］提出轉(zhuǎn)張概念對LongCat進(jìn)行改進(jìn)，利用所得麻將程序VeryLongCat進(jìn)一步提升LongCat的贏牌效率，并贏得該年度臺灣計算機(jī)博弈比賽和國際計算機(jī)博弈比賽的冠軍。然而在麻將游戲中要想贏牌，除了提高贏牌效率之外，還需提高贏牌得分。目前LongCat 和VeryLongCat 的剪枝策略和估值函數(shù)均基于人工先驗知識設(shè)計，由于人類經(jīng)驗中常存在不合理的決定或假設(shè)［18-19］，因此設(shè)計更合理的剪枝策略和估值函數(shù)成為亟待解決的問題。

為解決上述非完備信息博弈問題，本文以麻將為例進(jìn)行研究。目前麻將程序主要采用Expectimax搜索算法，其計算時間隨著搜索層數(shù)的增加呈指數(shù)級增長，且其剪枝策略與估值函數(shù)基于人工先驗知識設(shè)計得到。本文提出一種結(jié)合Expectimax 搜索與Double DQN 算法的非完備信息博弈算法，利用Double DQN［20］算法給出的子節(jié)點預(yù)估得分，為Expectimax 搜索算法設(shè)計更合理的估值函數(shù)與剪枝策略，并將游戲?qū)嶋H得分作為獎勵訓(xùn)練Double DQN網(wǎng)絡(luò)模型以得到更高得分與勝率。

1 相關(guān)理論

1.1 Expectimax 搜索算法

Expectimax搜索樹［14-15］是一種常見的搜索算法，廣泛應(yīng)用于非完備信息博弈游戲，其結(jié)構(gòu)如圖1所示。在此類游戲中，由于某些信息具有隨機(jī)性和隱藏性，因此無法使用傳統(tǒng)的minimax搜索樹算法［21］來解決。針對該問題，Expectimax 搜索算法中設(shè)計了max 節(jié)點和chance 節(jié)點。其中，max 節(jié)點和chance 節(jié)點的效用值分別是其全部子節(jié)點效用值的最大值與加權(quán)平均值（即當(dāng)前節(jié)點到達(dá)每個子節(jié)點的概率）。例如，對于圖1中值為39 的max 節(jié)點，39 為其所有子節(jié)點（chance 節(jié)點）的最大值；對于值為14的chance節(jié)點，14為其所有子節(jié)點（max節(jié)點）的加權(quán)平均值，即：14=20×0.4+10×0.6。Expectimax 搜索算法與大多數(shù)游戲樹搜索算法類似，也是通過啟發(fā)式估值函數(shù)計算各節(jié)點估值。

圖1 Expectimax 算法的搜索樹結(jié)構(gòu)Fig.1 Search tree structure of Expectimax algorithm

1.2 Double DQN 強(qiáng)化學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)源于智能體對人類學(xué)習(xí)方式的模仿，是智能體通過與環(huán)境交互不斷增強(qiáng)其決策能力的過程。強(qiáng)化學(xué)習(xí)算法主要包括動態(tài)規(guī)劃算法［22］、時序差分算法［23］、蒙特卡洛算法［24］和Q 學(xué)習(xí)算法［25］。這些算法均存在局限性：動態(tài)規(guī)劃算法雖然數(shù)學(xué)理論完備，但是其使用條件非常嚴(yán)格；時序差分算法可在無法獲取環(huán)境全部信息的情況下得到較好效果；蒙特卡洛算法需對當(dāng)前未知環(huán)境進(jìn)行采樣分析，由于時間與空間具有復(fù)雜性，因此其很難應(yīng)用于解決時序決策問題；Q 學(xué)習(xí)算法是通過計算每個動作的Q 值進(jìn)行決策，但是其存在過估計問題。

隨著對強(qiáng)化學(xué)習(xí)研究的不斷深入，研究人員對Q 學(xué)習(xí)算法改進(jìn)后提出深度Q 學(xué)習(xí)算法DQN［26-27］，該算法與Q 學(xué)習(xí)算法一樣，也是通過計算每個動作的Q 值進(jìn)行決策，仍存在過估計問題。為解決該問題，研究人員在DQN 基礎(chǔ)上提出雙重深度Q 學(xué)習(xí)算法Double DQN［20］。

DQN 算法具有原始網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)兩個神經(jīng)網(wǎng)絡(luò)，雖然其結(jié)構(gòu)相同，但是權(quán)重更新不同步。DQN算法的權(quán)重更新使用均方誤差（Mean Squared Error，MSE）定義損失函數(shù)，其表達(dá)式如下：

其中，a為執(zhí)行動作，Rt+1為獎勵分?jǐn)?shù)，St為當(dāng)前游戲狀態(tài)信息，St+1為下一個游戲狀態(tài)信息，θ為網(wǎng)絡(luò)權(quán)重，γ為折扣因子，Q(S，a)為狀態(tài)S下執(zhí)行動作a的估值。

由于Q 學(xué)習(xí)算法和DQN 算法中Max 操作使用相同值選擇和衡量一個動作，可能選擇估計值過高的動作導(dǎo)致過估計問題。為此，Double DQN 算法對動作的選擇和衡量進(jìn)行解耦，將式（2）改寫為以下形式：

2 本文算法

2.1 基于Expectimax 搜索的麻將決策過程

由于麻將游戲過程中存在發(fā)牌隨機(jī)性等不確定因素，因此其規(guī)則比較復(fù)雜。在麻將游戲中，玩家可通過捉牌、吃牌、碰牌和杠牌等方式獲得一張牌，隨后需再打出一張牌，后續(xù)重復(fù)上述步驟，直到游戲結(jié)束為止。如果將吃牌、碰牌和杠牌視為特殊的捉牌，則麻將中所有動作均可用序列<捉牌，打牌，捉牌，打牌…>來表示。其中，捉牌動作記錄捉牌玩家的用戶ID 以及捉哪張牌等信息，打牌動作記錄打牌玩家的用戶ID 以及打哪張牌等信息。

假設(shè)A、B、C 和D 代表4 名玩家，其中A 為當(dāng)前玩家，B、C、D 為其他玩家。如果A 捉牌“9 萬”后打牌“6 萬”，B 碰牌“3 萬”后打牌“7 筒”，A 碰牌“7 筒”后打牌“1 萬”，那么上述動作序列可表示為。

實際上，如果在決策中考慮所有玩家的動作，則Expectimax 算法的搜索樹很大，從而無法在有限時間內(nèi)做出決策。為解決該問題，通常將整個游戲博弈過程進(jìn)行抽象處理，僅考慮當(dāng)前玩家的捉牌與打牌動作，并以此構(gòu)建Expectimax 算法的搜索樹。此外，為進(jìn)一步簡化搜索樹，將吃牌、碰牌和杠牌也作為特殊的捉牌，則上述動作序列表示為。

通過上述方法，本文將麻將游戲過程簡化為捉牌和打牌兩個動作。結(jié)合Expectimax 搜索算法，將捉牌動作看作chance 節(jié)點，打牌動作看作max 節(jié)點。例如，假設(shè)當(dāng)前玩家手中持有的牌（以下稱為手牌）為1 萬、2 萬、4 萬、9 萬和9 萬，那么基于Expectimax算法的麻將搜索樹結(jié)構(gòu)如圖2 所示。