• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于馬爾可夫決策的穿越沙漠游戲策略研究

      2022-03-30 09:13:54鄧晨晨黃宇軒齊澤坤楊松
      中國集體經(jīng)濟 2022年8期
      關(guān)鍵詞:動態(tài)規(guī)劃圖論

      鄧晨晨 黃宇軒 齊澤坤 楊松

      摘要:“穿越沙漠”游戲是一款綜合考慮資金、資源、天氣、時間、博弈等多種因素在內(nèi)的復(fù)雜策略游戲。文章將基于圖論與馬爾可夫決策有關(guān)模型,分析討論玩家在未來信息已知與未來信息未知兩種情形下的最優(yōu)策略。該模型綜合考慮了風(fēng)險評估與多階段決策理論,可為優(yōu)化算法與企業(yè)決策提供一定借鑒意義。

      關(guān)鍵詞:沙漠掘金;圖論;動態(tài)規(guī)劃;馬爾可夫決策;最優(yōu)化理論

      一、引言

      “穿越沙漠”游戲是一款綜合考慮資金、資源、天氣、時間、博弈等多種因素在內(nèi)的多階段策略游戲。游戲要求玩家在沙暴天氣原地停留、到達(dá)礦山當(dāng)天不許挖礦并且保證在路途中不得耗盡資源。游戲允許玩家挖礦獲得收益,并利用初始資金及收益在村莊隨時補給資源。玩家必須在截止日期之前抵達(dá)終點,并保留盡可能多的留存收益。該情景策略游戲?qū)⒁巴馇笊卸嘧兊奶鞖馀c不定的決策通過情景模擬的方式真實呈現(xiàn),對于玩家的數(shù)據(jù)意識、信息搜集與靈活決策能力以及風(fēng)險防控都提出了很高要求。本文將基于圖論與馬爾可夫決策有關(guān)模型,綜合考慮玩家在兩種情形下所面臨的現(xiàn)實困境,并對該最優(yōu)策略展開具體討論。

      二、問題分析與求解

      (一)未來信息已知:基于多階段決策的動態(tài)規(guī)劃模型

      經(jīng)濟學(xué)中,期望收益為根據(jù)已知信息對未來收益的預(yù)判。在游戲中,玩家期望在規(guī)定的時間內(nèi)獲得盡可能多的資金。由于天氣數(shù)據(jù)與地圖完全已知,本文首先根據(jù)地圖信息建立圖論模型,接著使用動態(tài)規(guī)劃將沙漠掘金問題劃分為多階段決策模型,從基本邏輯出發(fā),首先規(guī)劃出掘金路線,進而分析資源購置策略,在此基礎(chǔ)上依據(jù)天氣狀況與資源情況求解挖礦策略,最終通過篩選期望收益的最大值來求取玩家的最優(yōu)策略。

      1. 圖論模型

      設(shè)地圖共有n個區(qū)域,其中含有k個村莊,記為集合A={a1、a2…ak};含有m座礦山,記為集合B={b1、b2…bm}。沙漠起始點記為s0,沙漠終點記為sn。w1(t)為第t日水資源基礎(chǔ)消耗量,w2(t)為第t日食物資源基礎(chǔ)消耗量。礦山的單日收益為r,每箱水資源的質(zhì)量為m1,基準(zhǔn)價格為p1,每箱食物資源的質(zhì)量為m2,基準(zhǔn)價格為p2。玩家在第t天的剩余水資源質(zhì)量為M1(t)、剩余食物資源質(zhì)量為M2(t)、剩余資金為C(t)。游戲時限為t0天,承重上限為Wmax。

      玩家在任一區(qū)域可選擇“停留”狀態(tài),其時間遞歸式如下:

      在非沙暴天氣時,玩家在任一區(qū)域可選擇“移動”狀態(tài),其時間遞歸式如下:

      玩家在礦山區(qū)域時,可以選擇“挖礦”狀態(tài),其時間遞歸式如下:

      玩家經(jīng)過或停留村莊區(qū)域時,可以購置資源,購置資源產(chǎn)生的遞歸式如下:

      其中x為購置水資源的箱數(shù),y為購置食物資源的箱數(shù)。由于村莊和礦山在游戲中的特殊性,將地圖轉(zhuǎn)化為如圖2所示的圖論模型。

      該圖G中點集V與邊集E的表達(dá)式如下所示:

      式中,si∈V。設(shè)第t天的玩家區(qū)域位置為St,可將原問題分解為不同區(qū)域集下的多階段決策問題,通過求解每一階段下的最優(yōu)策略建立動態(tài)規(guī)劃模型。

      2. 基本游戲策略

      為獲取更多的資金,有兩種基本途徑:收益最大化與支出最小化。我們從這兩個基本途徑延伸出四條基本游戲策略:

      滿載原則:資源不足時玩家需要前往村莊補充必備資源,多次重復(fù)前往村莊將增加路途資源的消耗,為減少前往村莊次數(shù),除最后一次購置資源外,其余應(yīng)使負(fù)重滿載。設(shè)第i次經(jīng)過(或停留)村莊集合時購買的水資源為xi箱,食物資源為yi箱,應(yīng)有:

      不剩余原則:在終點剩余資源將以基準(zhǔn)價格的一半退回,造成資金浪費,結(jié)合滿載原則,最后一次購置資源的數(shù)量xn、yn應(yīng)有如下關(guān)系:

      3. 掘金路線策略

      玩家在起始點面臨三種選擇:向村莊集合A出發(fā)購買必備資源;向礦山集合B出發(fā)來獲取未來的資金收益;向終點sn出發(fā)以結(jié)束游戲。由此引申出三種掘金路線:

      玩家在村莊補充資源后,若時間充裕將前往礦山采礦;玩家在礦山消耗大量資源后,若時間充裕將前往村莊補充資源。因此路線中村莊和礦山應(yīng)交替出現(xiàn),直至接近時限玩家向終點移動。則有:

      由于游戲目標(biāo)為在規(guī)定時限內(nèi)獲取更多的資金,從期望收益角度分析三種路線,期望收益高的路線為最優(yōu)掘金路線,并通過順路原則求解相應(yīng)村莊和礦山位置。

      4. 資源購置策略

      在沙漠起始點可以低廉價格購買一次資源,在沙漠途中經(jīng)過或停留村莊時均可購置資源,資源購置量應(yīng)匹配于資源消耗量。此外,由于水資源和食物資源的價格不等,在村莊購買將進一步拉大兩種資源的差價,在不改變掘金路線的情況下,在初始點應(yīng)以低廉價格購買盡可能多的貴重資源。

      (2)村莊資源購置策略。在上節(jié)已經(jīng)求得三種掘金路線,設(shè)第i次經(jīng)過(或停留)村莊集合B時購買的水資源為xi箱,食物資源為yi箱,據(jù)滿載原則,xi與yi滿足:

      設(shè)最后一次經(jīng)過村莊經(jīng)過(或停留)村莊集合B時購買的水資源為xn箱,食物資源為yn箱,據(jù)不剩余原則有:

      5. 挖礦策略

      (1)前往終點決策。當(dāng)剩余時間較少且資源不足時,玩家面臨的選擇為:前往村莊補給后返回礦山挖礦;直接前往終點,由此生成兩種不同的決策方案。我們從期望收益角度分析兩種方案,期望收益高的方案為最優(yōu)決策。

      (2)前往村莊時機。由于不同天氣對路途的資源消耗不同,在給定所有天氣數(shù)據(jù)的情況下可以選擇合適的天氣前往村莊購置資源。設(shè)fj和gj分別表示第次前往礦山挖礦,則前往村莊的最優(yōu)決策為:

      (3)暫停挖礦。由于在村莊購置資源價格為基礎(chǔ)價格的二倍,在沙暴或高溫天氣挖礦將承擔(dān)高額的資源費用,在時間期限允許的條件下,可以嘗試選擇在沙暴或高溫天氣暫停挖礦休息,本策略的觸發(fā)條件為:

      綜上,從玩家狀態(tài)分析,策略示意圖如圖3所示。

      (二)未來信息未知:基于風(fēng)險預(yù)測的多階段馬爾可夫決策模型

      經(jīng)濟學(xué)中,風(fēng)險預(yù)測或風(fēng)險評估指對未來不確定性的量化計算和預(yù)測。玩家在游戲中通過目前的狀態(tài)與當(dāng)天的天氣情況(環(huán)境狀態(tài)),產(chǎn)生移動、停留挖礦等行為(對環(huán)境做出動作),并通過環(huán)境的反饋調(diào)整決策。由于玩家的目標(biāo)仍為到終點時資金的最大化,本文利用概率論相關(guān)理論的對期望收益進行定量評估預(yù)測,進而做出最優(yōu)決策。由于情景的相似性,我們沿用前問題的變量符號與游戲基本策略。

      1. 馬爾可夫決策模型

      馬爾可夫決策(MDP)的流程圖如圖4所示。

      馬爾可夫決策包含一組交互對象:智能體:MDP中進行機器學(xué)習(xí)的代理,可以感知外界環(huán)境的狀態(tài)進行決策、對環(huán)境做出動作并通過環(huán)境的反饋調(diào)整決策。環(huán)境:mdp模型中智能體外部所有事物的集合,其狀態(tài)會受智能體動作的影響而改變,且上述改變可以完全或部分地被智能體感知。

      馬爾可夫決策過程由五部分組成:{State,Action,Psa,γ,Reward},其中State表示狀態(tài)集合,Action表示行動集合,Psa表示狀態(tài)轉(zhuǎn)移概率,γ表示阻尼系數(shù),Reward表示該行動的回報。針對該游戲,State包含位置變量s(t)、所剩資金變量C(t)、所剩水資源變量M1(t)、所剩食物資源變量M2(t);Action有四種情況:“停留”、“移動”、“挖礦”、“購置資源”;阻尼系數(shù)γ在該問題中為1;Reward由資金時間遞推式?jīng)Q定。最終的路線與資源購置方案仍由期望收益最大給出:

      2. 風(fēng)險預(yù)測模型

      設(shè)晴朗、高溫、沙暴天氣的概率為h1~h3,其對應(yīng)的水資源基礎(chǔ)消耗量為w11~w13,食物資源基礎(chǔ)消耗量為w21~w23。利用概率論,對不同行為的資源消耗與資金變化進行預(yù)測。

      (1)停留。玩家在任意天氣均可以選擇“停留”,兩種資源的變化期望為:

      (2)移動。玩家在非沙暴天氣可以選擇“移動”。由于每次移動成功的概率為h1+h2,需要求解移動距離為l時的時間消耗。這是一個帕斯卡過程,據(jù)概率論,帕斯卡分布的分布函數(shù)如下:

      因此,該過程的耗時與資源消耗期望如下:

      考慮到天氣的隨機因素,需要多準(zhǔn)備一些資源以應(yīng)對極端情況(多次出現(xiàn)沙暴天氣無法移動)。由于不同玩家有不同的游戲偏好,我們引入風(fēng)險偏好系數(shù)k,多準(zhǔn)備k·σ的資源(σ為標(biāo)準(zhǔn)差),兩種資源消耗的期望更正為:

      (3)挖礦。玩家在礦山區(qū)域可以選擇“挖礦”,類比“停留”時的資源消耗,挖礦天的資源消耗與資金變化的期望為:

      (4)資源購置。玩家經(jīng)過或停留村莊區(qū)域時,可以購置資源,購置資源產(chǎn)生的遞歸式如下:

      其中x為購置水資源的箱數(shù),y為購置食物資源的箱數(shù)。

      3. 基本游戲策略

      與前問題相比,游戲規(guī)則除天氣情況未知外完全一致,因此最短路原則、滿載原則、順路原則與不剩余原則仍然適用。針對未來天氣的未知性,根據(jù)風(fēng)險預(yù)測原理,我們期望決策具有較小的風(fēng)險性,由此引申出第五條基本策略:同路原則。

      4. 玩家策略

      由于情景的相似性,我們?nèi)匝赜们皢栴}模型中的掘金路線策略、資源購置策略與挖礦策略,并針對未來天氣情況未知的條件進行改進。

      (3)挖礦策略。挖礦策略依然包含三部分內(nèi)容:前往終點決策;前往村莊時機;暫停挖礦,與前問題保持一致。特別是當(dāng)滿足下式時,啟用暫停挖礦策略。

      三、結(jié)論與推廣

      本文根據(jù)圖論、博弈論的有關(guān)原理建立數(shù)學(xué)模型,對游戲玩家多階段、多目標(biāo)的最優(yōu)策略展開探究。基于馬爾科夫的決策模型是本文的一大特色,綜合考慮到模型擁有的優(yōu)化功能,可以考慮將其推廣至現(xiàn)實生活中個人面對復(fù)雜情境時的決策與權(quán)衡,以及企業(yè)面臨變幻莫測的市場環(huán)境時合理的應(yīng)對之策等相關(guān)議題的探討之中。(注:本文數(shù)據(jù)與資料來源:2020年全國大學(xué)生數(shù)學(xué)建模比賽B題)

      參考文獻(xiàn):

      [1]Brihaye T,Geeraerts G,Hallet M,et al.On the termination of dynamics in sequential games[J].Information and Computation, 2019,272:104505.

      [2]Dhiman A,Uttam T,Balakrishnan S. Implementation of sequential game on quantum circuits[J].Quantum Information Processing,2020,19(04):1-16.

      [3]陳如峰.自學(xué)習(xí)策略價值風(fēng)險模型研究與應(yīng)用[D].成都:電子科技大學(xué),2020.

      [4]王中玉,曾國輝,黃勃,方志軍.改進A*算法的機器人全局最優(yōu)路徑規(guī)劃[J]. 計算機應(yīng)用,2019,39(09):2517-2522.

      (作者單位:西安交通大學(xué))

      猜你喜歡
      動態(tài)規(guī)劃圖論
      基于FSM和圖論的繼電電路仿真算法研究
      構(gòu)造圖論模型解競賽題
      代數(shù)圖論與矩陣幾何的問題分析
      知識文庫(2018年12期)2018-09-06 04:10:40
      點亮兵書——《籌海圖編》《海防圖論》
      孫子研究(2016年4期)2016-10-20 02:38:06
      ACM—ICPC競賽趣味學(xué)習(xí)系統(tǒng)設(shè)計
      大學(xué)生經(jīng)濟旅游優(yōu)化設(shè)計模型研究
      中國市場(2016年33期)2016-10-18 14:23:52
      動態(tài)規(guī)劃最優(yōu)控制在非線性系統(tǒng)中的應(yīng)用
      動態(tài)規(guī)劃案例教學(xué)設(shè)計
      產(chǎn)品最優(yōu)求解問題中運籌學(xué)方法的應(yīng)用
      兩大部類持續(xù)擴大再生產(chǎn)的優(yōu)化
      朝阳区| 淄博市| 天柱县| 广宁县| 婺源县| 乌拉特后旗| 元阳县| 平邑县| 鸡西市| 阿拉善左旗| 宁远县| 额尔古纳市| 石门县| 公主岭市| 邵东县| 沈阳市| 井冈山市| 县级市| 长兴县| 太仓市| 全南县| 临桂县| 上犹县| 宁波市| 湘潭县| 乌鲁木齐市| 冕宁县| 琼结县| 无极县| 顺昌县| 江城| 大渡口区| 长寿区| 六枝特区| 大庆市| 出国| 宁安市| 延安市| 景洪市| 泌阳县| 湖北省|