• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      強(qiáng)化學(xué)習(xí)在資源優(yōu)化領(lǐng)域的應(yīng)用

      2021-09-22 02:00:44王金予魏欣然石文磊張佳
      大數(shù)據(jù) 2021年5期
      關(guān)鍵詞:裝箱物件動(dòng)作

      王金予,魏欣然,石文磊,張佳

      微軟亞洲研究院,北京 100080

      1 引言

      資源優(yōu)化關(guān)心如何更有效地管理與利用資源以提高整體的收益。資源優(yōu)化問(wèn)題無(wú)處不在,大到國(guó)與國(guó)之間的貿(mào)易往來(lái),小到每個(gè)人的衣食住行,整個(gè)人類(lèi)的經(jīng)濟(jì)、生產(chǎn)、生活活動(dòng)都是圍繞著資源運(yùn)行的。一直以來(lái),傳統(tǒng)的運(yùn)籌學(xué)方法,如組合優(yōu)化、線(xiàn)性規(guī)劃、非凸優(yōu)化等技術(shù)被廣泛地應(yīng)用于海運(yùn)優(yōu)化[1-4]、出租車(chē)派單[5-6]、供應(yīng)鏈管理[7-9]、貨物裝箱[10-11]等資源優(yōu)化場(chǎng)景,并且成果斐然。

      雖然基于運(yùn)籌學(xué)的方法對(duì)解決上述資源優(yōu)化問(wèn)題提供了很大幫助,但實(shí)際中仍然存在的很多挑戰(zhàn)嚴(yán)重地降低了運(yùn)籌學(xué)方法的求解效果。這些挑戰(zhàn)主要來(lái)自以下3個(gè)方面。

      ● 求解空間非常巨大。很多實(shí)際場(chǎng)景涉及的資源節(jié)點(diǎn)眾多、依賴(lài)關(guān)系復(fù)雜、待求解周期長(zhǎng),導(dǎo)致構(gòu)造的運(yùn)籌學(xué)模型動(dòng)輒幾十萬(wàn)變量、上百萬(wàn)約束,使得求解速度緩慢、計(jì)算成本高昂,造成運(yùn)籌學(xué)模型很難應(yīng)用于一些時(shí)效性要求高的場(chǎng)景,如出租車(chē)派單。

      ● 不確定性強(qiáng)。資源優(yōu)化問(wèn)題通常是針對(duì)未來(lái)的情況的,例如海運(yùn)公司需要根據(jù)未來(lái)的供需情況進(jìn)行集裝箱的平衡調(diào)度,出租車(chē)派單中需要根據(jù)未來(lái)的訂單情況進(jìn)行匹配,供應(yīng)鏈中需要考慮未來(lái)各環(huán)節(jié)的產(chǎn)能與倉(cāng)儲(chǔ)能力以及最終的客戶(hù)需求進(jìn)而決定供給方案。在這種情況下使用基于運(yùn)籌學(xué)的方式進(jìn)行求解就需要對(duì)未來(lái)的情況進(jìn)行顯式的預(yù)測(cè),并且基于這些預(yù)測(cè)建立模型。但是預(yù)測(cè)的精度總是有限的,尤其需要較長(zhǎng)時(shí)間的預(yù)測(cè)時(shí),準(zhǔn)確度更加難以保證。這就導(dǎo)致求解質(zhì)量不高、優(yōu)化效率低,甚至得到的解無(wú)法執(zhí)行。

      ● 場(chǎng)景邏輯復(fù)雜、多變。在實(shí)際問(wèn)題中,由于業(yè)務(wù)邏輯復(fù)雜,存在很多用運(yùn)籌學(xué)中的約束無(wú)法有效刻畫(huà)的邏輯,如跨國(guó)貿(mào)易中的一些政策、法規(guī)要求,供應(yīng)鏈中未滿(mǎn)足客戶(hù)需求而產(chǎn)生的名譽(yù)、客戶(hù)流失等潛在成本。在這種情況下,運(yùn)籌模型的建立需要進(jìn)行人工設(shè)計(jì),近似地刻畫(huà)這些約束,這不可避免地使模型具備了主觀性。與此同時(shí),場(chǎng)景的業(yè)務(wù)邏輯(如業(yè)務(wù)模式、法規(guī)要求等)會(huì)隨時(shí)間發(fā)生改變,一旦發(fā)生變化,又需要大量的人力重新調(diào)整模型以適應(yīng)新的變化,導(dǎo)致人工成本高昂,而且模型的穩(wěn)定性難以保證。

      上述挑戰(zhàn)超出了傳統(tǒng)運(yùn)籌學(xué)方法的范疇,需要引入全新的解決方案。事實(shí)上,隨著信息技術(shù)的不斷發(fā)展以及存儲(chǔ)設(shè)備的價(jià)格越來(lái)越低,各行各業(yè)積累了大量的歷史數(shù)據(jù),如海運(yùn)領(lǐng)域的航線(xiàn)變化、船舶離港到港事件、供需關(guān)系數(shù)據(jù),出租車(chē)領(lǐng)域的車(chē)輛軌跡、訂單需求數(shù)據(jù),快遞領(lǐng)域的包裹尺寸、目的地分布數(shù)據(jù)等。這些寶貴的數(shù)據(jù)中包含了業(yè)務(wù)的復(fù)雜變化與各種事件的不確定性,隱式地體現(xiàn)了問(wèn)題的運(yùn)行邏輯。如何充分地利用這些數(shù)據(jù),從中發(fā)現(xiàn)規(guī)律、學(xué)習(xí)策略是解決資源優(yōu)化問(wèn)題面臨的重要挑戰(zhàn),也是重大機(jī)遇。顯然,這些數(shù)據(jù)在傳統(tǒng)的運(yùn)籌學(xué)方法中很難發(fā)揮出最大價(jià)值。

      隨著強(qiáng)化學(xué)習(xí)在圍棋[12]、游戲[13]等序列化決策領(lǐng)域大放異彩、在多智能體協(xié)作等領(lǐng)域取得較好表現(xiàn)[14],它的一些優(yōu)秀特性也得到了資源優(yōu)化領(lǐng)域的關(guān)注。首先,基于強(qiáng)化學(xué)習(xí)的解決方案決策非常高效。雖然強(qiáng)化學(xué)習(xí)策略的訓(xùn)練非常耗時(shí),但是這些訓(xùn)練工作可以離線(xiàn)進(jìn)行,實(shí)際中只需要利用訓(xùn)練好的模型進(jìn)行推理,因而在絕大部分情況下可以做到近似實(shí)時(shí)決策。其次,使用強(qiáng)化學(xué)習(xí)的方法并不需要顯式地對(duì)未來(lái)進(jìn)行預(yù)測(cè),模型可以從交互經(jīng)驗(yàn)、海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律、學(xué)習(xí)策略,從而幫助做出合適的決策。最后,在強(qiáng)化學(xué)習(xí)中,模型不需要對(duì)業(yè)務(wù)邏輯進(jìn)行建模,可以完全把業(yè)務(wù)邏輯當(dāng)成一個(gè)黑盒,避免了對(duì)復(fù)雜業(yè)務(wù)邏輯的刻畫(huà)工作和刻畫(huà)主觀性問(wèn)題。當(dāng)業(yè)務(wù)環(huán)境發(fā)生變化時(shí),智能體能夠及時(shí)地利用數(shù)據(jù)中蘊(yùn)含的變化信號(hào),從而更加迅速和敏銳地通過(guò)與業(yè)務(wù)環(huán)境的交互重新找到合適的優(yōu)化方案。鑒于這些特點(diǎn),近年來(lái)強(qiáng)化學(xué)習(xí)算法結(jié)合行業(yè)大數(shù)據(jù)的解決方案在資源優(yōu)化領(lǐng)域得到越來(lái)越多的應(yīng)用,并取得了一系列優(yōu)秀的成果。

      基于這種行業(yè)趨勢(shì),本文針對(duì)強(qiáng)化學(xué)習(xí)算法在資源優(yōu)化領(lǐng)域的應(yīng)用展開(kāi)調(diào)研,幫助讀者了解該領(lǐng)域最新的進(jìn)展,學(xué)習(xí)如何利用數(shù)據(jù)驅(qū)動(dòng)的方式解決資源優(yōu)化問(wèn)題。鑒于資源優(yōu)化問(wèn)題場(chǎng)景眾多、設(shè)定繁雜,劃分出3類(lèi)應(yīng)用廣泛的資源優(yōu)化問(wèn)題,即資源平衡問(wèn)題、資源分配問(wèn)題、裝箱問(wèn)題,集中進(jìn)行調(diào)研。在每個(gè)領(lǐng)域闡述問(wèn)題的特性,并根據(jù)具體的問(wèn)題特性進(jìn)行細(xì)分,然后以場(chǎng)景為中心進(jìn)行具體工作的闡述,并重點(diǎn)從問(wèn)題的建模、特征設(shè)計(jì)、獎(jiǎng)勵(lì)設(shè)計(jì)、策略學(xué)習(xí)等方面展開(kāi)具體介紹。

      2 基本知識(shí)

      2.1 強(qiáng)化學(xué)習(xí)的基本概念

      強(qiáng)化學(xué)習(xí)以馬爾可夫決策過(guò)程(Markov decision process,MDP)為基礎(chǔ)構(gòu)造模型[15]。一個(gè)典型的馬爾可夫決策過(guò)程可以表示為五元組分別表示狀態(tài)空間、動(dòng)作空間、狀態(tài)轉(zhuǎn)換概率函數(shù)、獎(jiǎng)勵(lì)方程和衰減因子。狀態(tài)空間,表示當(dāng)前環(huán)境的全部狀態(tài)的集合;動(dòng)作空間,表示當(dāng)前環(huán)境中各個(gè)狀態(tài)下可采取的動(dòng)作集合,特別地,對(duì)于一個(gè)給定的狀態(tài)s,有效的動(dòng)作空間表示為,且有;狀態(tài)轉(zhuǎn)換概率函 數(shù)描述了在狀態(tài)s下采取動(dòng)作a,環(huán)境跳轉(zhuǎn)到狀態(tài)s′的概率;獎(jiǎng)勵(lì)方程R可以定義為表示在狀態(tài)s下完成動(dòng)作a后從環(huán)境中得到的獎(jiǎng)勵(lì);衰減因子γ用來(lái)對(duì)長(zhǎng)期獎(jiǎng)勵(lì)進(jìn)行建模,用于描述每個(gè)動(dòng)作a的作用效果隨時(shí)間推移的衰減程度,即環(huán)境給的單步獎(jiǎng)勵(lì)rt+1對(duì)前序動(dòng)作at的衰減程度,獎(jiǎng)勵(lì)接收時(shí)間與動(dòng)作執(zhí)行時(shí)間離得越遠(yuǎn),衰減程度越大。

      強(qiáng)化學(xué)習(xí)中的兩大主體分別是智能體和環(huán)境。強(qiáng)化學(xué)習(xí)智能體通過(guò)不斷地與環(huán)境進(jìn)行交互來(lái)收集經(jīng)驗(yàn),并從經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)。對(duì)于一個(gè)給定的狀態(tài)s,智能體采取動(dòng)作a后,環(huán)境將跳轉(zhuǎn)到下一個(gè)狀態(tài)s′,并返回一個(gè)獎(jiǎng)勵(lì)r,這樣就得到了一條經(jīng)驗(yàn)數(shù)據(jù)。智能體與環(huán)境交互過(guò)程中的全部狀態(tài)、動(dòng)作序列共同構(gòu)成了此次交互的一條軌跡。一條軌跡對(duì)應(yīng)的全部獎(jiǎng)勵(lì)值之和被稱(chēng)為這條軌跡對(duì)應(yīng)的回報(bào)值,用表示,

      2.2 強(qiáng)化學(xué)習(xí)算法基礎(chǔ)

      根據(jù)智能體在與環(huán)境交互過(guò)程中具體學(xué)習(xí)的內(nèi)容,可以把無(wú)須對(duì)環(huán)境進(jìn)行建模(即model-free)的強(qiáng)化學(xué)習(xí)算法分為兩大類(lèi):直接學(xué)習(xí)動(dòng)作執(zhí)行策略的策略?xún)?yōu)化算法(如REINFORCE[16])和通過(guò)學(xué)習(xí)一個(gè)值函數(shù)進(jìn)而做出動(dòng)作執(zhí)行決策的值優(yōu)化算法(如Q-learning[17])。

      在策略?xún)?yōu)化這類(lèi)算法中,主要學(xué)習(xí)對(duì)象是動(dòng)作執(zhí)行策略πθ,其中,θ表示當(dāng)前策略的全部參數(shù)。策略πθ負(fù)責(zé)完成從狀態(tài)s到動(dòng)作a的映射,具體分為確定性策略和隨機(jī)性策略。確定性策略將給定的狀態(tài)s映射到確定的動(dòng)作a,即;對(duì)于給定的狀態(tài)s,隨機(jī)性策略將給出動(dòng)作a的概率 分布,即。樸素 的REINFORCE算法又被稱(chēng)為樸素的策略梯度(vanilla policy gradient,VPG)算法,是一種隨機(jī)性策略算法,更新的規(guī)則是以梯度上升的方式更新參數(shù)θ,從而提升與環(huán)境交互所獲得的軌跡的對(duì)應(yīng)回報(bào)值,即策略更新的目標(biāo)函數(shù)為:

      進(jìn)一步可以得到對(duì)應(yīng)的梯度:

      從而可以通過(guò)抽取一定量的經(jīng)驗(yàn)數(shù)據(jù)實(shí)現(xiàn)策略的更新梯度計(jì)算,這里把抽取的經(jīng)驗(yàn)數(shù)據(jù)的數(shù)量定為N:

      除了REINFORCE算法,策略?xún)?yōu)化算法還包括信賴(lài)域策略?xún)?yōu)化(trust region policy optimization,TRPO)算法[18]、近端策略?xún)?yōu)化(proximal policy optimization,PPO)算法[19-20]、優(yōu)勢(shì)動(dòng)作評(píng)價(jià)(advanced actor-critic,A2C)算法[21]、異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)(asynchronous advantage actorcritic,A3C)算法[21]等。

      值優(yōu)化算法的典型代表是深度Q網(wǎng)絡(luò)(deep Q network,DQN)[13],DQN主要學(xué)習(xí)的是一個(gè)動(dòng)作-價(jià)值函數(shù)類(lèi)似地,這里的θ指的是當(dāng)前動(dòng)作-價(jià)值函數(shù)的全部參數(shù),而則表示基于參數(shù)θ,在狀態(tài)s下采取動(dòng)作a對(duì)應(yīng)的價(jià)值的估計(jì)值,也可以理解為在狀態(tài)s下采取動(dòng)作a后仍基于參數(shù)θ與環(huán)境交互、預(yù)計(jì)能從環(huán)境中獲得的所有獎(jiǎng)勵(lì)值的和的期望。最終,依據(jù)動(dòng)作-價(jià)值函數(shù),根據(jù)值最大化的原則,DQN算法選取的動(dòng)作是。當(dāng)智能體與環(huán)境進(jìn)行交互并收集到一定數(shù)量的經(jīng)驗(yàn)數(shù)據(jù)后,即得到狀態(tài)s與狀態(tài)s′之間實(shí)際相差的獎(jiǎng)勵(lì)值r后,考慮到Q函數(shù)應(yīng)當(dāng)具備的自洽性,可以根據(jù)最小化與的估計(jì)誤差的原則來(lái)更新動(dòng)作-價(jià)值函數(shù),則損失函數(shù)為:

      3 資源平衡問(wèn)題

      資源平衡問(wèn)題指研究資源有限系統(tǒng)中分散資源點(diǎn)間的資源調(diào)度策略,以?xún)?yōu)化資源需求與資源消耗在時(shí)空分布上的一致性。根據(jù)平衡問(wèn)題的觸發(fā)與作用機(jī)制的不同,資源平衡問(wèn)題可以劃分為被動(dòng)平衡問(wèn)題、主動(dòng)平衡問(wèn)題和基于市場(chǎng)機(jī)制的平衡問(wèn)題。

      3.1 被動(dòng)平衡問(wèn)題

      現(xiàn)實(shí)場(chǎng)景中的資源平衡問(wèn)題往往會(huì)受到諸多現(xiàn)實(shí)因素的制約,如路線(xiàn)、成本等,因此調(diào)度策略往往需要遵循現(xiàn)實(shí)世界的既定規(guī)則,即調(diào)度動(dòng)作只能由現(xiàn)實(shí)事件觸發(fā)。以交通場(chǎng)景為例,觸發(fā)事件可以是負(fù)責(zé)運(yùn)載資源的交通工具抵達(dá)資源點(diǎn)。在固定路線(xiàn)的約束下,典型的資源網(wǎng)絡(luò)可以定義為G=(P,R,V),其中,P、R、V分別表示資源點(diǎn)、交通路線(xiàn)、交通工具的集合。每個(gè)端點(diǎn)Pi∈P表示一個(gè)資源點(diǎn),將Pi處的初始庫(kù)存資源表示為,用和分別表示不同時(shí)刻的庫(kù)存數(shù)量、資源需求數(shù)量和資源供應(yīng)數(shù)量。每條路線(xiàn)Ri∈R表示物流網(wǎng)絡(luò)中的一條通路,由一系列連續(xù)的資 源點(diǎn)組成,表示這條路線(xiàn)上的資源點(diǎn)總數(shù)。每條路線(xiàn)Ri上都有一隊(duì)固定的車(chē)輛,且每一輛運(yùn)載工具Vj∈VRi都有其固定的運(yùn)行時(shí)刻表及容量上限Cj,同時(shí),不同的路線(xiàn)之間可能在任意資源點(diǎn)相交。當(dāng)運(yùn)載工具到達(dá)資源點(diǎn)時(shí),它可以從資源點(diǎn)裝載資源,也可以向資源點(diǎn)卸載資源??占b箱重定位就是比較典型的被動(dòng)平衡場(chǎng)景,下面將對(duì)這一場(chǎng)景的相關(guān)算法進(jìn)行介紹。

      空集裝箱重定位問(wèn)題:空集裝箱是航運(yùn)中用來(lái)裝載貨物的核心資源,而世界各國(guó)和地區(qū)之間的進(jìn)出口貿(mào)易存在很大的貿(mào)易不對(duì)等,這導(dǎo)致空集裝箱的供需極度不平衡。空集裝箱重定位問(wèn)題是在運(yùn)輸貨物的同時(shí)合理運(yùn)輸適量的空集裝箱,以達(dá)到優(yōu)化貨物運(yùn)輸效率的目標(biāo)。作為交通網(wǎng)絡(luò)中的資源平衡問(wèn)題,這一問(wèn)題受到了運(yùn)籌優(yōu)化領(lǐng)域的廣泛關(guān)注[1-4]。

      1997年,Crainic T G等人[1]總結(jié)了在貨運(yùn)運(yùn)輸規(guī)劃和執(zhí)行中的主要問(wèn)題,并以計(jì)算機(jī)技術(shù)為基礎(chǔ),提出了相應(yīng)的策略模型和方法。隨后,Epstein R等人[2]針對(duì)空集裝箱重定位問(wèn)題進(jìn)行了更加細(xì)致的研究,設(shè)計(jì)了物流優(yōu)化系統(tǒng)來(lái)管理資源不平衡的問(wèn)題,并提出了基于供需預(yù)測(cè)和庫(kù)存控制的多商品網(wǎng)絡(luò)流量模型。參考文獻(xiàn)[22]將環(huán)境的不確定性引入空集裝箱重定位系統(tǒng)中,建立了一個(gè)針對(duì)隨機(jī)供需、隨機(jī)船舶容量的兩階段隨機(jī)規(guī)劃模型,得到了良好的效果。Song D P等人[23]對(duì)基于運(yùn)籌學(xué)的資源平衡解決方案進(jìn)行了詳細(xì)的回顧,這些方法通常是多階段的,即先預(yù)測(cè)每個(gè)資源點(diǎn)未來(lái)的供需情況,再采用組合優(yōu)化的方法求解每個(gè)資源點(diǎn)的最優(yōu)策略,最后通過(guò)裁剪模型輸出的原始策略來(lái)生成可行解。然而,上述傳統(tǒng)的運(yùn)籌學(xué)方法受限于供需的不確定性、復(fù)雜的非凸業(yè)務(wù)約束以及交通網(wǎng)絡(luò)的高度復(fù)雜性,難以在真實(shí)場(chǎng)景中得到令人滿(mǎn)意的調(diào)度策略。

      為了解決上述挑戰(zhàn),Li X H等人[24]將這一問(wèn)題建模為一個(gè)由事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)問(wèn)題。具體地,每條船對(duì)應(yīng)一個(gè)智能體,當(dāng)船舶Vi到達(dá)港口Pj時(shí),會(huì)觸發(fā)相應(yīng)的智能體做出決策,且其動(dòng)作空間表示將部分資源從車(chē)上卸下,時(shí)則相反。同時(shí),這些操作始終受到船舶的容量Ci的限制。在狀態(tài)S和獎(jiǎng)勵(lì)函數(shù)R的設(shè)計(jì)上,研究根據(jù)各智能體間合作范圍的不同,提出自我意識(shí)、領(lǐng)土意識(shí)和外交意識(shí)3種模式。在自我意識(shí)中,智能體是自私且短視的,因此狀態(tài)SI可以?xún)H由當(dāng)前船只和當(dāng)前港口的特征來(lái)描述,即,而獎(jiǎng)勵(lì)函數(shù)rI是只與當(dāng)前船只的庫(kù)存與空箱短缺數(shù)量相關(guān)的函數(shù)。領(lǐng)土意識(shí)則具有更廣闊的視野,它關(guān)注當(dāng)前船只Vi即將路過(guò)的多個(gè)港口,以及當(dāng)前港口Pj的后續(xù)接駁的多個(gè)船只,此時(shí)狀態(tài)可以表示為,這一模式使得智能體可以基于航線(xiàn)的信息做出更全面的決策。進(jìn)一步地,外交意識(shí)在領(lǐng)土意識(shí)的狀態(tài)ST上增加了當(dāng)前港口Pj所在的所有路線(xiàn)的信息,其獎(jiǎng)勵(lì)函數(shù)表示為,其中,α表示自我獎(jiǎng)勵(lì)rI的權(quán)重,即外交獎(jiǎng)勵(lì)是自我獎(jiǎng)勵(lì)rI與相鄰路線(xiàn)的獎(jiǎng)勵(lì)rc的加權(quán)均值,從而實(shí)現(xiàn)智能體與交叉航線(xiàn)的合作,使得資源可以在航線(xiàn)間進(jìn)行再平衡。此外,將船只作為智能體,是考慮到沿著同一路線(xiàn)行駛的多個(gè)船只通常共享相似的環(huán)境,因此它們可以共享相同的策略,從而顯著降低模型的復(fù)雜度。同時(shí),船只的航行過(guò)程也是其信息視野的自然放大過(guò)程,因此將其作為智能體能夠獲得更好的全局策略。

      本質(zhì)上,合作多智能體系統(tǒng)通過(guò)對(duì)多個(gè)分散智能體求取全局最優(yōu)解,建模智能體間的合作行為。因此,在實(shí)際問(wèn)題中,要想建模智能體與環(huán)境實(shí)體之間復(fù)雜的協(xié)作關(guān)系,要充分了解每個(gè)智能體及與它相關(guān)的智能體和環(huán)境實(shí)體的狀態(tài)信息。為此,Jiang J C等人[25]提出了使用交互圖對(duì)整個(gè)環(huán)境進(jìn)行建模的方法。其中,頂點(diǎn)表示智能體或環(huán)境實(shí)體,當(dāng)兩個(gè)頂點(diǎn)相互作用時(shí),便存在邊。這一研究方法在多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning,MARL)框架下,利用圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)在連通的智能體間傳遞合作信號(hào),并在各種小游戲中取得了不錯(cuò)的表現(xiàn)。但是,現(xiàn)實(shí)場(chǎng)景往往要比游戲更復(fù)雜。簡(jiǎn)單的GNN模型通常使用比較簡(jiǎn)單的池函數(shù)作為聚合函數(shù),并在信息傳播的過(guò)程中始終假設(shè)交互圖中的所有頂點(diǎn)是同構(gòu)的。然而,實(shí)際問(wèn)題中的頂點(diǎn)大多是異構(gòu)的,異構(gòu)頂點(diǎn)之間不同的特征空間阻礙了有效的信息傳遞。同時(shí),簡(jiǎn)單的聚合函數(shù)也可能造成信息的丟失或過(guò)平滑問(wèn)題。

      因此,Shi W L等人[26]提出了一種新的合作策略學(xué)習(xí)框架,使用預(yù)訓(xùn)練的方法學(xué)習(xí)異構(gòu)的表征,并在真實(shí)場(chǎng)景上的大量實(shí)驗(yàn)中證明了其優(yōu)越性。該方法將多智能體系統(tǒng)表示為一個(gè)異構(gòu)的交互圖,并提出了一種新的多智能體強(qiáng)化學(xué)習(xí)框架??蚣苡蓛刹糠纸M成:基于編碼器-解碼器的圖注意模塊(EncGAT)和使用actor-critic的預(yù)訓(xùn)練流程(PreLAC)。其中,EncGAT模型學(xué)習(xí)交互圖中的信息表示,然后將這些信息輸入actor-critic網(wǎng)絡(luò)中,以幫助它學(xué)習(xí)到更好的合作策略。然而,在A2C算法中引入EncGAT模型后,這一復(fù)雜結(jié)構(gòu)會(huì)使得多智能體系統(tǒng)的學(xué)習(xí)過(guò)程變得更加困難。為了提高學(xué)習(xí)效率和學(xué)習(xí)策略的有效性,研究人員首先使用局部獎(jiǎng)勵(lì)訓(xùn)練EncGAT模型,得到多個(gè)執(zhí)行自私策略的actor和critic,即它們都只關(guān)心自己獲得的局部獎(jiǎng)勵(lì)是否最大;然后使用預(yù)先訓(xùn)練好的EncGAT網(wǎng)絡(luò)參數(shù)初始化actor和critic;最后使用全局的獎(jiǎng)勵(lì)函數(shù)進(jìn)行微調(diào)。

      3.2 主動(dòng)平衡問(wèn)題

      不同于被動(dòng)平衡問(wèn)題,在主動(dòng)平衡問(wèn)題中,資源調(diào)度的動(dòng)作成本往往不高,且存在專(zhuān)用于資源調(diào)度的運(yùn)輸工具可供調(diào)配,因此調(diào)度動(dòng)作可以由資源點(diǎn)根據(jù)自身情況主動(dòng)、靈活地觸發(fā),不再受限于環(huán)境事件。

      以基于人工的共享自行車(chē)重定位為例進(jìn)行說(shuō)明。近年來(lái),作為連接城市“最后一公里”的解決方案,共享自行車(chē)系統(tǒng)為人們提供了新式的公共交通工具。同樣地,由于自行車(chē)使用在空間和時(shí)間領(lǐng)域的不平衡,在共享自行車(chē)的站點(diǎn)可能出現(xiàn)車(chē)輛堆積和車(chē)輛不足的情況。由于共享自行車(chē)站點(diǎn)往往數(shù)量龐大、路線(xiàn)龐雜,對(duì)共享自行車(chē)系統(tǒng)的研究不僅集中在自行車(chē)重定位策略上,同時(shí)也涉及系統(tǒng)設(shè)計(jì)、供需預(yù)測(cè)、行程建議等多個(gè)方面。自行車(chē)的重定位方法一般被分為基于人工的重定位方法[27-33]和基于用戶(hù)的重定位方法[34-38]。

      基于人工的重定位方法使用多輛三輪車(chē)在車(chē)站周?chē)苿?dòng),在不同的車(chē)站間裝卸自行車(chē)。與空集裝箱重定位不同的是,由于自行車(chē)重定位場(chǎng)景的站點(diǎn)較多且分布密集,三輪車(chē)不設(shè)置固定路線(xiàn),而是根據(jù)車(chē)站的調(diào)度需求進(jìn)行隨機(jī)移動(dòng)。重定位可以以靜態(tài)或動(dòng)態(tài)的方式進(jìn)行,靜態(tài)重定位指當(dāng)系統(tǒng)不運(yùn)行或在夜間時(shí),工作人員將自行車(chē)重新按需分配到系統(tǒng)中。這一問(wèn)題的解決方案大多基于優(yōu)化模型[23],并將最小化總行程作為優(yōu)化的目標(biāo)。動(dòng)態(tài)重定位問(wèn)題[28-40]也采用優(yōu)化模型,但模型往往過(guò)于復(fù)雜,無(wú)法建模策略的長(zhǎng)期影響并應(yīng)對(duì)真實(shí)環(huán)境中存在的諸多不確定性。

      為了解決這一問(wèn)題,Li Y X等人[31]提出了一種基于時(shí)空注意力的強(qiáng)化學(xué)習(xí)模型。為了更好地定義這一問(wèn)題,并降低大規(guī)模共享自行車(chē)系統(tǒng)內(nèi)的問(wèn)題復(fù)雜性,他們提出了一種名為IIIB的兩步聚類(lèi)算法。上述聚類(lèi)算法首先根據(jù)某一時(shí)段內(nèi)站點(diǎn)的空間聚集程度和軌跡分布將其劃分為不同的區(qū)域,再將各個(gè)區(qū)域聚類(lèi)成內(nèi)部平衡且相互獨(dú)立的簇。簇Ci內(nèi)部各區(qū)域sj間的平衡性可以表示為,Ci和Cj之間的獨(dú)立性定義為,其中o、r分別表示借、還的車(chē)數(shù),f表示區(qū)域和間的軌跡。該方法將每個(gè)卡車(chē)作為一個(gè)智能體,為每個(gè)區(qū)域分配一定數(shù)量的卡車(chē),它們?cè)趨^(qū)域內(nèi)部不斷地更新目的地,完成自行車(chē)重定位任務(wù)。觀測(cè)狀態(tài)S由一個(gè)2ni+1維的向量表示,包含系統(tǒng)狀態(tài)(容量、供需等)、其他卡車(chē)狀態(tài)(目的地和卸載量)和當(dāng)前車(chē)站的狀態(tài),ni表示當(dāng)前簇中的區(qū)域數(shù)量。智能體的動(dòng)作由一個(gè)ni維的one-hot向量和1位表示卸載量的數(shù)字表示?;谝陨显O(shè)定,上述研究設(shè)計(jì)了一個(gè)時(shí)空強(qiáng)化學(xué)習(xí)模型,使用深度神經(jīng)網(wǎng)絡(luò)估計(jì)其值函數(shù),為每個(gè)區(qū)域訓(xùn)練其重定位策略,并在訓(xùn)練中巧妙地通過(guò)剪枝規(guī)則進(jìn)一步降低模型的訓(xùn)練復(fù)雜度。

      3.3 基于市場(chǎng)機(jī)制的平衡問(wèn)題

      基于市場(chǎng)機(jī)制的平衡問(wèn)題指不使用運(yùn)輸工具或調(diào)度工具直接在資源點(diǎn)間轉(zhuǎn)移資源,而使用定價(jià)、獎(jiǎng)懲等機(jī)制來(lái)影響系統(tǒng)中的供需情況或運(yùn)行機(jī)制,從而間接提高資源需求與資源消耗在時(shí)空分布上的一致性。

      以基于用戶(hù)的共享自行車(chē)重定位為例進(jìn)行說(shuō)明。以人工為基礎(chǔ)的定位方法利用多輛卡車(chē)或自行車(chē)拖車(chē),通過(guò)在不同區(qū)域裝卸自行車(chē)實(shí)現(xiàn)重新定位。然而,其再平衡效果在很大程度上取決于需求預(yù)測(cè)的準(zhǔn)確性。此外,由于運(yùn)輸工具的行程、維護(hù)、人工成本較高,基于人工的方法往往需要大量的預(yù)算。相比之下,以用戶(hù)為基礎(chǔ)的方式通過(guò)向用戶(hù)發(fā)放折扣、獎(jiǎng)勵(lì)的途徑,鼓勵(lì)用戶(hù)選擇特定的取車(chē)或落車(chē)地點(diǎn),是一種更加經(jīng)濟(jì)和靈活的重新平衡系統(tǒng)的方式。

      Contardo C等人[27]首次提出了動(dòng)態(tài)的公共自行車(chē)共享平衡問(wèn)題,對(duì)這一問(wèn)題進(jìn)行了詳細(xì)的定義,從運(yùn)籌學(xué)角度給出了這一問(wèn)題在中大型系統(tǒng)中的解決方案,并將定價(jià)策略作為平衡系統(tǒng)中的一個(gè)子問(wèn)題。隨后,Chemla D等人[34]提出了一種定價(jià)策略,使得不依賴(lài)人工移動(dòng)自行車(chē)的平衡策略成為可能。該方法依據(jù)現(xiàn)實(shí)經(jīng)驗(yàn)將空間分為多個(gè)獨(dú)立區(qū)域,在真實(shí)用戶(hù)的行為基礎(chǔ)上開(kāi)發(fā)了多功能模擬器,并在其上對(duì)定價(jià)策略進(jìn)行了實(shí)驗(yàn)。進(jìn)一步地,Singla A等人[37]提出了一種眾包機(jī)制,通過(guò)現(xiàn)金獎(jiǎng)勵(lì)的方式激勵(lì)用戶(hù)在特定的區(qū)域取車(chē)或換車(chē),從而實(shí)現(xiàn)自行車(chē)的重定位。他們模擬了用戶(hù)進(jìn)行自行車(chē)租賃的完整過(guò)程,并為之設(shè)計(jì)了一個(gè)完整的激勵(lì)體系,通過(guò)用戶(hù)模型評(píng)估是否為用戶(hù)提供建議路線(xiàn)和相應(yīng)的獎(jiǎng)勵(lì),同時(shí)采用動(dòng)態(tài)定價(jià)機(jī)制,在給定的預(yù)算約束下,實(shí)現(xiàn)自行車(chē)使用效率的最大化。他們?cè)谀M器上驗(yàn)證了該方法的性能,并首次將動(dòng)態(tài)激勵(lì)系統(tǒng)的自行車(chē)重定位系統(tǒng)部署在現(xiàn)實(shí)世界的自行車(chē)共享系統(tǒng)中。

      然而,上述基于用戶(hù)的方法往往沒(méi)有將空間信息(如自行車(chē)和用戶(hù)的空間分布)和用戶(hù)的信息(如步行所需時(shí)間)作為定價(jià)政策的影響因素。Pan L等人[36]將這一問(wèn)題視為共享自行車(chē)服務(wù)經(jīng)營(yíng)者與環(huán)境之間的相互作用,并將其描述為MDP。在這個(gè)MDP中,每個(gè)地區(qū)的狀態(tài)都由自行車(chē)的供應(yīng)量、需求量、到達(dá)量和其他相關(guān)信息組成,動(dòng)作可以表示為當(dāng)前地區(qū)ri在總預(yù) 算B限制下的 一 種定價(jià) 策略這一策略通過(guò)價(jià)值為的獎(jiǎng)勵(lì),激 勵(lì)用戶(hù)步行前往距當(dāng)前地區(qū)ri距離為x的附近區(qū)域借還第k輛車(chē)。使用函數(shù)表示用戶(hù)接受定價(jià)動(dòng)作建議所需代價(jià),當(dāng)當(dāng)前區(qū)域無(wú)車(chē)可用且時(shí),會(huì)發(fā)生流單。這一任務(wù)的優(yōu)化目標(biāo)即最小化流單率。這一設(shè)置產(chǎn)生了一個(gè)連續(xù)的高維行動(dòng)空間,且該空間維數(shù)隨著指數(shù)增長(zhǎng)。為了解決這一問(wèn)題,Pan L等人[36]提出了一種名為分層強(qiáng)化定價(jià)(hierarchical reinforcement pricing,HRP)的深度強(qiáng)化學(xué)習(xí)算法。HRP算法建立在深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法[41]的基礎(chǔ)上,并使用了層次化的強(qiáng)化學(xué)習(xí)框架。這一算法的核心思想是將整個(gè)目標(biāo)區(qū)域的Q值分解為多個(gè)較小區(qū)域的子Q值,其中,分別表示子區(qū)域rj在時(shí)間t的狀態(tài)和動(dòng)作,uj表示模型參數(shù)。該分解方法解決了高維輸入中空間和時(shí)間依賴(lài)導(dǎo)致的復(fù)雜性問(wèn)題,同時(shí)在分解過(guò)程中引入了一定誤差。因此,HRP算法通過(guò)一個(gè)本地化模塊fj(·)引入空間依賴(lài)性,從而糾正由于 子狀態(tài) 和子動(dòng)作之間的相互關(guān)聯(lián)和分解而引入的Q函數(shù)估計(jì)偏差,因此可以表示為,以獲得更小的輸入空間,減小訓(xùn)練誤差。該研究證明了HRP算法對(duì)收斂性的改進(jìn)效果,并在摩拜單車(chē)數(shù)據(jù)集上證明了其性能優(yōu)于現(xiàn)有算法。

      4 資源分配問(wèn)題

      資源分配問(wèn)題主要研究如何在多種資源與多個(gè)使用者之間建立合理、有效的分配,以?xún)?yōu)化整體的資源使用效率。根據(jù)問(wèn)題中資源與使用者的匹配復(fù)雜程度,可以將資源分配問(wèn)題劃分為單段分配問(wèn)題(如出租車(chē)派單、廣告分配)和多段分配問(wèn)題(如供應(yīng)鏈管理)。經(jīng)典的離線(xiàn)分配問(wèn)題本身并不難以求解,通??梢圆捎眯傺览惴ɑ蚓W(wǎng)絡(luò)流的方式獲得最優(yōu)的分配方案。但在實(shí)際應(yīng)用中,由于分配中的一方或雙方具有動(dòng)態(tài)性,通常沒(méi)有辦法獲取求解所需的所有信息。例如在出租車(chē)派單問(wèn)題中,某個(gè)區(qū)域的空閑車(chē)輛是動(dòng)態(tài)變化的,同時(shí)乘客的出現(xiàn)也是具有不確定性的。在這種動(dòng)態(tài)性下,快速地建立高效的匹配來(lái)降低司機(jī)空載時(shí)間及乘客等待時(shí)間是非常具有挑戰(zhàn)性的。下面分別針對(duì)單段分配和多段分配對(duì)相關(guān)文獻(xiàn)進(jìn)行梳理。

      4.1 單段分配問(wèn)題

      在單段分配問(wèn)題中,資源與使用者之間的匹配關(guān)系是一次性的。針對(duì)單段分配問(wèn)題的強(qiáng)化學(xué)習(xí)研究主要集中在出租車(chē)派單、在線(xiàn)廣告分配等問(wèn)題中。下面從這兩大類(lèi)場(chǎng)景出發(fā),介紹相關(guān)的典型研究。

      (1)出租車(chē)派單問(wèn)題

      派單問(wèn)題主要指如何滿(mǎn)足實(shí)時(shí)出現(xiàn)的乘客需求,使得用戶(hù)等待時(shí)間和司機(jī)空載時(shí)間盡可能短。一直以來(lái),派單問(wèn)題在交通優(yōu)化問(wèn)題上都有廣泛的研究[5-6,42-43]。2009年,Alshamsi A等人[44]開(kāi)始使用多智能體技術(shù)解決派單問(wèn)題,沒(méi)有使用強(qiáng)化學(xué)習(xí)的機(jī)制解決這個(gè)問(wèn)題,而是使用事先制定好的規(guī)則指導(dǎo)各個(gè)智能體的行為,顯而易見(jiàn),這種情況下智能體的適應(yīng)能力是受限的。

      自從網(wǎng)約車(chē)興起,由于場(chǎng)景本身的復(fù)雜性,越來(lái)越多的工作開(kāi)始關(guān)注如何使用強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)一步改善派單效果。2018年滴滴出行科技有限公司聯(lián)合密歇根州立大學(xué)的研究人員提出使用強(qiáng)化學(xué)習(xí)方法對(duì)出租車(chē)進(jìn)行調(diào)度,平衡各個(gè)區(qū)域的供需關(guān)系[45]。在他們的模型中,整個(gè)城市被劃分為由面積相等的六邊形構(gòu)成的若干網(wǎng)格,并將一天拆分成144個(gè)時(shí)間片。在每一個(gè)時(shí)間片內(nèi)產(chǎn)生的訂單,首先使用網(wǎng)格內(nèi)的車(chē)輛進(jìn)行匹配,若無(wú)法得到滿(mǎn)足,再使用鄰居網(wǎng)格中的可用車(chē)輛進(jìn)行匹配。在具體建模中,每個(gè)車(chē)輛被建模成一個(gè)智能體,智能體能夠觀察到的狀態(tài)為,其中,st表示t時(shí)刻的全局信息,gi表示該智能體對(duì)應(yīng)的網(wǎng)格。智能體的動(dòng)作空間iA包含7個(gè)動(dòng)作,表示下一時(shí)刻能夠到達(dá)的網(wǎng)格,其中,前6個(gè)動(dòng)作表示移動(dòng)到當(dāng)前所在網(wǎng)格的6個(gè)鄰居網(wǎng)格,最后一個(gè)表示留在當(dāng)前網(wǎng)格。每個(gè)智能體i都有一個(gè)獎(jiǎng)勵(lì)函數(shù)Ri,具體來(lái)說(shuō),設(shè)智能體i在t時(shí)刻采取動(dòng)作為該動(dòng)作獲得的獎(jiǎng)勵(lì)是在該智能體所處的網(wǎng)格中包括它自己在內(nèi)的所有智能體在t+1時(shí)刻接收的訂單收益的平均值。這樣設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的好處有兩點(diǎn):一是鼓勵(lì)車(chē)輛自發(fā)地從供給多的網(wǎng)格流向供給少的網(wǎng)格;二是避免所有車(chē)輛都為了追求利益而集中到熱點(diǎn)區(qū)域。在策略學(xué)習(xí)方面,參考文獻(xiàn)[45]提出了兩種帶有上下文信息的學(xué)習(xí)算法:上下文深度Q網(wǎng)絡(luò)(contextual DQN,cDQN)算法和上下文多智能體動(dòng)作-評(píng)價(jià)算法(contextual multi-agent actorcritic algorithm,cA2C)。在cDQN算法中,作者利用全局信息共享以及每個(gè)網(wǎng)格內(nèi)的獎(jiǎng)勵(lì)平均分配這兩個(gè)特性,將對(duì)每一個(gè)智能體每個(gè)動(dòng)作的Q值的計(jì)算轉(zhuǎn)化為僅對(duì)當(dāng)前狀態(tài)下每一個(gè)網(wǎng)格的Q值的計(jì)算,即僅計(jì)算,其中,gd表 示 動(dòng)作中指定的目的地?;谶@一點(diǎn),所有智能體可以共享一個(gè)全局的Q值。而上下文信息主要體現(xiàn)在兩個(gè)方面:地理上下文信息和協(xié)作上下文信息。地理上下文信息主要根據(jù)地理位置,對(duì)有效的區(qū)域進(jìn)行編碼;協(xié)作上下文信息主要在可行的動(dòng)作上進(jìn)行限制,避免有車(chē)輛從A地到B地的同時(shí)還有車(chē)輛從B地到A地。除此之外的部分就是一個(gè)標(biāo)準(zhǔn)的DQN算法。cA2C算法中也有類(lèi)似的處理,這里不再贅述。在結(jié)果方面,通過(guò)在滴滴出行提供的數(shù)據(jù)上進(jìn)行模擬,可以發(fā)現(xiàn)基于cDQN和cA2C的方法在總收益和訂單的接受率上都有顯著提高。

      上述方法主要存在兩個(gè)問(wèn)題。首先,作者只使用強(qiáng)化學(xué)習(xí)的技術(shù)平衡了各個(gè)網(wǎng)格中的供需關(guān)系,但是最終車(chē)輛到乘客的匹配是通過(guò)規(guī)則實(shí)現(xiàn)的,因此整體上是一個(gè)兩段式的解決方案。其次,所有的智能體共享一個(gè)全局的Q函數(shù),是一個(gè)中心化的解決方案,在擴(kuò)展性和復(fù)雜性上都存在一些瓶頸。2019年,Li M等人[46]提出了一種新的端到端的解決方案。與之前的工作相比,該工作主要有以下幾點(diǎn)不同。首先在狀態(tài)方面,每個(gè)智能體i可以基于一個(gè)觀測(cè)函數(shù),從全局信息獲取一個(gè)自己獨(dú)有的狀態(tài)oi。全局狀態(tài)包括訂單分布、司機(jī)分布、全局時(shí)間信息、交通信息以及天氣信息等。這些信息都能幫助智能體更好地進(jìn)行決策。然后在動(dòng)作方面,智能體i需要從oi包含的未分配訂單中選擇并進(jìn)行匹配。接著在獎(jiǎng)勵(lì)方面,作者綜合考慮了每個(gè)智能體實(shí)際接單的收益和訂單目的地的潛在收益,很明顯,后者是由環(huán)境以及所有智能體的行為決定的。這樣做的目的是鼓勵(lì)智能體之間更好地合作。最后在策略學(xué)習(xí)方面,作者提出了一種合作派單(cooperative order dispatching,COD)算法。該算法主要的創(chuàng)新是引入了平均場(chǎng)強(qiáng)化學(xué)習(xí)(meaning field reinforcement learning,MFRL)[47],即在決策的時(shí)候每個(gè)智能體單獨(dú)進(jìn)行決策并獲取動(dòng)作,而在訓(xùn)練的過(guò)程中,根據(jù)平均動(dòng)作更新評(píng)價(jià)網(wǎng)絡(luò),進(jìn)而影響動(dòng)作網(wǎng)絡(luò)。具體來(lái)講,針對(duì)每一個(gè)動(dòng)作ai,COD算法會(huì)為其計(jì)算一個(gè)平均動(dòng)作,即完成動(dòng)作ai后,將所在區(qū)域中其他司機(jī)的數(shù)量除以可接收訂單的數(shù)量。這個(gè)平均動(dòng)作會(huì)作為額外的信息被引入評(píng)價(jià)網(wǎng)絡(luò)的更新當(dāng)中。

      關(guān)于派單問(wèn)題,還有很多優(yōu)秀的工作,例如上海交通大學(xué)與滴滴團(tuán)隊(duì)提出的一種完全分散化的多智能體強(qiáng)化學(xué)習(xí)策略[48],以及香港科技大學(xué)聯(lián)合滴滴團(tuán)隊(duì)提出的一種組合優(yōu)化與強(qiáng)化學(xué)習(xí)相結(jié)合的兩段式解決方案[49]。限于篇幅,本文不再展開(kāi)介紹,感興趣的讀者可以閱讀原始論文獲取更多細(xì)節(jié)。

      (2)在線(xiàn)廣告分配問(wèn)題

      同派單問(wèn)題相比,在線(xiàn)廣告分配的問(wèn)題場(chǎng)景更清晰。對(duì)于廣告平臺(tái),每天有大量的客戶(hù)訪問(wèn)平臺(tái)。平臺(tái)通過(guò)向這些用戶(hù)展示廣告,從廣告主處獲取收益。目前主流的廣告展示策略有兩種,第一種是傳統(tǒng)的合約廣告,即平臺(tái)與廣告主簽訂合約,在一定時(shí)間內(nèi)向一定數(shù)量、符合條件的用戶(hù)展示該廣告主的廣告。合約達(dá)成后,平臺(tái)會(huì)獲取收益,反之,平臺(tái)需要承擔(dān)違約的懲罰。這種廣告方式在在線(xiàn)廣告的早期非常流行,但是近些年來(lái),其市場(chǎng)份額逐漸被新興的實(shí)時(shí)競(jìng)價(jià)(real-time bidding,RTB)方式占據(jù)。實(shí)時(shí)競(jìng)價(jià)最早在搜索廣告中出現(xiàn),當(dāng)用戶(hù)查詢(xún)一個(gè)關(guān)鍵詞時(shí),廣告主針對(duì)這個(gè)查詢(xún)發(fā)起競(jìng)拍并向平臺(tái)報(bào)價(jià),平臺(tái)根據(jù)報(bào)價(jià)選擇廣告進(jìn)行展示。后來(lái)這種方式擴(kuò)展到展示廣告中,競(jìng)拍的依據(jù)也從查詢(xún)變成用戶(hù)屬性。雖然近些年實(shí)時(shí)競(jìng)價(jià)的市場(chǎng)在不斷擴(kuò)大,但是合約廣告仍然占據(jù)大量的市場(chǎng)份額。

      在在線(xiàn)廣告領(lǐng)域,一個(gè)典型的使用強(qiáng)化學(xué)習(xí)進(jìn)行分配的工作是阿里巴巴團(tuán)隊(duì)于2018年提出的一種融合合約廣告與實(shí)時(shí)競(jìng)價(jià)的解決方案[50]。假設(shè)有n個(gè)用戶(hù)展示需要分配給m個(gè)合約。對(duì)于每一個(gè)展示,都有一組實(shí)時(shí)出價(jià)價(jià)格,對(duì)此展示平臺(tái)可以選擇分配給某一個(gè)合約廣告或分配給出價(jià)最高的競(jìng)價(jià)廣告。最終的優(yōu)化目標(biāo)是最大化合約廣告和實(shí)時(shí)競(jìng)價(jià)的整體收益以及整體合約廣告的質(zhì)量。作者提出了一種比較新穎的方式,即為每個(gè)合約模擬實(shí)時(shí)競(jìng)價(jià)行為,并為每一次競(jìng)價(jià)展示出一個(gè)價(jià)格。然后平臺(tái)像普通的實(shí)時(shí)競(jìng)價(jià)系統(tǒng)那樣按照第二價(jià)格的方式進(jìn)行廣告分配展示。作者在假設(shè)所有展示信息和實(shí)時(shí)出價(jià)已知的情況下,建立了最優(yōu)分配的線(xiàn)性規(guī)劃,并根據(jù)互補(bǔ)松弛定理證明,只要合約對(duì)應(yīng)的出價(jià)滿(mǎn)足式(5),最終的分配策略就是最優(yōu)的①具體證明過(guò)程參見(jiàn)參考文獻(xiàn)[50]。:?

      其中,bij、λj、qij、pj分別表示合約j對(duì)展示i的出價(jià)、合約j的質(zhì)量權(quán)重、展示i相對(duì)于合約j的質(zhì)量,以及違反合約j的懲罰。因此,問(wèn)題的關(guān)鍵轉(zhuǎn)化為求解合適的αj。但是在在線(xiàn)廣告中,展示機(jī)會(huì)到來(lái)的情況和對(duì)應(yīng)的出價(jià)難以預(yù)測(cè),因此難以利用傳統(tǒng)優(yōu)化方法求解。為了解決這一問(wèn)題,作者提出了一種多智能體強(qiáng)化學(xué)習(xí)的方法,即為每個(gè)合約分配一個(gè)智能體,讓智能體動(dòng)態(tài)地決定當(dāng)前展示的出價(jià)。具體來(lái)說(shuō),智能體j在第t步?jīng)Q策的狀態(tài)st包括時(shí)間信息(用于告訴智能體分配處于什么階段)、合約當(dāng)前的滿(mǎn)足狀態(tài)(多少比例已經(jīng)滿(mǎn)足,還有多少?zèng)]有滿(mǎn)足)以及在 1t?~t步之間智能體獲取的收益rt?1。動(dòng)作表示αj的調(diào)整因子,滿(mǎn)足:

      獎(jiǎng)勵(lì)的設(shè)計(jì)比較關(guān)鍵,作者首先定義原始即時(shí)獎(jiǎng)勵(lì)為t到t+1時(shí)刻平臺(tái)整體的廣告收益。在此基礎(chǔ)上進(jìn)一步定義:

      除了上述工作,還有更多的工作研究如何使用機(jī)器學(xué)習(xí)技術(shù)解決廣告展示以及推薦系統(tǒng)中的問(wèn)題,如參考文獻(xiàn)[51-53],感興趣的讀者可以進(jìn)一步研究這些工作。

      4.2 多段分配問(wèn)題

      在單段分配問(wèn)題中,只需要建立資源與使用者之間的關(guān)系即可,但是在多段分配問(wèn)題中,面臨的情況會(huì)更復(fù)雜。通常資源的流通會(huì)形成一個(gè)軌跡,需要優(yōu)化流通中的每一步從而獲得更好的分配效果,其典型的場(chǎng)景就是供應(yīng)鏈問(wèn)題。在供應(yīng)鏈問(wèn)題中,從原材料的生產(chǎn)、加工到銷(xiāo)售通常需要多個(gè)步驟,而每一步的資源分配都會(huì)影響最終的收益,因而更考驗(yàn)分配算法的性能。下面對(duì)供應(yīng)鏈的一些典型工作進(jìn)行介紹。

      供應(yīng)鏈管理是一個(gè)傳統(tǒng)的優(yōu)化問(wèn)題,但是其中供需關(guān)系的動(dòng)態(tài)性使得傳統(tǒng)的優(yōu)化方法難以解決。隨著強(qiáng)化學(xué)習(xí)的興起,出現(xiàn)了大量使用強(qiáng)化學(xué)習(xí)解決供應(yīng)鏈問(wèn)題的工作,如參考文獻(xiàn)[54-55],但是這些工作都使用了非常簡(jiǎn)單的供應(yīng)鏈網(wǎng)絡(luò)(網(wǎng)絡(luò)只有兩層,或者網(wǎng)絡(luò)是一條鏈?zhǔn)降墓?yīng)鏈)。Alves J C等人[56]在2020年改進(jìn)了這些工作,他們將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于一個(gè)更實(shí)際的場(chǎng) 景。在這個(gè)工作中,作者考慮了一個(gè)4層(供應(yīng)商、工廠、批發(fā)商、零售商)的供應(yīng)鏈網(wǎng)絡(luò),每一層都有兩個(gè)參與者。供應(yīng)商提供原材料,工廠加工成產(chǎn)品,然后再依次交給批發(fā)商、零售商進(jìn)行售賣(mài),其中原材料的供應(yīng)是有一定容量的,鏈路中的每一個(gè)節(jié)點(diǎn)都有自己的庫(kù)存容量,同時(shí)零售商還需要負(fù)責(zé)應(yīng)對(duì)需求不確定性。整個(gè)供應(yīng)鏈采取統(tǒng)一的控制方案,并且優(yōu)化目標(biāo)是在一個(gè)時(shí)間段內(nèi)滿(mǎn)足用戶(hù)的商品需求,同時(shí)最小化運(yùn)營(yíng)成本。這里的運(yùn)營(yíng)成本包括4個(gè)方面:原材料的生產(chǎn)成本、工廠加工成本、各環(huán)節(jié)運(yùn)輸成本和倉(cāng)儲(chǔ)成本。

      在MDP建模方面,i時(shí)刻的狀態(tài)包括以下部分:(i+1)時(shí)刻各個(gè)零售商面臨的需求數(shù)量、每一個(gè)節(jié)點(diǎn)當(dāng)前的庫(kù)存情況和(i+1)時(shí)刻的預(yù)計(jì)供給情況、當(dāng)前時(shí)刻距離本次算法迭代終止剩余可執(zhí)行動(dòng)作的步數(shù)。智能體需要在每個(gè)時(shí)刻決定所有的原材料生 產(chǎn)數(shù)量和資源流通情況,具體包括兩部分。第一部分是每個(gè)供應(yīng)商需要生產(chǎn)的原材料數(shù)量。為了便于模型學(xué)習(xí),所有動(dòng)作都用比例表示,例如供給節(jié)點(diǎn)j生產(chǎn)原材料的動(dòng)作aj表示生產(chǎn)cjaj個(gè)原料,其中,cj表示節(jié)點(diǎn)j的最大產(chǎn)量。第二部分是每個(gè)上游節(jié)點(diǎn)對(duì)下游節(jié)點(diǎn)供應(yīng)的數(shù)量。如節(jié)點(diǎn)i對(duì)節(jié)點(diǎn)j的供應(yīng)動(dòng)作表 示有的庫(kù)存需要從節(jié)點(diǎn)i運(yùn)出,其中,,Si表示節(jié)點(diǎn)i的庫(kù)存量。這樣設(shè)計(jì)的目的是保證總輸出量不超過(guò)庫(kù)存量,同時(shí)剩余量將作為庫(kù)存繼續(xù)保留。在獎(jiǎng)勵(lì)設(shè)計(jì)部分,為了保證最終能夠?qū)W習(xí)到全局最優(yōu)的策略,作者將所有的成本都考慮到獎(jiǎng)勵(lì)設(shè)計(jì)中,即整個(gè)獎(jiǎng)勵(lì)包括生產(chǎn)、運(yùn)輸、加工、存儲(chǔ)、原料廢棄以及沒(méi)有滿(mǎn)足客戶(hù)需求帶來(lái)的懲罰等部分??紤]到問(wèn)題的動(dòng)作空間很大,作者采用一種基于PPO的專(zhuān)用于GPU并行加速的PPO2算法進(jìn)行策略學(xué)習(xí)。通過(guò)訓(xùn)練并同主流的基于線(xiàn)性規(guī)劃的算法進(jìn)行對(duì)比,發(fā)現(xiàn)PPO2算法能夠降低約87.4%的未滿(mǎn)足需求,同時(shí)成本有約1.3%的下降。

      5 裝箱問(wèn)題

      裝箱問(wèn)題是一個(gè)NP完全問(wèn)題,早在20世紀(jì)70年代中期,Johnson D S等人[57]就證實(shí)了對(duì)于現(xiàn)有主流的兩種近似算法(降序首次適應(yīng)(first-fit decreasing,F(xiàn)FD)算法和降序最佳適應(yīng)(best-fit decreasing,BFD)算法)都能在時(shí)間復(fù)雜度的條件下達(dá) 到的近似性能保證。這兩種方法都先將待裝箱的物件按其大小進(jìn)行降序排序。不同的是,對(duì)于一個(gè)給定的物件i,F(xiàn)FD算法將依次遍歷箱子序列,并從中選擇第一個(gè)能裝下當(dāng)前物件i(即剩余空間大于s(i))的箱子;BFD會(huì)從所有能裝下當(dāng)前物件i的箱子中選擇剩余空間最小的箱子,即剩余空間大于s(i)且最接近s(i)的箱子。

      在實(shí)際應(yīng)用領(lǐng)域,產(chǎn)業(yè)界真實(shí)面對(duì)的不是上述最基礎(chǔ)的裝箱問(wèn)題,而是裝箱問(wèn)題的多種變體,如二維裝箱問(wèn)題、三維裝箱問(wèn)題,或需要考慮不同裝箱表面、箱子重量、箱子高度等信息的更復(fù)雜的裝箱問(wèn)題。根據(jù)實(shí)際情景中是否能提前知悉全部的物件信息,本文將裝箱問(wèn)題分為離線(xiàn)裝箱問(wèn)題和在線(xiàn)裝箱問(wèn)題,前者不僅可以知悉全部的物件信息,甚至可以根據(jù)策略決定裝箱順序;后者面對(duì)的是未知的物件序列,只能在物件到來(lái)時(shí)做出實(shí)時(shí)響應(yīng),執(zhí)行裝箱動(dòng)作。

      5.1 離線(xiàn)裝箱問(wèn)題

      基礎(chǔ)的離線(xiàn)裝箱問(wèn)題一般使用FFD和BFD這樣的近似算法或簡(jiǎn)單的線(xiàn)性規(guī)劃算法取得不錯(cuò)的結(jié)果。當(dāng)面對(duì)的是更加復(fù)雜的實(shí)際裝箱問(wèn)題時(shí),這些方法往往需要更加復(fù)雜的問(wèn)題建模,耗費(fèi)更長(zhǎng)的計(jì)算時(shí)間。學(xué)術(shù)界和產(chǎn)業(yè)界都在裝箱問(wèn)題上進(jìn)行過(guò)許多嘗試,來(lái)自菜鳥(niǎo)物流的Hu H Y等人[58]將強(qiáng)化學(xué)習(xí)應(yīng)用到裝箱問(wèn)題上。不同于使用固定大小的箱子的經(jīng)典裝箱問(wèn)題,考慮到在真實(shí)物流問(wèn)題上可以使用軟材料來(lái)打包物件,而打包成本又與材料的表面積相關(guān),這份工作針對(duì)的是經(jīng)典裝箱問(wèn)題的一個(gè)變體:如何使用最少的包裝材料把所有的三維物件打包好。具體來(lái)說(shuō),他們使用強(qiáng)化學(xué)習(xí)智能體來(lái)決定物件的打包順序,而打包時(shí)物件具體的擺放位置和方向則由一套固定的常規(guī)的啟發(fā)式規(guī)則來(lái)決定。強(qiáng)化學(xué)習(xí)智能體面對(duì)的狀態(tài)空間由需要打包的所有物件的大小組成,表示為,其中,li、wi、hi分別表示物件的長(zhǎng)、寬、高。他們從指針網(wǎng)絡(luò)(pointer network)[59]中獲得啟發(fā),將所有物件的大小信息依次輸入一個(gè)長(zhǎng)短期記憶(long short-term memory,LSTM)編碼器中,再由一個(gè)LSTM解碼器依次輸出物件的打包順序,即將物件的打包順序作為智能體的動(dòng)作空間。由LSTM編碼器和LSTM解碼器構(gòu)成的神經(jīng)網(wǎng)絡(luò)指示的隨機(jī)策略可以表示為p(o|s),而智能體的動(dòng)作則用打包物件的表面積進(jìn)行評(píng)估,表示為SA(o|s)。他們使用樸素的REINFORCE算法對(duì)策略進(jìn)行更新。緊接著,Hu H Y等人[60]在上述工作[58]的基礎(chǔ)上進(jìn)一步利用多任務(wù)的形式,結(jié)合使用強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí),使智能體同時(shí)決定物件打包的順序和擺放的方向。物件的打包順序仍舊基于指針網(wǎng)絡(luò)實(shí)現(xiàn),不同的是在策略的更新算法上使用了PPO算法。而物件的擺放方向則由一個(gè)分類(lèi)器決定,該分類(lèi)器是使用目前所得最佳方案中的擺放方向作為標(biāo)簽訓(xùn)練得到的。該工作在實(shí)驗(yàn)部分使用了真實(shí)的數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明,相比于之前廣泛使用的啟發(fā)式規(guī)則方法和Hu H Y等人[58]提出的強(qiáng)化學(xué)習(xí)方案,這樣的智能體能取得更好的結(jié)果。同時(shí),這一方法在真實(shí)生產(chǎn)環(huán)境中的應(yīng)用也展示出,相比原生產(chǎn)線(xiàn)之前使用的貪心算法,該方法更能節(jié)省生產(chǎn)線(xiàn)成本。

      不同于Hu H Y等人[58,60]采用類(lèi)似于seq2seq(sequence-to-sequence)的建模方法,來(lái)自InstaDeep公司的Laterre A等人[61]把三維裝箱問(wèn)題建模成一個(gè)馬爾可夫決策過(guò)程,并使用基于神經(jīng)網(wǎng)絡(luò)的蒙特卡洛樹(shù)搜索算法來(lái)解決三維裝箱問(wèn)題。與前面的工作類(lèi)似,強(qiáng)化學(xué)習(xí)智能體的狀態(tài)空間由待打包物件的大小組成,即。不同的是,智能體的動(dòng)作空間不只包含選擇的物件編號(hào),還包含其左下角的 擺 放位 置 坐標(biāo)(xi,yi,zi)、物 件 擺放時(shí)的旋轉(zhuǎn)方向oi,oi∈ {0 ,1,2,3,4,5}對(duì)應(yīng)長(zhǎng)方體的6種旋轉(zhuǎn)結(jié)果,即完整的動(dòng)作可以表 示為(i,xi,yi,zi,oi)。在該工作的解決方 案中,Laterre A等人[61]把三維裝箱問(wèn)題建模成一個(gè)單人游戲,為了進(jìn)一步提升智能體的決策表現(xiàn),他們還添加了一個(gè)獎(jiǎng)勵(lì)排名機(jī)制——?jiǎng)幼鞯莫?jiǎng)勵(lì)值通過(guò)對(duì)最近的裝箱操作的相對(duì)表現(xiàn)進(jìn)行重塑得到。具體而言,智能體最近的性能表現(xiàn)會(huì)被存入一個(gè)緩沖區(qū),對(duì)于設(shè)定的閾值α∈ ( 0,100%),僅當(dāng)動(dòng)作的性能表現(xiàn)超過(guò)緩沖區(qū)中α的記錄時(shí),智能體才能獲得一個(gè)正向的獎(jiǎng)勵(lì)值。這樣的獎(jiǎng)勵(lì)排名機(jī)制使得單個(gè)智能體在多次探索中得到類(lèi)似雙人游戲中與對(duì)手博弈的激勵(lì)作用。實(shí)驗(yàn)采用的數(shù)據(jù)集由隨機(jī)將原始箱子切成多個(gè)物件創(chuàng)建得來(lái),相比于傳統(tǒng)的蒙特卡洛樹(shù)搜索算法、啟發(fā)式算法和整數(shù)規(guī)劃算法,該方法顯示出更好的性能。

      Li D D等人[62]認(rèn)為使用啟發(fā)式規(guī)則來(lái)決定物件的擺放方向和放置位置或通過(guò)切割原始箱子的方式來(lái)獲取物件集合是這些方法的局限性,他們使用注意力機(jī)制來(lái)決定物件的擺放順序、擺放方向和擺放位置。在Li D D等人[62]的建模中,狀態(tài)空間由各個(gè)物件的信息組成,即其中表 示當(dāng)前 物件 是 否已打包的0-1因子,表 示物件的長(zhǎng)、寬、高,表示物件i當(dāng)前的坐標(biāo),分別為相對(duì)于箱子前端、左端、下端的距離;動(dòng)作空間的定義與Laterre A等人[61]的類(lèi)似,由物件編號(hào)i、擺放方向oi和擺放位 置共同 構(gòu)成;動(dòng)作的獎(jiǎng) 勵(lì) 值 函數(shù)則是一個(gè)增量函數(shù),獎(jiǎng)勵(lì)值由當(dāng)前箱子里的物件的體積計(jì)算得到。智能體的訓(xùn)練使用了A2C算法,與Hu H Y等人[60]提出的方法和一個(gè)遺傳算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,這一方法具有更小的箱子間隙比率(bin gap ratio),其中,W、L、H分別表示箱子的寬度、長(zhǎng)度和高度。

      Cai Q P等人[63]提出了一種基于強(qiáng)化學(xué)習(xí)算法初始化的啟發(fā)式算法優(yōu)化框架RLHO(reinforcement learning heuristic optimization),并結(jié)合使用PPO算法和模擬退火算法來(lái)解決一維裝箱問(wèn)題。在這兩種算法的結(jié)合中,PPO的輸出方案被當(dāng)作模擬退火算法的初始狀態(tài);而模擬退火算法則在有限次的迭代中尋找一個(gè)更好的解決方案,并基于最終找到的解決方案給PPO算法提供一個(gè)折扣未來(lái)獎(jiǎng)勵(lì)(discount future reward),從而指導(dǎo)PPO算法獲取更優(yōu)的初始狀態(tài)。在智能體的設(shè)計(jì)方面,狀態(tài)空間被定義為待裝箱物件的一個(gè)全排列;動(dòng)作空間則是這個(gè)全排列中任意兩個(gè)物件的排序交換;并以受當(dāng)前動(dòng)作影響,待裝箱物件的全排列對(duì)應(yīng)的裝箱成本的變化值作為智能體的即時(shí)獎(jiǎng)勵(lì)。這一工作的實(shí)驗(yàn)結(jié)果表明,基于RLHO框架,將PPO算法和模擬退火算法結(jié)合的方式能夠取得比僅使用PPO算法或僅使用基于隨機(jī)初始化的模擬退火算法更好的結(jié)果。

      5.2 在線(xiàn)裝箱問(wèn)題

      與離線(xiàn)裝箱問(wèn)題不同的是,在線(xiàn)裝箱問(wèn)題無(wú)法得知未來(lái)到達(dá)物件的信息,因而只能通過(guò)動(dòng)態(tài)策略求解,不存在靜態(tài)裝箱解,相比之下,在線(xiàn)裝箱問(wèn)題要取得一個(gè)好的全局解更加困難。

      與以往把箱子和待裝箱物件的大小編碼作為輸入的方式不同,Kundu O等人[64]結(jié)合使用計(jì)算機(jī)視覺(jué)的技術(shù),把箱子的實(shí)時(shí)狀態(tài)和待裝箱物件都表示為一個(gè)W×H的0-1矩陣(被物件占據(jù)的位置用0表示,可放置物件的位置用1表示)。這兩個(gè)W×H的矩陣被拼接在一起,共同組成一個(gè)形狀為W×2H的輸入狀態(tài)s。在強(qiáng)化學(xué)習(xí)智能體的動(dòng)作空間的設(shè)計(jì)上,Kundu O等人[64]考慮的是待裝箱物件的左上角的擺放位置,因而對(duì)于一個(gè)橫截面為W×H的箱子而言,有W×H個(gè)可行的動(dòng)作,再加上一個(gè)不將當(dāng)前物件裝入當(dāng)前箱子的動(dòng)作,共同夠成了大小為W×H+1的動(dòng)作空間。在獎(jiǎng)勵(lì)值函數(shù)的設(shè)計(jì)上,對(duì)于實(shí)際無(wú)法擺放物件的無(wú)效動(dòng)作,給予一個(gè)負(fù)反饋;對(duì)于有效動(dòng)作,則將物件擺放后的連通區(qū)域大小和擺放緊密度的乘積作為動(dòng)作的獎(jiǎng)勵(lì)值。這里的連通區(qū)域大小指的是緊鄰新物件4條邊的區(qū)域數(shù),可以對(duì)那些把新物件緊鄰舊物件擺放的動(dòng)作起到一定正向激勵(lì)作用;而擺放緊密度則表示連通區(qū)域的大小占包含該連通區(qū)域的最小長(zhǎng)方形的比值,用于鼓勵(lì)使得連通的物件的形狀更接近于長(zhǎng)方形的擺放動(dòng)作。實(shí)驗(yàn)結(jié)果表明,這種基于計(jì)算機(jī)視覺(jué)和強(qiáng)化學(xué)習(xí)的在線(xiàn)裝箱方法能夠取得比現(xiàn)有在線(xiàn)裝箱方法更優(yōu)的性能表現(xiàn)。

      Verma R等人[65]在在線(xiàn)裝箱問(wèn)題的狀態(tài)空間的建模上使用了和Kundu O等人[64]相似的思路——用一個(gè)二維矩陣表示箱子自上而下的投影。不同的是,由于研究問(wèn)題從二維裝箱轉(zhuǎn)換到三維裝箱,僅用0、1表示投影點(diǎn)的狀態(tài)遠(yuǎn)不足夠,因而每個(gè)投影點(diǎn)又進(jìn)一步地使用一個(gè)值表示當(dāng)前碼垛物件的高度。此外,為了避免動(dòng)作空間過(guò)大帶來(lái)的探索效率過(guò)低的問(wèn)題,也為了有效利用人為總結(jié)出來(lái)的有效規(guī)律(如把物件緊鄰已有物件擺放會(huì)更高效),Verma R等人[65]使用一種兩階段決策的模式:首先基于一些基礎(chǔ)規(guī)則篩選出物件擺放方向和位置的合法可行解,這些可行解主要包含將物件擺放在箱子的四角和緊鄰已擺放物件的四角的擺放方式;其次,基于DQN算法的價(jià)值函數(shù),從中選擇一個(gè)擺放方案。在獎(jiǎng)勵(lì)值函數(shù)的設(shè)定方面,作者認(rèn)為在三維裝箱問(wèn)題上沒(méi)有顯式的單步獎(jiǎng)勵(lì),他們通過(guò)將裝箱序列的最終獎(jiǎng)勵(lì)值定義為整個(gè)裝箱序列最終的裝箱比率,并結(jié)合一個(gè)指數(shù)衰減函數(shù)來(lái)反推得到每步的單步獎(jiǎng)勵(lì)值的方式,推進(jìn)這一強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練學(xué)習(xí)。

      來(lái)自國(guó)防科學(xué)技術(shù)大學(xué)的Zhao H等人[66]使用了A2C的算法,其利用傳感器獲取箱子當(dāng)前的狀態(tài)信息,得到一個(gè)自上而下視角的碼垛高度的投影矩陣H,假定大小為L(zhǎng)×W。與此同時(shí),待擺放物件i的長(zhǎng)li、寬wi、高h(yuǎn)i信息也被分別填充進(jìn)3個(gè)L×W的矩陣中,構(gòu)成形狀為L(zhǎng)×W×3的待擺放物件i的大小信息Di。而智能體的狀態(tài)空間則由把H和Di拼接得到的L×W×4的信息輸入一層狀態(tài)卷積網(wǎng)絡(luò)得到。同樣,為了避免探索過(guò)程中的無(wú)效動(dòng)作過(guò)多(這里的無(wú)效動(dòng)作指的是無(wú)法擺放物件的動(dòng)作),Zhao H等人[66]引入了一個(gè)可行動(dòng)作空間掩碼的預(yù)測(cè)器,而智能體僅在actor的輸出中選取未被可行動(dòng)作掩碼預(yù)測(cè)器篩除的有效動(dòng)作。掩碼預(yù)測(cè)器的監(jiān)督學(xué)習(xí)機(jī)制使得智能體的交互學(xué)習(xí)過(guò)程以更快的效率收斂。對(duì)于獎(jiǎng)勵(lì)值的設(shè)計(jì)部分,直接使用每一步動(dòng)作帶來(lái)的箱子空間占用率的提升量作為單步獎(jiǎng)勵(lì),實(shí)驗(yàn)結(jié)果表明,這種單步獎(jiǎng)勵(lì)的設(shè)定方法要優(yōu)于將最終箱子空間占用率作為最終獎(jiǎng)勵(lì)值的方法。

      6 結(jié)束語(yǔ)

      資源優(yōu)化問(wèn)題無(wú)處不在,更好的資源優(yōu)化方案會(huì)帶來(lái)更好的經(jīng)濟(jì)、社會(huì)效益。本文調(diào)研了強(qiáng)化學(xué)習(xí)在資源優(yōu)化領(lǐng)域的最新應(yīng)用,并針對(duì)3類(lèi)重要的優(yōu)化問(wèn)題,即資源平衡問(wèn)題、資源分配問(wèn)題和裝箱問(wèn)題,就各個(gè)問(wèn)題的特性、各個(gè)解決方案的問(wèn)題建模和算法設(shè)計(jì)展開(kāi)了詳細(xì)介紹,以期能幫助讀者更好地理解各領(lǐng)域。

      雖然強(qiáng)化學(xué)習(xí)在解決實(shí)際資源優(yōu)化問(wèn)題方面取得了很多重要突破,但是目前仍存在一些問(wèn)題亟待解決。首先,訓(xùn)練強(qiáng)化學(xué)習(xí)算法需要建立模擬環(huán)境或大量的歷史數(shù)據(jù),這提高了部署強(qiáng)化學(xué)習(xí)的方案門(mén)檻,很多小規(guī)模的優(yōu)化場(chǎng)景很難應(yīng)用。其次,訓(xùn)練算法需要大量計(jì)算資源,同時(shí)為了應(yīng)對(duì)實(shí)際問(wèn)題中的動(dòng)態(tài)變化,需要定期地更新模型。這些都代表著巨大的計(jì)算成本。最后,大部分強(qiáng)化學(xué)習(xí)方案不具備普適性,需要根據(jù)具體的業(yè)務(wù)場(chǎng)景進(jìn)行定制。這就需要大量強(qiáng)化學(xué)習(xí)專(zhuān)家的參與,難以形成規(guī)模效應(yīng)。鑒于這些問(wèn)題,研究者期待數(shù)據(jù)依賴(lài)更小、計(jì)算成本更低并且具有普適性的強(qiáng)化學(xué)習(xí)解決方案的出現(xiàn)。

      猜你喜歡
      裝箱物件動(dòng)作
      打開(kāi)話(huà)匣子的好物件
      老物件
      舊元素,新物件
      老物件,大樂(lè)趣
      收藏界(2018年3期)2018-10-10 05:34:04
      動(dòng)作描寫(xiě)要具體
      電機(jī)裝箱設(shè)計(jì)系統(tǒng)解決方案和應(yīng)用
      畫(huà)動(dòng)作
      動(dòng)作描寫(xiě)不可少
      三維貨物裝箱問(wèn)題的研究進(jìn)展
      非同一般的吃飯動(dòng)作
      绥滨县| 化州市| 肇庆市| 象州县| 新密市| 娄烦县| 台江县| 阿尔山市| 余江县| 兴隆县| 清镇市| 枞阳县| 寿阳县| 汪清县| 手机| 海城市| 巨野县| 平利县| 磴口县| 绩溪县| 大余县| 灯塔市| 出国| 新河县| 威宁| 安康市| 通化市| 荣成市| 郓城县| 洪洞县| 汉寿县| 丹江口市| 嘉荫县| 图们市| 锦州市| 泾阳县| 长海县| 潜山县| 平昌县| 休宁县| 安塞县|