• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多智能體的生鮮農(nóng)產(chǎn)品多級(jí)庫存成本控制模型

      2023-09-25 19:32:16李姣姣何利力鄭軍紅
      計(jì)算機(jī)時(shí)代 2023年9期
      關(guān)鍵詞:強(qiáng)化學(xué)習(xí)生鮮農(nóng)產(chǎn)品供應(yīng)鏈

      李姣姣 何利力 鄭軍紅

      摘? 要: 針對(duì)生鮮農(nóng)產(chǎn)品多級(jí)庫存成本控制問題,運(yùn)用多智能強(qiáng)化學(xué)習(xí)思想,從供應(yīng)鏈視角抽象出批發(fā)商與零售商智能體,引入三參數(shù)Weibull函數(shù)描述生鮮農(nóng)產(chǎn)品的損腐特征,使用深度雙Q網(wǎng)絡(luò)算法構(gòu)建基于多智能體的生鮮農(nóng)產(chǎn)品多級(jí)庫存成本控制模型。該模型基于智能體間相互合作,優(yōu)化訂貨并控制多級(jí)庫存成本。實(shí)驗(yàn)結(jié)果表明,基于多智能體的庫存成本控制模型能夠在一定程度上減輕供應(yīng)鏈多級(jí)庫存中的牛鞭效應(yīng),有效降低各級(jí)庫存成本,減少生鮮損腐。

      關(guān)鍵詞: 生鮮農(nóng)產(chǎn)品; 多智能體; 強(qiáng)化學(xué)習(xí); 多級(jí)庫存成本控制; 供應(yīng)鏈

      中圖分類號(hào):TP181;F253? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)09-81-06

      Multi-level inventory cost control model of fresh agricultural

      products based on multi-agent

      Li Jiaojiao, He Lili, Zheng Junhong

      (College of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018, China)

      Abstract: Aiming at the problem of multi-level inventory cost control of fresh agricultural products, the idea of multi-agent reinforcement learning is used to abstract the agents of wholesaler and retailer from the perspective of supply chain. The three-parameter Weibull function is introduced to describe the spoilage characteristics of fresh agricultural products, and the Double Deep Q Network algorithm is applied to construct a multi-agent-based multi-level inventory cost control model of fresh agricultural products. The model is based on mutual cooperation among agents to optimize ordering and control multi-level inventory cost. The experimental results show that the proposed model can mitigate the bullwhip effect of multi-level inventory in the supply chain to a certain extent, effectively reduce inventory costs at all levels, and minimize spoilage losses.

      Key words: fresh agricultural products; multi-agent; reinforcement learning; multi-level inventory cost control; supply chain

      0 引言

      供應(yīng)鏈包括從原材料采購開始到中間商制造半成品和最終產(chǎn)品,最后由銷售企業(yè)將產(chǎn)品和服務(wù)送達(dá)末端消費(fèi)者的活動(dòng)所構(gòu)成的全部網(wǎng)絡(luò)系統(tǒng),具有動(dòng)態(tài)性、層次性和交叉性等特點(diǎn)。牛鞭效應(yīng)在供應(yīng)鏈中普遍存在,其典型表現(xiàn)為當(dāng)供應(yīng)鏈的各節(jié)點(diǎn)企業(yè)僅根據(jù)其相鄰的下級(jí)企業(yè)需求信息進(jìn)行生產(chǎn)或供應(yīng)決策時(shí),需求信息的真實(shí)性會(huì)沿著供應(yīng)鏈從下游到上游逐級(jí)放大,當(dāng)信息傳遞到最上游供應(yīng)商時(shí),其獲得的需求信息和實(shí)際消費(fèi)市場(chǎng)中顧客需求信息有較大偏差,需求變異系數(shù)遠(yuǎn)大于分銷商和零售商。由于這種需求放大效應(yīng)的影響,上游供應(yīng)商往往比下游供應(yīng)商維持更高的庫存水平[1]。

      生鮮農(nóng)產(chǎn)品包括果蔬、肉類、水產(chǎn)品等初級(jí)產(chǎn)品,具有保質(zhì)期短、易損腐、儲(chǔ)存困難等特性,我國果蔬、肉類、水產(chǎn)品腐損率分別高達(dá)15%、8%、10%,商家難以合理安排訂貨/出貨,造成庫存管理難度大、庫存成本高和客戶滿意度低等問題。供應(yīng)鏈環(huán)境下制定生鮮農(nóng)產(chǎn)品多級(jí)庫存控制策略更加復(fù)雜和困難,因此有必要對(duì)其進(jìn)行研究[2]。

      傳統(tǒng)的庫存管理模型能夠降低庫存成本,但在實(shí)際運(yùn)用中存在較大局限性。ABC庫存管理法和CVA(Critical Value Analysis)庫存管理法[3]無法給出科學(xué)定量的庫存控制方案,經(jīng)濟(jì)訂貨批量模型的前提條件較為苛刻,供應(yīng)商管理庫存模型、協(xié)同式庫存管理模型和聯(lián)合庫存管理模型[4]管理成本高、操作難度大。

      強(qiáng)化學(xué)習(xí)方法可用于研究序貫決策和最優(yōu)控制問題,近年來,有學(xué)者研究強(qiáng)化學(xué)習(xí)多級(jí)庫存的控制問題。湯大為等[5]針對(duì)兩級(jí)庫存系統(tǒng)使用Q-learning研究訂貨策略。Jiang和Sheng[6]提出一種基于案例的強(qiáng)化學(xué)習(xí)算法,用于多智能體供應(yīng)鏈系統(tǒng)的動(dòng)態(tài)庫存控制。Yu等[7]基于多智能體深度強(qiáng)化學(xué)習(xí)方法求解考慮固定時(shí)間窗和橫向轉(zhuǎn)運(yùn)的兩級(jí)備件庫存控制問題。目前針對(duì)生鮮農(nóng)產(chǎn)品的多級(jí)庫存研究較少。

      本文針對(duì)生鮮農(nóng)產(chǎn)品多層次、多節(jié)點(diǎn)的供應(yīng)鏈結(jié)構(gòu),運(yùn)用多智能強(qiáng)化學(xué)習(xí)思想,從供應(yīng)鏈視角抽象出批發(fā)商、零售商智能體,并引入三參數(shù)Weibull函數(shù)描述生鮮農(nóng)產(chǎn)品的損腐特征,使用DDQN(Double Deep Q Network,DDQN)算法構(gòu)建基于多智能體的生鮮農(nóng)產(chǎn)品多級(jí)庫存成本控制模型。通過供應(yīng)鏈上各個(gè)層次各個(gè)節(jié)點(diǎn)的相互合作,優(yōu)化訂貨并控制庫存成本。

      1 算法理論與方法

      1.1 多智能體強(qiáng)化學(xué)習(xí)

      馬爾可夫性質(zhì)是指下一狀態(tài)僅取決于當(dāng)前狀態(tài),而不考慮歷史狀態(tài)。滿足馬爾可夫性質(zhì)的強(qiáng)化學(xué)習(xí)任務(wù)稱為馬爾可夫決策過程(Markov Decision Process,MDP)[8]。MDP狀態(tài)轉(zhuǎn)移函數(shù)為

      [p(s'|s,a)=P(St+1=s'|St=s, At=a)]? ⑴

      強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)是MDP。如圖1所示,在強(qiáng)化學(xué)習(xí)過程中,智能體和環(huán)境一直交互。智能體感知當(dāng)前所處環(huán)境的狀態(tài),經(jīng)過計(jì)算給出動(dòng)作。環(huán)境根據(jù)智能體的動(dòng)作,生成相應(yīng)的即時(shí)獎(jiǎng)勵(lì)以及下一狀態(tài)。智能體目的是最大化多輪交互過程中獲得的累計(jì)獎(jiǎng)勵(lì)的期望[9]。

      多智能體強(qiáng)化學(xué)習(xí)(Multi-agent Reinforcement Learning,MARL)是由強(qiáng)化學(xué)習(xí)和多智能體系統(tǒng)結(jié)合而成的新領(lǐng)域。多智能體的情形相比單智能體更加復(fù)雜,因?yàn)槊總€(gè)智能體在和環(huán)境交互的同時(shí)也在和其他智能體進(jìn)行直接或者間接的交互。因此,多智能體強(qiáng)化學(xué)習(xí)比單智能體更困難。

      1.2 深度雙Q網(wǎng)絡(luò)

      Watkins和Dayan[10]提出的Q-learning方法,是一種基于價(jià)值迭代的強(qiáng)化學(xué)習(xí)算法。Q-learning算法通過構(gòu)建Q值表存儲(chǔ)狀態(tài)-行動(dòng)對(duì)的值,并根據(jù)Q值選擇最優(yōu)動(dòng)作。Q-learning中通過求解貝爾曼最優(yōu)方程確定最優(yōu)價(jià)值函數(shù)和最優(yōu)策略。貝爾曼最優(yōu)方程為

      [Q*s,a=Es'~p(.|s,a)[Rs,a+γmaxa'Q*s',a'|s,a]]? ⑵

      Q-learning算法的動(dòng)作值函數(shù)更新迭代式為:

      [Q(s,a)←Q(s,a)+α(r+γmaxa'Q(s',a')-Q(s,a))] ⑶

      Q-learning存在非均勻高估問題,另外Q-learning在處理大數(shù)據(jù)問題時(shí)存在維度災(zāi)難問題。因此,Q-learning在現(xiàn)實(shí)中表現(xiàn)不佳。

      Mnih等將神經(jīng)網(wǎng)絡(luò)和Q-learning相結(jié)合提出深度Q網(wǎng)絡(luò)(Deep Q Networks,DQN)。其中目標(biāo)網(wǎng)絡(luò)緩解了Q-learning自舉造成的高估,經(jīng)驗(yàn)回放打破了序列的相關(guān)性。DQN預(yù)測(cè)網(wǎng)絡(luò)的優(yōu)化目標(biāo):

      [y=r+γQ(s',argmaxa'Q(s',a';θ');θ')] ⑷

      在DQN基礎(chǔ)上,Van Hasselt等[11]將行為選擇和行為評(píng)估分離,提出DDQN,進(jìn)一步降低Q-learning最大化導(dǎo)致的高估。DDQN中使用目標(biāo)網(wǎng)絡(luò)做最優(yōu)動(dòng)作選擇,再用預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行動(dòng)作評(píng)估。DDQN預(yù)測(cè)網(wǎng)絡(luò)優(yōu)化目標(biāo):

      [y=r+γQs',argmaxa'Qs',a';θ;θ'] ⑸

      1.3 三參數(shù)Weibull函數(shù)描述易損腐物品

      三參數(shù)Weibull分布是概率論中一種連續(xù)型分布,是壽命檢驗(yàn)和可靠性分析的理論基礎(chǔ)。三參數(shù)Weibull分布應(yīng)用十分廣泛,如擬合度的模擬、電子元器件的失效情況和物品的變質(zhì)等諸多方面[12]。本文引入三參數(shù)Weibull分布描述生鮮農(nóng)產(chǎn)品的損腐特性。

      三參數(shù)Weibull分布函數(shù)和它的密度函數(shù)分別為:

      [Ft=1-e-αt-γβ] ⑹

      [ft=αβt-γβ-1e-αt-γβ] ⑺

      其中,α、β、γ分別是三參數(shù)Weibull函數(shù)的尺度因子、形狀因子和位置因子,t為時(shí)間。

      2 研究?jī)?nèi)容

      2.1 業(yè)務(wù)模型

      如圖2所示完整的供應(yīng)鏈模型由供應(yīng)商、制造商、批發(fā)商、零售商和顧客組成,本文研究的問題是針對(duì)制造商、批發(fā)商、零售商、顧客的多級(jí)庫存系統(tǒng)。

      圖3給出本文研究的供應(yīng)鏈結(jié)構(gòu)示意圖,該模型是一個(gè)多層次、多節(jié)點(diǎn)的供應(yīng)鏈結(jié)構(gòu)。第二層批發(fā)商負(fù)責(zé)向第三層中有向線段連接的零售商供貨,零售商直接承接顧客需求,同層次節(jié)點(diǎn)間沒有業(yè)務(wù)往來,業(yè)務(wù)關(guān)系僅發(fā)生在上下層之間。

      零售商每天向批發(fā)商提交訂貨訂單,為滿足顧客需求,零售商每天更新一次庫存。批發(fā)商每天向制造商提交訂貨訂單,向零售商提供貨物。當(dāng)產(chǎn)生多個(gè)零售商訂單而批發(fā)商的貨物不足以滿足所有訂單時(shí),則先滿足先到達(dá)的訂單。其中,制造商的商品數(shù)量無限。商品生命周期用l表示,商品被批發(fā)商接收后,就進(jìn)入生命周期,生存期也開始增加。

      銷售產(chǎn)品使用先進(jìn)先出策略,即先賣生存期大的產(chǎn)品以滿足下游節(jié)點(diǎn)需求。若商品生存期大于生命周期[l],就產(chǎn)生過期成本;若商品生存期在損腐期內(nèi)就產(chǎn)生損腐成本;若商品無法滿足下游節(jié)點(diǎn)需求,缺貨數(shù)量的訂單就會(huì)被取消,并產(chǎn)生缺貨成本。

      具體業(yè)務(wù)流程如下:

      ⑴ 零售商和批發(fā)商將上一日訂購的商品入庫,并更新庫存。

      ⑵ 零售商接收顧客需求,批發(fā)商接收零售商需求,如果能滿足需求則計(jì)算是否產(chǎn)生過期量和損腐量;如果不能滿足需求則產(chǎn)生缺貨量。

      ⑶ 計(jì)算各個(gè)節(jié)點(diǎn)今日剩余庫存量和庫存成本,并更新庫存。

      ⑷ 每個(gè)節(jié)點(diǎn)根據(jù)多智能體庫存成本控制模型制定的訂貨策略,向上游節(jié)點(diǎn)發(fā)送次日訂貨量

      生鮮農(nóng)產(chǎn)品是易損腐類產(chǎn)品,損腐率使用非線性函數(shù)μ(t),損腐率公式如下:

      [μt=ft1-Ft=αβt-γβ-1] ⑻

      當(dāng)損腐率參數(shù)滿足γ > 0且1<β < 2時(shí),物品剛進(jìn)入庫存系統(tǒng)時(shí)損腐率為零,經(jīng)過一段時(shí)間后物品才會(huì)損腐,這類模型就是具有時(shí)滯性質(zhì)的或者保質(zhì)期的易損腐產(chǎn)品庫存模型。損腐率變化情況如圖4所示。

      2.2 多智能體DDQN算法模型

      表1? 符號(hào)定義表

      [數(shù)學(xué)符號(hào) 含義 [si] 生存期為i的產(chǎn)品數(shù)量 [p] 單位售價(jià) [k] 單位進(jìn)價(jià) [c1] 單位過期費(fèi) [c2] 單位缺貨費(fèi) [c3] 一次訂貨固定訂貨費(fèi) [c4] 單位持有費(fèi) [c5] 單位損腐費(fèi) [n1] 過期數(shù)量 [n2] 缺貨數(shù)量 [d] 顧客需求數(shù)量 [xi] 生存期為i的損腐數(shù)量 [q'] 上級(jí)節(jié)點(diǎn)提供的產(chǎn)品數(shù)量 ]

      本文將零售商和批發(fā)商的概念集成到多智能體系統(tǒng)當(dāng)中,使每個(gè)節(jié)點(diǎn)代表虛擬世界中的一個(gè)智能體,并將其多參數(shù)多目標(biāo)集寫入多智能體系統(tǒng)的算法程序中,運(yùn)用DDQN方法解決生鮮農(nóng)產(chǎn)品多級(jí)庫存的成本控制問題,下面分別給出各個(gè)智能體相關(guān)要素的定義。其中符號(hào)定義如表1所示。

      2.2.1 狀態(tài)空間

      在MDP問題中,狀態(tài)是智能體感知到的環(huán)境描述及其動(dòng)態(tài)變化。如果產(chǎn)品當(dāng)前處于生命周期內(nèi),但產(chǎn)品數(shù)量不足,則認(rèn)為是缺貨。產(chǎn)品生存期在損腐時(shí)期內(nèi)就以一定比例進(jìn)行損腐。如果產(chǎn)品有庫存但不在生命周期內(nèi),則視為過期。滿足庫存充足和生命周期要求的產(chǎn)品,視為可供銷售。[l]為產(chǎn)品生命周期,狀態(tài)變量為l維向量。狀態(tài)空間可表示為:

      [s=s0,…,si,…,sl-1]? ⑼

      2.2.2 動(dòng)作空間

      動(dòng)作是智能體發(fā)出的行為和動(dòng)作,以及智能體與環(huán)境之間的動(dòng)作交互。節(jié)點(diǎn)i所管轄范圍內(nèi)的最底層顧客j需求[Dj~N(μj,σ2j)],需求數(shù)據(jù)分布在[(μj-3σj,]

      [μj+3σj)]的概率是99.73%,本文實(shí)驗(yàn)滿足[μj-3σj>0],因此設(shè)[q]為訂貨數(shù)量,[q∈[0,j=1mμj+3σj]]取整數(shù)。節(jié)點(diǎn)動(dòng)作空間可表示為:

      [a=q] ⑽

      2.2.3 獎(jiǎng)勵(lì)函數(shù)

      獎(jiǎng)勵(lì)是由環(huán)境給的一種標(biāo)量的反饋信號(hào),這種信號(hào)可顯示智能體在某一步采取某個(gè)策略的表現(xiàn)如何。強(qiáng)化學(xué)習(xí)的目的就是最大化智能體可以獲得的獎(jiǎng)勵(lì),智能體在環(huán)境中存在的目的就是最大化它的期望的累積獎(jiǎng)勵(lì)。節(jié)點(diǎn)的庫存成本由過期、損腐、缺貨、訂貨和持有成本組成。節(jié)點(diǎn)滿足完需求后剩余庫存量為:

      [n3=i=0l-1si-n1-d-i=γl-1xi] ? ⑾

      節(jié)點(diǎn)庫存成本可表示為:

      [c=c1n1+c2n2+c3+kq'+c4n3+c5i=γl-1xi]? ⑿

      零售商獎(jiǎng)勵(lì)等于自己的庫存成本。批發(fā)商獎(jiǎng)勵(lì)等于自己及管轄的所有零售商庫存成本之和。

      3 實(shí)驗(yàn)與評(píng)測(cè)

      3.1 實(shí)驗(yàn)設(shè)計(jì)

      本文以生鮮農(nóng)產(chǎn)品多級(jí)庫存成本最小化為目標(biāo),建立包括一個(gè)制造商、一個(gè)批發(fā)商和三個(gè)零售商的多級(jí)供應(yīng)鏈庫存成本控制模型。

      根據(jù)上述業(yè)務(wù)與算法模型分析,首先設(shè)置智能體的神經(jīng)網(wǎng)絡(luò),每個(gè)智能體有兩個(gè)結(jié)構(gòu)相同參數(shù)不同的神經(jīng)網(wǎng)絡(luò):預(yù)測(cè)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。預(yù)測(cè)網(wǎng)絡(luò)在訓(xùn)練中的每一步都會(huì)更新,而目標(biāo)網(wǎng)絡(luò)每隔一個(gè)周期才更新一次。設(shè)經(jīng)驗(yàn)池容量為1000000,每回合隨機(jī)采樣,折扣率設(shè)為0.95。使用ε-greedy探索策略來選擇動(dòng)作,初始時(shí)以ε=0.9隨機(jī)選擇動(dòng)作,此時(shí)探索力度最大。在訓(xùn)練的過程中,ε逐漸衰減直至最終ε=0。

      在這個(gè)過程中多智能體庫存成本控制模型訓(xùn)練逐漸從“強(qiáng)探索弱利用”過渡到“弱探索強(qiáng)利用”。結(jié)合固定訂貨量庫存成本控制模型,對(duì)比多智能體庫存成本控制模型能否有效降低生鮮農(nóng)產(chǎn)品庫存成本。

      實(shí)驗(yàn)以白菜為例,跟據(jù)2022年國家統(tǒng)計(jì)局?jǐn)?shù)據(jù)得白菜供應(yīng)鏈零售商和批發(fā)商參數(shù)值如表2所示。以1000天為一個(gè)周期,每個(gè)節(jié)點(diǎn)每天只進(jìn)行一次發(fā)送訂單和入庫操作,庫存成本為1000c。零售商損腐率:μ(t)= 0.3(t-1)0.5,批發(fā)商損腐率:μ(t)=0.14(t-2)0.4。

      表2? 實(shí)驗(yàn)參數(shù)

      [參數(shù) 零售商 批發(fā)商 進(jìn)價(jià)/(元/500g) 0.65 0.45 售價(jià)/(元/500g) 1.4 0.65 過期費(fèi)/(元/500g) 0.65 0.45 缺貨費(fèi)/(元/500g) 1.4 0.65 持有費(fèi)/(元/500g) 0.2 0.05 損腐費(fèi)/(元/500g) 0.65 0.45 固定訂貨費(fèi)/(元/次) 1 30 ]

      固定訂貨量庫存成本控制模型的批發(fā)商采用定期定量訂貨法,零售商的訂貨服從正態(tài)分布,其訂貨的分布函數(shù)與需求的分布函數(shù)一致;多智能體庫存成本控制模型采用DDQN方法。兩種模型參數(shù)如損腐率、安全庫存、訂貨周期、訂貨提前期和產(chǎn)品生命周期等均一致。本文假設(shè)顧客需求都服從正態(tài)分布,以1000天為一個(gè)周期,每天只進(jìn)行一次發(fā)送訂單和入庫操作。將成本匯總得出結(jié)論。

      3.2 結(jié)果分析

      圖5和圖6分別為實(shí)驗(yàn)中三個(gè)零售商需求函數(shù)服從正態(tài)分布N(100,102)和N(1000,1002)時(shí),固定訂貨量庫存成本控制模型和多智能體庫存成本控制模型在相同條件下的庫存成本變化曲線。

      如圖5所示,在訓(xùn)練初始階段,由于動(dòng)作網(wǎng)絡(luò)均處于動(dòng)作探索階段,因此多智能體庫存成本控制模型庫存的各個(gè)節(jié)點(diǎn)庫存成本較高,且存在較大波動(dòng)。隨著智能體開始從經(jīng)驗(yàn)池中提取歷史數(shù)據(jù)進(jìn)行學(xué)習(xí),成本逐漸呈現(xiàn)明顯下降趨勢(shì)。到250周期時(shí),多智能體庫存成本控制模型中三個(gè)零售商收斂于7萬元左右;批發(fā)商收斂于16.65萬元附近;批發(fā)商和所有零售商的成本之和收斂于37.68萬元附近。在圖6中,訓(xùn)練到950周期時(shí),多智能體庫存成本控制模型的批發(fā)商和所有零售商的成本之和收斂于345.08萬元附近,庫存成本低于固定訂貨量庫存成本控制模型。

      如表3所示,當(dāng)所有零售商需求都服從正態(tài)分布N(100,102)時(shí),多智能體庫存成本控制模型的三個(gè)零售商和批發(fā)商的庫存成本相對(duì)于固定訂貨量100庫存成本控制模型分別降低9.30%、9.01%、9.72%和11.51%,多智能體庫存成本控制模型的批發(fā)商和所有零售商的庫存成本之和比固定訂貨量100庫存成本控制模型降低10.31%。當(dāng)所有零售商需求都服從正態(tài)分布N(1000,1002)時(shí),多智能體庫存成本控制模型的三個(gè)零售商和批發(fā)商的庫存成本相對(duì)于固定訂貨量1000庫存成本控制模型分別降低9.67%、10.19%、10.09%和10.20%,多智能體庫存成本控制模型的批發(fā)商和所有零售商的庫存成本之和比固定訂貨量1000庫存成本控制模型降低10.07%。同時(shí),多智能體庫存成本控制模型的損腐量比固定訂貨量庫存成本控制模型的損腐量更少??梢钥闯?,多智能體庫存成本控制模型優(yōu)于固定訂貨量庫存成本控制模型。

      4 結(jié)束語

      本文運(yùn)用多智能體強(qiáng)化學(xué)習(xí)思想,從供應(yīng)鏈角度抽象出供應(yīng)商、零售商智能體,使用深度強(qiáng)化學(xué)習(xí)中的DDQN算法對(duì)生鮮農(nóng)產(chǎn)品多級(jí)庫存管理進(jìn)行模擬建模,體現(xiàn)供應(yīng)鏈中各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)結(jié)構(gòu)關(guān)系,通過智能體間的相互合作,優(yōu)化訂貨并控制多級(jí)庫存成本。實(shí)驗(yàn)表明基于多智能體的生鮮農(nóng)產(chǎn)品多級(jí)庫存成本控制模型能夠有效地提高供應(yīng)鏈庫存管理水平、降低庫存費(fèi)用和提高供應(yīng)鏈上各商家的經(jīng)濟(jì)效益,解決庫存量居高不下、損腐量高和庫存成本高等問題,實(shí)現(xiàn)多級(jí)庫存的智能控制。

      參考文獻(xiàn)(References):

      [1] 梁學(xué)棟,劉大成,李智,等.供應(yīng)鏈管理[M].北京:經(jīng)濟(jì)管理出版社,2020:145-149.

      [2] 馮繼豪.基于Flexsim的生鮮農(nóng)產(chǎn)品多級(jí)庫存控制策略仿真優(yōu)化[D].河南:河南農(nóng)業(yè)大學(xué),2017.

      [3] 樂美龍.供應(yīng)鏈管理[M].上海:上海交通大學(xué)出版社,2021:19-20.

      [4] 劉鵬飛,謝如鶴.基于供應(yīng)鏈的現(xiàn)代庫存管理方法之比較研究[J].商業(yè)研究,2006(2):170-174.

      [5] 湯大為,王紅衛(wèi).強(qiáng)化學(xué)習(xí)算法在供應(yīng)鏈環(huán)境下的庫存控制中的應(yīng)用[J].管理學(xué)報(bào),2005(3):358-361.

      [6] Jiang C, Sheng Z. Case-based reinforcement learning fordynamic inventory control in a multi-agent supply-chain system[J]. Expert Systems with Applications,2009,36(3):6520-6526.

      [7] Yu C, Zhou Y, Zhang Z. Multi-Agent ReinforcementLearning for Dynamic Spare Parts Inventory Control[A].2020 Global Reliability and Prognostics and Health Management (PHM-Shanghai)[C].Piscataway, NJ: IEEE,2020:1-6.

      [8] 王樹森,黎彧君,張志華.深度強(qiáng)化學(xué)習(xí)[M].北京:人民郵電出版社,2022:31-32.

      [9] Sutton R S, Barto A G. Reinforcement learning: Anintroduction[M]. MIT press,2018:1-7.

      [10] Watkins C J C H, Dayan P. Q-learning[J]. Machinelearning,1992,8:279-292.

      [11] Van Hasselt H, Guez A, Silver D. Deep reinforcement?learning with double q-learning[A].Proceedings of the AAAI conference on artificial intelligence[C].Palo Alto, California USA:AAAI,2016,2094-2100.

      [12] 王道平,于俊娣.變質(zhì)率呈Weibull分布的易變質(zhì)物品的庫存模型研究[A].第十二屆中國管理科學(xué)學(xué)術(shù)年會(huì)論文集[C],2010:442-446.

      猜你喜歡
      強(qiáng)化學(xué)習(xí)生鮮農(nóng)產(chǎn)品供應(yīng)鏈
      海外并購績(jī)效及供應(yīng)鏈整合案例研究
      為什么美中供應(yīng)鏈脫鉤雷聲大雨點(diǎn)小
      英語文摘(2020年9期)2020-11-26 08:10:14
      益邦供應(yīng)鏈酣戰(zhàn)“雙11”
      益邦供應(yīng)鏈 深耕大健康
      基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
      論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
      智能交通車流自動(dòng)導(dǎo)引系統(tǒng)
      電子商務(wù)背景下的生鮮農(nóng)產(chǎn)品物流配送模式研究
      分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
      共同物流視角下提高生鮮農(nóng)產(chǎn)品物流效率的對(duì)策探討
      绥江县| 临夏市| 贺兰县| 临桂县| 阿坝| 华容县| 昆山市| 达州市| 湾仔区| 乐至县| 精河县| 尚义县| 汝城县| 佛山市| 武山县| 始兴县| 砚山县| 新巴尔虎左旗| 栖霞市| 化州市| 大安市| 丰宁| 安平县| 五常市| 文水县| 安岳县| 锡林郭勒盟| 山丹县| 左权县| 晋城| 织金县| 临高县| 册亨县| 于都县| 仁化县| 理塘县| 兰溪市| 陆河县| 宁乡县| 洛南县| 永嘉县|