• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于DDQN算法的混流車間作業(yè)動(dòng)態(tài)自適應(yīng)調(diào)度的研究

      2021-06-07 06:33:17陳曉航王美林吳耿楓梁凱晴
      現(xiàn)代信息科技 2021年24期
      關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí)

      陳曉航 王美林 吳耿楓 梁凱晴

      摘 ?要:大規(guī)模生產(chǎn)的混流車間制造系統(tǒng)存在資源規(guī)模大、約束多等問題,快速找到合適的調(diào)度策略是實(shí)現(xiàn)高效生產(chǎn)的關(guān)鍵。為解決傳統(tǒng)數(shù)學(xué)規(guī)劃算法和啟發(fā)式算法存在的策略求解效率低、自適應(yīng)性差等問題,文章提出一種基于DDQN的智能車間動(dòng)態(tài)自適應(yīng)調(diào)度方法,對(duì)車間作業(yè)的自適應(yīng)調(diào)度做了研究。通過“一步一推理”的自適用動(dòng)態(tài)調(diào)度,可以高效地匹配合適的調(diào)度策略動(dòng)作。

      關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí);DDQN算法;動(dòng)態(tài)自適應(yīng)調(diào)度

      中圖分類號(hào):TP18 ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)24-0133-06

      Abstract: In view of the large scale of resources and many constraints of the hybrid flow workshop manufacturing system in mass production, how to quickly find a suitable scheduling strategy is the key to achieve efficient production. In order to solve the problems of low strategy solving efficiency and poor adaptive existing in traditional mathematical programming algorithms and heuristic algorithms, this paper proposes a dynamic adaptive scheduling method for intelligent workshop based on DDQN, research on adaptive scheduling of workshop operations. Through the self-adaptive dynamic scheduling of “one step, one reasoning”, the appropriate scheduling policy actions can be efficiently matched.

      Keywords: deep reinforcement learning; DDQN algorithm; dynamic adaptive scheduling

      0 ?引 ?言

      在“中國(guó)制造2025”背景下,面向大批量定制生產(chǎn)的混流制造HFS(Hybrid Flow Shop, HFS)是一種主流生產(chǎn)組織模式。而HFS調(diào)度已被證明是一個(gè)NP-Hard(Non-deterministic Polynomial Hard)的問題,對(duì)于稍大規(guī)模的調(diào)度問題,在車間實(shí)際生產(chǎn)中往往會(huì)有各種復(fù)雜的干擾元素。因此,如何解決這些因素對(duì)車間作業(yè)調(diào)度的干擾問題,保證生產(chǎn)的順利進(jìn)行,就成為一個(gè)非常有意義的研究方向。

      針對(duì)制造過程的動(dòng)態(tài)自適應(yīng)調(diào)度,在相當(dāng)多的制造領(lǐng)域已經(jīng)得到研究。車間現(xiàn)場(chǎng)的動(dòng)態(tài)調(diào)度,傳統(tǒng)的做法是采用反應(yīng)式,預(yù)測(cè)反應(yīng)式,前攝式,或滾動(dòng)式等方式重調(diào)度或修補(bǔ)調(diào)度。文獻(xiàn)[2]中針對(duì)在車間復(fù)雜動(dòng)態(tài)環(huán)境下的制造企業(yè)生產(chǎn)過程執(zhí)行系統(tǒng)MES,建立了自適應(yīng)調(diào)度模型進(jìn)行研究。文獻(xiàn)[3]中針對(duì)Agent技術(shù)構(gòu)建基于問題的功能模塊,提出一種基于改進(jìn)-學(xué)習(xí)算法(WSQ)的自適應(yīng)調(diào)度機(jī)制。文獻(xiàn)[4]中Sahman針對(duì)分布式作業(yè)車間調(diào)度問題,將貪婪啟發(fā)式方法與DSHO算法相結(jié)合進(jìn)行求解。文獻(xiàn)[7]采用了多優(yōu)先規(guī)則啟發(fā)式的調(diào)度方式,文獻(xiàn)[10]針對(duì)凸輪從動(dòng)機(jī)構(gòu)的優(yōu)化設(shè)計(jì),采用元啟發(fā)式算法進(jìn)行了研究。文獻(xiàn)[14]采用反應(yīng)式調(diào)度機(jī)制解決船舶流水線的模糊調(diào)度問題。文獻(xiàn)[15]針對(duì)制造車間的信息物理融合系統(tǒng)CPS,提出了一個(gè)基于實(shí)時(shí)數(shù)據(jù)采集的自適應(yīng)調(diào)度框架機(jī)制,但沒有涉及具體問題應(yīng)用與求解算法。

      采用傳統(tǒng)數(shù)學(xué)規(guī)劃算法或啟發(fā)式算法,能夠解決車間調(diào)度的路徑問題,但是在實(shí)際大規(guī)模定制生產(chǎn)現(xiàn)場(chǎng)中,其主要存在以下難點(diǎn):一是面向大規(guī)模生產(chǎn)的HFS,系統(tǒng)規(guī)模大、資源約束多,會(huì)產(chǎn)生“維數(shù)災(zāi)難”導(dǎo)致求解困難;二是面向定制生產(chǎn)的HFS,會(huì)因訂單、工藝、設(shè)備、人員和物料等各因素動(dòng)態(tài)事件,導(dǎo)致APS(Advanced Planning and Scheduling)調(diào)度方案在生產(chǎn)執(zhí)行中因執(zhí)行偏差較大而不可行。因此,本論文針對(duì)大規(guī)模HFS系統(tǒng)的調(diào)度問題,采用MPN(Manufacturing Petri Net)對(duì)車間調(diào)度系統(tǒng)進(jìn)行壓縮建模,并提出一種基于DDQN算法的車間作業(yè)動(dòng)態(tài)調(diào)度方法,將傳統(tǒng)算法計(jì)算過程數(shù)據(jù)作為歷史經(jīng)驗(yàn)進(jìn)行學(xué)習(xí),得到蘊(yùn)含調(diào)度知識(shí)的深度知識(shí)DQN。進(jìn)一步,將深度知識(shí)中的Q值匹配車間生產(chǎn)中采集到的實(shí)時(shí)數(shù)據(jù),形成工件流轉(zhuǎn)的調(diào)度策略,調(diào)度過程中充分利用了深度知識(shí)DQN,從而在實(shí)時(shí)狀態(tài)下能夠高效地指導(dǎo)工業(yè)生產(chǎn)。

      1 ?模型構(gòu)建

      1.1 ?MPN模型構(gòu)建

      混流制造車間運(yùn)作過程可以描述為:一共n個(gè)待加工的工件經(jīng)過s道工序進(jìn)行加工,而每一道工序存在Mi臺(tái)設(shè)備(Mi>1;i=1,2,…,s),每個(gè)工件需要經(jīng)過每一道工序的加工,同一道工序的不同類型的設(shè)備對(duì)同一工件的加工時(shí)間不同。本文針對(duì)混流車間采用一種基于ROPN(Resource Oriented Petri Net)的制造系統(tǒng)MPN建模機(jī)制,將等價(jià)并行設(shè)備建模成為一個(gè)資源提供節(jié)點(diǎn)Place,將批次工件建模成Petri網(wǎng)中流轉(zhuǎn)的Token,工序中工件可以建模為通過Transaction觸發(fā)進(jìn)行流轉(zhuǎn)。這樣的模型既縮小了混流制造車間調(diào)度模型規(guī)模,又具有良好的數(shù)學(xué)表達(dá)能力。

      本論文用一個(gè)以某覆銅板廠案例進(jìn)行說明,如圖1所示,描述了一個(gè)基于MPN模型的車間制造系統(tǒng)。在MPN模型中,車間作業(yè)過程可以抽象為待加工的所有工件Token在目標(biāo)函數(shù)的指導(dǎo)下全部從p0開始轉(zhuǎn)運(yùn),在Transaction的觸發(fā)下進(jìn)入到合適的Place上完成加工等一系列操作,最終轉(zhuǎn)運(yùn)到p15并完成對(duì)所有工件加工的過程。各工位容量如圖2所示。

      該案例用到的加工時(shí)間矩陣為:

      1.2 ?MPN數(shù)據(jù)狀態(tài)建模

      通過把MPN制造系統(tǒng)采集到的多源異構(gòu)數(shù)據(jù)進(jìn)行鏈接和集成的,對(duì)節(jié)點(diǎn)的多維數(shù)據(jù)進(jìn)行準(zhǔn)確表達(dá),可以反映該節(jié)點(diǎn)上在制造過程中所蘊(yùn)含的生產(chǎn)邏輯,從而實(shí)現(xiàn)MPN系統(tǒng)狀態(tài)的建模。

      定義1:工位狀態(tài)由A=。維度i可以是節(jié)點(diǎn)中包含了“人機(jī)物法環(huán)”的各種信息,即人工熟練度、設(shè)備類型、物料類別、操作標(biāo)準(zhǔn)和生產(chǎn)環(huán)境等各維度的信息。

      定義2:制造系統(tǒng)狀態(tài)S=,是由各個(gè)工位狀態(tài)構(gòu)成的向量。

      定義3:制造系統(tǒng)的MDP狀態(tài)過程M={|Si表示t時(shí)刻的狀態(tài),Si+1表示t+1時(shí)刻Si的下一個(gè)狀態(tài)},是各個(gè)制造系統(tǒng)狀態(tài)在時(shí)間軸上的狀態(tài)演變序列。

      針對(duì)研究的覆銅板廠MPN案例,如果工位只定義一個(gè)維度狀態(tài)為Token數(shù)量,制造系統(tǒng)某個(gè)時(shí)刻系統(tǒng)的狀態(tài)為:<4,1,1,2,2,0,0,0,0,0,0,0,0,0,0,0>,若p4一個(gè)工件token被轉(zhuǎn)運(yùn)到p5,其下一個(gè)時(shí)刻的狀態(tài)為:<4,1,1,2,1,1,0,0,0,0,0,0,0,0,0,0>,前后狀態(tài)有著時(shí)序上的演變邏輯。

      2 ?算法設(shè)計(jì)與訓(xùn)練

      為了充分利用制造數(shù)據(jù)中的價(jià)值,本文考慮強(qiáng)化學(xué)習(xí)中基于價(jià)值策略的思路來實(shí)現(xiàn)算法,通過模型訓(xùn)練,實(shí)現(xiàn)一個(gè)深度Q價(jià)值網(wǎng)絡(luò)DQN作為深度知識(shí)來指導(dǎo)調(diào)度策略。進(jìn)一步,為解決使用相同的value來進(jìn)行選擇動(dòng)作和估計(jì)動(dòng)作造成估計(jì)的價(jià)值過于樂觀的問題,設(shè)計(jì)了將選擇和評(píng)估分開成2個(gè)Q價(jià)值網(wǎng)絡(luò)的Double DQN(DDQN)算法。本文基于DDQN算法,構(gòu)建一個(gè)深度強(qiáng)化學(xué)習(xí)算法模塊,把預(yù)備好的數(shù)據(jù)輸入到算法模型中訓(xùn)練,充分利用數(shù)據(jù)中的生產(chǎn)邏輯蘊(yùn)含的知識(shí)。模型訓(xùn)練的過程具體包括以下兩個(gè)方面。

      2.1 ?獲取數(shù)據(jù)

      從歷史數(shù)據(jù)中隨機(jī)獲取最小批量數(shù)目的數(shù)據(jù),每一條數(shù)據(jù)都按照的格式,一次選取固定數(shù)目的數(shù)據(jù)作為一個(gè)Batch(一批)的樣本,輸入到模型中進(jìn)行訓(xùn)練,本文設(shè)定一次隨機(jī)選取的數(shù)目為k條(k=40)。針對(duì)本文研究的覆銅板廠案例,S是制造系統(tǒng)的所有工件在每個(gè)庫所分布狀態(tài)的集合,A和S+1是基于當(dāng)前的系統(tǒng)狀態(tài)所采取的動(dòng)作以及下一個(gè)系統(tǒng)狀態(tài),S是當(dāng)前的系統(tǒng)制造節(jié)點(diǎn)狀態(tài),S+1是下一個(gè)系統(tǒng)制造節(jié)點(diǎn)狀態(tài),這些連續(xù)的S按時(shí)間序列串聯(lián)成為完整的制造系統(tǒng)的MDP狀態(tài)過程;定義A作為一個(gè)調(diào)度動(dòng)作策略(其中,TOKENID是某個(gè)Token的編號(hào),TRASID是某一個(gè)變遷的編號(hào)),表示當(dāng)前某一個(gè)編號(hào)為TOKENID的工件在調(diào)度時(shí)觸發(fā)了某個(gè)變遷TRASID,進(jìn)而流轉(zhuǎn)到下個(gè)節(jié)點(diǎn)執(zhí)行操作;R是獎(jiǎng)勵(lì),是當(dāng)前的狀態(tài)S執(zhí)行了可選的某一個(gè)動(dòng)作A之后,對(duì)這次動(dòng)作的效果的一個(gè)評(píng)估值,它反映了系統(tǒng)對(duì)當(dāng)前的狀態(tài)去執(zhí)行該動(dòng)作的可取程度,可有正值或負(fù)值,其數(shù)值越大表示該動(dòng)作越可取;D是一個(gè)固定的系統(tǒng)數(shù)據(jù)狀態(tài),預(yù)先設(shè)定為一個(gè)完整的作業(yè)過程的末狀態(tài),也就是一個(gè)MDP過程結(jié)束的狀態(tài),此時(shí)所有的待加工的訂單都已經(jīng)完成。

      2.2 ?訓(xùn)練模型的過程

      DDQN是由負(fù)責(zé)動(dòng)作獲取的現(xiàn)實(shí)網(wǎng)絡(luò)Current_Net和負(fù)責(zé)動(dòng)作價(jià)值計(jì)算的目標(biāo)網(wǎng)絡(luò)Target_Net組成,兩者的網(wǎng)絡(luò)結(jié)構(gòu)完全相同。我們把MDP狀態(tài)過程的各個(gè)系統(tǒng)狀態(tài)S作為神經(jīng)網(wǎng)絡(luò)的輸入值;神經(jīng)網(wǎng)絡(luò)的輸出為各動(dòng)作Q表,Q表的不同維度索引映射不同動(dòng)作,Q表中某一索引存儲(chǔ)的數(shù)值代表某一動(dòng)作的Q值,Q值越大,動(dòng)作的價(jià)值越大,表示該動(dòng)作的合理性越高。整個(gè)模型的訓(xùn)練過程的如圖3所示。

      2.2.1 ?計(jì)算Batch樣本集的Q值

      具體步驟為:

      (1)將樣本i(i屬于1,k)中的S+1數(shù)據(jù)分別輸入Current_Net和Target_Net神經(jīng)網(wǎng)絡(luò)中,得到Cur_Q值表和Tar_Q值表;

      (2)獲取樣本i(i屬于1,k)Cur_Q值表中Q值最大的索引,即動(dòng)作,再利用該索引檢索Tar_Q表,得到對(duì)應(yīng)動(dòng)作的Tar_Q值;

      (3)創(chuàng)建可存儲(chǔ)k條樣本Q值數(shù)據(jù)的列表Q_batch,每條樣本數(shù)據(jù)根據(jù):

      Y=R+c*Qtarget(S_n,arg max′(Qcurrent(S_n,A′)))

      分別計(jì)算對(duì)應(yīng)的Q值并載入列表中,用于后續(xù)損失函數(shù)的計(jì)算。

      2.2.2 ?損失函數(shù)的收斂過程

      具體過程為:

      (1)正向傳播。將k條樣本數(shù)據(jù)中的S輸入Current_Net神經(jīng)網(wǎng)絡(luò),得到的當(dāng)前狀態(tài)的現(xiàn)實(shí)Q值,同時(shí)將k條樣本所得k個(gè)現(xiàn)實(shí)Q值存入Current_Net_Q列表,用于損失計(jì)算。

      (2)反向傳播(收斂函數(shù))。將損失函數(shù)Lost設(shè)定為:

      Loss=Y-Qcurrent(S,A)

      使用Tensorflow模塊自帶optimizer優(yōu)化器,按照設(shè)定的固定步長(zhǎng)e對(duì)Loss進(jìn)行最小化收斂,通過訓(xùn)練次數(shù)的反復(fù)迭代得到適配的模型。

      2.2.3 ?目標(biāo)Q網(wǎng)絡(luò)更新

      本項(xiàng)研究中,設(shè)置更新目標(biāo)網(wǎng)絡(luò)的頻率是f,即將Current_Net的參數(shù)每訓(xùn)練f步,就更新一次Target_Net的參數(shù)。它決定著DDQN算法訓(xùn)練的穩(wěn)定性和快速性。相比DQN算法,引入目標(biāo)網(wǎng)絡(luò)可以增加算法的穩(wěn)定性,考慮到車間制造的實(shí)際,如果車間的動(dòng)態(tài)干擾性較弱,即車間的生產(chǎn)較少有加增訂單或人員流動(dòng)等情況,車間生產(chǎn)數(shù)據(jù)有相當(dāng)?shù)钠椒€(wěn)性,那么可以考慮調(diào)小f,可以適當(dāng)增加訓(xùn)練的算法的快速性;如果車間制造的動(dòng)態(tài)性較強(qiáng),時(shí)常有加增訂單等突發(fā)事件,那么可以適當(dāng)調(diào)大f,以使得訓(xùn)練算法具有更好的穩(wěn)定性。

      在每次車間作業(yè)之前,都會(huì)基于歷史數(shù)據(jù)和當(dāng)前狀態(tài)數(shù)據(jù)訓(xùn),按照以上的幾個(gè)步驟訓(xùn)練R次,一般至少訓(xùn)練上萬次,以確保模型的有效性。訓(xùn)練完成深度Q價(jià)值網(wǎng)絡(luò)(DQN)作為自適應(yīng)調(diào)度知識(shí),用來指導(dǎo)調(diào)度。

      3 ?實(shí)驗(yàn)與分析

      3.1 ?實(shí)驗(yàn)條件與過程

      為研究驗(yàn)證本文提出的基于DDQN的車間調(diào)度系統(tǒng)在調(diào)度動(dòng)態(tài)自適應(yīng)性方面的有效性。本文采用馬爾可夫Petri網(wǎng)模型進(jìn)行驗(yàn)證,實(shí)驗(yàn)平臺(tái)采用Pycharm基于Python語言實(shí)現(xiàn),實(shí)驗(yàn)環(huán)境為Intel(R) Core(TM) i5-5200U CPU @ 2.20 GHz、內(nèi)存為12 GB、操作系統(tǒng)為Windows10。

      實(shí)驗(yàn)參數(shù):基于Python語言以及Tensorflow等神經(jīng)網(wǎng)絡(luò)算法庫,搭建維度為10的輸入層、9層隱含層、維度為220的輸出層、每層隱含層的神經(jīng)元個(gè)數(shù)不同的全連接深度神經(jīng)網(wǎng)絡(luò),用作評(píng)估深度神經(jīng)網(wǎng)絡(luò)與目標(biāo)深度神經(jīng)網(wǎng)絡(luò),并初始化各個(gè)不同的權(quán)重和偏置參數(shù),整個(gè)實(shí)驗(yàn)中所涉及的參數(shù)如表1所示。

      根據(jù)圖1的仿真模型驗(yàn)證DDQN算法,使用TensorFlow 2.1搭載多層感知機(jī)模型(Multilayer Perceptron, MLP)。輸入層包含16個(gè)神經(jīng)元,隱藏層層數(shù)為2,每層20個(gè)神經(jīng)元,輸出層包含220個(gè)神經(jīng)元。隨機(jī)生成220條消息樣本,將每條消息從源節(jié)點(diǎn)開始執(zhí)行某個(gè)動(dòng)作前后狀態(tài)轉(zhuǎn)移情況及所獲獎(jiǎng)勵(lì)存入經(jīng)驗(yàn)池(經(jīng)驗(yàn)池存滿后最新獲得的經(jīng)驗(yàn)值覆蓋最早經(jīng)驗(yàn)值),待經(jīng)驗(yàn)值存滿后,隨機(jī)抽取40個(gè)經(jīng)驗(yàn)序列喂入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,當(dāng)前消息到達(dá)目的節(jié)點(diǎn)后視為當(dāng)前軌跡到達(dá)終止?fàn)顟B(tài),所有消息到達(dá)終止?fàn)顟B(tài)后完成訓(xùn)練并保存訓(xùn)練模型。

      3.2 ?DDQN算法的有效性分析

      為驗(yàn)證本文中DDQN算法對(duì)車間調(diào)度數(shù)據(jù)利用效率的有效性,優(yōu)化模型的效果,通過加大訓(xùn)練次數(shù),并針對(duì)不同的激勵(lì)公式,根據(jù)訓(xùn)練的效果來分析車間調(diào)度的自適應(yīng)性以及工作的效率。每訓(xùn)練1 000次就做一次調(diào)度時(shí)間Time的測(cè)試,用來研究訓(xùn)練次數(shù)和模型訓(xùn)練的效果之間的變化關(guān)系。

      通過對(duì)設(shè)計(jì)激勵(lì)公式的多次嘗試和調(diào)參工作,本研究中設(shè)計(jì)的激勵(lì)為:

      經(jīng)訓(xùn)練后,將得到的調(diào)度時(shí)間和訓(xùn)練次數(shù)的關(guān)系進(jìn)行如圖4所示。

      根據(jù)結(jié)果可知,第一,損失在訓(xùn)練10萬次后收斂,滿足實(shí)驗(yàn)要求,證明了實(shí)驗(yàn)結(jié)果的有效性。第二,測(cè)試調(diào)度完工時(shí)間在訓(xùn)練10萬次左右有明顯下降,此后測(cè)試結(jié)果出現(xiàn)幾次不錯(cuò)的調(diào)度時(shí)間結(jié)果,多次出現(xiàn)130,振蕩幅度較為合理,模型訓(xùn)練較為理想。

      實(shí)驗(yàn)得到收斂函數(shù)的圖像,如圖5所示,從圖像可知,本次研究中學(xué)習(xí)模型的收斂函數(shù)是趨于平緩的,這說明模型訓(xùn)練的效果的科學(xué)性和合理性。

      分析實(shí)驗(yàn)結(jié)果,由圖4可知,首先,當(dāng)訓(xùn)練次數(shù)在10萬次以下的時(shí)候,經(jīng)過訓(xùn)練得到的模型把調(diào)度時(shí)間穩(wěn)定在190個(gè)時(shí)間單位左右;當(dāng)訓(xùn)練次數(shù)當(dāng)訓(xùn)練次數(shù)超過10萬次,模型的調(diào)度時(shí)間明顯降低到155個(gè)時(shí)間單位左右,并穩(wěn)定在一定區(qū)間。這說明模型訓(xùn)練次數(shù)的增加可以在一定程度上優(yōu)化模型。其次,經(jīng)過30萬次的訓(xùn)練,訓(xùn)練時(shí)長(zhǎng)為43 min 56 s,平均訓(xùn)練一次的時(shí)長(zhǎng)為0.008 786 67 s。這體現(xiàn)了模型具有良好的學(xué)習(xí)更新效率,滿足動(dòng)態(tài)自適應(yīng)調(diào)度時(shí)效性的需求。最后,從完工時(shí)間和響應(yīng)時(shí)間來看,測(cè)試出現(xiàn)的最長(zhǎng)完工時(shí)間為237個(gè)時(shí)間單位;測(cè)試出現(xiàn)的最短完工時(shí)間為130個(gè)時(shí)間單位;訓(xùn)練30萬次的模型最終測(cè)試調(diào)度時(shí)間為162個(gè)時(shí)間單位;響應(yīng)時(shí)長(zhǎng)為0.082 8 s,一共40步,則平均每步響應(yīng)時(shí)長(zhǎng)為0.002 07 s。這充分說明模型在每一步中可以快速做出響應(yīng),在極短時(shí)間內(nèi)給出調(diào)度指導(dǎo)策略,能夠有效解決車間自適應(yīng)調(diào)度問題。

      4 ?結(jié) ?論

      本文針對(duì)當(dāng)前物聯(lián)網(wǎng)智能制造的車間調(diào)度中存在的無法有效利用車間生產(chǎn)的各種數(shù)據(jù),以及調(diào)度效率低下等問題,提出來一種基于積累獎(jiǎng)勵(lì)的雙重Q網(wǎng)絡(luò)算法,并以某覆銅板廠案例進(jìn)行驗(yàn)證。本研究的調(diào)度系統(tǒng)可以通過“一步一調(diào)度”的策略響應(yīng)系統(tǒng)的動(dòng)態(tài)性,能夠?qū)崟r(shí)地根據(jù)環(huán)境的變化來不斷選擇策略。將實(shí)時(shí)狀態(tài)與深度目標(biāo)Q網(wǎng)絡(luò)交互匹配,根據(jù)車間實(shí)時(shí)數(shù)據(jù)進(jìn)行推演,每匹配一步則生成一次調(diào)度策略,用來指導(dǎo)下個(gè)一個(gè)作業(yè),能夠快速地響應(yīng)車間的動(dòng)態(tài)變化,體現(xiàn)了對(duì)動(dòng)態(tài)事件的自適應(yīng)性,這對(duì)指導(dǎo)車間生產(chǎn)調(diào)度有著重要的意義。

      參考文獻(xiàn):

      [1] MEILIN WANG,ZHONG R Y,DAI Q Y,et al. A MPN-based scheduling model for IoT-enabled hybrid flow shop manufacturing [J].Advanced Engineering Informatics,2016,30(4):728-736.

      [2] 賈萬達(dá),彭艷,石寶東.基于MES系統(tǒng)的動(dòng)態(tài)環(huán)境自適應(yīng)調(diào)度模型 [J].現(xiàn)代商貿(mào)工業(yè),2021,42(2):159-160.

      [3] ABREU L R,TAVARES-NETO R F,NAGANO M S. A new efficient biased random key genetic algorithm for open shop scheduling with routing by capacitated single vehicle and makespan minimization [J/OL].Engineering Applications of Artificial Intelligence,2021,104:[2021-11-02].https://doi.org/10.1016/j.engappai.2021.104373.

      [4] ?AHMAN M A. A discrete spotted hyena optimizer for solving distributed job shop scheduling problems [J/OL].Applied Soft Computing,2021,106:[2021-11.02].https://doi.org/10.1016/j.asoc.2021.107349.

      [5] 肖鵬飛,張超勇,孟磊磊,等.基于深度強(qiáng)化學(xué)習(xí)的非置換流水車間調(diào)度問題 [J].計(jì)算機(jī)集成制造系統(tǒng),2021,27(1):192-205.

      [6] 李國(guó)梁,李峭,徐亞軍,等.基于DDQN的片上網(wǎng)絡(luò)混合關(guān)鍵性消息調(diào)度方法 [J/OL].北京航空航天大學(xué)學(xué)報(bào),[2021-11-07].https://www.cnki.net/KCMS/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=BJHK20210424001&v=MzEzMjJBUzZqaDRUQXpscTJBMGZMVDdSN3FkWmVac0Z5M2xWcjdCSlY0PUp5ZkRaYkc0SE5ETXE0MUJaT3NPWXdrN3ZC.

      [7] 劉東寧,徐哲.基于多優(yōu)先規(guī)則啟發(fā)式的分布式多項(xiàng)目隨機(jī)調(diào)度 [J].系統(tǒng)工程理論與實(shí)踐,2021,41(12):3294-3303.

      [8] 秦浩翔,韓玉艷,陳慶達(dá),等.求解阻塞混合流水車間調(diào)度的雙層變異迭代貪婪算法 [J/OL].控制與決策,[2021-11-03].https://www.cnki.net/KCMS/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=KZYC20210701014&v=MTc2NzNORE1xSTlFWk9vTFl3azd2QkFTNmpoNFRBemxxMkEwZkxUN1I3cWRaZVpzRnkzbFZyN0JKVjQ9TGpmU2JiRzRI.

      [9] 秦媛媛.基于SVM與強(qiáng)化學(xué)習(xí)的啟發(fā)式算法[J].長(zhǎng)江工程職業(yè)技術(shù)學(xué)院學(xué)報(bào),2021,38(2):10-14.

      [10] 李浩,劉志芳,嚴(yán)勝利.基于元啟發(fā)式算法的凸輪從動(dòng)機(jī)構(gòu)優(yōu)化設(shè)計(jì)研究 [J].機(jī)床與液壓,2021,49(14):105-109.

      [11] ANGEL-BELLO F,VALLIKAVUNGAL J,Alvarez A. Fast and efficient algorithms to handle the dynamism in a single machine scheduling problem with sequence-dependent setup times [J/OL].Computers & Industrial Engineering,2021,152:[2021-10-29].https://doi.org/10.1016/j.cie.2020.106984.

      [12] 尹靜,楊阿慧.考慮交貨期約束的塔式起重機(jī)服務(wù)調(diào)度啟發(fā)式算法 [J].中國(guó)工程機(jī)械學(xué)報(bào),2021,19(1):1-6.

      [13] PENG K K,PAN Q K,GAO L,et al. An Improved Artificial Bee Colony algorithm for real-world hybrid flowshop rescheduling in Steelmaking-refining-Continuous Casting process [J].Computers & Industrial Engineering,2018,122:235-250.

      [14] 蘭宏凱,楊志,柳存根,等.船舶平面分段單流水線反應(yīng)式模糊調(diào)度研究 [J].艦船科學(xué)技術(shù),2019,41(15):7-11.

      [15] ROSSIT D A,TOHM? F,F(xiàn)rutos M. A data-driven scheduling approach to smart manufacturing [J].Journal of Industrial Information Integration,2019,15:69–79.

      [16] 錢斌,佘明哲,胡蓉,等.超啟發(fā)式交叉熵算法求解模糊分布式流水線綠色調(diào)度問題 [J].控制與決策,2021,36(6):1387-1396.

      [17] ?王建華,潘宇杰,孫瑞.考慮機(jī)床折舊的柔性作業(yè)車間綠色調(diào)度算法 [J].計(jì)算機(jī)應(yīng)用,2020,40(1):43-49.

      [18] LIU C L,CHANG C C,TSENG C J. Actor-Critic Deep Reinforcement Learning for Solving Job Shop Scheduling Problems [J].IEEE Access,2020,8:71752-71762.

      [19] HU L,LIU Z Y,HU W F,et al. Petri-net-based dynamic scheduling of flexible manufacturing system via deep reinforcement learning with graph convolutional network [J].Journal of Manufacturing Systems.2020,55:1-14.

      [20] HU H,JIA X L,HE Q X,et al. Deep reinforcement learning based AGVs real-time scheduling with mixed rule for flexible shop floor in industry 4.0 [J/OL].Computers & Industrial Engineering,2020, 149:[2021-10-29].106749.https://doi.org/10.1016/j.cie.2020.106749.

      [21] 馬騁乾,謝偉,孫偉杰.強(qiáng)化學(xué)習(xí)研究綜述 [J].指揮控制與仿真,2018,40(6):68-72.

      [22] 王維祺,葉春明,譚曉軍.基于Q學(xué)習(xí)算法的作業(yè)車間動(dòng)態(tài)調(diào)度 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(11):218-226.

      [23] YANG S L,XU Z G,WANG J Y. Intelligent Decision-Making of Scheduling for Dynamic Permutation Flowshop via Deep Reinforcement Learning [J/OL].Sensors,2021,21(3):[2021-10-29].https://doi.org/10.3390/s21031019.

      [24] CLAUDIO A,F(xiàn)ABRIZIO M,ANDREA P. Number of bins and maximum lateness minimization in two-dimensional bin packing [J].European Journal of Operational Research,2021,291(1):101-113.

      [25] SHIRVANI M H,TALOUKI REZA R. Bi-objective scheduling algorithm for scientific workflows on cloud computing platform with makespan and monetary cost minimization approach [J/OL].Complex & Intelligent Systems,[2021-10-29].https://link.springer.com/article/10.1007/s40747-021-00528-1.

      [26] PARK J,CHUN J,KIM S H,et al. Learning to schedule job-shop problems: representation and policy learning using graph neural network and reinforcement learning [J].International Journal of Production Research.2021,59(11):3360-3377.

      [27] LUO S. Dynamic scheduling for flexible job shop with new job insertions by deep reinforcement learning [J/OL].Applied Soft Computing,2020,91:[2021-10-29].https://doi.org/10.1016/j.asoc.2020.106208.

      [28] PARK I B,HUH J,KIM J,et al. A Reinforcement Learning Approach to Robust Scheduling of Semiconductor Manufacturing Facilities [J].IEEE Transactions on Automation Science and Engineering,2020,17(3):1420-1431.

      [29] GEORGIADIS G P,ELEKIDIS A P,GEORGIADIS M C. Optimal production planning and scheduling in breweries [J/OL].Food and Bioproducts Processing,2021,125:[2021-10-29].https://doi.org/10.1016/j.fbp.2020.11.008.

      作者簡(jiǎn)介:陳曉航(1995—),男,漢族,廣東揭陽人,碩士研究生在讀,研究方向:物聯(lián)網(wǎng)車間調(diào)度和深度強(qiáng)化學(xué)習(xí)。王美林(1975-),男,漢族,湖南安化人,副教授,博士,研究方向:物聯(lián)網(wǎng)技術(shù)、制造執(zhí)行系統(tǒng)及應(yīng)用、面向新工科教育的智慧學(xué)習(xí)工場(chǎng)技術(shù);吳耿楓(1998-),男,漢族,廣東揭陽人,碩士研究生在讀,研究方向:物聯(lián)網(wǎng)車間調(diào)度和深度強(qiáng)化學(xué)習(xí);梁凱晴(1998-),女,漢族,廣東江門人,碩士研究生在讀,研究方向:物聯(lián)網(wǎng)車間調(diào)度和深度強(qiáng)化學(xué)習(xí)。

      猜你喜歡
      深度強(qiáng)化學(xué)習(xí)
      基于DDPG算法的路徑規(guī)劃研究
      基于深度強(qiáng)化學(xué)習(xí)的木材缺陷圖像重構(gòu)及質(zhì)量評(píng)價(jià)模型研究
      基于深度強(qiáng)化學(xué)習(xí)與圖像智能識(shí)別的輸電線路在線監(jiān)測(cè)系統(tǒng)
      基于云控制的業(yè)務(wù)服務(wù)機(jī)器人系統(tǒng)設(shè)計(jì)
      人工智能深度強(qiáng)化學(xué)習(xí)的原理與核心技術(shù)探究
      基于人工智能的無人機(jī)區(qū)域偵察方法研究現(xiàn)狀與發(fā)展
      基于策略梯度算法的工作量證明中挖礦困境研究
      基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)
      關(guān)于人工智能阿法元綜述
      商情(2019年14期)2019-06-15 10:20:13
      深度強(qiáng)化學(xué)習(xí)研究進(jìn)展
      曲麻莱县| 延安市| 新津县| 莱芜市| 乐亭县| 柘城县| 苗栗市| 方城县| 龙江县| 石景山区| 清原| 横山县| 临漳县| 梁山县| 读书| 曲松县| 遂溪县| 德格县| 潼关县| 二连浩特市| 轮台县| 镇雄县| 毕节市| 濉溪县| 浦东新区| 巴彦淖尔市| 西贡区| 西安市| 洪湖市| 炎陵县| 福贡县| 泗水县| 达日县| 景德镇市| 东乌| 边坝县| 福鼎市| 永济市| 宁南县| 石屏县| 武平县|