• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多智能體強(qiáng)化學(xué)習(xí)的紡織面料染色車間動態(tài)調(diào)度方法

      2023-02-14 12:15:38賀俊杰
      關(guān)鍵詞:染缸車間染色

      賀俊杰,張 潔+,張 朋,鄭 鵬,王 明

      (1.東華大學(xué) 機(jī)械工程學(xué)院,上海 201620;2.上海交通大學(xué) 機(jī)械與動力工程學(xué)院,上海 200240)

      0 引言

      紡織產(chǎn)業(yè)是我國國民經(jīng)濟(jì)的支柱產(chǎn)業(yè)之一[1],面對競爭日益激烈的市場環(huán)境和多品種小批量的個性化定制生產(chǎn)需求,通過生產(chǎn)調(diào)度優(yōu)化提高產(chǎn)品準(zhǔn)時交付率是提升企業(yè)競爭力的有效措施。紡織面料的生產(chǎn)由織造和染整兩個階段組成,其中染整階段又包括前處理、染色和后處理等工藝。染色工序由于耗時長,通常被視為紡織品生產(chǎn)管控的關(guān)鍵環(huán)節(jié),也是制約產(chǎn)品訂單準(zhǔn)時交付的瓶頸所在。通過對染色車間生產(chǎn)過程進(jìn)行調(diào)度優(yōu)化以降低產(chǎn)品的拖期交付,對提升企業(yè)的競爭力具有重要意義。

      根據(jù)染色工藝特點,染色車間的調(diào)度問題可拆分為訂單組批和排缸兩個子問題,且需要考慮機(jī)器容量限制與不相容工件族等約束,該問題已被證明為NP-Hard問題[2]。此外,實際的染色生產(chǎn)以訂單為驅(qū)動,染色任務(wù)隨著訂單動態(tài)到達(dá)。通過調(diào)研發(fā)現(xiàn),染色車間存在染色回修、緊急訂單、改色漂染等突發(fā)緊急任務(wù),緊急任務(wù)的擾動會影響生產(chǎn)進(jìn)程和降低生產(chǎn)效率。因此,本文將染色車間調(diào)度問題抽象為具有不相容加工族和不同的染缸容量約束,考慮任務(wù)動態(tài)到達(dá)的并行批處理機(jī)調(diào)度問題,并通過最小化總拖期時間來減少產(chǎn)品的拖期交付。

      近年來,已有眾多學(xué)者針對染色車間調(diào)度問題展開研究,且現(xiàn)有的研究以靜態(tài)調(diào)度問題為主,主要方法包括數(shù)學(xué)規(guī)劃方法和智能優(yōu)化算法[2-7]。隨著紡織企業(yè)向小批量個性化定制和面向訂單驅(qū)動的生產(chǎn)模式轉(zhuǎn)型,車間調(diào)度的動態(tài)事件頻率增加,這對調(diào)度算法在動態(tài)生產(chǎn)環(huán)境下的自適應(yīng)響應(yīng)能力提出了更高的要求。動態(tài)環(huán)境下的調(diào)度策略主要包括魯棒調(diào)度、預(yù)—反應(yīng)式調(diào)度和完全反應(yīng)式調(diào)度3類[8-9]。由于染色車間動態(tài)事件發(fā)生頻率較高,頻繁的預(yù)—反應(yīng)式重調(diào)度不利于生產(chǎn)過程的穩(wěn)定性,魯棒調(diào)度以犧牲調(diào)度性能為代價提高魯棒性,且不能對動態(tài)事件進(jìn)行響應(yīng),而以各類啟發(fā)式規(guī)則為代表的完全反應(yīng)式調(diào)度方法更適用于染色車間動態(tài)事件頻發(fā)的生產(chǎn)環(huán)境[10]。但現(xiàn)有的啟發(fā)式調(diào)度規(guī)則均基于特定的動態(tài)場景設(shè)計,缺乏自適應(yīng)調(diào)整能力。隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,其中的強(qiáng)化學(xué)習(xí)方法可通過學(xué)習(xí)生成復(fù)雜的調(diào)度策略,具有較強(qiáng)的自適應(yīng)和學(xué)習(xí)能力,被廣泛應(yīng)用于各類實際調(diào)度問題中。張東陽等[11]應(yīng)用Q-Learning強(qiáng)化學(xué)習(xí)算法求解置換流水車間調(diào)度問題;肖鵬飛等[12]提出了基于深度強(qiáng)化學(xué)習(xí)的非置換流水車間調(diào)度算法并改進(jìn)了網(wǎng)絡(luò)輸出層;WANG等[13]將Actor-Critic算法用于晶圓制造系統(tǒng)調(diào)度,對多目標(biāo)采用加權(quán)的獎勵函數(shù);ZHANG等[14]將Q-Learning強(qiáng)化學(xué)習(xí)算法應(yīng)用于小規(guī)模的批調(diào)度問題。近年來提出的近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法[15]是一種基于策略的深度強(qiáng)化學(xué)習(xí)算法,該算法交互的經(jīng)驗數(shù)據(jù)可重復(fù)利用,使得其采樣效率更高,該算法獨有的損失函數(shù)裁剪使得該算法學(xué)習(xí)穩(wěn)定性更強(qiáng),在交通[16-17]、機(jī)器人[18-20]、車間調(diào)度[21-22]等智能控制領(lǐng)域得到了實際應(yīng)用,且明顯優(yōu)于策略梯度(Policy Gradient, PG)[23]、信任區(qū)域策略優(yōu)化(Trust Region Policy Optimization, TRPO)[24]、優(yōu)勢動作評論(Advantage Actor Critic, A2C)[25]等深度強(qiáng)化學(xué)習(xí)算法。但在現(xiàn)有基于PPO的車間調(diào)度方法中均為獨立的智能體,如何針對組批和排缸兩階段的染色車間調(diào)度使用多個PPO智能體協(xié)作調(diào)度,并提升任務(wù)動態(tài)到達(dá)的響應(yīng)能力,是將PPO算法應(yīng)用于染色車間調(diào)度問題的難點所在。

      綜上所述,當(dāng)前研究以靜態(tài)調(diào)度為主,無法滿足生產(chǎn)轉(zhuǎn)型帶來的快速響應(yīng)需求,傳統(tǒng)的強(qiáng)化學(xué)習(xí)調(diào)度方法[26]在優(yōu)化調(diào)度目標(biāo)時只關(guān)注了車間的實時信息而缺乏對歷史動態(tài)信息的考慮。因此,本文在現(xiàn)有染色車間調(diào)度研究和PPO強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)上,針對任務(wù)動態(tài)到達(dá)的染色車間調(diào)度問題,以最小化總拖期時間為目標(biāo),設(shè)計具有組批智能體和排缸智能體的多智能體循環(huán)近端策略優(yōu)化(Multi-Agent Recurrent Proximal Policy Optimization, MA-RPPO)強(qiáng)化學(xué)習(xí)算法。針對車間復(fù)雜約束和調(diào)度目標(biāo),抽取車間關(guān)鍵參數(shù)并設(shè)計獎勵函數(shù),將染色車間調(diào)度問題轉(zhuǎn)化為序列決策問題;為多智能體引入長短期記憶網(wǎng)絡(luò)(Long Short Term Memory network, LSTM)的記憶與預(yù)測功能,實現(xiàn)車間動態(tài)信息的提??;針對組批和排缸的全局優(yōu)化問題,設(shè)計組批智能體與排缸智能體協(xié)作調(diào)度機(jī)制,通過智能體與車間交互訓(xùn)練建立高效的調(diào)度策略。

      1 問題描述與建模

      1.1 問題描述

      染色工序要求將素色坯布放置染缸中持續(xù)浸染,直至紡織品的顏色符合預(yù)定要求[27]。染色車間通常有多種不同容量的染缸且各染缸獨立工作,染缸一旦開始染色,在工序完成之前無法被其他任務(wù)搶占。為提高染缸的利用率,相同幅寬的坯布可經(jīng)首尾縫制連接后,組批進(jìn)入同一個染缸進(jìn)行染色,但多個染色任務(wù)的總質(zhì)量不得超過染缸的最大容量。由于印染不同的顏色所需的染料和助劑不同,只有相同顏色的染色任務(wù)才能同時進(jìn)入同一個染缸生產(chǎn)。因不同型號的坯布紗線原料比例不同,不同批次紗線的化學(xué)處理不同可能會導(dǎo)致染色差異,組批時還需是同一批紗線原料織造的同型號坯布。因此幅寬、顏色、型號和紗線批號均相同的坯布可歸為同一加工族,僅同族的任務(wù)才能進(jìn)行組批,組批完成后進(jìn)行排缸,即選擇批次指派到染缸進(jìn)行染色,染色任務(wù)的生產(chǎn)調(diào)度過程如圖1所示。

      綜上,染色車間調(diào)度問題可描述為:有n個染色任務(wù)動態(tài)到達(dá),需在m臺并行批處理機(jī)上進(jìn)行加工,已知生產(chǎn)工藝和加工參數(shù)等,在滿足相關(guān)約束的基礎(chǔ)上,對訂單任務(wù)進(jìn)行組批和排序,以使得產(chǎn)品訂單總拖期時間最小。

      本文研究的問題基于以下假設(shè):

      (1)所有任務(wù)動態(tài)到達(dá);(2)不存在撤單等特殊情況;(3)批處理機(jī)有不同的最大容量限制;(4)具有不同色系、色號、幅寬或布批號的任務(wù)不兼容;(5)同族任務(wù)加工時間相同,且可組批加工;(6)連續(xù)的批次加工之間存在由顏色決定的不同準(zhǔn)備時間;(7)任務(wù)在任一時刻只能由一臺機(jī)器加工;(8)任務(wù)在機(jī)器上非搶占式加工。

      1.2 建立數(shù)學(xué)模型

      進(jìn)一步建立染色車間調(diào)度的數(shù)學(xué)模型:

      1.2.1 符號與變量定義

      表1 符號與變量

      續(xù)表1

      表2 決策變量

      1.2.2 建立數(shù)學(xué)模型

      將染色車間調(diào)度問題建立如下數(shù)學(xué)模型:

      (1)

      (2)

      ?k∈[1,…,b],j∈[1,…,n];

      (3)

      ?k∈[1,…,b],i∈[1,…,m];

      (4)

      eif·xjki≤Ykif,?j∈[1,…,n],k∈[1,…,b],i∈[1,…,m],f∈[1,…,o];

      (5)

      tli≥tki+(Pf+Sfg)xjki,?k∈Ff,l∈Fg,k

      (6)

      tki≥max{rj|?Jj∈Bk}+Sfg,b

      (7)

      cki≥tki+Pf·xjbi,?Ff,j∈[1,…,n],i∈[1,…,m];

      (8)

      cki,tki≥0,?k∈[1,…,b],i∈[1,…,m];

      (9)

      Tj≥max(cki·xjki-dj,0),?k∈[1,…,b],i∈[1,…,m],j∈[1,…,n];

      (10)

      xjki,Ykif∈{0,1},?j∈[1,…,n],k∈[1,…,b],i∈[1,…,m],f∈[1,…,o]。

      (11)

      其中:式(1)表示最小化總拖期時間;約束(2)確保一個任務(wù)只能匹配到一個批和一個染缸;約束(3)表示批的最大重量不得超過加工該批的染缸的最大容量;約束(4)和約束(5)表示加工族約束;約束(6)表示相鄰兩個批次的染缸切換時間約束;約束(7)表示開始加工時間約束;約束(8)表示完工時間約束;約束(9)表示起始時間和完工時間必須大于0;約束(10)表示任務(wù)的拖期時間約束,若未拖期則為0;約束(11)表示兩個決策變量為0-1變量。

      2 基于MA-RPPO強(qiáng)化學(xué)習(xí)的染色車間動態(tài)調(diào)度方法

      染色車間調(diào)度問題可分解為組批和排缸兩個子問題。組批是將同加工族的任務(wù)組合到一起形成批次;排缸是將組合好的批分配至染缸進(jìn)行染色生產(chǎn)。在實際生產(chǎn)過程中,客戶訂單不斷的下達(dá),車間狀態(tài)隨時序演進(jìn),染色車間調(diào)度問題轉(zhuǎn)化為包含組批和排缸的序列決策問題。本文研究基于多智能體強(qiáng)化學(xué)習(xí)的調(diào)度算法,設(shè)計動態(tài)調(diào)度機(jī)制,并驅(qū)動如圖2所示的組批智能體和排缸智能體分別對兩個子問題進(jìn)行求解,以實現(xiàn)總拖期時間最小。

      2.1 動態(tài)調(diào)度機(jī)制

      基于完全反應(yīng)式的動態(tài)調(diào)度方法的主要思想是根據(jù)車間的實時狀態(tài)實時安排待加工任務(wù)的生產(chǎn)。隨著新任務(wù)的到達(dá)和車間加工進(jìn)度的變化,需要及時地安排新任務(wù)到空閑的染缸上進(jìn)行加工,不斷重復(fù)上述過程直至所有任務(wù)加工完成。如圖3所示為本文提出的調(diào)度染色車間動態(tài)調(diào)度流程。在加工過程中依次執(zhí)行如圖3左側(cè)所示的組批子循環(huán)和排缸子循環(huán),在調(diào)度策略中考慮等待實現(xiàn)目標(biāo)優(yōu)化,并通過圖3右側(cè)所示的事件與時間窗結(jié)合的混合觸發(fā)方法不斷滾動。

      染色車間以訂單驅(qū)動生產(chǎn),在未知未來訂單的動態(tài)環(huán)境下需要考慮等待。如圖4中無等待的調(diào)度甘特圖所示,在t1時刻可對J1進(jìn)行加工,但后續(xù)到達(dá)的任務(wù)J2到達(dá)時,由于J1已進(jìn)行加工且無法中斷,導(dǎo)致J3和J4的拖期時間均有增加。因此,在動態(tài)生產(chǎn)環(huán)境下對任務(wù)訂單進(jìn)行合理的等待能有效的減少任務(wù)的完工時間。

      為提升動態(tài)環(huán)境下的響應(yīng)能力,本文首先考慮了現(xiàn)有研究常用的事件驅(qū)動的調(diào)度。但因在調(diào)度策略中考慮了等待,等待成功與否同樣具有不確定性,可能會發(fā)生因等待任務(wù)而導(dǎo)致染缸長時間空閑的情況,因此在其基礎(chǔ)上引入時間窗口觸發(fā)機(jī)制,可及時對不合理的等待方案進(jìn)行修正。調(diào)度觸發(fā)時間刷新表示如下:

      t←min(thappen,t+tw)。

      (12)

      式中:thappen為下一事件發(fā)生時刻,tw為時間窗口長度參數(shù)。

      2.2 MA-RPPO強(qiáng)化學(xué)習(xí)調(diào)度算法

      基于強(qiáng)化學(xué)習(xí)的調(diào)度方法不同于傳統(tǒng)調(diào)度優(yōu)化方法的“建模、分析、優(yōu)化”的思路,而是通過對調(diào)度交互數(shù)據(jù)進(jìn)行學(xué)習(xí),根據(jù)生產(chǎn)系統(tǒng)的反饋逐步調(diào)整調(diào)度策略實現(xiàn)調(diào)度策略的優(yōu)化[28]。首先,針對問題特點進(jìn)行了強(qiáng)化學(xué)習(xí)智能體的設(shè)計;然后,強(qiáng)化學(xué)習(xí)智能體與染色車間的調(diào)度交互過程采用馬爾可夫決策過程(Markov Decision Processes, MDP)進(jìn)行描述,包括調(diào)度狀態(tài)空間、調(diào)度動作空間和調(diào)度獎勵函數(shù)的設(shè)計;最后,在調(diào)度觸發(fā)時智能體輸入染色車間狀態(tài)s,然后輸出調(diào)度決策a,車間環(huán)境反饋獎勵值r,隨時序不斷地執(zhí)行如圖5所示循環(huán)交互獲得大量調(diào)度經(jīng)驗數(shù)據(jù),智能體以數(shù)據(jù)驅(qū)動的方法更新模型,實現(xiàn)調(diào)度策略優(yōu)化。

      2.2.1 調(diào)度智能體

      MA-RPPO強(qiáng)化學(xué)習(xí)多智能體結(jié)構(gòu)如圖6所示,模型包括組批與排缸兩個PPO智能體,每個智能體有一個調(diào)度策略模塊Actor,各自通過一個深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)從車間狀態(tài)到組批或排缸調(diào)度動作的映射。組批Actor和排缸Actor通過動態(tài)調(diào)度機(jī)制進(jìn)行序列式調(diào)度,與染色車間環(huán)境進(jìn)行交互并學(xué)習(xí)的調(diào)度經(jīng)驗優(yōu)化調(diào)度策略。兩個智能體共享一個全局Critic和一個全局LSTM網(wǎng)絡(luò)。設(shè)計的全局的調(diào)度行為評價模塊Critic用來逼近真實的系統(tǒng)反饋,通過一個深度神經(jīng)網(wǎng)絡(luò)建立從車間全局狀態(tài)與調(diào)度決策到調(diào)度評價的映射。在PPO算法基礎(chǔ)上,本強(qiáng)化學(xué)習(xí)多智能體針對問題動態(tài)性引入LSTM實現(xiàn)動態(tài)信息融合,針對組批調(diào)度和排缸調(diào)度兩個子設(shè)計智能體交互機(jī)制實現(xiàn)智能體的協(xié)作調(diào)度。

      (1)動態(tài)信息融合

      LSTM模塊輸入車間的歷史狀態(tài)與調(diào)度記錄進(jìn)行編碼和記憶,實現(xiàn)歷史動態(tài)信息的融合,并輸出一維矩陣對為智能體的調(diào)度提供關(guān)鍵的車間動態(tài)信息。如圖7所示,全局狀態(tài)向量和調(diào)度決策進(jìn)行拼接后,輸入至LSTM網(wǎng)絡(luò)的內(nèi)部通過隱狀態(tài)h和c進(jìn)行信息傳遞,LSTM單元的輸入輸出可表示如下:

      mdc-1=LSTM(hdc-2,cdc-2,[sdc-1,adc-1];ψ)。

      (13)

      式中:LSTM輸入包括車間狀態(tài)sdc-1,上一時刻的調(diào)度決策adc-1,ψ為LSTM網(wǎng)絡(luò)參數(shù),hdc-2和cdc-2均為LSTM的內(nèi)部隱狀態(tài),LSTM輸出交互向量mdc-1是一維向量,該向量是歷史車間狀態(tài)記錄的和預(yù)測信息的編碼。交互向量輸出后,作為調(diào)度智能體的輸入,使得智能體調(diào)度時獲得當(dāng)前的車間調(diào)度關(guān)鍵動態(tài)信息。通過為智能體引入上述LSTM的記憶與預(yù)測功能,實現(xiàn)車間動態(tài)信息的融合,進(jìn)一步提高智能體的動態(tài)自適應(yīng)能力。

      (2)智能體交互機(jī)制

      通過LSTM為中心的調(diào)度決策輸入和交互向量輸出實現(xiàn)智能體之間的交互。智能體調(diào)度前,從LSTM獲取交互向量作為智能體的部分輸入,而交互向量編碼了歷史調(diào)度信息,實現(xiàn)了歷史調(diào)度的智能體到當(dāng)前調(diào)度智能體的調(diào)度信息發(fā)送;智能體調(diào)度后的調(diào)度動作返回給LSTM,將當(dāng)前智能體的調(diào)度決策信息由LSTM記錄,未來智能體調(diào)度時均可從LSTM獲得本次的調(diào)度信息。以圖6中的連續(xù)兩次組批調(diào)度和排缸調(diào)度為例,在dc=0次調(diào)度時刻,組批智能體進(jìn)行調(diào)度,本次調(diào)度的車間狀態(tài)和組批調(diào)度動作發(fā)送到LSTM記錄;dc=1次調(diào)度時,排缸智能體從LSTM獲取輸出向量m1,因m1中編碼了dc=0次調(diào)度的組批信息,通過上述交互實現(xiàn)組批智能體和排缸智能體之間的交互,如圖6中的紅色路徑所示。

      兩個不同的智能體功能不同,所需要觀測的信息也不同,因此智能體調(diào)度時所輸入的矩陣是全局狀態(tài)的不同子集。具體的,組批智能體觀察的狀態(tài)包括待組批任務(wù)狀態(tài)f1和批狀態(tài)f2,而排缸智能體觀察的狀態(tài)則包括批狀態(tài)f2和染缸的狀態(tài)f3。設(shè)計組批智能體局部觀測的狀態(tài)矩陣如下:

      sB=[f1,f2];

      (14)

      設(shè)計排缸智能體局部觀測的狀態(tài)矩陣如下:

      sS=[f2,f3]。

      (15)

      2.2.2 調(diào)度狀態(tài)空間

      智能體進(jìn)行調(diào)度決策依賴于車間的狀態(tài)信息,通過狀態(tài)信息感知車間環(huán)境動態(tài)變化。根據(jù)車間調(diào)度約束與優(yōu)化目標(biāo)相關(guān)的狀態(tài)特征設(shè)計狀態(tài)矩陣Fdye。染色車間調(diào)度主要包括任務(wù)、批和染缸3個對象,因此用Fdye=[f1,f2,f3]對車間狀態(tài)進(jìn)行描述,其中f1=[f1,1,…,f1,n]為待組批任務(wù)的狀態(tài),而f1,j=[f1,j,1,…,f1,j,8]表示任務(wù)Jj的特征向量;f2=[f2,1,…,f2,b]為批狀態(tài),其中f2,k=[f2,k,1,…,f2,k,9]表示批次Bk的特征向量,而f3=[f3,1,…,f3,m]為染缸狀態(tài),其中f3,i=[f3,i,1,…,f3,i,6]表示染缸Mi的特征向量。待組批任務(wù)、批和染缸3種特征向量中的參數(shù)含義及表達(dá)式分別如表3所示。

      表3 染色車間狀態(tài)參數(shù)表

      2.2.3 調(diào)度動作空間

      染色車間調(diào)度決策空間是在車間不同的狀態(tài)下可執(zhí)行的調(diào)度決策集合,主要包括組批調(diào)度決策空間和排缸調(diào)度決策空間。

      (1)組批調(diào)度決策空間 設(shè)定數(shù)量為q的組批緩沖區(qū),組批調(diào)度決策將當(dāng)前待組批任務(wù)加入某個組批緩沖區(qū)或暫緩組批,組批調(diào)度決策空間定義為:

      調(diào)度決策1:選擇第k個組批緩沖區(qū)

      a=k(0≤k

      (16)

      調(diào)度決策2:等待

      a=q。

      (17)

      組批調(diào)度決策時選擇一個組批緩沖區(qū)則將當(dāng)前待組批任務(wù)加入該組批緩沖區(qū),選擇等待則該任務(wù)暫緩組批。若組批智能體將任務(wù)加入的批不兼容或超出批最大容量則組批失敗,結(jié)果等同于動作2。

      (2)排缸調(diào)度決策空間 排缸調(diào)度決策在組批緩沖區(qū)中選擇一個組批緩沖區(qū),并匹配到染缸進(jìn)行加工,與組批調(diào)度決策空間定義相同。選擇一個組批緩沖區(qū)則將該批進(jìn)行染缸匹配并進(jìn)行染色生產(chǎn),并將該組批緩沖區(qū)清空;選擇等待則表示不選擇任何批進(jìn)行加工。若染缸匹配失敗,則等執(zhí)行等待。為減少拖期,染缸匹配規(guī)則設(shè)為在滿足容量要求的染缸集合中選擇切換時間最小的染缸。

      2.2.4 調(diào)度獎勵函數(shù)

      設(shè)計調(diào)度獎勵函數(shù),將目標(biāo)函數(shù)按調(diào)度的步驟進(jìn)行分解,實現(xiàn)分步獎勵。

      (1)組批調(diào)度獎勵函數(shù)

      (18)

      (19)

      (20)

      (2)排缸調(diào)度獎勵函數(shù)

      (21)

      (22)

      spj(t)=

      (23)

      引理1最小化總拖期時間等效于最大化累積獎勵。

      證明對右式中的累積獎勵進(jìn)行如下變換:

      步驟1將單次調(diào)度步驟的獎勵轉(zhuǎn)換為該調(diào)度窗口內(nèi)拖期時間的積分:

      步驟2將整個調(diào)度回合的獎勵合并為拖期時間積分:

      步驟3將組批拖期與排缸拖期時間積分合并:

      由此得證:

      其中sfj(t)為任務(wù)j已到達(dá)且未完工的標(biāo)志位:

      (24)

      強(qiáng)化學(xué)習(xí)方法的學(xué)習(xí)過程即通過參數(shù)更新實現(xiàn)最大化獎勵,最大化上述獎勵與最小化拖期時間等價,為后續(xù)的強(qiáng)化學(xué)習(xí)模型更新提供有效的指導(dǎo)。

      2.2.5 模型更新

      本文的模型參數(shù)更新方法在傳統(tǒng)的PPO算法[15]上進(jìn)行改進(jìn)。首先,將LSTM網(wǎng)絡(luò)與Actor和Critic進(jìn)行全局更新實現(xiàn)LSTM網(wǎng)絡(luò)與智能體同步優(yōu)化。LSTM網(wǎng)絡(luò)輸出是Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的輸入,將Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)更新時的梯度回傳至前綴LSTM網(wǎng)絡(luò)實現(xiàn)全局參數(shù)優(yōu)化。然后,由于組批和排缸智能體優(yōu)化同一目標(biāo),將組批和排缸的獎勵值進(jìn)行全局折扣,實現(xiàn)組批和排缸之間的相互關(guān)聯(lián)與影響:

      (25)

      式中Q(sdc,adc)為在狀態(tài)sdc下選擇調(diào)度決策adc所獲得的全局累計折扣獎勵值。通過滾動事件和滾動時間窗驅(qū)動,不斷進(jìn)行調(diào)度,獲取大量染色車間調(diào)度交互數(shù)據(jù)〈s,a,r〉并進(jìn)行存儲,直至所有任務(wù)完成,采用梯度下降法對參數(shù)進(jìn)行更新,通過不斷迭代實現(xiàn)車間狀態(tài)到調(diào)度決策的策略函數(shù)優(yōu)化。算法偽代碼如算法1所示。

      算法1基于MA-RPPO強(qiáng)化學(xué)習(xí)的染色車間調(diào)度算法。

      1:初始化智能體參數(shù)θ1,θ2,φ,ψ

      3:for each episode do:

      4: 初始化決策時間dt=0,化決策次數(shù)dc=0

      5: 初始化任務(wù)序列、交互向量mdc、經(jīng)驗緩存池、全局狀態(tài)sdc

      6: while not done do:

      7: for job in waiting job:

      13: dc←dc+1

      14: While True:

      20: dc←dc+1

      21: If排缸結(jié)果為等待:

      22: break

      23: end while

      24: 等待至下一次調(diào)度觸發(fā),刷新時間t

      25: end while

      26: 計算全局折扣Q(sdc,adc),?k

      27: for agent=組批智能體A0,排缸智能體A1do:

      28: for epoch=1,2,…,N do:

      29: 計算策略網(wǎng)絡(luò)梯度?L(θi,γ)和值網(wǎng)絡(luò)梯度?J(ω,ψ)

      30: 更新策略網(wǎng)絡(luò)(θi,ψ)←(θi,ψ)+αθ?J(θi,ψ)

      31: 更新值網(wǎng)絡(luò)(ω,ψ)←(ω,ψ)-αω?L(ω,ψ)

      32: end for

      33: θold,wold,ψo(hù)ld←θ,w,ψ

      34: end for

      35:end for

      3 實例驗證

      通過對福建某紡織品企業(yè)染色車間的實際生產(chǎn)歷史數(shù)據(jù)進(jìn)行實驗以驗證所提方法的有效性。每條染色任務(wù)數(shù)據(jù)包括顏色、重量、色系、任務(wù)類型、布批號、加工時間、到達(dá)時間等參數(shù)。依次加工不同族批次所需準(zhǔn)備時間sj1,j2取值如表4所示。實驗使用Python 3.6進(jìn)行編程,使用Pytorch機(jī)器學(xué)習(xí)框架搭建強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型,計算環(huán)境為core i5, 16G RAM, Windows 10操作系統(tǒng)。實驗包括訓(xùn)練和測試兩部分,模型訓(xùn)練過程中染色任務(wù)按照任務(wù)數(shù)據(jù)中既定的時間到達(dá),通過迭代訓(xùn)練獲得最優(yōu)模型并保存,最后將測試任務(wù)算例導(dǎo)入到保存的模型進(jìn)行測試,并對比其性能。

      表4 顏色切換準(zhǔn)備時間表 h

      3.1 數(shù)據(jù)預(yù)處理

      原始數(shù)據(jù)部分特征為字符串或特殊含義的數(shù)字,例如布批號和顏色等,字符串無法參與運算,編號類數(shù)字直接參與運算會造成網(wǎng)絡(luò)更新過程產(chǎn)生梯度消失或梯度爆炸等現(xiàn)象。因此,在進(jìn)行實驗之前應(yīng)對數(shù)據(jù)中的以下特征首先進(jìn)行編碼處理,包括色號、色系和布批號。常用的編碼方式有二進(jìn)制編碼、獨熱編碼和整數(shù)編碼。其中對同一色系內(nèi)的色號按照顏色的深淺進(jìn)行整數(shù)編碼并歸一化,對不同的色系和布批號進(jìn)行獨熱編碼,緊急任務(wù)類型參數(shù)本身為整數(shù)編碼,對其進(jìn)行0-1歸一化。因部分觀測的狀態(tài)特征如等待時間等參數(shù)隨時間變化而增長,導(dǎo)致梯度消失或梯度爆炸,采用比例因子法對與時間相關(guān)的狀態(tài)參數(shù)進(jìn)行縮放,減少各個特征維度的數(shù)量級差異,設(shè)縮放比例因子為bt。數(shù)據(jù)預(yù)處理示例如圖8所示。

      (26)

      3.2 參數(shù)設(shè)置與優(yōu)化

      采用概率匹配[29]對候選調(diào)度決策按策略輸出權(quán)重進(jìn)行隨機(jī)采樣,避免智能體陷入局部最優(yōu)并提高解集的多樣性,實現(xiàn)調(diào)度的探索與利用之間的平衡。在狀態(tài)矩陣后分別添加后綴0或1,實現(xiàn)全局Critic對組批和排缸的區(qū)分。搭建兩個網(wǎng)絡(luò)結(jié)構(gòu)相同的智能體,對學(xué)習(xí)率、累積折扣因子、交互向量長度、組批緩沖區(qū)數(shù)量等進(jìn)行參數(shù)優(yōu)化,部分關(guān)鍵參數(shù)正交實驗結(jié)果如圖9所示;小批量樣本數(shù)和經(jīng)驗緩存區(qū)容量上限則根據(jù)算法調(diào)度交互過程的交互數(shù)據(jù)情況進(jìn)行確定,因PPO算法的交互數(shù)據(jù)在參數(shù)更新后可以重用,將經(jīng)驗緩存區(qū)容量設(shè)置成一個回合獲取交互數(shù)據(jù)條數(shù)的3倍~5倍,提高智能體的調(diào)度交互效率,學(xué)習(xí)速度更快;時間窗大小、組批緩沖區(qū)最大數(shù)量和時間縮放因子bt則根據(jù)調(diào)度過程的情況進(jìn)行設(shè)定;優(yōu)化器、折扣因子和隱層神經(jīng)元數(shù)量參數(shù)則根據(jù)經(jīng)驗進(jìn)行確定;最終確定相關(guān)參數(shù)如表5所示,并且在該參數(shù)設(shè)定時算法的調(diào)度優(yōu)化效果較好。

      表5 實驗參數(shù)

      3.3 模型訓(xùn)練

      根據(jù)表5所示參數(shù)對算法進(jìn)行設(shè)定并在訓(xùn)練集上進(jìn)行訓(xùn)練,在迭代過程中記錄各項參數(shù)變化,并與改進(jìn)前的PPO算法對比。對比算法為兩個單獨PPO智能體,沒有LSTM單元、智能體交互與全局折扣,其余參數(shù)設(shè)置均相同。如圖10所示為改進(jìn)前后的算法在100個相同規(guī)模的算例上迭代訓(xùn)練的結(jié)果對比。每個算例有50個任務(wù),由10臺染缸生產(chǎn),在每一代對所有算例進(jìn)行調(diào)度后更新參數(shù),訓(xùn)練過程參數(shù)變化如圖10所示。

      由圖10a可知,MA-RPPO算法訓(xùn)練過程的全局累積折扣獎勵值逐漸上升,同時圖10b所示組批智能體和圖10c所示排缸智能體的平均累積折扣獎勵均表現(xiàn)出良好的上升趨勢,表明兩個智能體通過以LSTM單元為中心的信息交互形成了良好的協(xié)作關(guān)系,排缸和組批實現(xiàn)了全局優(yōu)化,且其優(yōu)化過程明顯優(yōu)于PPO模型。全局累積折扣獎勵值上升的同時,圖10d中的總拖期時間也隨之逐漸降低,驗證了本文設(shè)計的獎勵函數(shù)與全局優(yōu)化目標(biāo)的一致性,進(jìn)一步證明了模型改進(jìn)的有效性。圖10e中值網(wǎng)絡(luò)損失逐漸收斂,表明全局Critic對兩個智能體所作調(diào)度的評估誤差逐漸減小,建立了染色車間調(diào)度全局評估體系。圖10f中全局Critic對智能體的動作值評價逐漸升高,說明在評價誤差減小的同時,智能體的調(diào)度性能越來越好。

      綜上可見,MA-RPPO算法在訓(xùn)練過程實現(xiàn)了對調(diào)度智能體的優(yōu)化,智能體間的協(xié)作調(diào)度體系得以形成,對組批和排缸兩種調(diào)度決策實現(xiàn)了全局評估,通過訓(xùn)練模型提升了動態(tài)環(huán)境下染色車間調(diào)度能力。訓(xùn)練過程整體表明MA-RPPO模型訓(xùn)練過程穩(wěn)定,收斂速度較PPO模型快,全局求解能力更強(qiáng),更滿足動態(tài)調(diào)度的需求,驗證了改進(jìn)的有效性。

      3.4 實例測試

      通過測試算例驗證訓(xùn)練所得模型解決調(diào)度問題的有效性。染缸數(shù)m=5或10,任務(wù)數(shù)n=50或100,對每一種m與n設(shè)置10個算例。MA-RPPO模型事先在包括100個相同規(guī)模算例的訓(xùn)練集上進(jìn)行訓(xùn)練并對模型進(jìn)行保存。表6展示的是訓(xùn)練后的算法與A1規(guī)則[30]和按到期時間排序組批(SortedbyDuedateandconstructBatches,SDB)規(guī)則[31]對測試算例的調(diào)度結(jié)果對比情況。結(jié)果表明,A1規(guī)則是解決染色車間調(diào)度問題的較優(yōu)規(guī)則,因SDB規(guī)則考慮的僅是任務(wù)的到期時間而未考慮加工族的整體情況,而A1首先通過族的篩選然后在族內(nèi)按照到期時間進(jìn)行排序,其綜合考慮了不同族任務(wù)的加工時間與到期時間的比值,調(diào)度結(jié)果更優(yōu)。但實質(zhì)上以上方法均為貪心策略,組批和排缸調(diào)度決策均為事件觸發(fā),本文提出的方法在所有算例上均優(yōu)于以上兩種調(diào)度規(guī)則,無論其規(guī)模大小都能通過學(xué)習(xí)獲得比現(xiàn)有調(diào)度規(guī)則更優(yōu)的策略。

      表6 算法性能對比

      續(xù)表6

      由圖11所示的較A1算法提升百分比可知,在規(guī)模為m=5,n=100的算例上提升最為明顯,這是因為該算例染缸數(shù)較少且任務(wù)較多,染缸的負(fù)荷高,算例最大完工時間最長,通過合理的等待對目標(biāo)的提升明顯,本方法可實現(xiàn)考慮動態(tài)信息的等待,組批和排缸兩階段全局優(yōu)化,動態(tài)調(diào)度能力更強(qiáng)。

      如圖12所示為其中一個m=5,n=100的算例經(jīng)MA-RPPO算法求解后的甘特圖,其中紅色標(biāo)記的任務(wù)(編號22,23,34,47,50)是通過延遲加工且等待到了新任務(wù)的批次,說明了智能體的調(diào)度策略可對動態(tài)環(huán)境下的任務(wù)等待實現(xiàn)批調(diào)度優(yōu)化,通過等待新任務(wù)提高染缸的利用率的同時進(jìn)一步降低了總拖期時間。

      4 結(jié)束語

      本文以紡織品的染色生產(chǎn)車間為背景,最小化總拖期時間為目標(biāo),針對任務(wù)動態(tài)到達(dá)的染色車間調(diào)度問題,提出了基于MA-RPPO強(qiáng)化學(xué)習(xí)的紡織品染色車間動態(tài)調(diào)度算法??紤]染色車間的復(fù)雜約束的基礎(chǔ)上將調(diào)度問題轉(zhuǎn)化為序列式?jīng)Q策問題,設(shè)計了考慮等待的調(diào)度流程,并提出了MA-RPPO調(diào)度多智能體結(jié)構(gòu),通過引入LSTM實現(xiàn)時間維度的車間動態(tài)信息融合,并作為組批智能體和排缸智能體的交互中心實現(xiàn)智能體的交互協(xié)作,進(jìn)一步實現(xiàn)了組批與排缸的兩階段全局優(yōu)化。根據(jù)染色車間的組批和排缸約束設(shè)計了狀態(tài)矩陣對車間狀態(tài)進(jìn)行描述,并對設(shè)計的獎勵函數(shù)與目標(biāo)函數(shù)的等效性進(jìn)行證明。經(jīng)企業(yè)真實算例測試表明,本文提出的方法調(diào)度獲得的結(jié)果優(yōu)于現(xiàn)有兩種啟發(fā)式算法。

      隨著數(shù)字化技術(shù)的不斷發(fā)展,制造業(yè)的生產(chǎn)車間數(shù)字化程度不斷加深,為建立車間的數(shù)字孿生模型提供了可能。如何在建立數(shù)字孿生模型的基礎(chǔ)上結(jié)合圖網(wǎng)絡(luò)自動提取出車間關(guān)鍵特征作為強(qiáng)化學(xué)習(xí)狀態(tài)特征,實現(xiàn)車間的智能決策,是進(jìn)一步的研究方向。

      猜你喜歡
      染缸車間染色
      師之局
      基于離散事件動態(tài)系統(tǒng)的染缸資源配置優(yōu)化方法研究
      紡織報告(2023年10期)2023-12-25 06:46:36
      掉進(jìn)染缸以后
      100MW光伏車間自動化改造方案設(shè)計
      智能制造(2021年4期)2021-11-04 08:54:28
      招工啦
      “扶貧車間”拔窮根
      平面圖的3-hued 染色
      把農(nóng)業(yè)搬進(jìn)車間
      簡單圖mC4的點可區(qū)別V-全染色
      油紅O染色在斑馬魚體內(nèi)脂質(zhì)染色中的應(yīng)用
      永寿县| 昆山市| 广水市| 库车县| 鹤岗市| 益阳市| 绥阳县| 澄城县| 米脂县| 台北县| 宜丰县| 许昌市| 高州市| 拜城县| 汉川市| 广安市| 贡觉县| 海原县| 闵行区| 麻城市| 长沙市| 全南县| 汝城县| 文登市| 邢台县| 吴堡县| 习水县| 杨浦区| 柞水县| 铜川市| 北宁市| 东源县| 合山市| 炎陵县| 竹溪县| 科技| 崇明县| 寻乌县| 安陆市| 黑河市| 万载县|