摘要:針對預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化問題,提出了一種基于DQN算法的預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化方法。本文以最小最大完工時間和最小化能耗為評價指標(biāo),建立了預(yù)制構(gòu)件生產(chǎn)車間的數(shù)學(xué)模型,并運(yùn)用DQN算法對預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化問題進(jìn)行求解,同時,由于DQN算法在解決本問題時無法給出即時回報,使得算法訓(xùn)練結(jié)果過于振蕩不穩(wěn)定,因此設(shè)計密集獎勵,使最后的探索學(xué)習(xí)結(jié)果趨于穩(wěn)定。通過與多種算法進(jìn)行對比試驗,證明了該方法適用于預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化問題。
關(guān)鍵詞:預(yù)制構(gòu)件;生產(chǎn)排產(chǎn);生產(chǎn)線;DQN算法;目標(biāo)優(yōu)化
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2024)32-0104-03 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID) :
0 引言
在預(yù)制構(gòu)件生產(chǎn)過程中,解決多約束預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)問題是構(gòu)件生產(chǎn)企業(yè)提高核心競爭力的最佳途徑[1],由于不同排產(chǎn)方案的生產(chǎn)時間和總能耗不同,因此,找到最優(yōu)的生產(chǎn)方案能夠節(jié)約時間和能耗,減少生產(chǎn)成本。預(yù)制構(gòu)件生產(chǎn)優(yōu)化為NP-hard問題,無法在理想的時間內(nèi)用精確方法得到全局最優(yōu)解[2]。而且,當(dāng)問題約束趨于復(fù)雜時,求解一定規(guī)模問題的全局最優(yōu)生產(chǎn)方案會更加困難[3]。目前在對裝配式建筑預(yù)制構(gòu)件調(diào)度問題優(yōu)化求解時,解的質(zhì)量根據(jù)使用算法的性能而不同[4]。因此,根據(jù)所求問題選擇適合的算法,在理想的時間內(nèi)得到較為滿意的可行解在實際過程中尤為重要。
1 模型建立
1.1 問題描述
在模具數(shù)量和養(yǎng)護(hù)窯數(shù)量有限的約束下,預(yù)制構(gòu)件生產(chǎn)車間中,構(gòu)件的生產(chǎn)過程普遍需要經(jīng)過六個工序的加工,其中第一階段是支模工序段,構(gòu)件在工序段進(jìn)行模具模臺的組合分配,第二個階段是預(yù)制構(gòu)件的鋼筋和混凝土澆筑,第三個階段是蒸養(yǎng)工序,該階段進(jìn)行構(gòu)件的養(yǎng)護(hù)工作,構(gòu)件在養(yǎng)護(hù)窯內(nèi)進(jìn)行加工過,不同類型的構(gòu)件所需養(yǎng)護(hù)時間不同,不同時刻進(jìn)入養(yǎng)護(hù)窯的構(gòu)件養(yǎng)護(hù)時間也不同,導(dǎo)致蒸養(yǎng)工序具有復(fù)雜的生產(chǎn)特點(diǎn)。第四個階段是拆模工序段,在該工序?qū)χ澳>吣E_組合分配后的構(gòu)件進(jìn)行拆解,最后一個階段是成品修整和檢查。只有當(dāng)整個模臺上布置的所有預(yù)制構(gòu)件該工序操作完成后才能移動到下一個工序,且一個工序有多個加工設(shè)備可供選擇,每個設(shè)備的加工時間和能源消耗可能不同。通過合理安排模臺之間的生產(chǎn)排序,優(yōu)化生產(chǎn)線的性能指標(biāo)。
1.2 參數(shù)設(shè)置
1.3 約束條件
公式(1)表示不同序號的模臺在不同工序上進(jìn)行加工,其結(jié)束時間等于該模臺在該工序開始加工的時間與該模臺在該工序所需加工時間的和。
公式(2)表示工件在進(jìn)入下一道工序加工之前,必須先完成本道工序的加工任務(wù)。
公式(3)表示工件只能在一個工序中的一個加工工位上進(jìn)行加工。
1.4 全局優(yōu)化目標(biāo)
預(yù)制構(gòu)件生產(chǎn)線生產(chǎn)排產(chǎn)問題可以描述為:單日生產(chǎn)訂單下達(dá)要生產(chǎn)的構(gòu)件數(shù)量,然后對構(gòu)件進(jìn)行預(yù)處理分析構(gòu)件的類型和尺寸,對構(gòu)件進(jìn)行模具模臺的組合分配,將同種規(guī)則的構(gòu)件進(jìn)行放置到同一個模臺搭配,然后每個模臺依次經(jīng)過預(yù)制構(gòu)件生產(chǎn)線的所有工序進(jìn)行加工生產(chǎn),其中某些工序可以有多個加工機(jī)器同時進(jìn)行生產(chǎn),但是機(jī)器的數(shù)量不是無限的,同時在生產(chǎn)過程中每個模臺上的構(gòu)件都要按工序的先后順序進(jìn)行加工,每個工序上的時間根據(jù)模臺上的構(gòu)件進(jìn)行運(yùn)算,通過合理有效地排產(chǎn)獲得最小化完工時間和最小化總能耗,使資源合理安排,保證能耗的最小損失。
基于以上的描述,以最小化預(yù)制構(gòu)件完工時間和最小化總能耗為目標(biāo)建立數(shù)學(xué)模型,如下所示目標(biāo)函數(shù):
2 基于DQN算法的預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化方法
2.1 狀態(tài)空間
狀態(tài)量共有3個:工序Pr,構(gòu)件已完成加工量Fn,所選擇的加工機(jī)器Ma。如[(1,2),(2,1),(6,1) ]為預(yù)制構(gòu)件的位置信息矩陣,該矩陣表明在工序1機(jī)器2、工序2 機(jī)器1和工序6機(jī)器1處有預(yù)制構(gòu)件在進(jìn)行加工。如[ Pr,F(xiàn)n,Ma ]為預(yù)制構(gòu)件的完工量信息矩陣,在某時刻t的狀態(tài)矩陣St如[1,0,1],0表示完成加工,1表示正在進(jìn)行加工。
2.2 動作空間
通過上面針對預(yù)制構(gòu)件生產(chǎn)線的數(shù)學(xué)建模所描述的情況,本算法的動作定義為下一個預(yù)制構(gòu)件分配到哪個工序的哪個機(jī)器上加工,表2為預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)系統(tǒng)的動作空間。
2.3 回報函數(shù)
本文針對預(yù)制構(gòu)件生產(chǎn)線的排產(chǎn)優(yōu)化問題,旨在優(yōu)化目標(biāo),實現(xiàn)最小化完工時間和機(jī)器負(fù)載。為了有效地設(shè)計獎勵函數(shù),我們依據(jù)了優(yōu)化目標(biāo)的設(shè)定。在我們的假設(shè)中,工件的各工序單位加工量都是相同的。因此,隨著機(jī)器加工時間的增加,機(jī)器負(fù)載也相應(yīng)增加。為了準(zhǔn)確衡量機(jī)器的總負(fù)載量,我們采用了機(jī)器有效加工時間作為指標(biāo)來表示:
在DQN算法的學(xué)習(xí)過程中[5],狀態(tài)對應(yīng)著動作空間中的可選操作,然而,并非每個狀態(tài)下的動作都是合法的。舉例來說,當(dāng)狀態(tài)處于已經(jīng)在某一個工序上的其中一個機(jī)器進(jìn)行加工時,狀態(tài)不允許繼續(xù)選擇在該機(jī)器上進(jìn)行加工,因為該工序上的這個機(jī)器正在被使用。如果算法在學(xué)習(xí)時仍然選擇錯誤的機(jī)器進(jìn)行加工,則這被視為非法操作,獲得負(fù)反饋。通過學(xué)習(xí)避免相同的情況再次發(fā)生,因此獎勵函數(shù)可依據(jù)如公式(7)所示。
2.4 算法設(shè)計流程
本節(jié)將采用ε 貪婪探索策略結(jié)合設(shè)計瞬時獎勵的DQN算法來解決本文的預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化問題,具體設(shè)計流程如下:
步驟1:創(chuàng)建DQN網(wǎng)絡(luò),預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化模型的狀態(tài)矩陣作為DQN網(wǎng)絡(luò)的輸入,輸入狀態(tài)矩陣后可以輸出這個狀態(tài)下所有動作的Q值;
步驟2:創(chuàng)建ε - greedy 策略得到最優(yōu)動作和隨機(jī)動作;
步驟3:建立數(shù)據(jù)集;
步驟4:從經(jīng)驗池中取出隨機(jī)數(shù)據(jù)來用于訓(xùn)練神經(jīng)網(wǎng)絡(luò);
步驟5:配置網(wǎng)絡(luò)訓(xùn)練相關(guān)參數(shù)將Q現(xiàn)實網(wǎng)絡(luò)參數(shù)復(fù)制給Q目標(biāo)網(wǎng)絡(luò);
步驟6:分創(chuàng)建目標(biāo)網(wǎng)絡(luò)和評估網(wǎng)絡(luò);
步驟7:計算Q值。網(wǎng)絡(luò)輸入狀態(tài),輸出動作的Q值;
步驟8:定義動作接口,對應(yīng)的是經(jīng)驗池中的動作;
步驟9:定義損失函數(shù)計算方法,并設(shè)計隨機(jī)梯度方法降低損失函數(shù)。
3 仿真實驗
3.1 構(gòu)造仿真數(shù)據(jù)
通過企業(yè)調(diào)研獲取實際案例數(shù)據(jù),基于本團(tuán)隊在預(yù)制構(gòu)件生產(chǎn)企業(yè)實施MES項目迭代應(yīng)用過程,對生產(chǎn)線中各類生產(chǎn)數(shù)據(jù)抽取,以及對生產(chǎn)管理人員的生產(chǎn)運(yùn)作經(jīng)驗,并對構(gòu)件生產(chǎn)相關(guān)數(shù)據(jù)進(jìn)行加工整理,得到如表3所示構(gòu)件生產(chǎn)數(shù)據(jù)信息,同類構(gòu)件不再重復(fù)列出。根據(jù)生產(chǎn)工廠實際情況,依照一條生產(chǎn)流水線班組配置的資源可知,養(yǎng)護(hù)窯容量最多允許同時放置6個模臺。
3.2 仿真結(jié)果分析
1) 評價指標(biāo)分析
為驗證基于DQN算法的預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化方法在解決具有多種復(fù)雜約束排產(chǎn)問題的有效性,通過與以前學(xué)者們采用的粒子群優(yōu)化算法[6](ParticleSwarm Optimization,PSO)、遺傳算法[7] (Genetic Algo?rithm,GA)和Q學(xué)習(xí)算法[8](Q-learning)在解決預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化問題中的性能進(jìn)行對比。從表4可以看出,采用DQN算法其主要評價指標(biāo)最小化最大完工時間F max為715,加工能耗TEC 為23 673,相比于采用PSO、GA和Q-learning算法對于解決預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)問題具有較好的效果,說明基于DQN算法應(yīng)用在求解預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化問題時能取得更好的優(yōu)化效果。
圖1和圖2分別為4種算法分別運(yùn)行10次所得的完工時間和生產(chǎn)線總能耗圖,從圖可以看出,應(yīng)用PSO算法和GA算法進(jìn)行仿真實驗得到結(jié)果曲線波動較大,算法的穩(wěn)定性較差。應(yīng)用Q-learning算法雖然較前兩種算法在優(yōu)化效果和所得結(jié)果穩(wěn)定性上有所提高,但是相對于DQN算法在加工工時的優(yōu)化上效果較差,應(yīng)用DQN算法在進(jìn)行仿真訓(xùn)練后獲得的評價指標(biāo)最小最大完工時間的平均值為712,是4種算法中平均值最小的,同時應(yīng)用DQN算法相比于其他三種算法不僅優(yōu)化效果更好,且其排產(chǎn)結(jié)果的穩(wěn)定性也是4 種算法中最好的。
4 結(jié)論
本文描述了預(yù)制構(gòu)件生產(chǎn)車間具有約束復(fù)雜、工藝流程和設(shè)備選用靈活的特點(diǎn),以最小化完工時間和最小化能耗為優(yōu)化目標(biāo)對預(yù)制構(gòu)件生產(chǎn)車間排產(chǎn)問題進(jìn)行了數(shù)學(xué)建模,提出了基于DQN算法求解預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化問題,詳細(xì)介紹了DQN算法的具體實現(xiàn),最后再通過實例進(jìn)行仿真實驗與其他算法的測試結(jié)果進(jìn)行了對比,得出了DQN算法在處理預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化問題上可以優(yōu)化最小化最大完工時間,并且能夠減少能源損耗,驗證了本章提出的DQN算法在處理預(yù)制構(gòu)件生產(chǎn)線排產(chǎn)優(yōu)化問題上的有效性和優(yōu)越性。
參考文獻(xiàn):
[1] 李大洲.裝配式建筑構(gòu)件生產(chǎn)過程質(zhì)量控制措施[J].江蘇建材,2023(6):3-4.
[2] 陳繼文,張譯勻,高曉明,等.基于改進(jìn)遺傳算法的PC構(gòu)件生產(chǎn)調(diào)度優(yōu)化[J].機(jī)械設(shè)計與制造工程,2024,53(1):95-99.
[3] 劉福磊,鄧曉平,于海洋,等.多資源約束下的預(yù)制構(gòu)件生產(chǎn)調(diào)度優(yōu)化與資源再配置[J].軟件,2024,45(3):22-29,73.
[4] 董全德,李泓鋒.混凝土預(yù)制構(gòu)件多產(chǎn)線生產(chǎn)養(yǎng)護(hù)時間優(yōu)化[J].住宅與房地產(chǎn),2023(2):54-57.
[5] 史殿習(xí),彭瀅璇,楊煥煥,等.基于DQN的多智能體深度強(qiáng)化學(xué)習(xí)運(yùn)動規(guī)劃方法[J].計算機(jī)科學(xué),2024,51(2):268-277.
[6] DAI Z,LIU X,ZHANG L,et al.Enhancing SRTM DEM correc?tion accuracy with a PSO-RF method utilizing ICESat-2/ATLAS data[J].Academic Journal of Engineering and Technol?ogy Science,2023,6(11).
[7] CAO J E,CAO P L,WEN C D,et al.Multi-objective niching quantum genetic algorithm-based optimization method for pneumatic hammer structure[J].Expert Systems with Applica?tions,2024,238:122047.
[8] MOMENIKORBEKANDI A,ABBOD M.Intelligent scheduling based on reinforcement learning approaches:applying advanced Q-learning and state-action-reward-state-action reinforce?ment learning models for the optimisation of job shop schedul?ing problems[J].Electronics,2023,12(23):4752.
【通聯(lián)編輯:梁書】
基金項目: 遼寧省重點(diǎn)研發(fā)計劃項目(2020JH2/10100039);遼寧省教育廳高等學(xué)校基本科研項目重點(diǎn)項目(LJKZ0583);遼寧省科技廳應(yīng)用基礎(chǔ)研究計劃(20221300253)