摘 要:在具有高延遲、非線性特性和強(qiáng)耦合性的復(fù)雜工業(yè)環(huán)境中,實(shí)現(xiàn)穩(wěn)定而準(zhǔn)確的連續(xù)控制面具有一定挑戰(zhàn)。為了應(yīng)對該問題,本文提出一種基于二階價(jià)值梯度的強(qiáng)化學(xué)習(xí)模型的創(chuàng)新控制策略。該策略首次將狀態(tài)價(jià)值函數(shù)的二階梯度信息納入模型訓(xùn)練,旨在利用更準(zhǔn)確的函數(shù)近似提高學(xué)習(xí)迭代效率,并增強(qiáng)模型的魯棒性。本文還引入一種高效的狀態(tài)采樣策略,以優(yōu)化策略學(xué)習(xí)過程?;贠penAI Gym平臺和2種工業(yè)場景的仿真測試表明,與基于最大似然估計(jì)的傳統(tǒng)模型相比,本文方法顯著降低了環(huán)境模型的預(yù)測誤差,提高了學(xué)習(xí)效率和控制性能,有效減少了控制過程中的振蕩現(xiàn)象。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);二階價(jià)值梯度;工業(yè)自動(dòng)化;控制策略
中圖分類號:TP 273" " " " " " " 文獻(xiàn)標(biāo)志碼:A
目前,強(qiáng)化學(xué)習(xí)在工業(yè)自動(dòng)化控制領(lǐng)域得到廣泛關(guān)注,特別是在處理非線性和強(qiáng)耦合系統(tǒng)方面表現(xiàn)出極大潛力。然而,無模型強(qiáng)化學(xué)習(xí)需要大量數(shù)據(jù),因此在復(fù)雜場景中受限。相比之下,基于模型的強(qiáng)化學(xué)習(xí)通過構(gòu)建環(huán)境模型來減少實(shí)際交互,提高了數(shù)據(jù)利用率和學(xué)習(xí)速度。此外,本文引入二階梯度信息的狀態(tài)價(jià)值函數(shù),提出了基于二階價(jià)值梯度的方法,采用狀態(tài)采樣策略,顯著提升了學(xué)習(xí)效率和控制性能。該研究為復(fù)雜工業(yè)自動(dòng)化控制提供了新的視角,并開辟了研究和實(shí)踐的新途徑。
1 工業(yè)自動(dòng)化控制中的人工智能應(yīng)用
1.1 模型驅(qū)動(dòng)的決策學(xué)習(xí)在工業(yè)控制中的應(yīng)用
工業(yè)自動(dòng)化控制系統(tǒng)的核心是其決策過程,可將其理解為一種序貫決策問題,適合建立一種稱作馬爾可夫決策過程的框架。該框架由5個(gè)元組(S,A,P,r,γ)定義,其中,S為一系列可能的狀態(tài),A為可能采取的動(dòng)作集合。轉(zhuǎn)移概率P(s'|s,a)描述了在當(dāng)前狀態(tài)s和動(dòng)作a下轉(zhuǎn)移到新狀態(tài)s'的概率,而r(s,a)為獎(jiǎng)勵(lì)函數(shù),表征在特定狀態(tài)和動(dòng)作下智能體獲得的即時(shí)回報(bào)[1]。同時(shí),折扣因子γ用于調(diào)整未來獎(jiǎng)勵(lì)的當(dāng)前價(jià)值。在該系統(tǒng)中,智能體通過與環(huán)境的互動(dòng)產(chǎn)生交互軌跡τ=(s0,a0,s1,a1,...),并獲得一系列獎(jiǎng)勵(lì)(r0,r1,r2,...),累積獎(jiǎng)勵(lì)的總和,如公式(1)所示。
(1)
式中:η為累計(jì)獎(jiǎng)勵(lì)的總和,是智能體在整個(gè)過程中的期望獎(jiǎng)勵(lì);t為時(shí)間步長,是在序列中的每個(gè)時(shí)間點(diǎn);γ為折扣因子,范圍為0~1,用于調(diào)整未來獎(jiǎng)勵(lì)的當(dāng)前價(jià)值,越接近1,表示未來獎(jiǎng)勵(lì)的權(quán)重越高,越接近0,表示未來獎(jiǎng)勵(lì)的權(quán)重越低;r(st,at)為獎(jiǎng)勵(lì)函數(shù),是在特定狀態(tài)st下采取動(dòng)作at后獲得的即時(shí)獎(jiǎng)勵(lì),狀態(tài)st為智能體在某一特定時(shí)間點(diǎn)所處的狀態(tài),動(dòng)作at為智能體在某一特定時(shí)間點(diǎn)采取的動(dòng)作。
公式(1)表示在時(shí)間步長從0到∞的過程中,所有折扣獎(jiǎng)勵(lì)的總和。
強(qiáng)化學(xué)習(xí)的目標(biāo)是找到一個(gè)最優(yōu)策略π*,能夠最大化累積獎(jiǎng)勵(lì)的期望值,如公式(2)所示。
(2)
在基于模型的強(qiáng)化學(xué)習(xí)中(MBRL),一種常用的方法是利用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)一個(gè)環(huán)境模型P(s'|s,a;θ),其中θ為網(wǎng)絡(luò)參數(shù)。可使智能體能夠在沒有與實(shí)際環(huán)境交互的情況下利用與環(huán)境模型交互進(jìn)行學(xué)習(xí)和決策。
1.2 工業(yè)控制中的模型驅(qū)動(dòng)策略優(yōu)化與價(jià)值感知學(xué)習(xí)
在經(jīng)典模型驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)中,模型學(xué)習(xí)和策略優(yōu)化通常是分開的。例如,MBPO算法結(jié)合SAC策略進(jìn)行學(xué)習(xí),先在真實(shí)環(huán)境數(shù)據(jù)上訓(xùn)練環(huán)境模型,然后利用此模型和SAC算法迭代優(yōu)化策略,以獲取高累積獎(jiǎng)勵(lì)。但是,環(huán)境模型的精確度與策略優(yōu)化的目標(biāo)可能不一致,會(huì)導(dǎo)致出現(xiàn)低預(yù)測誤差的模型,無法保證最優(yōu)獎(jiǎng)勵(lì)。為解決該問題,本文引入了價(jià)值感知的模型學(xué)習(xí)方法VAML,該方法在模型學(xué)習(xí)階段融合狀態(tài)價(jià)值信息,旨在使模型與實(shí)際環(huán)境間的單步價(jià)值估計(jì)差異最小化,如公式(3)所示。
loss(p,p' )=∫μ(s,a)|∫p(s'|s,a)V(s' )ds'-∫p'(s'|s,a)V(s' )ds'|dsda" (3)
式中:loss(p,p' )為損失函數(shù),用于衡量2個(gè)概率分布與p' 間的差異;V(s' )為狀態(tài)s'下的價(jià)值函數(shù),分別在真實(shí)環(huán)境和模型環(huán)境p'(s'|s,a)下進(jìn)行評估;μ(s,a)為狀態(tài)和動(dòng)作對的概率分布。
VAML方法的核心是利用價(jià)值函數(shù)的精確估計(jì)來定義損失函數(shù),在實(shí)踐中需要利用神經(jīng)網(wǎng)絡(luò)進(jìn)行估計(jì),并可能引入偏差。
1.3 工業(yè)自動(dòng)化中的增強(qiáng)模型訓(xùn)練(價(jià)值梯度方法)
在工業(yè)自動(dòng)化控制系統(tǒng)中,VaGraM方法是VAML的改進(jìn)版,它提供了一種更精確的模型訓(xùn)練方案。該方法重視價(jià)值函數(shù)的梯度信息。假設(shè)環(huán)境模型預(yù)測的下一狀態(tài)與實(shí)際非常接近,通過泰勒展開求近似值函數(shù),并結(jié)合狀態(tài)間的差值。VaGraM的損失函數(shù)計(jì)算了模型預(yù)測與泰勒展開基于梯度差異的平方和,從而提升了預(yù)測精度和模型的學(xué)習(xí)效率,如公式(4)所示。
(4)
式中:lossθ為目標(biāo)函數(shù),衡量的是模型在狀態(tài)s下采取動(dòng)作a并轉(zhuǎn)移到狀態(tài)s'的預(yù)測準(zhǔn)確性;∑為對所有可能的狀態(tài)和動(dòng)作組合進(jìn)行求和;Pθ(s'|s,a)為轉(zhuǎn)移概率,表示在狀態(tài)s和動(dòng)作a下轉(zhuǎn)移到新狀態(tài)s'的概率分布;ΔV(ss)為狀態(tài)價(jià)值函數(shù)關(guān)于狀態(tài)的梯度,即價(jià)值函數(shù)在狀態(tài)空間中變化的方向和幅度;(s-s')為狀態(tài)差,表示模型預(yù)測的下一狀態(tài)′與實(shí)際狀態(tài)間的誤差;dsda為該損失函數(shù)在狀態(tài)-動(dòng)作空間上進(jìn)行積分或求和,以考慮所有可能的狀態(tài)和動(dòng)作。
2 在高維控制系統(tǒng)中的二階價(jià)值梯度強(qiáng)化學(xué)習(xí)
2.1 提升學(xué)習(xí)效率的二階泰勒展開策略
在自動(dòng)化控制系統(tǒng)優(yōu)化中,強(qiáng)化學(xué)習(xí)算法的整合推動(dòng)了控制策略的發(fā)展。在處理復(fù)雜工業(yè)任務(wù)過程中,為提升模型訓(xùn)練速度和學(xué)習(xí)效率,本文引入了一種二階價(jià)值梯度模型和新的狀態(tài)采樣策略。該模型假設(shè)智能體預(yù)測的下一狀態(tài)與實(shí)際環(huán)境的下一狀態(tài)非常接近。與一階泰勒展開方法相比,本文使用二階泰勒展開進(jìn)行向量化表達(dá),以更精確地近似價(jià)值函數(shù),如公式(5)所示,該公式是一個(gè)函數(shù)在某一點(diǎn)x0附近的二階泰勒展開,用來近似函數(shù)f(x)在x點(diǎn)的值。
f(x)≈f(x0)+?f(x0)T(x-x0)+(x-x0)T+H(x0)(x-x0) (5)
式中:f(x0)為函數(shù)在點(diǎn)x0的值;f(x0)T(x-x0)為利用函數(shù)在x0處的梯度來捕捉f關(guān)于x的一階變化;(x-x0)TH(x0)(x-x0)為函數(shù)在x0處的海森矩陣H(x0)考慮二階效應(yīng),即f的局部曲率。
2.2 增強(qiáng)型狀態(tài)采樣策略在自動(dòng)化控制中的應(yīng)用
在工業(yè)自動(dòng)化控制系統(tǒng)的AI應(yīng)用中,有效利用環(huán)境模型非常重要[2-3]。本文優(yōu)先從預(yù)期高回報(bào)狀態(tài)開始推演,增加智能體學(xué)習(xí)高價(jià)值狀態(tài)路徑的機(jī)會(huì)。該方法不僅能幫助智能體掌握達(dá)到高價(jià)值狀態(tài)的策略,還能覆蓋低價(jià)值狀態(tài),實(shí)現(xiàn)了全面學(xué)習(xí)。還引入了以Boltzmann概率分布為基礎(chǔ)的狀態(tài)采樣策略,由價(jià)值網(wǎng)絡(luò)估計(jì)的狀態(tài)價(jià)值和超參數(shù)β控制,如公式(6)所示,該公式表達(dá)了一個(gè)依賴于狀態(tài)價(jià)值函數(shù)V(s)的概率分布p(s)。
p(s)∞eβV(s) " " " (6)
式中:p(s)為狀態(tài)s的概率分布,該概率分布描述了智能體選擇狀態(tài)時(shí)的偏好,概率越高表示智能體越有可能選擇該狀態(tài);e為自然常數(shù),約為2.71828,它是指數(shù)函數(shù)的底數(shù),在該公式中用于將價(jià)值函數(shù)轉(zhuǎn)換為概率分布的一部分;β為超參數(shù),控制價(jià)值函數(shù)對概率分布的影響程度。
通過這樣的設(shè)置,智能體能夠根據(jù)狀態(tài)的估計(jì)價(jià)值進(jìn)行狀態(tài)采樣,平衡探索高價(jià)值和低價(jià)值狀態(tài)的策略。
3 在工業(yè)自動(dòng)化中的強(qiáng)化學(xué)習(xí)應(yīng)用示例
本文在OpenAI Gym平臺使用二階價(jià)值梯度模型,評估了包括MuJoCo的CarPole、InvertedPendulum和Hopper環(huán)境在內(nèi)的多種測試場景。同時(shí),仿真試驗(yàn)還包括青霉素生產(chǎn)和食品加工工業(yè)場景,利用MATLAB/Simulink和Python模擬關(guān)鍵控制過程。試驗(yàn)通過設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),有效評估并提升了控制策略的性能,如公式(7)所示。
(7)
式中:reward為獎(jiǎng)勵(lì)值,用于評估系統(tǒng)在當(dāng)前狀態(tài)下的表現(xiàn),獎(jiǎng)勵(lì)值可以是正數(shù),也可以是負(fù)數(shù),分別表示正向激勵(lì)和負(fù)向懲罰;err為當(dāng)前溫度與目標(biāo)溫度297.5 K間的差值;σ1、σ2和σ3為預(yù)設(shè)的溫差閾值。
將折扣因子設(shè)置為0.99,用于評估未來狀態(tài)的價(jià)值。通過這樣的設(shè)置,仿真環(huán)境中的智能體可以學(xué)習(xí)如何控制發(fā)酵條件,以提高青霉素的生產(chǎn)效率。
3.1 食品加工自動(dòng)化控制系統(tǒng)中的實(shí)時(shí)水分調(diào)節(jié)
在食品加工行業(yè)的自動(dòng)化控制中,關(guān)鍵操作之一是實(shí)時(shí)調(diào)整原料的出口含水率。在該過程中,原料通過滾筒的旋轉(zhuǎn)和蒸汽噴灑進(jìn)行水分均勻吸收,核心任務(wù)是調(diào)節(jié)加水量,以保證含水率達(dá)到目標(biāo)值18.5%。為此,本文建立了一個(gè)仿真環(huán)境的MDP模型,其狀態(tài)空間包括過去5個(gè)時(shí)間點(diǎn)的含水率記錄,控制動(dòng)作基于這些數(shù)據(jù)調(diào)整加水量。假設(shè)狀態(tài)轉(zhuǎn)移概率為固定但是未知,獎(jiǎng)勵(lì)函數(shù)旨在將含水率偏差和控制誤差最小化,以抑制系統(tǒng)振蕩,如公式(8)所示。
(8)
式中:yi為第i個(gè)智能體的某個(gè)特定參數(shù)或狀態(tài)值,將目標(biāo)狀態(tài)值設(shè)定為18.5,智能體的狀態(tài)值在理想情況下應(yīng)該接近該數(shù)值。
在該試驗(yàn)中,折扣因子固定為0.99,考慮了未來的狀態(tài)價(jià)值。
3.2 強(qiáng)化學(xué)習(xí)方法在自動(dòng)化控制系統(tǒng)中的應(yīng)用比較
在自動(dòng)化控制系統(tǒng)的最新研究中,本文與多種主流控制算法進(jìn)行了比較,包括PETS、SAC、MBPO和VaGraM方法,展現(xiàn)了基于二階價(jià)值梯度強(qiáng)化學(xué)習(xí)方法的優(yōu)越性。本文利用累積獎(jiǎng)勵(lì)、均方誤差和平均絕對誤差等評價(jià)指標(biāo),從多個(gè)維度驗(yàn)證了新方法的有效性,并進(jìn)行了性能分析,優(yōu)化了超參數(shù)設(shè)置。同時(shí),在公共強(qiáng)化學(xué)習(xí)環(huán)境中對CarPole、Inverted Pendulum和Hopper這3種場景進(jìn)行了比較,見表1。
結(jié)果顯示,本文方法在學(xué)習(xí)效率、快速收斂性和獎(jiǎng)勵(lì)穩(wěn)定性方面具有優(yōu)越性,尤其在處理復(fù)雜的Hopper任務(wù)中表現(xiàn)良好。與VaGraM方法相比,本文方法在預(yù)測精確性和模型誤差上有所改進(jìn),顯示了良好的魯棒性和較高的更新效率,訓(xùn)練效率更優(yōu)。綜上所述,本文方法在自動(dòng)化控制領(lǐng)域的人工智能應(yīng)用中具有顯著的實(shí)用價(jià)值。
3.3 自動(dòng)化控制中基于二階價(jià)值梯度的強(qiáng)化學(xué)習(xí)方法的應(yīng)用實(shí)證研究
為展示基于二階價(jià)值梯度模型強(qiáng)化學(xué)習(xí)方法的效用,本文在青霉素生產(chǎn)和食品加工的工業(yè)仿真場景中進(jìn)行了試驗(yàn)。結(jié)果表明,在青霉素生產(chǎn)仿真中,本文方法與其他方法(例如PETS和MBPO)相比,誤差減少了約3%,在訓(xùn)練速度上具有優(yōu)勢,如圖1所示。在食品加工仿真中,本文方法性能更優(yōu),顯示了其在復(fù)雜環(huán)境中的調(diào)控能力,如圖2所示。無論是青霉素發(fā)酵過程的溫度控制,還是食品加工中的含水率控制,本文方法均能快速響應(yīng)且系統(tǒng)穩(wěn)定性高,超越了傳統(tǒng)和無模型控制方法,顯示了其在實(shí)際工業(yè)應(yīng)用中的潛在價(jià)值。
4 結(jié)語
在自動(dòng)化工業(yè)控制領(lǐng)域的研究中,基于二階價(jià)值梯度的強(qiáng)化學(xué)習(xí)方法證明了其在處理復(fù)雜動(dòng)態(tài)系統(tǒng)過程中的顯著優(yōu)勢。無論是在標(biāo)準(zhǔn)測試環(huán)境,還是特定的工業(yè)仿真場景中,該方法不僅加速了模型的收斂過程,還提高了策略的穩(wěn)定性和效率,特別是在青霉素生產(chǎn)和食品加工的控制任務(wù)中更具優(yōu)越性。試驗(yàn)結(jié)果顯示該方法在準(zhǔn)確模擬和預(yù)測復(fù)雜工業(yè)過程中具有強(qiáng)大能力,在實(shí)際應(yīng)用中也具有高效控制潛力。本文研究不僅推動(dòng)了工業(yè)自動(dòng)化控制系統(tǒng)的技術(shù)進(jìn)步,也為未來深度強(qiáng)化學(xué)習(xí)在工業(yè)應(yīng)用領(lǐng)域的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。
參考文獻(xiàn)
[1]李辰.人工智能在工業(yè)自動(dòng)化控制系統(tǒng)的應(yīng)用探討[J].數(shù)碼設(shè)計(jì),2021,10(11):60-61.
[2]丁建軍.智能制造技術(shù)在工業(yè)自動(dòng)化生產(chǎn)中的應(yīng)用研究[J].機(jī)械與電子控制工程,2024,6(1):180-182.
[3]李占輝.人工智能技術(shù)在電氣自動(dòng)化控制中的應(yīng)用問題探討[J].水電科技,2024,7(1):90-92.