周東陽(yáng),曹軍,畢勝山,邵壯,司風(fēng)琪
(1.西安交通大學(xué)熱流科學(xué)與工程教育部重點(diǎn)實(shí)驗(yàn)室,710049,西安;2.西安熱工研究院有限公司,710054,西安;3.東南大學(xué)能源熱轉(zhuǎn)換及其過程測(cè)控教育部重點(diǎn)實(shí)驗(yàn)室,210096,南京)
電力行業(yè)在持續(xù)發(fā)展過程中對(duì)火電機(jī)組的生產(chǎn)技術(shù)提出更高的要求,除了最基本的運(yùn)行穩(wěn)定之外,還要求過程的高效與智能[1]。傳統(tǒng)控制理論中較為成熟的控制器算法,通常將大多數(shù)控制任務(wù)都簡(jiǎn)化為設(shè)定點(diǎn)跟蹤問題,從而通過將輸出調(diào)節(jié)到設(shè)定值來確保閉環(huán)過程的穩(wěn)定性。在大多數(shù)情況下,這些設(shè)定值是根據(jù)經(jīng)驗(yàn)手動(dòng)設(shè)置的,但是現(xiàn)代復(fù)雜的火電機(jī)組發(fā)電過程還需要對(duì)設(shè)備的性能指標(biāo)進(jìn)行優(yōu)化,使其在運(yùn)行工況不斷變化的過程中保持最優(yōu),此時(shí)單一不變的設(shè)定值往往難以滿足需求?,F(xiàn)代控制理論在自動(dòng)控制技術(shù)的發(fā)展中起著積極的作用,并衍生了最優(yōu)控制[2]、自適應(yīng)控制[3]、魯棒控制[4]和模型預(yù)測(cè)控制(MPC)[5]等先進(jìn)控制算法,可以在控制過程中同時(shí)實(shí)現(xiàn)系統(tǒng)性能優(yōu)化,但是它們通常依賴對(duì)象的動(dòng)態(tài)特性模型,因此對(duì)于某些動(dòng)態(tài)特性難以辨識(shí)或存在時(shí)變的對(duì)象[6],這些基于模型的方法往往難以達(dá)到預(yù)期的效果。
凝結(jié)式給水加熱器水位控制是火電機(jī)組的一項(xiàng)經(jīng)典控制任務(wù),目前使用最廣泛的是比例-積分-微分(PID)控制器??刂破鞲鶕?jù)實(shí)時(shí)水位與目標(biāo)水位的偏差,通過調(diào)節(jié)疏水閥,保持水位在目標(biāo)水位附近。然而,機(jī)組負(fù)荷在運(yùn)行過程中持續(xù)變化,會(huì)改變加熱器的邊界參數(shù)和系統(tǒng)的動(dòng)態(tài)特性。作為設(shè)定點(diǎn)跟蹤問題,控制器的目標(biāo)是在不斷變化的邊界參數(shù)下保持水位穩(wěn)定,但是無(wú)法考慮諸如加熱器端差和給水溫升之類的性能指標(biāo)。為此,學(xué)者們圍繞水位與加熱器性能的關(guān)系開展了研究。Hossienalipour等[7]建立了一個(gè)數(shù)學(xué)模型來評(píng)估加熱器的性能,定量分析表明,在某些工況下水位對(duì)加熱器的換熱性能影響很大,給定的水位設(shè)定值在大多數(shù)情況下都會(huì)使加熱器偏離其最佳運(yùn)行狀態(tài)。Xu等[8]通過建立一個(gè)變工況特性模型,針對(duì)性能指標(biāo)分析了變工況下的最佳水位設(shè)定曲線。但是,建立一個(gè)精確的數(shù)學(xué)模型來描述高壓蒸汽在復(fù)雜物理結(jié)構(gòu)中的凝結(jié)過程是非常困難的,其中有大量的換熱特性參數(shù)需要通過實(shí)驗(yàn)手段獲取。此外,文獻(xiàn)[9]中還分析了的熱交換器表面存在的劣化現(xiàn)象,這進(jìn)一步阻礙了基于模型的優(yōu)化控制方法的應(yīng)用。
近些年,學(xué)者們提出了許多方法來滿足運(yùn)行優(yōu)化控制的需求[10],包括基于模型的方法(如MPC[5]和實(shí)時(shí)優(yōu)化(RTO)[11])和無(wú)模型的方法(如數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化(DDO)[12-13]和強(qiáng)化學(xué)習(xí)[12,14-15])?;趶?qiáng)化學(xué)習(xí)的無(wú)模型最優(yōu)控制方法可以直接利用觀測(cè)數(shù)據(jù)求解控制器,而無(wú)需建立描述系統(tǒng)的解析表達(dá)式。由于計(jì)算能力的飛速發(fā)展,強(qiáng)化學(xué)習(xí)近年來受到了極大的關(guān)注,并顯示出其在許多領(lǐng)域中解決廣義控制問題的能力,如國(guó)際象棋[16]、跳棋[17]、網(wǎng)絡(luò)資源分配[18]、視頻游戲[19]、圍棋[20]等。強(qiáng)化學(xué)習(xí)結(jié)合了動(dòng)態(tài)規(guī)劃和機(jī)器學(xué)習(xí)兩種理論,用于求解序列決策問題的最優(yōu)策略,在面對(duì)維度詛咒和模型不確定性的問題時(shí)具有一定優(yōu)勢(shì)[21]。通過觀察控制器與對(duì)象交互的狀態(tài)轉(zhuǎn)移和相應(yīng)的獎(jiǎng)勵(lì)信號(hào),強(qiáng)化學(xué)習(xí)在累積獎(jiǎng)勵(lì)最大化的方向上更新狀態(tài)、狀態(tài)-動(dòng)作組合的價(jià)值估計(jì)或直接更新控制器參數(shù)[22-23],以逐步改進(jìn)控制器作用于對(duì)象的控制品質(zhì)。目前,強(qiáng)化學(xué)習(xí)已在諸如電力系統(tǒng)控制[24]、飛行控制[25]、動(dòng)態(tài)功率管理[26]、無(wú)人機(jī)[27]和機(jī)器人控制[28]等領(lǐng)域?qū)崿F(xiàn)了應(yīng)用。在過程控制領(lǐng)域,Jiang等[29]以浮選工藝為例,設(shè)計(jì)了基于強(qiáng)化學(xué)習(xí)的最優(yōu)控制方法,使用過程生產(chǎn)效率的性能指標(biāo)取代原有的設(shè)定點(diǎn)跟蹤目標(biāo),證明了強(qiáng)化學(xué)習(xí)有助于提高過程控制品質(zhì)和生產(chǎn)效益。
本文以高壓給水加熱器的水位控制為研究對(duì)象,首先介紹高壓給水加熱器的物理系統(tǒng),并對(duì)最優(yōu)控制的數(shù)學(xué)問題進(jìn)行形式化,然后介紹基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架,最后利用某600 MW機(jī)組高壓加熱器的仿真模型對(duì)本文提出的方法進(jìn)行驗(yàn)證。
目前,火電機(jī)組給水加熱器主要使用PID控制器將水位控制在一個(gè)固定設(shè)定值附近[1]。然而,持續(xù)波動(dòng)的機(jī)組負(fù)荷導(dǎo)致加熱器的運(yùn)行工況也在不斷變化,而不同工況下最佳水位設(shè)定值卻是不同的[8]。因此,如果水位設(shè)定值固定,則會(huì)使加熱器偏離其最佳運(yùn)行狀態(tài)[7]??紤]到加熱器凝結(jié)過程較為復(fù)雜,難以利用模型來確定不同工況的最佳水位設(shè)定值,本文采用基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架來解決高加水位控制問題。
圖1給出了加熱器的物理結(jié)構(gòu),其中給水從右下側(cè)流入底部水室,平行地流經(jīng)U型管,同時(shí)從管壁吸收熱量,最終進(jìn)入頂部水室并流向下一級(jí)的加熱器。蒸汽側(cè)分為蒸汽冷卻段、凝結(jié)段和疏水冷卻段共3個(gè)區(qū)域。過熱蒸汽首先進(jìn)入蒸汽冷卻段,與管壁進(jìn)行交叉對(duì)流換熱,冷卻至飽和狀態(tài)后進(jìn)入冷凝區(qū),在U型管表面冷凝成水滴,并流入加熱器底部形成疏水,隨后通過水封進(jìn)入疏水冷卻區(qū),與管壁進(jìn)行交叉對(duì)流換熱。過冷的疏水最終從加熱器排出,通過控制閥,流入下一級(jí)加熱器,控制閥通過調(diào)節(jié)疏水流量,使加熱器水位達(dá)到給定的目標(biāo)值水位。
圖1 典型高壓加熱器的物理結(jié)構(gòu)
疏水水位隨液滴凝結(jié)量的增加而升高,隨疏水流量的增加而降低,其中液滴凝結(jié)量主要取決于冷凝區(qū)的換熱量,它同時(shí)與管側(cè)的給水流量、溫度以及殼側(cè)的蒸汽壓力、溫度等有關(guān),疏水流量則取決于疏水調(diào)節(jié)閥的開度、當(dāng)前水位及加熱器壓力??梢?給水的流量和溫度、蒸汽的壓力和溫度是加熱器的4個(gè)邊界條件,影響加熱器的動(dòng)態(tài)平衡。水位的動(dòng)態(tài)變化與上述邊界條件之間的關(guān)系可描述為
(1)
式中:A(l)為水位為l時(shí)的橫截面積;Qs為凝結(jié)液滴的總質(zhì)量流量;Ps為蒸汽入口壓力;Ts為蒸汽入口溫度;Qw為給水入口質(zhì)量流量;Tw為給水入口溫度;Qd為疏水質(zhì)量流量;Ps為當(dāng)前抽汽級(jí)壓力;l為水位;V為疏水閥開度;G(V,a)為執(zhí)行器的動(dòng)態(tài)特性;a為閥門開度變化率的控制信號(hào)。
為了保持加熱器的熱交換過程穩(wěn)定且高效,在運(yùn)行過程中應(yīng)始終保持合適的水位。當(dāng)水位太高時(shí),疏水會(huì)浸沒U型管,從而減少凝結(jié)段的傳熱面積;當(dāng)水位太低時(shí),疏水管中會(huì)混有蒸汽,降低蒸汽的利用率,還影響下一級(jí)加熱器的換熱過程。加熱器的運(yùn)行性能指標(biāo)包括給水溫升ΔTw、給水端差ΔTttd和疏水端差ΔTdtd。ΔTw是給水出口溫度與給水入口溫度之差,ΔTw越高則熱力系統(tǒng)效率越高;ΔTttd是蒸汽入口壓力對(duì)應(yīng)的飽和溫度與給水出口溫度之差,ΔTttd越小則說明凝結(jié)段的傳熱性能越好;ΔTdtd是疏水溫度和給水入口溫度之差,ΔTdtd越小則說明疏水冷卻段的傳熱性能越好。因此,給定蒸汽和給水的入口參數(shù),好的加熱器的運(yùn)行狀態(tài)所對(duì)應(yīng)的ΔTw大、ΔTttd小、ΔTdtd小。邊界條件和水位都會(huì)對(duì)ΔTw、ΔTttd和ΔTdtd造成影響[30],因此水位控制需要考慮在滿足安全性與穩(wěn)定性的同時(shí)優(yōu)化上述性能指標(biāo)。
將式(1)連續(xù)時(shí)間狀態(tài)空間方程轉(zhuǎn)化為離散形式
(2)
式中:F(·)為水位動(dòng)態(tài)特性的差分方程;G(·)為執(zhí)行器動(dòng)態(tài)特性的差分方程。
高壓給水加熱器的離散時(shí)間性能最優(yōu)控制問題的優(yōu)化目標(biāo)為
(3)
式中:γ∈(0,1]為折扣因子;[ω1,ω2,ω3,ω4]T∈4為3個(gè)性能指標(biāo)和水位變化率的平方的權(quán)重向量;Pl,t為水位超限懲罰函數(shù);Pa,t為避免疏水閥全開或全關(guān)的軟約束函數(shù);λl和λa分別為懲罰的權(quán)重;π(·)為控制策略函數(shù);在限值之外的二次項(xiàng)形式是為了保證優(yōu)化目標(biāo)的一階導(dǎo)數(shù)連續(xù);Pl,t和Pa,t均為不等式約束,利用拉格朗日乘子將其引入到目標(biāo)函數(shù)中,公式為
(4)
其中,lmax和lmin分別為水位上下限,Vmax和Vmin分別為閥位的上下限。
為了使用異策略連續(xù)動(dòng)作強(qiáng)化學(xué)習(xí)算法解決式(3)所示的優(yōu)化問題,同時(shí)避免性能較差的初始策略函數(shù)參與真實(shí)物理系統(tǒng)的運(yùn)行。本文首先提出了基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架,然后重點(diǎn)介紹其中數(shù)據(jù)緩沖區(qū)的數(shù)據(jù)處理算法和用于求解策略函數(shù)的強(qiáng)化學(xué)習(xí)算法,最后利用兩個(gè)算例對(duì)框架的性能進(jìn)行驗(yàn)證。
圖2給出了基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架。由圖可知,基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架包括在線控制、數(shù)據(jù)預(yù)處理和策略函數(shù)求解共3個(gè)主要環(huán)節(jié)。首先通過在線控制環(huán)節(jié)生成大量歷史運(yùn)行數(shù)據(jù),然后在數(shù)據(jù)預(yù)處理環(huán)節(jié),利用均勻化網(wǎng)格算法(homogenization grid algorithm,HGA)算法對(duì)訓(xùn)練樣本進(jìn)行整理,最后在策略函數(shù)求解環(huán)節(jié),利用基于粒子群優(yōu)化的連續(xù)批量Q學(xué)習(xí)算法(particle swarm optimization continues batchQ-learning algorithm,PSO-CBQ)算法訓(xùn)練控制策略函數(shù)。最終得到的控制策略函數(shù)在通過性能測(cè)試之后,可以替代現(xiàn)有控制器,以改善系統(tǒng)的運(yùn)行水平。
圖2 基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架
圖2中的在線控制環(huán)節(jié)描述了真實(shí)物理系統(tǒng)受外部擾動(dòng)和控制動(dòng)作的共同影響而持續(xù)地進(jìn)行狀態(tài)轉(zhuǎn)移的過程。真實(shí)物理系統(tǒng)在時(shí)刻t的內(nèi)部狀態(tài)為si,t,它在外部擾動(dòng)sd,t和控制動(dòng)作at的影響下,于t+1時(shí)刻轉(zhuǎn)變?yōu)閟i,t+1,由t到t+1的狀態(tài)變化稱為一組狀態(tài)轉(zhuǎn)移樣本。
為了提高狀態(tài)轉(zhuǎn)移樣本的多樣性,本文在現(xiàn)有控制器的輸出上疊加了少量隨機(jī)噪聲,最終作用在真實(shí)物理系統(tǒng)的控制動(dòng)作at滿足以現(xiàn)有控制器實(shí)際輸出為均值的正態(tài)分布
at~N(aonline,t,σ)
(5)
式中:aonline,t為現(xiàn)有控制器的輸出;σ為擾動(dòng)的方差。
圖2中的數(shù)據(jù)預(yù)處理環(huán)節(jié)從時(shí)間序列中采集狀態(tài)轉(zhuǎn)移樣本并生成用于訓(xùn)練策略函數(shù)的數(shù)據(jù)集。在樣本采集過程中,需要將時(shí)間序列數(shù)據(jù)構(gòu)造成st,at,st+1元組的形式,其中st=[si,t,sd,t]T而st+1=[si,t+1,sd,t]T。這里需要注意的是,st+1所包含的外部擾動(dòng)是sd,t而不是sd,t+1,這是因?yàn)閠+1時(shí)刻的外部擾動(dòng)sd,t+1與t時(shí)刻的外部擾動(dòng)sd,t無(wú)關(guān)且不由at決定,這樣的設(shè)置隱含著外部擾動(dòng)不會(huì)變化的假設(shè),從而使策略函數(shù)傾向于將系統(tǒng)調(diào)節(jié)至穩(wěn)定狀態(tài)。
考慮到訓(xùn)練數(shù)據(jù)集中樣本分布不均勻容易導(dǎo)致策略函數(shù)訓(xùn)練發(fā)散,本文提出了均勻化網(wǎng)格算法,其偽代碼如下。
算法均勻化網(wǎng)格算法
1 初始化:結(jié)構(gòu)為ds×da×Nmax的數(shù)組B,其中Nmax是單個(gè)網(wǎng)格中的最大樣本數(shù)量,下邊界向量Bl=[smin,amin]T,上邊界向量Bu=[smax,amax]T,網(wǎng)格數(shù)量向量nc=[nc,s,nc,a]T
2 重復(fù):
3 對(duì)于每一個(gè)從時(shí)間序列數(shù)據(jù)庫(kù)采集的新元組st,at,st+1:
4 定義工況向量vc=[st,at]T
5 如果vc∈[Bl,Bu]:
6 計(jì)算網(wǎng)格索引向量vi=floor(((vc-
Bl)./[(Bu-Bl)./nc])),floor(·)為逐元素向下取整
7 將st,at,st+1插入網(wǎng)格B[vi]尾部
8 如果網(wǎng)格B[vi]長(zhǎng)度大于Nmax:
9 將網(wǎng)格B[vi]的頭部元素刪除
HGA首先在st-at空間劃分網(wǎng)格,建立數(shù)組結(jié)構(gòu)的數(shù)據(jù)緩沖區(qū)B,處理時(shí)間序列數(shù)據(jù)時(shí)把st,at,st+1元組依次插入網(wǎng)格中,通過平衡各網(wǎng)格的元組數(shù)量,保證歷史數(shù)據(jù)集在st-at空間分布均勻。HGA中的數(shù)據(jù)緩沖區(qū)B具有3個(gè)特性:①B中數(shù)據(jù)總量有限,可以避免冗余數(shù)據(jù)無(wú)限積累;②B中所有網(wǎng)格的數(shù)據(jù)量均處于同一數(shù)量級(jí);③存儲(chǔ)在每個(gè)網(wǎng)格中的數(shù)據(jù)會(huì)不斷更新,更新速度取決于時(shí)間序列中該狀態(tài)動(dòng)作對(duì)出現(xiàn)的頻率。相較于其他均勻化算法,HGA算法盡管不適合處理狀態(tài)空間維度過高的問題,但是其計(jì)算量更小,因此在面對(duì)采樣周期較短的連續(xù)動(dòng)態(tài)優(yōu)化問題時(shí),可以有效地降低計(jì)算負(fù)載。
圖2中的策略函數(shù)求解環(huán)節(jié)利用從數(shù)據(jù)緩沖區(qū)采集的樣本,使用異策略連續(xù)動(dòng)作強(qiáng)化學(xué)習(xí)算法離線地求解控制策略函數(shù)。需要注意的是,當(dāng)狀態(tài)st為連續(xù)變量時(shí),要使用參數(shù)化Q值函數(shù)Q(s,a|ωQ)∈來近似Q值函數(shù),其中ωQ為Q值函數(shù)的參數(shù)。當(dāng)狀態(tài)st和動(dòng)作at同時(shí)為連續(xù)變量時(shí),還要使用參數(shù)化策略函數(shù)π(s|θ),其中θ為策略函數(shù)的參數(shù),此時(shí)關(guān)于Q(s,a|ωQ)的最大化運(yùn)算maxa、arg maxa求解效率較低,因此有必要對(duì)算法進(jìn)行改進(jìn)。
考慮到火電廠連續(xù)動(dòng)態(tài)優(yōu)化問題通常具有動(dòng)作空間維度低的特點(diǎn),本文使用粒子群優(yōu)化[31-32]算法來求解最大化運(yùn)算,即對(duì)于給定狀態(tài)st和Q值函數(shù),以Q(st,·|ωQ)為粒子群優(yōu)化的適應(yīng)度函數(shù),通過在動(dòng)作空間隨機(jī)搜索,找到使適應(yīng)度最大的動(dòng)作,即為arg maxa的解,對(duì)應(yīng)的適應(yīng)度為maxa的解。
結(jié)合粒子群優(yōu)化算法和Q學(xué)習(xí)算法,本文提出了基于粒子群優(yōu)化的連續(xù)批量Q學(xué)習(xí)算法算法,其偽代碼如下。
算法基于粒子群優(yōu)化的連續(xù)批量Q學(xué)習(xí)算法
1 已知:數(shù)據(jù)緩沖區(qū)B
2 初始化:Q值函數(shù)Q(s,a|ωQ),?(s,a),Q(s,a|ωQ)=0,目標(biāo)Q值函數(shù)Qd(s,a|ωQd),其中,ωQd為目標(biāo)Q值函數(shù)的參數(shù),ωQd←ωQ,隨機(jī)參數(shù)初始化的策略函數(shù)π(s|θ),給定Q值函數(shù)學(xué)習(xí)率α、策略函數(shù)學(xué)習(xí)率αθ
3 重復(fù)直到ωQ穩(wěn)定:
4 從B中采集N個(gè)狀態(tài)轉(zhuǎn)移樣本
5 對(duì)于第j個(gè)樣本st,j,at,j,st+1,j:
7rj=R(st,j,at,j,st+1,j)
8qj=Q(st,j,at,j|ωQ)+α[rj+γqmax-
Q(st,j,at,j|ωQ)]
10 更新ωQd←(ωQ+ωQd)/2
11重復(fù)直到θ穩(wěn)定:
12 從狀態(tài)空間均勻采集M個(gè)樣本,利用Q值函數(shù)和采樣策略梯度對(duì)θ進(jìn)行一步更新:
首先從數(shù)據(jù)緩沖區(qū)B中收集單步狀態(tài)轉(zhuǎn)移樣本,然后根據(jù)初始Q值函數(shù)Q(s,a|ωQ),結(jié)合粒子群優(yōu)化算法計(jì)算樣本集中所有狀態(tài)-動(dòng)作對(duì)的損失函數(shù),并使用梯度下降更新Q值函數(shù)的參數(shù)ωQ[33],隨后重復(fù)該過程直到ωQ收斂,最后計(jì)算策略函數(shù)π(s|θ)的策略梯度θJ,并使用梯度上升更新策略函數(shù)的參數(shù)θ直至收斂。
本文在Python-3.7環(huán)境下,在TensorFlow-2.0.0深度學(xué)習(xí)庫(kù)的基礎(chǔ)上實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)性能最優(yōu)控制框架,并基于仿真運(yùn)行數(shù)據(jù)來求解式(3)所示優(yōu)化問題,以獲得水位控制策略函數(shù)。首先,使用APROS-6.04仿真軟件[34],以某600 MW機(jī)組#1高壓加熱器為研究對(duì)象建立了仿真模型,將其作為真實(shí)物理系統(tǒng)生成運(yùn)行數(shù)據(jù)。該高壓加熱器模型的結(jié)構(gòu)與參數(shù)如圖3所示,該模型穩(wěn)定狀態(tài)在機(jī)組THA工況附近。
圖3 APROS高壓加熱器仿真模型
采用基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架求解策略函數(shù)的超參數(shù)如表1所示,其中加熱器運(yùn)行工況范圍等效于在500~600 MW之間。
表1 高壓加熱器水位性能最優(yōu)控制算例的超參數(shù)
實(shí)驗(yàn)發(fā)現(xiàn),策略函數(shù)采用淺層網(wǎng)絡(luò)效果不佳,Q值網(wǎng)絡(luò)采用深層網(wǎng)絡(luò)的效果不佳??赡艿脑蛟谟谑?3)所示的優(yōu)化目標(biāo)較為復(fù)雜,策略函數(shù)需要具備足夠的特征變換能力,才能具備較好的控制效果,但又為了避免訓(xùn)練過程不穩(wěn)定,因此適合選擇多層少節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)。Q值網(wǎng)絡(luò)需要具備較強(qiáng)的泛化能力,以防止對(duì)價(jià)值估計(jì)的過擬合,綜合考慮適合選擇少層而多節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)。獎(jiǎng)勵(lì)函數(shù)中的性能指標(biāo)ΔTw,t、ΔTttd,t、ΔTdtd,t為
(6)
式中Tsat(·)為飽和蒸汽溫度關(guān)于蒸汽壓力的函數(shù),根據(jù)IAPWS-IF97標(biāo)準(zhǔn)公式計(jì)算。
圖4給出了Q值神經(jīng)網(wǎng)絡(luò)及其策略神經(jīng)網(wǎng)絡(luò)參數(shù)的平均絕對(duì)變化率的變化趨勢(shì)。圖中,藍(lán)色陰影為10輪不同訓(xùn)練過程中95%置信水平對(duì)應(yīng)的置信區(qū)間??梢钥闯?學(xué)習(xí)過程是不穩(wěn)定的,網(wǎng)絡(luò)參數(shù)的平均絕對(duì)變化率沒有單調(diào)下降,且在300次迭代之前均存在較大的方差,不過在300次迭代之后逐漸穩(wěn)定收斂。由此可知,使用神經(jīng)網(wǎng)絡(luò)逼近器的性能最優(yōu)控制框架可以使學(xué)習(xí)過程收斂至局部最優(yōu)解。
(a)Q值神經(jīng)網(wǎng)絡(luò)
為了驗(yàn)證基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架得到的策略函數(shù)的性能,使用某一個(gè)收斂的策略神經(jīng)網(wǎng)絡(luò)在設(shè)計(jì)工況附近進(jìn)行階躍實(shí)驗(yàn),表2給出了設(shè)計(jì)工況穩(wěn)定狀態(tài)下系統(tǒng)的過程參數(shù)。
表2 設(shè)計(jì)工況穩(wěn)定狀態(tài)下的過程參數(shù)
在穩(wěn)定狀態(tài)下,將加熱器水位設(shè)置為1,觀察水位lt、閥位Vt、疏水出口溫度Tdo,t和給水出口溫度Two,t的響應(yīng)曲線,如圖5所示。可以看出,水位可以快速地被調(diào)節(jié)至初始狀態(tài),且過程中閥門開度被限制在的軟約束之內(nèi)。在穩(wěn)定狀態(tài)下,分別將蒸汽壓力從5.95 MPa升至6.45 MPa、將蒸汽溫度從396 ℃升至400 ℃、將給水質(zhì)量流量從417.5 kg/s升至422.5 kg/s、將給水入口溫度從249.5 ℃升至251.5℃,觀察各參數(shù)的響應(yīng)曲線,如圖6所示??梢钥闯?各邊界條件不僅影響疏水和給水的出口溫度,還改變了新穩(wěn)態(tài)下的水位值,變化過程較快且沒有出現(xiàn)超調(diào)。
(a)水位和閥位的響應(yīng)曲線
(a)Ps,t從5.95 MPa階躍至6.45 MPa
從249.5 ℃階躍至251.5 ℃為了進(jìn)一步說明基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架得到的策略函數(shù)的合理性,將策略函數(shù)在對(duì)應(yīng)工況下的穩(wěn)定水位與試驗(yàn)最優(yōu)水位進(jìn)行對(duì)比。試驗(yàn)最優(yōu)水位來自于APROS仿真模型的設(shè)定值試驗(yàn)優(yōu)化[34],它是一種經(jīng)典的工程優(yōu)化方法,通過在試驗(yàn)中手動(dòng)調(diào)整控制系統(tǒng)的設(shè)定值,以確定各邊界條件下以性能指標(biāo)為目標(biāo)的最優(yōu)設(shè)定值,并擬合最優(yōu)設(shè)定值與各邊界條件的關(guān)系曲線以參與控制。
圖7給出了強(qiáng)化學(xué)習(xí)策略函數(shù)穩(wěn)定水位與試驗(yàn)最優(yōu)水位關(guān)于每個(gè)邊界條件的特性對(duì)比情況??梢钥闯?基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架得到的策略函數(shù)在各工況下的穩(wěn)定水位與設(shè)定值試驗(yàn)優(yōu)化得到的最優(yōu)水位比較接近,相對(duì)于邊界條件的趨勢(shì)也相似。在變蒸汽壓力條件下,策略函數(shù)穩(wěn)定水位和試驗(yàn)最優(yōu)水位趨勢(shì)存在差異??梢钥闯?試驗(yàn)最優(yōu)水位的趨勢(shì)比較平滑,而策略函數(shù)穩(wěn)定水位的曲線在5.9 MPa附近存在一個(gè)拐點(diǎn),可能的原因是策略函數(shù)采用了ReLU的隱層激活函數(shù),導(dǎo)致其函數(shù)曲面不連續(xù)。可能的改進(jìn)方法是減少策略函數(shù)層數(shù),并使用平滑連續(xù)的激活函數(shù)??紤]到相關(guān)控制策略學(xué)習(xí)算法的特性,一般訓(xùn)練控制策略所使用數(shù)據(jù)的工況范圍與其適用的工況范圍是相近的,因此不建議在訓(xùn)練數(shù)據(jù)所在范圍之外使用得到的控制策略。本文選擇在THA穩(wěn)定工況附近對(duì)模型的有效性進(jìn)行了驗(yàn)證,而在范圍外的實(shí)驗(yàn)效果不佳。
(a)不同Ps,t下策略函數(shù)穩(wěn)定水位與試驗(yàn)最優(yōu)水位對(duì)比
在實(shí)際應(yīng)用中,設(shè)定值試驗(yàn)優(yōu)化在面對(duì)多邊界條件的場(chǎng)景時(shí),需要進(jìn)行大量的組合試驗(yàn)以確定各工況下邊界條件與最優(yōu)設(shè)定值的關(guān)系,而采用基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架可以直接利用歷史運(yùn)行數(shù)據(jù)求解控制策略函數(shù),不僅在動(dòng)態(tài)過程中可以達(dá)到較好的控制品質(zhì),穩(wěn)態(tài)下也能使系統(tǒng)維持在性能較優(yōu)的狀態(tài),相當(dāng)于同時(shí)實(shí)現(xiàn)了設(shè)定值優(yōu)化與設(shè)定點(diǎn)跟蹤控制。然而,Q值函數(shù)存在近似誤差,框架得到的策略函數(shù)尚達(dá)不到理論最優(yōu)的控制品質(zhì)。這是由于Q值本身是對(duì)單步狀態(tài)轉(zhuǎn)移的獎(jiǎng)勵(lì)估計(jì),而優(yōu)化目標(biāo)是最大化多步累積獎(jiǎng)勵(lì)。采用機(jī)器學(xué)習(xí)算法擬合單步獎(jiǎng)勵(lì)必然會(huì)存在誤差,在常規(guī)的監(jiān)督學(xué)習(xí)任務(wù)中,這種誤差的影響不大,而在強(qiáng)化學(xué)習(xí)任務(wù)中,單步誤差的多步累積,可能導(dǎo)致多步優(yōu)化目標(biāo)存在較為明顯的差異,因此得到的控制策略與解析法相比往往是次優(yōu)的,但是其優(yōu)勢(shì)在于可以處理解析法無(wú)法解決的問題,對(duì)于解決包含復(fù)雜目標(biāo)的過程控制任務(wù)具有較大的潛力。
考慮到火電廠對(duì)象特性復(fù)雜、動(dòng)作空間維度較低、策略函數(shù)在訓(xùn)練期間無(wú)法與物理系統(tǒng)交互等特點(diǎn),本文提出了基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架。在框架的數(shù)據(jù)預(yù)處理環(huán)節(jié)提出了HGA算法,以較低的計(jì)算負(fù)載解決了數(shù)據(jù)不平衡問題。在策略函數(shù)求解環(huán)節(jié)提出了PSO-CBQ算法,使用粒子群優(yōu)化準(zhǔn)確快速地實(shí)現(xiàn)了動(dòng)作值迭代計(jì)算中的最大化運(yùn)算,解決了連續(xù)動(dòng)作強(qiáng)化學(xué)習(xí)求解效率低的問題。在高壓給水加熱器性能最優(yōu)控制算例中,將基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架訓(xùn)練得到的策略函數(shù)與試驗(yàn)最優(yōu)水位設(shè)定值控制器進(jìn)行了對(duì)比。結(jié)果表明,基于強(qiáng)化學(xué)習(xí)的性能最優(yōu)控制框架不需要建立系統(tǒng)模型,可以直接利用歷史運(yùn)行數(shù)據(jù)求解以累積性能最優(yōu)為目標(biāo)的控制策略函數(shù),不僅在動(dòng)態(tài)過程中可以達(dá)到較好的控制品質(zhì),穩(wěn)態(tài)下也能使系統(tǒng)維持在性能較優(yōu)的狀態(tài),相當(dāng)于同時(shí)實(shí)現(xiàn)了設(shè)定值優(yōu)化與設(shè)定點(diǎn)跟蹤控制。