張 彬,鄒 淵,張旭東,杜國(guó)棟,孫文景,孫 巍
(北京理工大學(xué)機(jī)械與車(chē)輛學(xué)院,北京100081)
混合動(dòng)力電動(dòng)履帶車(chē)輛(HETV)具有結(jié)構(gòu)簡(jiǎn)單、可靠性高、布置靈活等優(yōu)點(diǎn)?;旌蟿?dòng)力方案兼具了燃油車(chē)和純電動(dòng)車(chē)的優(yōu)點(diǎn),通過(guò)合適的能量管理策略(EMS)能使發(fā)動(dòng)機(jī)工作在較經(jīng)濟(jì)的狀態(tài),提高車(chē)輛的燃油經(jīng)濟(jì)性和續(xù)航里程。對(duì)于油電混合系統(tǒng),EMS根據(jù)不同部件的狀態(tài)反饋,實(shí)現(xiàn)不同動(dòng)力源的功率分配,達(dá)到提高燃油經(jīng)濟(jì)性、減少排放等目的。由于各動(dòng)力源的特性差異,各動(dòng)力源之間的功率分配也不同。因此,EMS是最大化混合動(dòng)力系統(tǒng)燃油經(jīng)濟(jì)性、充分發(fā)揮混合動(dòng)力系統(tǒng)的綜合性能的關(guān)鍵技術(shù)之一。
EMS的主要目的是合理地分配發(fā)動(dòng)機(jī)和動(dòng)力電池的輸出功率,提高車(chē)輛的燃油經(jīng)濟(jì)性和續(xù)航里程。近年來(lái)出現(xiàn)的EMS主要分為基于規(guī)則的策略和基于優(yōu)化的策略?xún)纱箢?lèi)?;谝?guī)則的策略具有良好的實(shí)時(shí)性和可靠性,在工程實(shí)踐中得到廣泛的應(yīng)用,但其對(duì)不同工況和車(chē)型的可移植性較差,且很難取得最優(yōu)的控制效果。目前大部分EMS的研究集中在基于優(yōu)化的策略?;趦?yōu)化的策略旨在建立系統(tǒng)目標(biāo)函數(shù)和約束條件后,通過(guò)優(yōu)化使目標(biāo)成本最小化。但基于優(yōu)化的策略計(jì)算量大,須提前知道整個(gè)工況,對(duì)不同車(chē)型、不同運(yùn)行工況的移植性差。但它可得到理論最優(yōu)或近似最優(yōu)解,常被作為參考基準(zhǔn)用于評(píng)估或改進(jìn)其他能量管理策略,如動(dòng)態(tài)規(guī)劃(DP)算法等。
混合動(dòng)力系統(tǒng)是典型的非線(xiàn)性多場(chǎng)耦合的復(fù)雜系統(tǒng),需要更加精細(xì)和智能的算法來(lái)構(gòu)建EMS。強(qiáng)化學(xué)習(xí)(RL)算法在處理非線(xiàn)性、強(qiáng)耦合、高復(fù)雜度問(wèn)題時(shí)更有優(yōu)勢(shì),最近多用于解決能量管理問(wèn)題。Liu等在混合動(dòng)力履帶車(chē)輛上采用基于Q-learning和Dyna的能量管理策略,此策略對(duì)發(fā)動(dòng)機(jī)燃油經(jīng)濟(jì)性有一定的提高。但RL算法存在由離散化引起的“維數(shù)災(zāi)害”,會(huì)導(dǎo)致訓(xùn)練時(shí)間的大幅增加且難以收斂。為解決此問(wèn)題,Zhao等采用基于深度強(qiáng)化學(xué)習(xí)(DRL)的能量管理策略,并將基于DRL算法的策略應(yīng)用到混合動(dòng)力公交車(chē)上,燃油經(jīng)濟(jì)性相對(duì)于Q學(xué)習(xí)算法提高了10%,訓(xùn)練時(shí)間也大幅縮短。雖然基于DRL的策略在狀態(tài)空間是連續(xù)的,但其控制量仍需降維和離散處理,導(dǎo)致了控制精度的降低。同時(shí)由于最大化值函數(shù)逼近,DRL算法存在動(dòng)作值過(guò)優(yōu)估計(jì)的問(wèn)題,這可能會(huì)導(dǎo)致不穩(wěn)定或效果不佳的現(xiàn)象。為解決過(guò)優(yōu)估計(jì)問(wèn)題,Han等應(yīng)用基于雙深度強(qiáng)化學(xué)習(xí)(DDQL)的EMS到混合動(dòng)力履帶車(chē)上,與DQL算法相比燃油經(jīng)濟(jì)性提高了7.1%。為解決控制量離散問(wèn)題,Zhang等提出基于深度確定性策略梯度(DDPG)的EMS,仿真結(jié)果表明該策略能實(shí)現(xiàn)更細(xì)化的油門(mén)開(kāi)度控制,進(jìn)一步提高燃油經(jīng)濟(jì)性。但同DQL一樣,DDPG也存在動(dòng)作值過(guò)優(yōu)估計(jì)的問(wèn)題,可能導(dǎo)致訓(xùn)練不穩(wěn)定。
為解決上述算法存在的問(wèn)題,進(jìn)一步提高車(chē)輛的燃油經(jīng)濟(jì)性、獲得更好的電池SOC保持效果,提出基于優(yōu)先經(jīng)驗(yàn)采樣的雙延遲深度確定性策略梯度(TD3-PER)的能量管理策略,將其應(yīng)用于串聯(lián)式混合動(dòng)力履帶車(chē)輛。基于雙延遲深度確定性策略梯度(TD3)的策略能實(shí)現(xiàn)狀態(tài)空間和動(dòng)作空間的連續(xù)控制,同時(shí)解決了動(dòng)作值過(guò)優(yōu)估計(jì)的問(wèn)題。為加快策略的收斂速度和達(dá)到更高的燃油經(jīng)濟(jì)性,采用優(yōu)先經(jīng)驗(yàn)采樣算法(PER)來(lái)加速網(wǎng)絡(luò)訓(xùn)練。
圖1為課題組自研的串聯(lián)式混合動(dòng)力電動(dòng)履帶車(chē)輛(SHETV)。該車(chē)輛采用模塊化和動(dòng)力履帶設(shè)計(jì),將組件全布置于兩邊的履帶艙內(nèi),為中間平臺(tái)省出更多的承載空間。圖2為動(dòng)力系統(tǒng)拓?fù)鋱D,主要包括發(fā)動(dòng)機(jī)-發(fā)電機(jī)組、電池、功率分配單元、驅(qū)動(dòng)電機(jī)總成和整車(chē)控制單元(VCU)。驅(qū)動(dòng)電機(jī)的額定功率是25 kW,轉(zhuǎn)速范圍為2 000~2 500 r/min。發(fā)電機(jī)組通過(guò)AC/DC整流單元向直流母線(xiàn)提供電能,而電池組直接向母線(xiàn)提供電能。母線(xiàn)電壓為兩個(gè)驅(qū)動(dòng)電機(jī)提供電能,用于驅(qū)動(dòng)主動(dòng)輪旋轉(zhuǎn)。VCU負(fù)責(zé)整車(chē)的控制策略、能量管理策略和功率匹配,是提高燃油經(jīng)濟(jì)性的核心。表1為整車(chē)及其主要部件的參數(shù)。
表1 串聯(lián)式混合動(dòng)力履帶車(chē)輛主要參數(shù)
圖1 串聯(lián)式混合動(dòng)力電動(dòng)履帶車(chē)輛
圖2 串聯(lián)式混合動(dòng)力系統(tǒng)拓?fù)鋱D
履帶車(chē)輛的動(dòng)力學(xué)模型如圖3所示,圖中為橫擺角速度,為履帶車(chē)輛軌距。
圖3 履帶車(chē)輛動(dòng)力學(xué)模型
車(chē)輛的受力主要包括滾動(dòng)阻力與、驅(qū)動(dòng)力與、加速阻力、空氣阻力、坡度阻力和轉(zhuǎn)向阻力矩。和分別為左、右側(cè)履帶的速度。履帶車(chē)輛的動(dòng)力學(xué)方程為
式中:為履帶車(chē)輛的需求功率;為縱向驅(qū)動(dòng)力;為車(chē)輛的平均速度,=(+)/2。
、、、和的計(jì)算公式為
式中:為車(chē)輛加速度;為轉(zhuǎn)向半徑;為車(chē)輛受到的總滾動(dòng)阻力;σ為道路坡度角;為車(chē)輛做半徑≥/2轉(zhuǎn)向時(shí)的轉(zhuǎn)向阻力系數(shù);為車(chē)輛做半徑為/2轉(zhuǎn)向時(shí)的轉(zhuǎn)向阻力系數(shù);車(chē)輛做半徑為0-/2轉(zhuǎn)向時(shí)轉(zhuǎn)向阻力系數(shù)。
根據(jù)功率平衡關(guān)系,直流母線(xiàn)需求功率和動(dòng)力源輸出功率滿(mǎn)足:
式中:和分別為發(fā)電機(jī)功率和電池組功率;為直流母線(xiàn)電壓;為發(fā)電機(jī)電流;為電池電流;和分別為電池的開(kāi)路電壓和內(nèi)阻;和分別為發(fā)電機(jī)等效電動(dòng)勢(shì)系數(shù)和等效阻抗系數(shù);為發(fā)電機(jī)轉(zhuǎn)速。
關(guān)于履帶車(chē)輛傳動(dòng)系統(tǒng)中的發(fā)動(dòng)機(jī)-發(fā)電機(jī)組模型、動(dòng)力電池模型和驅(qū)動(dòng)電機(jī)模型在以往的成果中已有詳細(xì)的介紹,請(qǐng)?jiān)斠?jiàn)文獻(xiàn)[17],在此不再贅述。
在Simulink中搭建車(chē)輛動(dòng)力學(xué)仿真模型和傳動(dòng)系統(tǒng)模型,如圖4所示。將實(shí)車(chē)采集的數(shù)據(jù)作為SHETV前向模型的目標(biāo)工況進(jìn)行仿真,仿真數(shù)據(jù)和實(shí)車(chē)數(shù)據(jù)的對(duì)比結(jié)果如圖5所示。從圖5(a)可知,車(chē)輛的仿真模型可很好地跟隨實(shí)測(cè)速度。由于實(shí)測(cè)環(huán)境存在噪聲等諸多影響,發(fā)動(dòng)機(jī)轉(zhuǎn)速、電池SOC、母線(xiàn)電壓仿真數(shù)據(jù)與實(shí)測(cè)數(shù)據(jù)有一點(diǎn)偏差,但總體變化趨勢(shì)很好地吻合。說(shuō)明所建立的模型能反映實(shí)車(chē)的基本物理特性。此外,EMS的開(kāi)發(fā)主要關(guān)注需求功率的分配,允許模型有一定的偏差,因此建立的仿真模型可作為后續(xù)策略開(kāi)發(fā)的驗(yàn)證模型。
圖4 車(chē)輛Simulink模型
圖5 仿真數(shù)據(jù)與實(shí)車(chē)數(shù)據(jù)的對(duì)比曲線(xiàn)
對(duì)所研究的SHETV,EMS的首要目標(biāo)是找到最優(yōu)策略*在滿(mǎn)足系統(tǒng)性能要求和保持電池波動(dòng)不大的情況下最小化燃油消耗。因此成本函數(shù)定義為燃油消耗和電池變化的組合:
系統(tǒng)約束條件為
式中:和分別為發(fā)動(dòng)機(jī)最低和最高轉(zhuǎn)速;為發(fā)動(dòng)機(jī)最大轉(zhuǎn)矩;為發(fā)電機(jī)最大放電電流;和分別為電池最小功率和最大功率;和分別為電池最大充電和放電電流;為電子油門(mén)開(kāi)度系數(shù)。
圖6為基于深度強(qiáng)化學(xué)習(xí)(DRL)的EMS理論框架。TD3算法是基于A(yíng)ctor-Critic框架的DRL算法,圖7為基于TD3-PER的EMS具體框架。選取車(chē)速、發(fā)電機(jī)轉(zhuǎn)速、電池荷電狀態(tài)和車(chē)輛當(dāng)前時(shí)刻的需求功率作為狀態(tài)矢量,即s=[,,,]。為提高算法訓(xùn)練時(shí)的收斂速度,對(duì)、和進(jìn)行歸一化處理。履帶車(chē)輛為EMS中的環(huán)境,智能體根據(jù)車(chē)輛的狀態(tài)s和智能體中的策略在每步選擇一個(gè)動(dòng)作a作用于車(chē)輛,車(chē)輛反饋即時(shí)獎(jiǎng)勵(lì)r和下一刻狀態(tài)s。經(jīng)驗(yàn)池(replay buffer)存儲(chǔ)當(dāng)前的狀態(tài)、動(dòng)作、即時(shí)獎(jiǎng)勵(lì)、下一刻狀態(tài)矢量(s,a,r,s),形成歷史經(jīng)驗(yàn)數(shù)據(jù);通過(guò)優(yōu)先經(jīng)驗(yàn)采樣方式從經(jīng)驗(yàn)池中抽取歷史數(shù)據(jù)送入智能體中的網(wǎng)絡(luò)進(jìn)行訓(xùn)練。智能體通過(guò)與環(huán)境的不斷交互來(lái)調(diào)整網(wǎng)絡(luò)權(quán)重得到最優(yōu)策略,即燃油消耗最低且具有保持能力。經(jīng)驗(yàn)池的使用有效消除了相鄰狀態(tài)間的相關(guān)性,同時(shí)優(yōu)先經(jīng)驗(yàn)采樣(PER)算法的引入加速了網(wǎng)絡(luò)的收斂并提高了訓(xùn)練的效果。
圖6 基于深度強(qiáng)化學(xué)習(xí)算法理論框架
圖7 基于TD3-PER的能量管理策略框架
TD3算法包含策略網(wǎng)絡(luò)Actor和評(píng)判網(wǎng)絡(luò)Critic。其中Actor網(wǎng)絡(luò)以車(chē)輛的狀態(tài)作為輸入并根據(jù)網(wǎng)絡(luò)參數(shù)輸出控制動(dòng)作,Critic網(wǎng)絡(luò)用于評(píng)判Actor網(wǎng)絡(luò)執(zhí)行動(dòng)作的優(yōu)劣。TD3算法能同時(shí)處理連續(xù)動(dòng)作空間和策略值函數(shù)過(guò)優(yōu)估計(jì)的問(wèn)題。EMS的控制變量為發(fā)動(dòng)機(jī)電子油門(mén)開(kāi)度,因此TD3算法的控制動(dòng)作為[0,1]的連續(xù)值。具體來(lái)說(shuō),TD3算法是在DDPG的基礎(chǔ)上,同時(shí)對(duì)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)進(jìn)行優(yōu)化,主要包括:(1)Critic網(wǎng)絡(luò)包含Critic1和Critic2兩個(gè)獨(dú)立網(wǎng)絡(luò),通過(guò)選取兩個(gè)網(wǎng)絡(luò)中最小的值作為目標(biāo)值,解決了DDPG中對(duì)值持續(xù)過(guò)優(yōu)估計(jì)的問(wèn)題,如式(6)所示;(2)算法采用兩個(gè)隨機(jī)噪聲,其中在線(xiàn)策略網(wǎng)絡(luò)的隨機(jī)噪聲用來(lái)保證動(dòng)作的探索能力,而目標(biāo)策略網(wǎng)絡(luò)中加入隨機(jī)噪聲,則用來(lái)增加算法的穩(wěn)定性;(3)降低了在線(xiàn)策略網(wǎng)絡(luò)的更新頻率,使得actor的訓(xùn)練更加穩(wěn)定。
式中:r為時(shí)刻的即時(shí)獎(jiǎng)勵(lì);為折扣因子;Q(s,a)為根據(jù)+1時(shí)刻的狀態(tài)值s、動(dòng)作值a和網(wǎng)絡(luò)參數(shù)'得到的目標(biāo)網(wǎng)絡(luò)的值。
目標(biāo)函數(shù)為
在線(xiàn)網(wǎng)絡(luò)參數(shù)的更新方式為梯度下降法。Critic網(wǎng)絡(luò)采用時(shí)序差分誤差(TD-error)的均方差來(lái)評(píng)價(jià)近似的準(zhǔn)確性。Critic網(wǎng)絡(luò)的權(quán)重參數(shù)、通過(guò)梯度下降法最小化損失函數(shù)()來(lái)更新,如式(8)和式(9)所示。在線(xiàn)Actor網(wǎng)絡(luò)參數(shù)的更新通過(guò)梯度上升法使值關(guān)于迭代增加:
目標(biāo)網(wǎng)絡(luò)的權(quán)重參數(shù)更新采用滑動(dòng)平均的軟更新方式,如式(11)所示,將在線(xiàn)網(wǎng)絡(luò)中的參數(shù)以一定的權(quán)重更新到目標(biāo)網(wǎng)絡(luò)中:
式中:為軟更新參數(shù);為在線(xiàn)策略網(wǎng)絡(luò)參數(shù);'為目標(biāo)策略網(wǎng)絡(luò)參數(shù);和分別為在線(xiàn)網(wǎng)絡(luò)1和在線(xiàn)網(wǎng)絡(luò)2的網(wǎng)絡(luò)參數(shù);'和'分別為目標(biāo)網(wǎng)絡(luò)1和目標(biāo)網(wǎng)絡(luò)2的網(wǎng)絡(luò)參數(shù)。
在傳統(tǒng)的DRL算法中,從經(jīng)驗(yàn)池中抽取片段時(shí)是以等概率隨機(jī)抽取。事實(shí)上經(jīng)驗(yàn)池中片段的難易程度和從中學(xué)習(xí)到的知識(shí)都不同。為加速網(wǎng)絡(luò)訓(xùn)練且得到更好的訓(xùn)練效果,本文中采用了優(yōu)先經(jīng)驗(yàn)采樣(PER)算法,并結(jié)合不同的經(jīng)驗(yàn)給予一定的權(quán)重,例如在交互過(guò)程中表現(xiàn)越差的片段給予更高的權(quán)重,則這些片段有更高的概率被網(wǎng)絡(luò)重新學(xué)習(xí),這樣模型的學(xué)習(xí)效率就會(huì)大大提高。相反,在交互過(guò)程中表現(xiàn)較好的片段給予較低的采樣權(quán)重。
TD-error的值越大,片段越有價(jià)值。因此,用TD-error的絕對(duì)值來(lái)表征片段的重要性。TD-error的值σ為
式中為折扣因子。
經(jīng)驗(yàn)片段的優(yōu)先級(jí)有兩種形式:(1)直接用TDerror的絕對(duì)值|σ|來(lái)表征,如式(13)所示,為較小的正常數(shù),用于保證在邊緣概率為0的片段也有一定的概率被采樣;(2)根據(jù)|σ|的大小對(duì)經(jīng)驗(yàn)樣本進(jìn)行排序,然后得到樣本的序列(),如式(14)所示的優(yōu)先級(jí)指標(biāo)D。第2種形式具有更好的魯棒性,本文中采用第2種形式。
直接采用式(14)的采樣方式為貪婪抽樣,會(huì)導(dǎo)致初始TD-error較小時(shí)長(zhǎng)時(shí)間不被抽樣和TD-error較大時(shí)被高頻重復(fù)抽樣,從而導(dǎo)致缺乏樣本多樣性。為解決此問(wèn)題,采用均勻采樣和貪婪抽樣結(jié)合的方式,經(jīng)驗(yàn)池中每個(gè)樣本的采樣概率()為
式中:D為第個(gè)樣本的優(yōu)先級(jí)指標(biāo);為超參數(shù)。當(dāng)為0時(shí)為均勻抽樣;當(dāng)為1時(shí)為貪婪抽樣;當(dāng)0<<1時(shí)為兩種采樣的結(jié)合。
PER的另一問(wèn)題是對(duì)模型的更新會(huì)引入偏差。為使模型更新無(wú)偏,引入更新權(quán)重:
式中:為經(jīng)驗(yàn)池大??;為介于0至1之間的調(diào)節(jié)因子,較小時(shí)樣本利用率高,較大時(shí)更新偏向于無(wú)偏。
基于TD3-PER的能量管理策略的流程和有關(guān)的偽代碼如表2所示。
表2 TD3-PER算法計(jì)算流程
采用SHETV實(shí)車(chē)采集的信息作為訓(xùn)練用的循環(huán)工況,其速度變化曲線(xiàn)和對(duì)應(yīng)的需求功率如圖8所示,工況的總時(shí)間為1 000 s,訓(xùn)練時(shí)采樣頻率為10 Hz。最大車(chē)速為39.5 km/h,車(chē)輛的需求功率范圍為-1.06~15.49 kW。需求功率的負(fù)值為混合動(dòng)力驅(qū)動(dòng)系統(tǒng)的制動(dòng)能量再生能源。
圖8 TD3-PER算法訓(xùn)練工況
狀態(tài)矢量的初始向量為=[2000,0.75,0,0],將其作為T(mén)D3-PER算法的初始向量輸入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。TD3-PER算法網(wǎng)絡(luò)的超參數(shù)如表3所示。圖9為在訓(xùn)練過(guò)程中的回報(bào)函數(shù)曲線(xiàn)、損失函數(shù)曲線(xiàn)和每一回合的油耗值曲線(xiàn)。從圖中可以看出,隨著訓(xùn)練進(jìn)程的進(jìn)行,回報(bào)函數(shù)不斷增大且油耗值不斷減小,在訓(xùn)練的第23個(gè)回合左右,算法的回報(bào)函數(shù)曲線(xiàn)和損失函數(shù)曲線(xiàn)都趨近于0,這表明算法的訓(xùn)練已經(jīng)收斂,相應(yīng)的控制策略即將達(dá)到最優(yōu)值附近。
表3 TD3-PER算法網(wǎng)絡(luò)超參數(shù)定義
圖9 訓(xùn)練過(guò)程的總回報(bào)、損失函數(shù)和燃油消耗量
為驗(yàn)證TD3-PER算法的性能,將相同的行駛工況分別作為DP、DDPG、TD3、TD3-PER 4種算法的訓(xùn)練工況,通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練后對(duì)比其性能,其中基于全局優(yōu)化算法DP的EMS作為其他3種算法的對(duì)比基準(zhǔn)。圖10為3種算法的動(dòng)力電池變化曲線(xiàn)。從圖中可以看出,3種算法的變化趨勢(shì)具有相似性且變化都不大,這是由于TD3算法為DDPG算法的改進(jìn)算法,都能實(shí)現(xiàn)油門(mén)開(kāi)度的連續(xù)控制。但是基于TD3-PER算法的波動(dòng)更小,在初始值0.75附近波動(dòng)。這是由于TD3算法作為DDPG的改進(jìn)算法,能實(shí)現(xiàn)值更穩(wěn)定的迭代,因此能使在初始值附近更小的波動(dòng)。同時(shí)PER算法的加入使TD3算法的訓(xùn)練過(guò)程更快,控制效果更好。
圖10 3種算法的SOC曲線(xiàn)對(duì)比
圖11為基于3種算法的EMS的發(fā)動(dòng)機(jī)工作點(diǎn)分布圖。3種算法的發(fā)動(dòng)機(jī)工作點(diǎn)具有一定的相似性,這是由于基于3種算法的EMS在狀態(tài)空間都是連續(xù)的且都能實(shí)現(xiàn)油門(mén)開(kāi)度的連續(xù)控制。但TD3算法的發(fā)動(dòng)機(jī)工作點(diǎn)相對(duì)于DDPG更多地位于燃油消耗較低的高效區(qū),同時(shí)PER算法的加入使得TD3算法的燃油經(jīng)濟(jì)性進(jìn)一步提升。
圖11 發(fā)動(dòng)機(jī)工作點(diǎn)分布對(duì)比
由于發(fā)動(dòng)機(jī)工作點(diǎn)分布和的終端值不同,4種算法的仿真油耗也存在差異。為消除算法在終端狀態(tài)下的差異,采用修正方法對(duì)燃油消耗進(jìn)行補(bǔ)償。表4是經(jīng)修正后的燃油消耗量對(duì)比。在所給定的真實(shí)循環(huán)工況下,DP、DDPG、TD3和TD3-PER算法分別消耗燃油499.02、546.24、532.21和525.01 g,TD3-PER算法的燃油消耗比DDPG降低了3.89%,燃油經(jīng)濟(jì)性達(dá)到DP基準(zhǔn)的95.05%。同時(shí),相對(duì)于離散算法DP,連續(xù)型算法的訓(xùn)練時(shí)間也大大縮短。以上仿真結(jié)果表明TD3-PER算法具有更好的優(yōu)化控制效果,驗(yàn)證了基于TD3-PER算法的能量管理策略的最優(yōu)性和有效性。
表4 3種算法SOC修正后的燃油消耗量
為驗(yàn)證所提出的能量管理策略的適應(yīng)性和優(yōu)化性能,在訓(xùn)練好的TD3-PER網(wǎng)絡(luò)參數(shù)中采用實(shí)車(chē)采集的新工況進(jìn)行仿真對(duì)比。新工況信息如圖12所示,工況的最高車(chē)速為26 km/h,最大需求功率為14.56 kW,最小功率為-4.21 kW。
圖12 算法適應(yīng)性和最優(yōu)性驗(yàn)證工況
將新的工況輸入到DDPG、TD3、TD3-NAF算法中進(jìn)行仿真驗(yàn)證,結(jié)果如圖13和圖14所示。從圖13可見(jiàn),3種算法都能實(shí)現(xiàn)較好的保持能力,但TD3-PER算法的波動(dòng)性更小。從圖14可見(jiàn),3種對(duì)比算法的發(fā)動(dòng)機(jī)工作點(diǎn)分布類(lèi)似,但相對(duì)于DDPG算法,TD3算法和TD3-PER算法使更多的發(fā)動(dòng)機(jī)工作點(diǎn)分布在經(jīng)濟(jì)區(qū)。
圖13 3種算法的SOC曲線(xiàn)
圖14 發(fā)動(dòng)機(jī)工作點(diǎn)分布
采用與3.2節(jié)中同樣的方法修正油耗來(lái)消除終端值不同帶來(lái)的影響,結(jié)果如表5所示。由表可見(jiàn),TD3-PER修正后的油耗為417.53 g,與TD3算法相比下降了15.7 g,與DDPG算法相比下降了34.11 g。仿真結(jié)果表明了TD3-PER算法具有更好的節(jié)油效果,同時(shí)也驗(yàn)證了基于TD3-PER算法對(duì)工況的適應(yīng)能力。
表5 3種算法對(duì)于新工況的燃油消耗量
為優(yōu)化混合動(dòng)力電動(dòng)履帶車(chē)輛的燃油經(jīng)濟(jì)性和動(dòng)力電池性能,提出了一種基于優(yōu)先經(jīng)驗(yàn)采樣的雙延遲深度確定性策略梯度(TD3-PER)能量管理策略。TD3算法采用雙Critic網(wǎng)絡(luò)解決了DDPG算法過(guò)優(yōu)估計(jì)問(wèn)題,PER算法提高了算法的收斂速度和訓(xùn)練效果。因此,TD3-PER算法解決了能量管理策略無(wú)法處理連續(xù)控制和過(guò)優(yōu)估計(jì)的問(wèn)題,同時(shí)加速了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。具體結(jié)論如下:
(1)將提出的基于TD3-PER的能量管理策略應(yīng)用于串聯(lián)式混合動(dòng)力履帶車(chē)輛中,通過(guò)實(shí)車(chē)采集的工況仿真對(duì)比了TD3-PER、TD3和DDPG算法的燃油經(jīng)濟(jì)性和電池的波動(dòng)?;赥D3-PER算法的EMS的燃油經(jīng)濟(jì)性比TD3提高了1.29%、比DDPG提高了3.87%,若以DP算法為基準(zhǔn),可達(dá)到95.05%。
(2)通過(guò)實(shí)車(chē)采集的新工況驗(yàn)證了訓(xùn)練好的網(wǎng)絡(luò)數(shù)據(jù)的燃油經(jīng)濟(jì)性,TD3-PER算法修正后的油耗比TD3下降了15.7 g,比DDPG下降了34.11 g,同時(shí)驗(yàn)證了算法對(duì)于工況的適應(yīng)性。
為了使TD3-PER算法能更好地適應(yīng)復(fù)雜越野工況,下一步工作將開(kāi)展在線(xiàn)更新網(wǎng)絡(luò)參數(shù)的研究,進(jìn)一步提高算法對(duì)于工況的適應(yīng)性和燃油經(jīng)濟(jì)性。