張 昊,范欽灝,王 巍,黃 晉,王 志
(清華大學(xué),汽車安全與節(jié)能國家重點(diǎn)實(shí)驗(yàn)室,北京100084)
高效清潔燃燒技術(shù)與混合動(dòng)力技術(shù)的結(jié)合是乘用車滿足未來法規(guī)的有效途徑[1]。融合了均質(zhì)混合氣壓燃著火(homogeneous charge compression ignition,HCCI)與火花點(diǎn)火(spark ignition,SI)的HCCI∕SI多燃燒模式混合動(dòng)力系統(tǒng),具有顯著的節(jié)能減排前景。即在中小負(fù)荷下利用HCCI燃燒模式的低燃油消耗率和超低排放優(yōu)勢,而在大負(fù)荷下切換至傳統(tǒng)火花點(diǎn)火(SI)燃燒模式,避免發(fā)生失火和爆震等異常燃燒現(xiàn)象[2],得到了國內(nèi)外學(xué)者的廣泛研究。Ahn等利用HCCI∕SI多模燃燒發(fā)動(dòng)機(jī)的穩(wěn)態(tài)MAP建立了車輛模型,在多種循環(huán)工況下驗(yàn)證了這種先進(jìn)燃燒模式對(duì)整車燃油經(jīng)濟(jì)性的提升[3]。Benajes等對(duì)一款搭載多燃燒模式發(fā)動(dòng)機(jī)的并聯(lián)式混合動(dòng)力汽車進(jìn)行了仿真分析,得出隨著動(dòng)力總成混合程度的提升,整車燃油消耗顯著降低的結(jié)論[4]。Gao等利用數(shù)值模擬方法研究了采用多模燃燒的混合動(dòng)力系統(tǒng),結(jié)果表明配備多燃燒模式發(fā)動(dòng)機(jī)的混合動(dòng)力總成,較配備傳統(tǒng)發(fā)動(dòng)機(jī)的混合動(dòng)力總成具有更大的節(jié)能潛力[5]。
在多模燃燒混合動(dòng)力系統(tǒng)中,發(fā)動(dòng)機(jī)在相同的功率需求下可以選擇不同的燃燒模式,其能量管理是一個(gè)多變量、強(qiáng)耦合的非線性時(shí)變系統(tǒng)。最優(yōu)的能量管理策略能夠高效地控制動(dòng)力系統(tǒng)的功率流動(dòng)和發(fā)動(dòng)機(jī)的燃燒模式,充分發(fā)揮HCCI∕SI多燃燒模式的優(yōu)勢并提高其運(yùn)行穩(wěn)定性,獲得最佳的整車性能。針對(duì)搭載HCCI∕SI多燃燒模式發(fā)動(dòng)機(jī)的混合動(dòng)力汽車,設(shè)計(jì)與之相匹配的能量管理策略,從而優(yōu)化動(dòng)力總成的工作特性,是當(dāng)下多燃燒模式混合動(dòng)力系統(tǒng)亟待研究的核心技術(shù)之一。Musardo等針對(duì)多模燃燒混動(dòng)系統(tǒng),仿真驗(yàn)證了自適應(yīng)等效燃油消耗最小策略(adaptive?equivalent fuel consumption minimiation strategy,A?ECMS),證明了與燃燒模式相匹配的能量管理策略能更充分地發(fā)揮發(fā)動(dòng)機(jī)節(jié)能減排潛力[6]。在此基礎(chǔ)上,García等將分別以油耗和排放為目標(biāo)的兩種A?ECMS算法應(yīng)用于多模燃燒并聯(lián)式混合動(dòng)力系統(tǒng)中,驗(yàn)證了A?ECMS在油耗和排放方面優(yōu)于基于規(guī)則的控制策略,并指出需要研發(fā)適用于多模燃燒混合動(dòng)力系統(tǒng)的專用能量管理策略[7]。需要注意的是,以上研究都假設(shè)了燃燒模式切換過程是瞬間完成的,即混動(dòng)模型中忽略了切換過程產(chǎn)生的額外燃油和排放損失。然而,能量管理的實(shí)際效果與車輛模型準(zhǔn)確度緊密相關(guān),Nüesch等的研究表明HCCI∕SI燃燒模式的切換會(huì)造成瞬態(tài)燃燒和排放惡化,因此提出了一種考慮HCCI∕SI切換過程中瞬態(tài)燃油和排放損失的發(fā)動(dòng)機(jī)模型[8]。同時(shí),針對(duì)一款搭載HCCI∕SI多模燃燒的48 V輕度混合動(dòng)力汽車,提出了基于燃燒模式切換懲罰的ECMS算法,通過數(shù)值模擬證明了該算法能夠有效避免燃燒模式的頻繁切換[9]。
基于規(guī)則和基于最優(yōu)控制的多燃燒模式混合動(dòng)力能量管理策略,通常需要建立精確的控制模型并進(jìn)行標(biāo)定,比如A?ECMS算法中對(duì)油電等效因子的估計(jì)模型等[10]。這加大了能量管理策略的制定難度,并且難以保證對(duì)多模燃燒發(fā)動(dòng)機(jī)工況點(diǎn)的優(yōu)化效果,而基于深度強(qiáng)化學(xué)習(xí)的方法可以較好地解決這一問題[11]。本文中以搭載多燃燒模式發(fā)動(dòng)機(jī)的功率分流型混合動(dòng)力汽車為研究對(duì)象,依據(jù)HCCI∕SI發(fā)動(dòng)機(jī)臺(tái)架試驗(yàn)數(shù)據(jù)和電機(jī)有限元仿真結(jié)果,建立了基于MAP的多燃燒模式混合動(dòng)力汽車模型,并利用有限狀態(tài)機(jī)引入HCCI∕SI切換的瞬態(tài)油耗懲罰。定義了以燃燒模式切換頻率、油耗和SOC波動(dòng)為指標(biāo)的獎(jiǎng)勵(lì)函數(shù),提出了基于深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)的能量管理策略。將整車作為環(huán)境,訓(xùn)練基于深度Q網(wǎng)絡(luò)(deep Q?network,DQN)的能量管理智能體。利用深度神經(jīng)網(wǎng)絡(luò)對(duì)能量管理策略集進(jìn)行儲(chǔ)存,解決了強(qiáng)化學(xué)習(xí)因數(shù)據(jù)存儲(chǔ)維數(shù)過多導(dǎo)致訓(xùn)練困難的問題。同時(shí),基于優(yōu)先經(jīng)驗(yàn)回放機(jī)制,優(yōu)先回放對(duì)于能量管理策略訓(xùn)練更有價(jià)值的經(jīng)驗(yàn),使智能體更快適應(yīng)環(huán)境,提升了DRL算法的收斂速度。最后,在WLTC和NEDC工況下與基于規(guī)則的控制策略、A?ECMS策略和動(dòng)態(tài)規(guī)劃結(jié)果進(jìn)行仿真對(duì)比,驗(yàn)證所提出策略在減少燃燒模式切換頻率和提升燃油經(jīng)濟(jì)性方面的有效性。
本文所研究的多燃燒模式混合動(dòng)力汽車的動(dòng)力系統(tǒng)為功率分流構(gòu)型,如圖1所示。主要由驅(qū)動(dòng)電機(jī)、發(fā)電機(jī)、多模燃燒發(fā)動(dòng)機(jī)、動(dòng)力傳動(dòng)機(jī)構(gòu)、動(dòng)力電池組、功率變換單元和相應(yīng)的控制器組成,主要參數(shù)見表1。
圖1 整車動(dòng)力傳動(dòng)系統(tǒng)結(jié)構(gòu)圖
表1 整車參數(shù)
本文采用一臺(tái)4缸直噴汽油機(jī)進(jìn)行了HCCI∕SI多燃燒模式的切換試驗(yàn),臺(tái)架系統(tǒng)如圖2所示,發(fā)動(dòng)機(jī)主要參數(shù)見表2。其中,空燃比測量裝置采用ABM?10型空燃比儀,通過ECU進(jìn)行閉環(huán)控制。
圖2 HCCI∕SI發(fā)動(dòng)機(jī)試驗(yàn)臺(tái)架示意圖
表2 試驗(yàn)發(fā)動(dòng)機(jī)參數(shù)
HCCI∕SI多燃燒模式發(fā)動(dòng)機(jī)的臺(tái)架試驗(yàn)結(jié)果如圖3所示,該萬有特性圖顯示了兩種燃燒模式的性能和運(yùn)行區(qū)域。其中,HCCI采用稀薄燃燒,實(shí)現(xiàn)了較好的節(jié)油效果,其轉(zhuǎn)矩范圍為13~67 N·m,轉(zhuǎn)速范圍為1 300~2 700 r∕min。同時(shí),由于其燃燒溫度低,因此NOx排放極低,而HC和CO排放則通過在富氧條件下采用三效催化器處理。SI燃燒的轉(zhuǎn)矩運(yùn)行范圍為20~175 N·m,適合工作在理論空燃比附近,從而保證三效催化器高效運(yùn)行。為防止頻繁切換,采用了滯回控制,圖3中的白色圓圈表示臺(tái)架試驗(yàn)中兩種燃燒模式的切換點(diǎn)。
圖3 HCCI∕SI發(fā)動(dòng)機(jī)萬有特性圖
HCCI∕SI的切換采用分步方法實(shí)現(xiàn),即單獨(dú)控制節(jié)氣門和配氣相位的動(dòng)作,通過損失一定程度的燃油經(jīng)濟(jì)性和排放性能,換取HCCI∕SI的平穩(wěn)切換。由HCCI燃燒向SI燃燒切換時(shí),首先減小節(jié)氣門開度,然后將配氣相位由HCCI燃燒的負(fù)閥重疊(negative valve overlap,NVO)切 換 為 正 閥 重 疊(positive valve overlap,PVO)。當(dāng)向HCCI模式切換時(shí),則先將配氣相位切換至NVO相位,接著保持節(jié)氣門全開,避免節(jié)氣門和配氣相位對(duì)氣流影響的耦合,大幅降低控制難度?;谂_(tái)架試驗(yàn)獲得的HCCI∕SI發(fā)動(dòng)機(jī)萬有特性圖,建立了基于MAP的多燃燒模式發(fā)動(dòng)機(jī)模型,并令發(fā)動(dòng)機(jī)沿最佳燃油消耗曲線運(yùn)行。同時(shí),利用有限狀態(tài)機(jī)引入切換過程的瞬態(tài)油耗懲罰,如圖4所示,其中kp是對(duì)當(dāng)前BSFC的懲罰系數(shù),如kp=1.1表示增加10%的油耗,nc表示懲罰系數(shù)作用的發(fā)動(dòng)機(jī)工作循環(huán)數(shù)。
圖4 基于有限狀態(tài)機(jī)的瞬時(shí)油耗懲罰
根據(jù)電機(jī)參數(shù)在Ansys Maxwell軟件中建立了驅(qū)動(dòng)電機(jī)和發(fā)電機(jī)的有限元模型,見圖5,其結(jié)構(gòu)與Prius的永磁同步電機(jī)(permanent magnet synchro?nous machine,PMSM)保持一致。利用Toolkits插件導(dǎo)出如圖6和圖7所示電機(jī)效率特性圖,建立基于MAP數(shù)據(jù)的驅(qū)動(dòng)電機(jī)和發(fā)電機(jī)模型用于整車仿真。
圖5 永磁同步電機(jī)的有限元模型
圖6 驅(qū)動(dòng)電機(jī)效率特性圖
圖7 發(fā)電機(jī)效率特性圖
動(dòng)力電池采用內(nèi)阻-開路模型,本文忽略電池組溫升及其對(duì)電池內(nèi)阻的影響,其數(shù)學(xué)模型如式(1)~式(3)所示。
式中:SOC為電池荷電狀態(tài);S O C0為電池初始荷電狀態(tài);C為電池組容量;t為時(shí)間;Ibat為電池組放電電流;Uoc為電池組開路電壓;Rbat為電池組內(nèi)阻;Pbat為電池組功率。
如圖3所示,驅(qū)動(dòng)電機(jī)、發(fā)電機(jī)和發(fā)動(dòng)機(jī)分別與行星齒輪的齒圈、太陽輪和行星架相連。行星齒輪將發(fā)動(dòng)機(jī)的部分轉(zhuǎn)矩傳遞給發(fā)電機(jī),其余部分轉(zhuǎn)矩用于直接驅(qū)動(dòng)車輛。根據(jù)車輛行駛過程中的動(dòng)力學(xué)平衡關(guān)系,以及行星齒輪的轉(zhuǎn)速、轉(zhuǎn)矩關(guān)系,建立功率分流型混合動(dòng)力汽車的縱向動(dòng)力學(xué)模型,如式(4)~式(7)所示。
式中:Tdem為車輛行駛的需求轉(zhuǎn)矩;TEM、TG和TICE分別為驅(qū)動(dòng)電機(jī)、發(fā)電機(jī)和發(fā)動(dòng)機(jī)的輸出轉(zhuǎn)矩;ωEM、ωG和ωICE分別為驅(qū)動(dòng)電機(jī)、發(fā)電機(jī)和發(fā)動(dòng)機(jī)的角速度;α為行星齒輪齒比;i為主減速器速比;r為車輪半徑;m為整車質(zhì)量;A為車輛迎風(fēng)面積;v為車輛行駛速率;t為時(shí)間;f為滾動(dòng)阻力系數(shù);γ為路面傾角;g為當(dāng)?shù)刂亓铀俣?;ρ為空氣密度;CD為空氣質(zhì)量系數(shù)。
Q學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的一個(gè)分支,是一種基于價(jià)值的學(xué)習(xí)方法,包括環(huán)境與智能體兩個(gè)實(shí)體。通過使智能體在與環(huán)境交互的過程中,所做出一系列動(dòng)作的回報(bào)最大,從而建立最優(yōu)的動(dòng)作策略集。深度Q網(wǎng)絡(luò)算法是深度學(xué)習(xí)和Q學(xué)習(xí)相結(jié)合的產(chǎn)物,它將深度神經(jīng)網(wǎng)絡(luò)作為Q函數(shù)的近似方法,即用深度神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)的Q函數(shù)。同時(shí),DQN算法通常與經(jīng)驗(yàn)回放算法相結(jié)合,以降低樣本間的相關(guān)性。
DQN算法采用了兩個(gè)神經(jīng)網(wǎng)絡(luò),分別是當(dāng)前值Q網(wǎng)絡(luò)和目標(biāo)值Q?網(wǎng)絡(luò)。它們是兩個(gè)結(jié)構(gòu)完全一致但參數(shù)不同的全連接網(wǎng)絡(luò),其參數(shù)分別用θ和θ-表示,通過訓(xùn)練可以建立其輸出Q值與狀態(tài)及動(dòng)作之間的映射關(guān)系。定義損失函數(shù)為兩者的均方誤差并進(jìn)行反向傳播,在訓(xùn)練過程中對(duì)當(dāng)前Q值與目標(biāo)Q?值依次更新。最優(yōu)策略即在狀態(tài)下選用使總體獎(jiǎng)勵(lì)最高的一系列動(dòng)作,算法基本形式如下:
式中:Q為智能體動(dòng)作a t的期望價(jià)值函數(shù),即在狀態(tài)s t下執(zhí)行a t動(dòng)作預(yù)計(jì)獲得的價(jià)值;r t為實(shí)際價(jià)值;t為時(shí)間步;α為學(xué)習(xí)率;γ為對(duì)未來潛在獎(jiǎng)勵(lì)的衰減率。
DQN的損失函數(shù)定義為當(dāng)前值Q網(wǎng)絡(luò)和目標(biāo)值Q?網(wǎng)絡(luò)輸出的Q值之差:
在不損失經(jīng)驗(yàn)多樣性的前提下優(yōu)先使用具有較大回報(bào)的經(jīng)驗(yàn),進(jìn)一步提高經(jīng)驗(yàn)數(shù)據(jù)的利用率,引入了排序優(yōu)先經(jīng)驗(yàn)回放算法。定義時(shí)序誤差δ(t)、經(jīng)驗(yàn)優(yōu)先級(jí)p t和采樣概率p(t)如下:
式中:rank(t)為時(shí)序誤差按絕對(duì)值由大到小排序后的序號(hào);n為記憶存儲(chǔ)空間的大??;β為控制優(yōu)先采樣的程度,取值為[0,1],當(dāng)β=0時(shí)表示均勻采樣。
HCCI∕SI多燃燒式混合動(dòng)力系統(tǒng)作為環(huán)境,與能量管理智能體進(jìn)行交互,反饋給智能體的狀態(tài)信息包括電池組S O C、車輛加速度acc、車速v和發(fā)動(dòng)機(jī)工況點(diǎn)與高效區(qū)的偏離程度σ。由此定義多燃燒式混合動(dòng)力系統(tǒng)模型的狀態(tài)空間,如式(13)所示。
式中:BSF C t為t時(shí)刻的燃油消耗率;B SFCmin為發(fā)動(dòng)機(jī)最小燃油消耗率。
針對(duì)HCCI∕SI多模燃燒的專用能量管理策略,其核心是對(duì)發(fā)動(dòng)機(jī)輸出功率和燃燒模式切換的優(yōu)化。當(dāng)智能體收到環(huán)境的狀態(tài)反饋時(shí),需在動(dòng)作空間A中選擇一個(gè)動(dòng)作,即對(duì)發(fā)動(dòng)機(jī)的功率PICE和燃燒模式Mode進(jìn)行調(diào)整。其中,對(duì)輸出功率調(diào)整被定義為每秒功率的變化量,并進(jìn)行了離散化。輸出功率增量的上、下限分別設(shè)為5和-10 kW∕s,以減小對(duì)系統(tǒng)的沖擊。同時(shí),由于本試驗(yàn)發(fā)動(dòng)機(jī)在HCCI燃燒模式運(yùn)行的功率邊界為12 kW,因此燃燒模式的切換采用混合控制方式,輸出功率大于12 kW時(shí)直接切換為SI燃燒模式,小于該功率時(shí)則基于DRL策略進(jìn)行切換控制。多燃燒模式能量管理策略的動(dòng)作空間如下:
式中:ΔPICE為對(duì)發(fā)動(dòng)機(jī)輸出功率的調(diào)整,kW;Mod e為燃燒模式,其定義分別如式(16)和式(17)所示。
采用HCCI∕SI多燃燒模式的初衷是提高燃油經(jīng)濟(jì)性,因此油耗被納入獎(jiǎng)勵(lì)函數(shù)中。同時(shí),由于燃燒模式的切換會(huì)造成瞬態(tài)燃燒和排放惡化,甚至導(dǎo)致發(fā)動(dòng)機(jī)失火和爆震現(xiàn)象,在獎(jiǎng)勵(lì)函數(shù)中引入燃燒模式切換指令以避免HCCI∕SI的頻繁切換。此外,為維持電池SOC在一定水平,在獎(jiǎng)勵(lì)函數(shù)中加入了電池SOC實(shí)際值與其參考值偏差的平方項(xiàng)。由于以上三者均為對(duì)系統(tǒng)產(chǎn)生不利影響的指標(biāo),因此在定義獎(jiǎng)勵(lì)函數(shù)時(shí),將以上3個(gè)變量的系數(shù)均設(shè)置為懲罰系數(shù),即設(shè)為負(fù)值,懲罰權(quán)重分別用a、b和c表示,如式(18)所示。
式中:r為獎(jiǎng)勵(lì);Fuel_con t為動(dòng)作a t持續(xù)時(shí)間內(nèi)的燃油消耗量;S O C_ref t為SO C參考值;Mode_swt t表示燃燒模式是否切換,如式(19)所示。
基于以上定義,提出了基于DQN算法的多燃燒模式混合動(dòng)力能量管理策略,如圖8所示,完整的算法實(shí)現(xiàn)流程如表3所示。
圖8 基于DQN的能量管理策略
表3 DQN算法偽代碼
為驗(yàn)證基于深度強(qiáng)化學(xué)習(xí)的能量管理策略的可行性和有效性,在Matlab∕Simulink環(huán)境中建立了搭載多燃燒模式發(fā)動(dòng)機(jī)的混合動(dòng)力整車仿真模型,其中電池的充放電區(qū)間為40%~80%。圖9展示了用于驗(yàn)證策略的兩種典型循環(huán)工況,分別由3組WLTC工況和4組NEDC工況組成,在兩種工況下分別驗(yàn)證傳統(tǒng)控制策略與本文算法的控制效果。驅(qū)動(dòng)電機(jī)和發(fā)電機(jī)均采用矢量控制方式,考慮到當(dāng)發(fā)動(dòng)機(jī)輸出功率過小時(shí),即使工作在HCCI狀態(tài)依然無法實(shí)現(xiàn)良好的燃油經(jīng)濟(jì)性,且存在失火或爆震可能,因此兩種策略中發(fā)動(dòng)機(jī)的起動(dòng)功率均設(shè)置為2 kW,且沿最佳燃油消耗線運(yùn)行。同時(shí),為研究專用能量管理策略對(duì)發(fā)動(dòng)機(jī)的節(jié)能效果,需保證總驅(qū)動(dòng)能量僅由發(fā)動(dòng)機(jī)提供,即保持兩種策略的始末SOC值均一致,本文將SOC初始值和SOC終值均控制在60%左右。
圖9 循環(huán)工況
DQN中當(dāng)前值網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò)的結(jié)構(gòu)完全一致,其輸入層和輸出層分別與狀態(tài)變量和動(dòng)作變量對(duì)應(yīng),兩個(gè)神經(jīng)網(wǎng)絡(luò)均包含3層全連接層,各層神經(jīng)元個(gè)數(shù)分別為300、150和50。參數(shù)的選擇決定了訓(xùn)練的收斂效果和能量管理策略的性能,本文經(jīng)對(duì)比后確定學(xué)習(xí)率α為0.001,未來獎(jiǎng)勵(lì)衰減率γ為0.9,貪婪值ε設(shè)為0.01,訓(xùn)練回合數(shù)設(shè)為500,獎(jiǎng)勵(lì)函數(shù)的系數(shù)a、b、c在WLTC工況下分別為5,35和2 000,在NEDC工況下設(shè)為2,25和650。每回合的平均回報(bào)反映了智能體訓(xùn)練進(jìn)程的效果,如圖10所示,其中每回合指在3.1節(jié)的循環(huán)工況下完整訓(xùn)練一次。WLTC和NEDC工況的起始平均獎(jiǎng)勵(lì)值分別在-250和-100左右,隨訓(xùn)練回合數(shù)增多,平均回報(bào)均呈上升趨勢,分別在約150和250回合時(shí)收斂,說明深度強(qiáng)化學(xué)習(xí)算法對(duì)多燃燒模式混動(dòng)能量管理具有較好的適用性。
圖10 平均回報(bào)
在WLTC和NEDC工況下電池SOC的變化情況分別如圖11和圖12所示。其中基于規(guī)則的控制策略能夠在驅(qū)動(dòng)功率較小的情況下,較好地維持SOC。而在功率需求較大時(shí)表現(xiàn)為將電池電量消耗至SOC下限,之后進(jìn)入充電模式至SOC達(dá)到上限,在WLTC和NEDC工況下的SOC終值分別為61%和60%。A?ECMS策略基于車輛需求功率和電池SOC,利用極小值原理選擇最優(yōu)的功率分配,同時(shí),燃油等效因子的自適應(yīng)調(diào)節(jié)保證了SOC的動(dòng)態(tài)維持,在WLTC和NEDC工況下的SOC終值分別為63%和62%。而對(duì)于基于DRL的能量管理策略,經(jīng)過訓(xùn)練的智能體能夠基于狀態(tài)反饋,選擇使獎(jiǎng)勵(lì)函數(shù)最大的功率分配。從其SOC的變化過程可以看出,該控制策略更加趨向于電驅(qū)動(dòng),在過程中選擇一定程度的SOC下降作為代價(jià),避免發(fā)動(dòng)機(jī)小功率頻繁起動(dòng),從而獲得更佳的燃油經(jīng)濟(jì)性。同時(shí),SOC值仍保持在40%以上,未造成對(duì)電池壽命的損害,在WLTC和NEDC工況下的SOC終值分別為63%和59%。
圖11 WLTC工況的SOC對(duì)比
圖12 NEDC工況的SOC對(duì)比
在WLTC和NEDC工況下,規(guī)則策略、A?ECMS策略和DRL策略的發(fā)動(dòng)機(jī)運(yùn)行工況點(diǎn)分別如圖13和圖14所示。在基于規(guī)則的控制策略下,發(fā)動(dòng)機(jī)輸出功率跟隨行駛功率需求,因此不可避免地工作于低效區(qū),在WLTC和NEDC工況下的百公里油耗分別為6.0和4.7 L,兩種工況下的燃燒模式切換次數(shù)分別達(dá)到了291和136次。基于最優(yōu)控制理論的A?ECMS策略明顯改善了發(fā)動(dòng)機(jī)工作的效率區(qū)域,在WLTC和NEDC工況下的百公里油耗分別為5.1和4.4 L,燃燒模式切換次數(shù)分別為191和67次。與以上兩種策略相比,DRL策略能夠更好地規(guī)劃功率分配,并將發(fā)動(dòng)機(jī)工作點(diǎn)分配到SI和HCCI燃燒模式的高效區(qū),在兩種工況下的百公里油耗分別為4.9和4.1 L。燃燒模式切換方面,在WLTC工況下切換176次,在NEDC工況下僅切換52次。
上述3種策略的燃油消耗率分布情況如圖15所示,可以看出DRL策略能夠在不影響整車動(dòng)力性能以及不引起電池過充、過放電的前提下,明顯抑制發(fā)動(dòng)機(jī)在過渡區(qū)域的停留時(shí)間。表4給出了兩種工況下規(guī)則策略、A?ECMS策略、DRL策略和動(dòng)態(tài)規(guī)劃的能量管理效果對(duì)比,可以看出在SOC終值基本一致的情況下,DRL能量管理策略下的油耗和燃燒模式切換次數(shù)均優(yōu)于規(guī)則策略和A?ECMS策略,與動(dòng)態(tài)規(guī)劃的結(jié)果相近。針對(duì)WLTC和NEDC工況,DRL策略的燃油經(jīng)濟(jì)性相比規(guī)則策略分別提升18%和13%,相比A?ECMS策略分別提升8%和6%。此外,經(jīng)過訓(xùn)練的智能體能夠權(quán)衡燃燒模式切換的收益和代價(jià),從而避免頻繁切換,兩種工況下相比規(guī)則策略分別減少40%和62%,相比A?ECMS分別減少了13%和15%。
圖13 WLTC工況下不同策略的發(fā)動(dòng)機(jī)工作點(diǎn)
圖14 NEDC工況下不同策略的發(fā)動(dòng)機(jī)工作點(diǎn)
圖15 燃油消耗率分布對(duì)比
表4 能量管理結(jié)果對(duì)比
此外,驗(yàn)證了DRL策略對(duì)驅(qū)動(dòng)電機(jī)的影響,在WLTC和NEDC工況下,電機(jī)的運(yùn)行工況分別如圖16和圖17所示。在中、小功率情況下,電機(jī)作為主要驅(qū)動(dòng)源,其輸出功率與車輛需求功率呈正相關(guān),而在發(fā)動(dòng)機(jī)高功率輸出狀態(tài)和車輛制動(dòng)狀態(tài)下則進(jìn)行能量回收。與電動(dòng)機(jī)的匹配較好,均未出現(xiàn)負(fù)荷過小導(dǎo)致低效運(yùn)行的情況或過載情況。
圖16 DRL策略的電動(dòng)機(jī)工作點(diǎn)(WLTC)
圖17 DRL策略的電動(dòng)機(jī)工作點(diǎn)(NEDC)
將多燃燒模式發(fā)動(dòng)機(jī)應(yīng)用于油∕電混合動(dòng)力汽車,是交通領(lǐng)域具有前景的節(jié)能減排技術(shù)路線。針對(duì)多模燃燒混合動(dòng)力系統(tǒng)設(shè)計(jì)專用能量管理策略,是發(fā)揮高效清潔燃燒技術(shù)優(yōu)勢的前提。本文中針對(duì)多模式燃燒的特性,以燃油經(jīng)濟(jì)性和抑制燃燒模式頻繁切換為目標(biāo),基于深度強(qiáng)化學(xué)習(xí)理論優(yōu)化設(shè)計(jì)了能量管理策略。
基于發(fā)動(dòng)機(jī)臺(tái)架試驗(yàn)和電機(jī)有限元分析,在Matlab∕Simulink環(huán)境下建立了基于MAP的混合動(dòng)力汽車模型并進(jìn)行了標(biāo)定。將整車作為環(huán)境,訓(xùn)練基于DQN的能量管理策略,并利用排序經(jīng)驗(yàn)優(yōu)先回放策略提升了DQN算法的收斂速度。
在WLTC和NEDC工況下驗(yàn)證了本文策略的效果,結(jié)果表明基于DRL的能量管理策略能在維持SOC的情況下,避免燃燒模式頻繁切換,并且充分利用中小負(fù)荷HCCI燃燒,控制效果優(yōu)于規(guī)則策略和A?ECMS策略,與動(dòng)態(tài)規(guī)劃的全局最優(yōu)解接近。燃燒模式切換頻率降低13%以上,燃油經(jīng)濟(jì)性提升6%以上。
本文提出的專用能量管理策略適用于多燃燒模式的混動(dòng)系統(tǒng)??刂撇呗钥蚣芫邆溥w移能力,可進(jìn)一步應(yīng)用于其它多燃料、多燃燒模式混合動(dòng)力系統(tǒng)的能量管理。