• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度強化學習的插電式柴電混合動力汽車多目標優(yōu)化控制策略

      2021-01-18 03:59:48隗寒冰賀少川
      關(guān)鍵詞:催化器油耗控制策略

      隗寒冰,賀少川

      (重慶交通大學 機電與車輛工程學院,重慶 400074)

      0 引 言

      氮氧化物(NOx)是車用柴油機排放的主要污染物[1],為滿足國家標準GB 17691—2018《重型柴油車污染物排放限值及測量方法(中國第六階段)》中規(guī)定的NOx排放低于0.4 g/km限制要求,選擇性催化還原(selective catalytic reduction,SCR)后處理技術(shù)被認為是進一步降低NOx排放的必要技術(shù)路線之一。插電式柴電混合動力汽車(plug-in hybrid electric vehicles,PHEV)工作模式切換過程中由于發(fā)動機頻繁啟停導(dǎo)致的發(fā)動機排氣溫度和進氣流速波動較大,從而導(dǎo)致SCR催化器效率降低和排放惡劣,冷啟動階段這種性能下降更為明顯。因此制定優(yōu)化的整車控制策略在保證燃油經(jīng)濟性的條件下有效降低NOx排放,實現(xiàn)發(fā)動機油耗及后處理系統(tǒng)綜合優(yōu)化控制具有十分重要的意義。

      整車控制策略作為插電式混合動力汽車關(guān)鍵技術(shù)之一,已經(jīng)得到了廣泛研究[2]?;谝?guī)則的控制策略因其算法簡單、實時性好的優(yōu)點在工程中被大量采用[3-4],然而策略制定需要大量實驗和專家經(jīng)驗,無法適應(yīng)工況變化,不能充分發(fā)揮插電式混合動力汽車的節(jié)能潛力。最優(yōu)控制策略利用優(yōu)化算法求解最小化目標函數(shù),可以實現(xiàn)整車能量最佳分配[5-7],此類策略計算資源占用大,執(zhí)行效率不高,實時應(yīng)用受到限制?;趯W習的控制策略利用歷史或?qū)崟r數(shù)據(jù)進行學習應(yīng)用,可以根據(jù)不同的行駛工況對控制策略參數(shù)進行自調(diào)整,優(yōu)化車輛運行以適應(yīng)不同的駕駛工況[8-9],但仍依賴專家經(jīng)驗和精確的系統(tǒng)模型。近年來,作為人工智能、機器學習和自動控制領(lǐng)域研究熱點之一的強化學習在混合動力控制策略中開始得到了應(yīng)用[10],如:T. LIU等[11]提出馬爾科夫概率轉(zhuǎn)移矩陣在線更新方法,并結(jié)合Q-learning算法應(yīng)用于混合動力汽車能量管理問題,其效果與動態(tài)規(guī)劃接近;Y. HU等[12]使用Q-learning算法在線優(yōu)化模糊控制器參數(shù),對不同駕駛工況都表現(xiàn)出較好的實時性與燃油經(jīng)濟性;針對Q-learning算法采用二維查值表存儲最優(yōu)值時,面臨高維度或連續(xù)狀態(tài)導(dǎo)致“維度災(zāi)難”,且訓練難以收斂等問題,J. D. WU等[13]采用深度強化學習利用神經(jīng)網(wǎng)絡(luò)擬合最優(yōu)值函數(shù)。

      筆者提出基于深度強化學習的油耗與排放多目標綜合優(yōu)化控制策略,采用深度Q網(wǎng)絡(luò)(deep Q-learning network,DQN)算法通過學習和探索的方式獲得最優(yōu)控制策略,該策略以需求功率、蓄電池SOC和SCR溫度為狀態(tài)變量、以電機最優(yōu)輸出功率為輸出變量,能實現(xiàn)從運行工況到電機執(zhí)行端對端的學習與控制。最后將仿真測試結(jié)果與動態(tài)規(guī)劃(dynamic programming,DP)策略進行對比分析,證明所提出控制策略的有效性。

      1 插電式柴電混合動力系統(tǒng)建模

      以ISG型單軸并聯(lián)式插電式柴電混合動力汽車為研究對象,其整車動力系統(tǒng)結(jié)構(gòu)如圖1。動力系統(tǒng)主要由柴油機、動力電池、濕式離合器、ISG電機、換擋離合器、5檔AMT自動變速器等部分組成,后處理系統(tǒng)采用SCR。電機安裝采用P2構(gòu)型,實現(xiàn)制動能量回收和高效率聯(lián)合驅(qū)動等功能。整車通過CAN總線實現(xiàn)各控制器之間的數(shù)據(jù)通信與車輛狀態(tài)監(jiān)控,整車各部件相關(guān)參數(shù)如表1。

      表1 整車各部件性能參數(shù)Table 1 Performance parameters of the vehicle’s components

      圖1 PHEV整車動力系統(tǒng)Fig. 1 PHEV powertrain system

      1.1 整車縱向動力學模型

      忽略車輛橫向動力學影響,假設(shè)整車質(zhì)量集中作用在重心上,根據(jù)車輛行駛過程中受到的滾動阻力Ff、空氣阻力Fw、坡度阻力Fi和加速阻力Fj,其驅(qū)動力平衡方程為:

      (1)

      式中:M為汽車質(zhì)量;g為重力加速度;f為滾動阻力系數(shù);α為道路坡度;CD為空阻系數(shù);A為汽車迎風面積;v為車速;δ為汽車旋轉(zhuǎn)質(zhì)量換算系數(shù)。

      不考慮坡度因素即α=0,在給定車速v下由車輛驅(qū)動力平衡方程計算出車輛需求功率和車輪轉(zhuǎn)速分別為:

      (2)

      (3)

      式中:r為車輪半徑。

      1.2 動力電池模型

      動力電池工作時內(nèi)部具有復(fù)雜的非線性變化過程,筆者忽略溫度對電池特性的影響,建立一階內(nèi)阻電池模型,如圖2。

      圖2 電池內(nèi)阻模型Fig. 2 Battery internal resistance model

      電池電流I如式(4):

      (4)

      電池SOC如式(5):

      (5)

      式中:V為電池端電壓;R為電池內(nèi)阻。

      1.3 發(fā)動機模型

      在混合動力系統(tǒng)控制策略研究中,發(fā)動機模型不考慮復(fù)雜的燃燒過程和動態(tài)響應(yīng)過程,只關(guān)心輸入輸出映射關(guān)系,能準確有效的反應(yīng)發(fā)動機穩(wěn)態(tài)特性即可。因此利用發(fā)動機油耗和排放臺架實驗得到發(fā)動機轉(zhuǎn)矩、轉(zhuǎn)速和燃油消耗量及NOx排放的關(guān)系,通過插值發(fā)動機臺架試驗穩(wěn)態(tài)數(shù)據(jù)建立發(fā)動機油耗和NOx排放數(shù)值模型如圖3、圖4,其表達式為:

      圖3 發(fā)動機燃油消耗Fig. 3 Fuel consumption for engine

      圖4 發(fā)動機NOx排放Fig. 4 NOx emission for engine

      (6)

      (7)

      式中:geng為發(fā)動機瞬時燃油消耗率;gNOx為發(fā)動機出口瞬時NOx排放率;Teng為發(fā)動機轉(zhuǎn)矩;ωeng為發(fā)動機轉(zhuǎn)速;mfuel為發(fā)動機燃油消耗質(zhì)量;mNOx為發(fā)動機出口NOx排放質(zhì)量。

      1.4 后處理系統(tǒng)模型

      SCR后處理系統(tǒng)常采用釩基或沸石基作為催化劑,在一定溫度條件下SCR噴射NH3與尾氣中的NOx發(fā)生催化還原反應(yīng)生成N2。SCR催化器轉(zhuǎn)化效率對溫度十分敏感,插電式混合動力汽車工作模式切過程中由于發(fā)動機頻繁啟停引起的發(fā)動機排氣溫度和進氣流速波動明顯,從而導(dǎo)致SCR催化器催化效率降低和排放惡劣[14]。

      遵循Eley-Rideal機理[15-16],假設(shè)SCR催化器中廢氣為不可壓縮等熵流動,只考慮催化器與廢氣的對流換熱以及與周圍環(huán)境的輻射散熱,建立SCR催化器反應(yīng)溫度模型為:

      (8)

      式中:TSCR為SCR催化器溫度;Mexh為發(fā)動機出口廢氣流速;CSCR為催化層比熱容;h為熱傳遞系數(shù);Tamb為發(fā)動機環(huán)境溫度;Teng為發(fā)動機出口溫度;Cexh為廢氣比熱容。

      2 基于DQN的多目標優(yōu)化控制策略

      2.1 強化學習基本原理

      強化學習基本思想是智能體通過與環(huán)境之間的相互作用進行不斷學習,從而實現(xiàn)一系列最優(yōu)決策,以得到最大化累計獎勵[17],基本原理如圖5。

      圖5 強化學習示意Fig. 5 Schematic of reinforcement learning

      學習者和決策者為智能體,在每個時間步長t(t=0,1,2,3…),智能體觀測到環(huán)境的狀態(tài)為st(st∈S),根據(jù)觀測到的環(huán)境狀態(tài)和當前策略做出決策,然后選擇最優(yōu)動作at(at∈A)。環(huán)境接收動作后進入新的狀態(tài)st+1,并給出對應(yīng)的獎勵rt+1,智能體依據(jù)得到的獎勵大小,不斷學習改進其行為策略,以便獲取最大累積獎勵。整個過程為狀態(tài)到行動的轉(zhuǎn)換,如式(9):

      Ht=s0,a0,s1,a1,…,st-1,at-1,st

      (9)

      定義從t時刻開始的累計獎勵如式(10):

      R(st,at)+γR(st+1,at+1)+γ2R(st+2,at+2)+…

      (10)

      式(10)簡化如式(11):

      Rt+γRt+1+γ2Rt+2+…

      (11)

      式中:γ為獎勵衰減因子;Rt為獎勵回報函數(shù)。

      強化學習的目標是智能體通過完成一系列動作獲得最大化期望回報,定義如式(12):

      E[Rt+γRt+1+γ2Rt+2+…]

      (12)

      由于當前動作執(zhí)行時,未來動作和狀況不可知,因此引入狀態(tài)-動作值函數(shù)估計在已知當前狀態(tài)s下,按照某種策略ε行動產(chǎn)生的預(yù)計未來回報?;诓呗驭诺臓顟B(tài)-動作值函數(shù)定義為:

      Q(s,a)=Eε[Rt+γRt+1+γ2Rt+2+…|st=s,at=a]

      (13)

      簡化為:

      Q(s,a)=Eε[Rt+γQ(st+1,at+1)|st=s,at=a]

      (14)

      Q(s,a)表示每個狀態(tài)下的預(yù)計未來回報,基于狀態(tài)-動作值函數(shù)定義則將強化學習目標最大化期望回報轉(zhuǎn)化為最優(yōu)策略ε*,使每一個狀態(tài)的價值最大化:

      ε*=argmaxεQ(s,a),?s,a

      (15)

      2.2 基于強化學習的控制策略問題建模

      控制策略本質(zhì)是求解帶約束的優(yōu)化問題,即在滿足循環(huán)工況下駕駛員需求功率、動力總成各部件物理約束情況下,求出最優(yōu)策略使得整車油耗和排放的綜合指標最小化。

      基于2.1節(jié)強化學習理論基礎(chǔ),選取電機輸出功率Pm為控制變量,需求功率、電池SOC和SCR溫度為狀態(tài)變量,將目標函數(shù)定義為帶折扣的累計回報:

      (16)

      式中:γ為獎勵衰減因子,以保證性能指標函數(shù)的收斂,γ∈[0,1];R(t)為每個時間步長t內(nèi)由控制變量引起的獎勵回報函數(shù),由油耗、排放和SOC懲罰項的加權(quán)和組成,定義如式(17)~式(19):

      R(t)=ω1Rfuel(t)+ω2Remis(t)+ω3(SOC-0.4)

      (17)

      (18)

      (19)

      系統(tǒng)控制變量表示為:

      U(t)=Pmot(t)

      (20)

      系統(tǒng)狀態(tài)變量表示為:

      S(t)=[Preq(t),SOC(t),TSCR(t)]

      (21)

      系統(tǒng)滿足的物理約束條件為:

      式中:SOCmax和SOCmin為電池SOC限值;TSCR,max和TSCR,min為催化器溫度安全限值;Pmot,max和Pmot,min為ISG電機功率限值;Peng,max和Peng,min為發(fā)動機功率限值;Tmot,max和Tmot,min為ISG電機轉(zhuǎn)矩限值;Teng,max和Teng,min為發(fā)動機轉(zhuǎn)矩限值。

      系統(tǒng)邊界條件為:

      基于強化學習理論將整車油耗和排放量的綜合指標最小化問題轉(zhuǎn)化為尋找最優(yōu)控制策略ε*對應(yīng)的控制動作序列。因此定義最優(yōu)狀態(tài)-動作值函數(shù)Q*(s,a):

      Q*(s,a)=maxεE[Jt|st=s,at=a]

      (22)

      式中:ε是將狀態(tài)映射到動作的策略,可進一步簡化為:

      Q*(s,a)=maxεE[Rt+γQ*(st+1,at+1)|st=s,

      at=a]

      (23)

      最優(yōu)狀態(tài)-動作值函數(shù)Q*(s,a)對應(yīng)的控制量為最優(yōu)控制動作U*。由式(23)可以看出,最優(yōu)狀態(tài)-動作值函數(shù)遵循貝爾曼最優(yōu)性原理,因此可以采用動態(tài)規(guī)劃算法求解以上問題。

      2.3 基于DQN算法的控制策略問題求解

      實際車輛系統(tǒng)呈現(xiàn)高維連續(xù)特征,采用動態(tài)規(guī)劃求解需要進行離散化,當問題規(guī)模較大時動態(tài)規(guī)劃算法將帶來維度災(zāi)難。深度強化學習將深度學習和強化學習相結(jié)合形成深度Q-learning網(wǎng)絡(luò),深度學習提供學習機制,強化學習為深度學習提供學習目標,使得深度強化學習具備解決復(fù)雜控制問題的能力[19],因此可應(yīng)用于插電式混合動力汽車能量管理問題中。筆者提出的基于深度強化學習的插電式混合動力汽車多目標優(yōu)化控制策略原理如圖6。

      圖6 控制策略原理Fig. 6 Principle of control strategy

      基于深度強化學習的控制策略采用深度神經(jīng)網(wǎng)絡(luò)來擬合最優(yōu)狀態(tài)-動作值函數(shù)Q*(s,a),即:

      Q(s,a,ω)≈Q*(s,a)

      (24)

      式中:ω為神經(jīng)網(wǎng)絡(luò)的參數(shù)。

      為使DQN算法在訓練過程中進行充分學習到更加優(yōu)化的策略,利用ε貪心算法以概率ε選取最優(yōu)Q值對應(yīng)的控制動作,以1-ε的概率隨機選取控制動作。然后采用經(jīng)驗回放方法將每個時間步長t內(nèi)智能體探索環(huán)境得到的經(jīng)驗數(shù)據(jù),即對應(yīng)的狀態(tài)-動作序列存儲到經(jīng)驗池Dt={e1,e2,…,et}中,如式(25)。最后從經(jīng)驗池中隨機抽取樣本訓練深度神經(jīng)網(wǎng)絡(luò),這樣不僅消除時間數(shù)據(jù)序列之間的相關(guān)性, 也使得網(wǎng)絡(luò)更新更有效率。

      et=(st,at,rt,st+1)

      (25)

      式中:st為當前狀態(tài);at為智能體根據(jù)當前狀態(tài)采取的動作;rt為執(zhí)行動作后的獎勵;st+1為下一時刻的狀態(tài)。

      DQN算法使用兩個結(jié)構(gòu)完全相同參數(shù)不同的神經(jīng)網(wǎng)絡(luò)進行策略的學習與改進,其中Qtarget網(wǎng)絡(luò)用于計算目標Q值,網(wǎng)絡(luò)參數(shù)不需要迭代更新;Qeval網(wǎng)絡(luò)用于估計當前狀態(tài)下最優(yōu)Q值并產(chǎn)生最優(yōu)的控制動作,且擁有最新的網(wǎng)絡(luò)參數(shù)。每隔一定步長,將Qeval網(wǎng)絡(luò)參數(shù)復(fù)制給Qtarget網(wǎng)絡(luò),即采用延時更新減少目標Q值和當前估計Q值的相關(guān)性,增加算法穩(wěn)定性。

      DQN算法通過最小化損失函數(shù)來進行迭代更新。損失函數(shù)定義為目標Q值與最優(yōu)估計Q值之差的平方:

      Q(st,at,ω)]2}

      (26)

      搭建的Q網(wǎng)絡(luò)采用5層全連接神經(jīng)網(wǎng)絡(luò)如圖7,其包含3個隱含層,神經(jīng)元個數(shù)分別為20、50、100,并使用ReLU(rectified linear unit)激活函數(shù);輸入層神經(jīng)元個數(shù)為3,主要取決于定義的狀態(tài)變量數(shù);輸出層使用線性激活函數(shù),每個輸出代表一個控制動作,共45個控制動作,使用梯度下降優(yōu)化函數(shù)來最小化損失函數(shù)。

      圖7 神經(jīng)網(wǎng)絡(luò)架構(gòu)Fig. 7 Neural network architecture

      基于DQN的多目標優(yōu)化控制策略算法流程如下:

      步驟1:初始化。經(jīng)驗池可存儲狀態(tài)-動作對數(shù)量N、Qeval網(wǎng)絡(luò)權(quán)重參數(shù)ω、Qtarget網(wǎng)絡(luò)權(quán)重參數(shù)ω-=ω。

      步驟2:For episode=1:M do

      步驟3:獲取初始狀態(tài)Preq(0),SOC(0),TSCR(0)。

      步驟4:Fort=1:T do

      步驟5:以概率ε選取最優(yōu)Q值對應(yīng)的控制動作at,否則隨機選取控制動作at。

      步驟6:執(zhí)行at得到立即獎勵rt,并觀測系統(tǒng)下一時刻狀態(tài)st+1。

      步驟7:將經(jīng)驗數(shù)據(jù)et=(st,at,rt,st+1)存儲到經(jīng)驗池D中。

      步驟8:從經(jīng)驗池中隨機抽取n個樣本(st,at,rt,st+1)。

      步驟9:if當前狀態(tài)為終止狀態(tài)si+1:

      yi=ri

      else:

      步驟10:梯度下降法更新Qeval網(wǎng)絡(luò)權(quán)重,損失函數(shù)為[yi-Q(si,ai;ω)]2。

      步驟11:隔C步將Qeval網(wǎng)絡(luò)參數(shù)復(fù)制給Qtarget網(wǎng)絡(luò)。

      步驟12:End for。

      步驟13:End for。

      為了加快網(wǎng)絡(luò)訓練速度,將輸入數(shù)據(jù)進行歸一化處理,通過式(27)、式(28),將Preq和TSCR范圍壓縮到[0,1]:

      (27)

      (28)

      3 仿真分析

      筆者將DQN算法應(yīng)用于插電式柴電混合動力汽車的能量管理控制策略問題,進行油耗與排放多目標綜合優(yōu)化。為了驗證控制策略的有效性,選取NEDC工況對DQN算法進行離線訓練和在線仿真測試,并將仿真結(jié)果與DP算法進行對比分析。動態(tài)規(guī)劃算法不依賴近似計算求極值,能夠得到全局最優(yōu)解,故被廣泛用于混合動力汽車控制策略算法評價。DQN算法的相關(guān)參數(shù)設(shè)置如表2。

      表2 DQN算法參數(shù)Table 2 DQN algorithm parameters

      圖8為DQN算法在離線訓練過程中的平均損失曲線,在迭代開始時刻損失值快速下降,隨著訓練不斷進行,平均損失逐漸減小,說明了算法能迅速收斂。圖9 為平均累積Q值變化曲線,其反應(yīng)了每個狀態(tài)下智能體獲得的累計折扣回報,能夠穩(wěn)定的反映算法性能[20]。可以看出隨著迭代次數(shù)的增加,網(wǎng)絡(luò)不斷調(diào)整對Q值的過高或過低估計,最終逐漸趨于穩(wěn)定并收斂。

      圖8 訓練平均誤差損失Fig. 8 Average training error loss

      圖9 平均累積Q值Fig. 9 Average cumulative Q-value

      圖10為DQN和DP兩種控制策略對應(yīng)的SOC曲線變化情況,初值SOC均為0.8??梢妰煞N策略下SOC下降曲線軌跡基本一致,說明DQN能夠得到DP全局最優(yōu)解的近似解。前800 s為ECE工況車輛需求功率較低,電機主要提供輔助動力,SOC下降趨勢平緩,800 s后隨車輛需求功率變大,電機工作時間變長,SOC快速下降,工況結(jié)束時刻均維持在0.42左右。DP控制策略下SOC曲線偏低,主要由采用離散化的狀態(tài),每個工況點強迫SOC落在定義好的狀態(tài)網(wǎng)格上的誤差導(dǎo)致。

      圖10 DQN和DP控制策略的SOC曲線Fig. 10 SOC curve of DQN and DP control strategy

      圖11和圖12為電機功率分配和電機工作效率MAP圖。由于訓練數(shù)據(jù)樣本本身存在不穩(wěn)定性,造成訓練得到控制策略具有波動性,引起DQN控制策略下的電機功率輸出在部分地方出現(xiàn)較大的跳動。從電機工作效率MAP圖可以看出,DQN控制策略下對應(yīng)的電機工作點分布相對較為分散,但總體效率與DP控制策略基本相當,進一步說明DQN算法通過訓練能夠獲得優(yōu)化的控制策略。

      圖11 電機功率分配Fig. 11 Motor power distribution

      圖12 電機工作點在效率MAP圖分布Fig. 12 Distribution of motor load in the efficiency MAP

      圖13和圖14為SCR催化器溫度變化曲線和轉(zhuǎn)化效率曲線。由圖13可知,SCR催化器溫度變化分為快速升溫和溫度保持兩個階段。在快速升溫階段,SCR催化器溫度快速升高以提高轉(zhuǎn)化效率,降低SCR催化器出口NOx排放量,DP控制策略下在221 s 內(nèi)達到起燃溫度,DQN控制策略下的起燃時間為248 s,起燃速度與DP控制策略接近;進入溫度保持階段,SCR催化器在最佳工作溫度350 ℃附近上下波動,此時轉(zhuǎn)化效率高達93%,在900 s時由于高需求功率導(dǎo)致SCR催化器溫度不斷升高,轉(zhuǎn)化效率下降13%,但在兩種策略控制作用下又逐漸回歸穩(wěn)定,在此階段DP和DQN控制策略下的SCR催化器溫度變化基本一致。

      圖13 SCR溫度變化對比Fig. 13 Comparison of SCR temperature variation

      圖14 SCR催化器轉(zhuǎn)化效率Fig. 14 Conversion efficiency of SCR catalytic converter

      圖15和圖16為兩種策略下的發(fā)動機工作點在油耗MAP圖和NOx排放MAP圖上的分布情況。為了平衡最優(yōu)燃油經(jīng)濟性與最低NOx排放之間的trade-off關(guān)系,以犧牲部分油耗為代價,減少發(fā)動機出口NOx排放量,因此兩種策略下發(fā)動機均未完全在最優(yōu)的經(jīng)濟區(qū)域內(nèi)工作。在此情況下,DP控制策略得到的燃油消耗量為2.331 L/100 km,DQN控制策略燃油消耗量為2.615 L/100 km,為對應(yīng)DP控制策略油耗的87.82%。在NOx排放方面,DP控制策略下的NOx排放量為0.181 g/km,DQN控制策略下的NOx排放量為0.2275 g/km,為對應(yīng) DP控制策略NOx排放量的74.31%。

      圖15 發(fā)動機工作點在油耗MAP圖分布Fig. 15 Distribution of engine load in the fuel consumption MAP

      圖16 發(fā)動機工作點在NOx排放MAP圖分布Fig. 16 Distribution of engine load in the NOx emission MAP

      DP控制策略和DQN控制策略對比結(jié)果如表3。由表3可以看出,筆者提出的基于深度強化學習的多目標優(yōu)化控制策略可以實現(xiàn)較好的控制效果,兩種控制策略下的SCR起燃時間只相差27 s。整車燃油經(jīng)濟性方面,DQN控制策略的油耗為2.623 L/100 km,為DP控制策略對應(yīng)油耗的89.82%;NOx排放方面,DQN控制策略下的SCR出口NOx排放量為0.2275 g/km,為DP控制策略對應(yīng)NOx排放的74.31%,結(jié)果證明了筆者所提控制策略的有效性。

      表3 兩種控制策略下仿真結(jié)果對比Table 3 Comparison of simulation results of two control strategies

      4 結(jié) 論

      1)為實現(xiàn)插電式柴電混合動力汽車油耗與排放的多目標綜合優(yōu)化,基于強化學習理論給出了多目標函數(shù)定義,并提出了基于DQN算法的多目標優(yōu)化控制策略;

      2)在NEDC工況下進行離線訓練得到最優(yōu)的電機功率分配序列,實現(xiàn)了以需求功率、SOC和SCR溫度為狀態(tài)變量,以電機最優(yōu)功率為輸出變量的控制策略;

      3)仿真結(jié)果表明,基于深度強化學習的多目標優(yōu)化控制策略取得了較好效果,燃油消耗為2.623 L/100 km,SCR催化器出口NOx排放為0.227 5 g/km,與DP控制策略相比,分別下降10.12%和25.69%,具有實時在線應(yīng)用的潛力。

      猜你喜歡
      催化器油耗控制策略
      不談油耗 只講運動 試駕第十一代思域e:HEV
      車主之友(2022年5期)2022-11-23 07:22:20
      一種催化器儲氧量的測試及計算方法
      考慮虛擬慣性的VSC-MTDC改進下垂控制策略
      能源工程(2020年6期)2021-01-26 00:55:22
      基于發(fā)動機控制數(shù)據(jù)及催化器設(shè)計方案優(yōu)化降低汽車THC排放
      工程造價控制策略
      山東冶金(2019年3期)2019-07-10 00:54:04
      氧化型柴油催化器(DOC)與重型柴油機匹配應(yīng)用及性能研究
      現(xiàn)代企業(yè)會計的內(nèi)部控制策略探討
      降低內(nèi)燃裝卸機械油耗措施的探討
      雙管齊下 YarisL致享綜合油耗測試
      車迷(2017年12期)2018-01-18 02:16:10
      容錯逆變器直接轉(zhuǎn)矩控制策略
      泾川县| 四川省| 宁化县| 高雄县| 普兰店市| 突泉县| 左贡县| 民和| 汉中市| 左贡县| 遵义县| 喜德县| 即墨市| 芦山县| 特克斯县| 颍上县| 漠河县| 余姚市| 江油市| 青浦区| 商洛市| 姜堰市| 页游| 彭山县| 永川市| 家居| 新丰县| 房产| 梁河县| 北宁市| 珲春市| 四子王旗| 民丰县| 获嘉县| 明水县| 嵊州市| 徐闻县| 沁水县| 定南县| 潞城市| 镇安县|