尹燕莉,馬永娟,周亞偉,王瑞鑫,詹 森,馬什鵬,黃學(xué)江,張鑫新
(1.重慶交通大學(xué) 機電與車輛工程學(xué)院,重慶400074,中國;2.包頭北奔重型汽車有限公司,包頭014000,中國)
隨著環(huán)境與節(jié)能問題的日益突出,混合動力汽車(hybrid electric vehicle,HEV)因其獨特的結(jié)構(gòu)能達到節(jié)能、低排放的特點,成為當今最具有實際開發(fā)意義的新能源汽車[1-2]。能量管理控制策略是決定混合動力汽車燃油經(jīng)濟性和排放的關(guān)鍵技術(shù),其主要包括基于規(guī)則[3-7]及基于優(yōu)化(瞬時優(yōu)化、全局優(yōu)化)的策略。其中,基于規(guī)則的控制策略簡單,容易實現(xiàn),但未考慮工況的動態(tài)變化。瞬時優(yōu)化控制策略[8-10]執(zhí)行效率高,能夠保證在每一個步長內(nèi)是最優(yōu),但無法確保在整個行駛工況內(nèi)的最優(yōu)。全局優(yōu)化控制策略能夠保證整個行駛工況內(nèi)整車性能的最優(yōu)[11-14],但行駛工況必須提前獲知,且該算法程序復(fù)雜,運算量大,無法單獨實現(xiàn)車輛的實時控制。
為了更好地實現(xiàn)混合動力汽車的能量管理,近年來國內(nèi)外一些學(xué)者利用模型預(yù)測控制(model predictive control, MPC)的先進性,基于其基本原理預(yù)測車輛在未來時間域內(nèi)的行駛狀態(tài),并根據(jù)預(yù)測信息優(yōu)化混合動力汽車轉(zhuǎn)矩分配。該控制策略既能克服瞬時優(yōu)化控制策略不能實現(xiàn)全局最優(yōu)的弊端,又能解決全局優(yōu)化控制策略程序復(fù)雜、計算量大的問題。
目前針對MPC能量管理策略,國內(nèi)外學(xué)者根據(jù)其基本原理從預(yù)測模型、求解方式兩個不同實現(xiàn)要素方面對其進行深入研究。
基于不同預(yù)測模型的MPC能量管理策略主要是指采用不同的模型來預(yù)測未來的工況信息。有學(xué)者將未來預(yù)測時域內(nèi)的工況信息描述為呈指數(shù)變化形式,然后優(yōu)化求解實現(xiàn)功率分配[12,15]。該預(yù)測方式簡單,易于實現(xiàn),但其基于固定的數(shù)學(xué)模型,將實際工況的變化過于理論化,無法準確預(yù)測車輛的動力需求。基于此,趙韓等[16]提出利用Markov模型預(yù)測車輛需求轉(zhuǎn)矩的方法。在此基礎(chǔ)上,錢立軍等[17]將加速度的變化視為一個具有Markov性質(zhì)的隨機過程,考慮到實際工況的不確定性,使預(yù)測準確性得到改善。SUN用神經(jīng)網(wǎng)絡(luò)對車速進行預(yù)測,實現(xiàn)能量優(yōu)化分配[18-19]。上述預(yù)測方式均基于標準循環(huán)工況或本車歷史工況數(shù)據(jù),一旦更換整車工況信息,適應(yīng)性就變差,預(yù)測結(jié)果準確性變差。近幾年隨著智能交通系統(tǒng)及車聯(lián)網(wǎng)技術(shù)的發(fā)展,預(yù)測信息的獲取也越來越多元化[20-22],預(yù)測結(jié)果也越準確。
根據(jù)預(yù)測模型獲取的未來工況信息,結(jié)合不同算法對其進行滾動優(yōu)化求解。動態(tài)規(guī)劃算法(dynamic programming, DP)采用多階段決策來進行尋優(yōu),能夠獲得全局最優(yōu)的優(yōu)化結(jié)果,大多數(shù)學(xué)者采用DP對預(yù)測信息進行優(yōu)化求解[23-24],但該求解方式計算復(fù)雜,存在計算量大,運行時間長等問題。秦大同等利用二次規(guī)劃(quadratic programming , QP)算法進行求解來改善計算量大的問題[25-26],但QP不適合求解大規(guī)模的非線性問題,且穩(wěn)定性有待提高。也有學(xué)者利用其他優(yōu)化算法如廣義最小殘差方法[27-28]、龐特里亞金極小值原理[29-30]等對動力源需求轉(zhuǎn)矩進行求解,能夠保證實時性,但算法本身也存在一定的局限性。本文采用的Q-Learning算法來實現(xiàn)優(yōu)化求解,它是一種有效的智能算法,優(yōu)化求解時既能提高計算效率又能獲得局部最優(yōu)解,近年來被逐漸應(yīng)用于混合動力汽車,用來解決能量管理的問題[31-34]。
本文以一款超輕度混合動力汽車為研究對象,提出一種基于Markov鏈與Q-Learning算法的模型預(yù)測控制策略。通過建立多步Markov模型預(yù)測未來的加速度變化過程,計算得到未來的需求功率;采用Q-Learning算法對需求功率進行優(yōu)化求解,將離線優(yōu)化和在線應(yīng)用很好地結(jié)合,通過不斷地與環(huán)境產(chǎn)生互動獲得即時回報以探索獲得最低燃油消耗時所對應(yīng)的最優(yōu)轉(zhuǎn)矩分配序列;將該最優(yōu)序列的第1個控制量施加給車輛,實現(xiàn)反饋優(yōu)化。
本文以一款并聯(lián)結(jié)構(gòu)的超輕度混合動力汽車為研究對象,其主要由發(fā)動機、電動機、電池、回流式無級變速器等主要部件構(gòu)成。電池組連接電動機輸出電能轉(zhuǎn)矩,離合器將發(fā)動機與電動機相連接,實現(xiàn)轉(zhuǎn)矩耦合。該車使用回流式無級變速器作為傳動機構(gòu),具有速比變化范圍大、傳動效率高以及低轉(zhuǎn)速高承載能力的特點。發(fā)動機和電池可以單獨驅(qū)動車輛行駛,制動時,電動機又可用作發(fā)電機回收制動能量為電池充電。結(jié)構(gòu)簡圖如圖1所示,整車主要參數(shù)如表1所示:
表1 整車主要參數(shù)
混合動力汽車在行駛過程中克服阻力所需要的功率,即需求功率,由滾動阻力、空氣阻力以及加速阻力產(chǎn)生的功率組成,這里忽略坡度阻力。車輛在任意工況下的整車需求功率如式(1)所示:
其中:Preq為車輛行駛需求功率;m為整車質(zhì)量;g為重力加速度;f,CD,δ分別代表車輛的輪胎滾動阻力系數(shù)、空氣阻力系數(shù)、旋轉(zhuǎn)質(zhì)量換算系數(shù);A為迎風(fēng)面積;v為車速;dv/dt為車輛加速度。
發(fā)動機是混合動力汽車的主要動力源,其轉(zhuǎn)矩分配以及耗油量對整車燃油經(jīng)濟性有著重要的影響。通過試驗獲得不同轉(zhuǎn)速、節(jié)氣門開度下的發(fā)動機轉(zhuǎn)矩數(shù)據(jù),建立以發(fā)動機轉(zhuǎn)速和節(jié)氣門開度為輸入、轉(zhuǎn)矩為輸出的數(shù)學(xué)模型,如圖2所示。
超輕度混合動力汽車的電動機既可以單獨驅(qū)動車輛,也可以在制動時作為發(fā)電機回收制動能量給電池充電。電機功率可以表示為:
其中:Pm為電動機功率;Tm為電動機轉(zhuǎn)矩;nm為電動機轉(zhuǎn)速;ηm為電動機效率,是電動機轉(zhuǎn)矩和轉(zhuǎn)速的函數(shù)。通過對電動機及其控制系統(tǒng)進行性能測試,得到電動機的實驗數(shù)據(jù),然后擬合實驗數(shù)據(jù),可得到電動機轉(zhuǎn)矩與轉(zhuǎn)速的關(guān)系如圖3所示。
電池組作為超輕度混合動力汽車的另一個動力來源,其主要功用相當于“蓄水池”。在驅(qū)動工況時釋放電能驅(qū)動車輛行駛;在制動時回收制動能量存儲電能,本文要求電池能量在整個行駛工況中要保持平衡。不考慮溫度變化和電池壽命的影響,建立電池的電動勢和內(nèi)阻模型。
其中:Esoc表示當前狀態(tài)下的電動勢,E0表示電池電動常數(shù)擬合系數(shù),SOC是電池的荷電狀態(tài)。
其中,Rsoc表示當前狀態(tài)下的內(nèi)阻;δ0表示內(nèi)阻隨電流變化的補償系數(shù);R0表示電池的內(nèi)阻常數(shù);λi表示擬合系數(shù)。
電池的SOC是剩余電量與電池容量的比值,其值隨著車輛運行狀態(tài)的改變而改變。電池SOC的計算公式如下:
其中:I表示電池的電流;Qbat表示電池容量;Pbat表示電池功率。
從數(shù)學(xué)與控制理論的層面來看,混合動力汽車的能量管理策略問題可以歸屬于一個受限制性條件約束的非線性動態(tài)最優(yōu)化控制問題。MPC將復(fù)雜的優(yōu)化問題劃分為有限預(yù)測時域內(nèi)的數(shù)學(xué)規(guī)劃問題并分區(qū)域求解,提高計算效率的同時還能獲得局部最優(yōu)解。
MPC的控制原理為在每一個采樣時刻,都遵循3個步驟:預(yù)測系統(tǒng)未來動態(tài)—求解優(yōu)化問題—解的第1個元素作用于系統(tǒng)[35],在下一個時刻,將測量的實際輸出值與參考值作比較后修正預(yù)測模型,重新進行求解,重復(fù)進行上述步驟滾動求解優(yōu)化問題,直到預(yù)測時域結(jié)束。滾動優(yōu)化,就是在每一時刻,優(yōu)化過程是從該時刻到預(yù)測時域的范圍內(nèi),在下一時刻時,優(yōu)化范圍會同時向前滾動一個采樣時段,每一時刻的控制量也隨優(yōu)化時段向前更新。
本文將Markov鏈與Q-Learning算法相結(jié)合構(gòu)建了超輕度混合動力汽車模型預(yù)測控制模型,其主要包括3個部分,如圖4所示。
1) 預(yù)測模型?;贓CE_EUDC+UDDS標準循環(huán)工況數(shù)據(jù),采用Markov鏈方法,獲取加速度轉(zhuǎn)移概率矩陣模型,從而預(yù)測出下一時刻的加速度。同時,在每一時刻,將當前時刻的實際工況數(shù)據(jù)作為預(yù)測模型的輸入對未來的工況數(shù)據(jù)進行預(yù)測。
2) 滾動優(yōu)化。在預(yù)測時域內(nèi),建立以燃油經(jīng)濟性為目標的整車優(yōu)化模型,根據(jù)獲取的未來工況數(shù)據(jù),采用Q-Learning算法求解該時域內(nèi)的轉(zhuǎn)矩優(yōu)化問題。即在k時刻獲得預(yù)測區(qū)間[k,k+p]內(nèi)的最優(yōu)控制序列[Tm(k),Tm(k+ 1|k),Tm(k+ 2|k),…],然后在k+ 1時刻獲得預(yù)測區(qū)間[k+ 1,k+p+ 1]內(nèi)的最優(yōu)控制序列[Tm(k+ 1),Tm(k+ 2|k+ 1),Tm(k+ 3|k+ 1),…],依此類推,即為滾動優(yōu)化過程。
3) 反饋校正。獲得預(yù)測時域的優(yōu)化控制序列后,僅將預(yù)測時域第一個控制量Tm(k)施加給車輛,從而產(chǎn)生控制輸出量。在下一個采樣k+ 1時刻,以車輛實際測量輸出值v(k+ 1) 、a(k+ 1)作為反饋信息,重新預(yù)測系統(tǒng)未來輸出并求解優(yōu)化問題。通過閉環(huán)反饋校正,不斷修正系統(tǒng)的預(yù)測值,可減小系統(tǒng)不確定性對控制性能的影響,從而提高系統(tǒng)的控制精度和魯棒性。
2.1.1 Markov鏈理論
在一個控制系統(tǒng)中,給定當前狀態(tài)信息的情況下,過去的信息(即當時以前的歷史狀態(tài))對于預(yù)測將來的信息(即當時以后的未來狀態(tài))是無關(guān)的,把這種無關(guān)性質(zhì)稱為Markov性,把用來描述具有Markov性質(zhì)離散時間的狀態(tài)與狀態(tài)之間的轉(zhuǎn)移過程,稱為Markov鏈。即在某個起始狀態(tài)下,按照狀態(tài)轉(zhuǎn)移概率得到的可能的狀態(tài)序列。
在車輛的實際行駛過程中,汽車的加速度能夠準確地描述行駛過程中的加速、減速等駕駛行為,且未來某一時刻的加速度變化與歷史狀態(tài)信息無關(guān),只與當前時刻的加速度變化信息相關(guān),具有Markov性,因此本文選取加速度作為狀態(tài)量對未來的駕駛信息進行預(yù)測。
2.1.2 基于Markov鏈的加速度轉(zhuǎn)移概率矩陣模型
Markov預(yù)測模型可分為單步預(yù)測模型及多步預(yù)測模型。單步預(yù)測模型即在統(tǒng)計加速度變化信息時只記錄每個當前時刻到下一時刻的加速度轉(zhuǎn)移概率,對應(yīng)于每個當前時刻只能得到一個轉(zhuǎn)移概率矩陣;多步預(yù)測模型是需要記錄每個當前時刻到未來任一時刻的加速度轉(zhuǎn)移概率,對應(yīng)于每個當前時刻有多個轉(zhuǎn)移概率矩陣。采用單步預(yù)測,會造成預(yù)測誤差的累積,且由于預(yù)測步長較小,加速度變化較相差不大,會使得預(yù)測加速度與實際行駛過程中的加速度偏差較大,影響預(yù)測時域內(nèi)的優(yōu)化結(jié)果。而多步預(yù)測加速度發(fā)生轉(zhuǎn)移的概率比較分散,更能準確地模擬實際駕駛行為,能夠減小預(yù)測誤差,獲得比較準確的加速度預(yù)測結(jié)果。綜合以上分析,本文選取多步Markov預(yù)測模型。具體步驟如下:
將ECE_EUDC與UDDS工況結(jié)合作為樣本工況來提取車速及加速度數(shù)據(jù)。采樣步長取1 s,工況最高車速為120 km/h,車速離散間隔為5 km/h;工況最大加速度為1.5 m/s2,工況最小加速度為-1.5 m/s2,加速度離散間隔為0.1 m/s2。將車速及加速度按離散間隔離散成式(8)的形式。
假設(shè)當前時刻為k,記錄在每一時刻,當前時刻車速及加速度到預(yù)測時域p(p= 1,2,3,…,p)內(nèi)任意時刻的車速及加速度變化信息,即可獲得每一離散的車速z下,加速度由當前時刻的狀態(tài)i轉(zhuǎn)移到下一時刻狀態(tài)j的次數(shù)Si,j,由式(9)計算得到該車速下加速度由i轉(zhuǎn)移的總次數(shù)Si。
利用最大似然估計法(式10)計算獲得每一離散車速下加速度的轉(zhuǎn)移概率。每一個離散車速值下都會對應(yīng)p個加速度轉(zhuǎn)移概率矩陣,這些轉(zhuǎn)移概率矩陣即所建立的多步Markov預(yù)測模型,對相應(yīng)時長的加速度進行預(yù)測。
其中,Pz,i,j為當前離散車速z下,加速度由i轉(zhuǎn)移到j(luò)的概率。
通過以上步驟,計算出車速為35 km/h時加速度的多步轉(zhuǎn)移概率矩陣模型,如圖5所示,由圖5可以看出,當預(yù)測步長較小時,加速度轉(zhuǎn)移概率較為集中,呈對角線分布;隨著預(yù)測步長的增加,加速度的轉(zhuǎn)移概率由分布集中轉(zhuǎn)變?yōu)榉稚②厔?,且步長越長,這種趨勢越明顯。這是因為預(yù)測步長較小時,加速度變化相差不大,而隨著步長的增加,加速度變化的情況就越隨機,進行轉(zhuǎn)移的可能性就越多,加速度轉(zhuǎn)移概率就越分散。
2.1.3 基于Markov鏈的車速預(yù)測模型
基于上述建立的多步Markov預(yù)測模型,結(jié)合當前時刻k的車速v(k)及加速度a(k)作為轉(zhuǎn)移概率矩陣的輸入,選取概率最大的加速度值作為下一時刻k+1的實際加速度值a(k+ 1),由式(11)計算得到下一時刻的車速值v(k+ 1)。在k+ 1時刻及未來有限時刻重復(fù)此過程即可獲得預(yù)測時域內(nèi)的全部車速及加速度信息。
下一時刻車速計算如式(11)所示
利用建立的多步Markov模型,在不同預(yù)測時域下分別對車速進行預(yù)測,選用均方根誤差對預(yù)測結(jié)果進行評價,其計算方法如式(12)所述。
其中:R(k)為k時刻預(yù)測時域內(nèi)的均方根誤差,v(k+ i)為k時刻循環(huán)工況的實際車速,vnp(k+ i)為k時刻預(yù)測得到的車速,np為預(yù)測時域,Re為整個循環(huán)工況內(nèi)總的均方根誤差,L為循環(huán)工況的總時長。Re的值越小,說明預(yù)測車速與實際車速之間的差距越小,預(yù)測結(jié)果越準確。
車速為35 km/h時,基于多步Markov預(yù)測模型在不同預(yù)測時長下進行預(yù)測,預(yù)測結(jié)果的均方根誤差見表2,預(yù)測效果圖見圖6。
表2 多步Markov不同預(yù)測時域的均方根誤差
從圖6可以看出,在預(yù)測步長較小時,預(yù)測車速與實際車速變化軌跡幾乎重合,這說明預(yù)測車速能夠很好地追隨工況車速,預(yù)測誤差較??;預(yù)測時域越長時,預(yù)測車速與實際車速變化軌跡偏差增大。表2中不同預(yù)測時域下的Re值也驗證了這一預(yù)測情況。這是由于在實際行駛過程中,車速變化受到駕駛員駕駛習(xí)慣及周圍駕駛環(huán)境等諸多因素的影響,車速變化過程隨機性很強,難免存在預(yù)測誤差;再者,采用Markov模型對車速及加速度進行預(yù)測,會存在誤差的累積。
2.2.1 滾動優(yōu)化模型
基于Markov鏈加速度預(yù)測模型獲取預(yù)測時域內(nèi)的加速度信息之后,需要優(yōu)化求解獲得該時域內(nèi)的最優(yōu)控制序列,保證局部控制性能最優(yōu)。該優(yōu)化過程是特定時域內(nèi)的滾動優(yōu)化,是反復(fù)在線進行的。即在每一個采樣時刻,結(jié)合目標函數(shù)求解該時刻及預(yù)測時域內(nèi)的最優(yōu)指標值,在下一采樣時刻,優(yōu)化范圍向前推動。滾動優(yōu)化示意圖如圖7所示,在當前k時刻,假設(shè)預(yù)測時域為p,求出預(yù)測范圍k~k+p內(nèi)的最優(yōu)控制序列[u(k),u(k+ 1 /k),u(k+ 2 /k),…,u(k+p/k)];在k+ 1時刻,采用相同的方法求出新的預(yù)測范圍k+ 1~k+p+1內(nèi)的最優(yōu)控制序列[u(k+ 1),u(k+ 2 /k+ 1),…,u(k+p+ 1 /k+ 1)],以此類推,直到預(yù)測時域結(jié)束,即為滾動優(yōu)化過程。
目前,采用模型預(yù)測控制解決能量管理問題時大都使用動態(tài)規(guī)劃算法(DP)來實施優(yōu)化求解。DP采用逆向搜索,正向?qū)?yōu)的迭代搜索方式,求解多階段決策問題,來獲得預(yù)測時域內(nèi)的全局最優(yōu)解。但DP求解時計算量大,運行速度較慢,難以實現(xiàn)實時控制,且不適用于求解具有多個狀態(tài)量的優(yōu)化問題。因此,本文采用Q-Learning算法實施優(yōu)化求解。
Q學(xué)習(xí)算法是強化學(xué)習(xí)方法中一種由數(shù)據(jù)驅(qū)動的表格型智能算法,由于它基于數(shù)據(jù)不斷地進行“試錯”學(xué)習(xí)來尋優(yōu),相較于動態(tài)規(guī)劃算法的多階段決策的尋優(yōu)過程,可以有效減小計算復(fù)雜度,提高計算效率,在處理復(fù)雜的多狀態(tài)量系統(tǒng)優(yōu)化時有明顯的優(yōu)勢。
2.2.2 Q-Learning算法概述
Q-Learning算法由有限狀態(tài)集S、有限動作集A、狀態(tài)的概率轉(zhuǎn)移矩陣P、回報函數(shù)r和折扣因子γ五要素組成。該算法以控制系統(tǒng)為智能體,除控制系統(tǒng)外為環(huán)境,控制變量為動作。該算法針對狀態(tài)-動作值函數(shù)Q(s, a)進行迭代更新,智能體需要不斷探索環(huán)境來尋找最優(yōu)Q(s, a)值所對應(yīng)的動作策略。
Q-Learning算法的原理為:在當前k時刻,智能體從環(huán)境中獲取當前時刻的狀態(tài)s,利用ε-greedy策略選擇合適的動作a作用于環(huán)境,獲得當前狀態(tài)-動作對的立即回報r,同時產(chǎn)生k+ 1時刻狀態(tài)st+ 1,并評估回報以此來更新狀態(tài)-動作值函數(shù)Q(s, a)值。智能體探索環(huán)境的過程也稱為學(xué)習(xí)的過程,經(jīng)過不斷的迭代學(xué)習(xí),直至Q(s, a)表收斂,利用貪婪策略(greedy策略),選擇每一狀態(tài)對應(yīng)最大獎勵的動作,最終獲得所有狀態(tài)的最優(yōu)控制策略。
2.2.3 Q-Learning求解優(yōu)化控制問題
超輕度混合動力汽車的優(yōu)化問題求解就是解決車輛的轉(zhuǎn)矩分配問題。根據(jù)預(yù)測獲得的加速度結(jié)合式(1)求出預(yù)測時域內(nèi)的需求功率,采用Q學(xué)習(xí)算法進行優(yōu)化求解。首先,計算出預(yù)測時域內(nèi)每一離散車速下的需求功率轉(zhuǎn)移概率矩陣;其次,選取預(yù)測時域內(nèi)電池荷電狀態(tài)SOC、需求功率Preq為狀態(tài)變量,電動機轉(zhuǎn)矩Tm為控制(動作)變量,以整車燃油消耗量最小為優(yōu)化目標,建立優(yōu)化模型,獲得預(yù)測時域內(nèi)燃油消耗量最小所對應(yīng)的最優(yōu)轉(zhuǎn)矩分配序列。
根據(jù)Q-Learning算法原理,按以下步驟來求解預(yù)測時域內(nèi)的車輛轉(zhuǎn)矩分配問題。
1) 選取預(yù)測時域內(nèi)電池荷電狀態(tài)SOC、需求功率Preq為狀態(tài)變量,電動機轉(zhuǎn)矩Tm為動作變量。
2) 確定目標函數(shù)和約束條件
通過等效因子將電池能量變化等效為燃油消耗,構(gòu)建以整車等效燃油消耗量最小為目標的回報函數(shù),將最小累積回報的期望作為目標函數(shù)。
其中:k~k+np為預(yù)測時域,Jk為預(yù)測時域內(nèi)的優(yōu)化目標,通過求解累積回報的期望得到。Q*k(s, a)是最優(yōu)的狀態(tài)-動作值函數(shù),γ為折扣因子,r為狀態(tài)-動作的立即回報。
回報函數(shù)包含燃油消耗量與電能的等效燃油消耗量之和,同時,為了維持SOC的平衡,在回報函數(shù)中加入了SOC懲罰函數(shù)。
其中:r(s, a)表示當前狀態(tài)與動作的回報函數(shù),mfuel為當前狀態(tài)與動作的發(fā)動機燃油消耗量,me為電能等效燃油能量,β為權(quán)重系數(shù),SOCref為SOC的參考值。
為了保護電池,防止其過充或過放,需將電池的SOC限定在參考范圍內(nèi)。在優(yōu)化過程中,轉(zhuǎn)矩、轉(zhuǎn)速等因素也會對優(yōu)化結(jié)果造成干擾,因此,在預(yù)測時域k~k+np對相關(guān)變量做如下約束:
其中:ne(k)表示k時刻的發(fā)動機轉(zhuǎn)速;ne_max(k)、ne_min(k)為k時刻發(fā)動機轉(zhuǎn)速的最大、最小值;Tm(k)為k時刻的電動機轉(zhuǎn)矩;Tm_max(k)、Tm_min(k)為k時刻電機轉(zhuǎn)矩的最大、最小值;Te(k)為k時刻的發(fā)動機轉(zhuǎn)矩;Te_max(k)、Te_min(k)為k時刻發(fā)動機轉(zhuǎn)矩的最大、最小值;Pm(k)為k時刻電動機功率;Pm_max(k)、Pe_min(k)為k時刻電機功率的最大、最小值;Pe(k)為k時刻發(fā)動機功率;Pe_max(k)、Pe_min(k)為k時刻發(fā)動機功率的最大、最小值;SOC()為k時刻電池的荷電狀態(tài)SOC。
3) 初始化狀態(tài)動作值函數(shù)Q(s, a),設(shè)置探索率ε、學(xué)習(xí)率α、折扣因子γ等參數(shù)以及迭代次數(shù)N。
4) 基于構(gòu)建的目標函數(shù),根據(jù)當前k時刻的狀態(tài)s,利用ε-greedy策略(式17)探索預(yù)測時域np內(nèi)的動作a(Tm(k+ 1 /k,Tm(k+ 2 /k),…,Tm(k+p/k)))與環(huán)境進行交互,產(chǎn)生新的狀態(tài)s′,同時獲得當前狀態(tài)-動作對的立即回報r。
5) 基于greedy策略評估回報以此來選擇對應(yīng)最小狀態(tài)-動作值函數(shù)Q(s′, a′)的動作a′,通過公式(18)更新狀態(tài)-動作值函數(shù)Q(s, a)值。
6) 迭代循環(huán)優(yōu)化,根據(jù)設(shè)置的閾值0.01判斷相鄰迭代次數(shù)的策略是否收斂,策略收斂后,計算整車等效燃油消耗量。
7) 判斷是否達到迭代次數(shù)N,若是,迭代循環(huán)結(jié)束,選擇目標函數(shù)最優(yōu)所對應(yīng)的策略作為最優(yōu)策略,也就是最優(yōu)的轉(zhuǎn)矩分配序列;否則,繼續(xù)迭代。
根據(jù)2.2節(jié)的滾動優(yōu)化過程可以獲得當前k時刻的最佳電機轉(zhuǎn)矩分配序列[Tm(k),Tm(k+ 1 /k),…,Tm(k+np/k)],在實際控制中,只將最優(yōu)轉(zhuǎn)矩序列的第1個值Tm(k)作用于車輛。在k+ 1時刻,首先檢測車輛的實際車速及加速度輸出值,刷新預(yù)測模型,對未來有限時域內(nèi)的車輛加速度進行重新預(yù)測,基于更新的預(yù)測值重新優(yōu)化轉(zhuǎn)矩分配。在每一個時刻都重復(fù)上述3個步驟,直到預(yù)測時域結(jié)束,即可獲得預(yù)測時域內(nèi)的最優(yōu)轉(zhuǎn)矩分配序列。
綜上所述,采用模型預(yù)測控制方法求解超輕度混合動力汽車的能量管理問題就是在預(yù)測時域內(nèi),在每一時刻都重復(fù)“預(yù)測模型-滾動優(yōu)化-反饋校正”3個步驟,即可獲得最優(yōu)的轉(zhuǎn)矩分配,具體流程如圖8所示。
基于MATLAB/Simulink平臺,構(gòu)建Markov鏈+ Q-Learning整車控制策略模型,以ECE_EUDC、UDDS標準循環(huán)工況為仿真試驗工況數(shù)據(jù),選取預(yù)測時域p為5 s , 仿真步長為0.01 s,SOC初始值為0.6進行仿真分析,通過仿真得到電機/發(fā)動機轉(zhuǎn)矩分配序列及動力電池SOC變化情況。
為更直觀了解電機轉(zhuǎn)矩及發(fā)動機轉(zhuǎn)矩的最優(yōu)分配,在離散車速為35km/h的情況下進行仿真,得到每對狀態(tài)-動作對對應(yīng)下的最優(yōu)動作策略,如圖9、 圖10所示。從圖中可以看出,SOC對轉(zhuǎn)矩分配影響不大,而需求功率的變化對轉(zhuǎn)矩分配有重要的影響。當需求功率Preq較大時,車輪處的轉(zhuǎn)矩由發(fā)動機提供,汽車一般運行在純發(fā)動機模式;反之,電動機轉(zhuǎn)矩足以提供車輪需求轉(zhuǎn)矩,汽車則運行在純電動機模式。這是因為Q學(xué)習(xí)算法在優(yōu)化狀態(tài)的動作時,不同車速下的轉(zhuǎn)矩分配同時受到整車燃油經(jīng)濟性與動力部件參數(shù)的約束,不同的轉(zhuǎn)矩分配影響整車的工作模式。
針對不同離散車速,可以獲得需求功率、電池SOC所對應(yīng)的發(fā)動機轉(zhuǎn)矩和電動機轉(zhuǎn)矩MAP圖。采用插值可得到相應(yīng)的優(yōu)化解。為驗證本文提出的Markov鏈 + Q-Learning的能量管理策略的有效性,將仿真結(jié)果與Markov鏈 + DP的能量管理策略進行對比。
分別從發(fā)動機、電動機輸出轉(zhuǎn)矩,動力電池SOC變化曲線,燃油消耗量,仿真時間這些方面對Markov鏈 + Q-Learning、Markov鏈+DP控制策略進行對比分析。
圖11 a表示ECE_EUDC+UDDS工況數(shù)據(jù)圖,圖11b-圖11d分別表示2種控制策略獲得的發(fā)動機轉(zhuǎn)矩分配、電動機轉(zhuǎn)矩分配和SOC軌跡曲線。從圖11b和圖11c可以看出,兩種策略的發(fā)動機轉(zhuǎn)矩曲線接近,電動機轉(zhuǎn)矩分配有差別,主要因為,電能的變化發(fā)生于純電動模式和行車充電模式,Markov鏈 + Q-Learning控制策略中等效因子對這些模式下的電動機轉(zhuǎn)矩進行了調(diào)整。對應(yīng)到圖11d中,Markov鏈 + DP控制策略的SOC終止值為0.598 6,ΔSOC = 0.001 4;Markov鏈 +Q-Learning控制策略的SOC終止值為0.598 7,ΔSOC= 0.001 3。與Markov鏈 + DP控制策略相比,Markov鏈 + Q-Learning控制策略的SOC變化量減少7.1%。
圖12 顯示了兩種控制策略下發(fā)動機和電動機的工作點。從圖中可看出,兩種控制策略下發(fā)動機基本工作在最小燃油消耗率曲線上,電動機大部分工作點位于0.7~0.95的高效率區(qū)間內(nèi),說明本文所提出的Markov鏈 + Q-Learning的控制策略具有良好的控制效果。
ECE_EUDC+UDDS循環(huán)工況總行駛里程為22.92 km,Markov鏈 + Q-Learning 和 Markov鏈 + DP 這2種控制策略的百公里燃油消耗量分別為5.370 2 L和5.160 5 L。與Markov鏈 + DP的控制策略相比較,本文所提控制策略的整車等效燃油消耗量提高了3.9%。主要原因是DP和Q學(xué)習(xí)算法存在本質(zhì)上的區(qū)別。DP算法在選擇動作時是進行多階段決策獲得預(yù)測時域內(nèi)全局最優(yōu)的動作序列;而Q學(xué)習(xí)算法在選擇動作時,通過ε-greedy策略盡可能地探索所有動作,更新狀態(tài)-動作的Q值,獲得預(yù)測時域內(nèi)最優(yōu)的動作序列,因為ε探索率是根據(jù)經(jīng)驗設(shè)定的值,所以得到的動作序列是全局次優(yōu),動作的選擇會影響整車的燃油經(jīng)濟性。Markov鏈 + DP控制策略,采用多階段決策來獲得最優(yōu)的轉(zhuǎn)矩分配,在決策過程中計算目標函數(shù),當所有階段迭代完成后才更新策略。通過離線運行出數(shù)值表,數(shù)值表在線插值,仿真在線運行時間為10 s; 本文提出的Markov鏈 + Q-Learning控制策略,在優(yōu)化時將時域狀態(tài)轉(zhuǎn)化為空間域,在優(yōu)化狀態(tài)的轉(zhuǎn)矩分配過程中,迭代更新Q表的同時,策略也隨時更新,仿真在線運行時間為6 s,最大程度提高了程序運行效率,提高了實時性。
提出基于Markov鏈與Q-Learning的能量管理控制策略。選用ECE_EUDC+UDDS標準循環(huán)工況數(shù)據(jù)為樣本數(shù)據(jù)構(gòu)建多步Markov模型對預(yù)測時域內(nèi)的加速度進行預(yù)測,獲得準確的預(yù)測結(jié)果;采用Q-Learning算法對預(yù)測信息進行滾動優(yōu)化求解;施加第1個控制量給車輛,實現(xiàn)反饋控制。
基于Matlab/Simulink平臺,構(gòu)建ECE_EUDC+UDDS整車仿真模型。將仿真結(jié)果與Markov鏈 + DP控制策略進行對比,驗證了該策略的有效性。Markov鏈 + DP控制策略對比,所提策略動力電池SOC變化量減少7.1%,變化較為平穩(wěn),在保證燃油經(jīng)濟性基本保持一致的前提下,仿真時長縮短了4 s,驗證了該策略的適應(yīng)性。
本文將控制理論與Q-Learning算法有效結(jié)合,實現(xiàn)了超輕度混合動力汽車良好的優(yōu)化控制效果,在提高計算效率的同時,能夠確保整車的燃油經(jīng)濟性。