黎海濤,申保晨,楊艷紅,裴 瑋,呂 鑫,韓雨庭
(1. 北京工業(yè)大學(xué)信息學(xué)部,北京市 100124;2. 中國(guó)科學(xué)院電工研究所,北京市 100190)
可再生能源發(fā)電技術(shù)的大規(guī)模應(yīng)用給傳統(tǒng)電網(wǎng)的運(yùn)行和負(fù)荷側(cè)的能量管理帶來(lái)新的挑戰(zhàn)。微電網(wǎng)利用其調(diào)控性和靈活性可以有效解決該問(wèn)題,被認(rèn)為是接納可再生能源高度滲透的理想平臺(tái)[1-3]。在運(yùn)行過(guò)程中,微電網(wǎng)既可以并網(wǎng)運(yùn)行,也可以單獨(dú)運(yùn)行,自主利用本地發(fā)電和存儲(chǔ)能量[4-6]。因此,對(duì)運(yùn)行過(guò)程中的微電網(wǎng)進(jìn)行合理能量管理會(huì)帶來(lái)較高的經(jīng)濟(jì)效益。
近年來(lái),學(xué)術(shù)界對(duì)微電網(wǎng)能量管理與優(yōu)化進(jìn)行了深入研究。文獻(xiàn)[7]針對(duì)光伏發(fā)電的微電網(wǎng)混合儲(chǔ)能系統(tǒng)采用基于粒子群算法進(jìn)行策略求解,以達(dá)到全生命周期費(fèi)用和買賣電量費(fèi)用之和最小的目標(biāo)。文獻(xiàn)[8]采用分布式次梯度算法對(duì)微電網(wǎng)分布式能量?jī)?yōu)化管理架構(gòu)進(jìn)行能量?jī)?yōu)化管理策略求解,從而達(dá)到關(guān)鍵負(fù)荷供電可靠的目的。其他常用的求解方法包括多種群螢火蟲(chóng)算法[9]、隨機(jī)規(guī)劃算法[10]和改進(jìn)非支配排序遺傳算法(non-dominated sorting genetic algorithms,NSGA-Ⅱ)算法[11]等。但是,這些算法均是模型預(yù)測(cè)控制的方法,很大程度上依賴于本領(lǐng)域?qū)<覟槲㈦娋W(wǎng)構(gòu)建精確的模型和參數(shù),其最后的優(yōu)化結(jié)果取決于不確定因素預(yù)測(cè)。當(dāng)不確定性隨時(shí)間變化時(shí),模型、預(yù)測(cè)器和求解器必須進(jìn)行相應(yīng)的重新設(shè)計(jì)[12],導(dǎo)致開(kāi)發(fā)成本較高,使得該方法不具備可移植性和可擴(kuò)展性。
研究人員開(kāi)始關(guān)注強(qiáng)化學(xué)習(xí)的發(fā)展,提出了各種基于強(qiáng)化學(xué)習(xí)的方法來(lái)解決微電網(wǎng)能量管理與優(yōu)化問(wèn)題。文獻(xiàn)[13]提出一種基于Q 學(xué)習(xí)的微電網(wǎng)能量管理策略應(yīng)對(duì)儲(chǔ)能的效率和可靠性問(wèn)題,但該文獻(xiàn)所采用的Q 學(xué)習(xí)算法面臨著數(shù)據(jù)使用效率低、維數(shù)高、轉(zhuǎn)移函數(shù)具有不確定性等問(wèn)題。文獻(xiàn)[14]提出一種基于深度Q 網(wǎng)絡(luò)算法的微電網(wǎng)能量管理策略求解算法,但該算法的Q 值往往存在被高估的現(xiàn)象,而且應(yīng)用到微電網(wǎng)能量管理場(chǎng)景中的穩(wěn)定性還有待提高。文獻(xiàn)[15]提出一種基于多智能體的Q學(xué)習(xí)算法應(yīng)對(duì)不同負(fù)荷的能量調(diào)度,但多智能體算法存在維度災(zāi)難,這意味著當(dāng)特征數(shù)量超過(guò)一定值的時(shí)候,算法的效果會(huì)有所下降。除此之外,基于Rainbow 的深度強(qiáng)化學(xué)習(xí)算法[16]、深度確定性策略梯度算法[17]和基于貝葉斯網(wǎng)絡(luò)的雙深度期望Q 網(wǎng)絡(luò)算法[18]等均被采用進(jìn)行了微電網(wǎng)優(yōu)化運(yùn)行的嘗試。
為進(jìn)一步優(yōu)化微電網(wǎng)的能量管理問(wèn)題,本文提出一種基于多參數(shù)動(dòng)作探索機(jī)制的競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法,并設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以高效地對(duì)微電網(wǎng)進(jìn)行能量管理與優(yōu)化,解決文獻(xiàn)[13-15]中存在的數(shù)據(jù)使用效率低下、穩(wěn)定性不高和維度災(zāi)難等問(wèn)題。
微電網(wǎng)系統(tǒng)主要由3 個(gè)部分組成,分別是分布式發(fā)電組件、儲(chǔ)能組件和電力負(fù)荷組件[19]。本文采用一個(gè)可以與主電網(wǎng)進(jìn)行能量交互的微電網(wǎng)系統(tǒng),該系統(tǒng)以經(jīng)濟(jì)性為目標(biāo),根據(jù)分布式發(fā)電組件的發(fā)電功率與電力負(fù)荷組件的用電功率,進(jìn)行系統(tǒng)能量管理優(yōu)化,具體操作主要包括恒溫控制負(fù)荷需求響應(yīng)、價(jià)格響應(yīng)負(fù)荷需求響應(yīng)、從電網(wǎng)購(gòu)電、向電網(wǎng)售電、儲(chǔ)能組件充電和儲(chǔ)能組件放電,最終達(dá)到系統(tǒng)功率合理分配的目的。
風(fēng)能、太陽(yáng)能等清潔能源的應(yīng)用加劇了能源市場(chǎng)的波動(dòng),傳統(tǒng)的化石能源占比開(kāi)始降低。本文采用風(fēng)力發(fā)電機(jī)模型和來(lái)自芬蘭風(fēng)力發(fā)電廠的發(fā)電數(shù)據(jù)[20]。
儲(chǔ)能組件的功能主要是對(duì)能量進(jìn)行存儲(chǔ),在微電網(wǎng)能量管理過(guò)程中會(huì)與主電網(wǎng)、分布式發(fā)電組件和電力負(fù)荷組件進(jìn)行能量交互[20]。
1)動(dòng)態(tài)存儲(chǔ)容量
儲(chǔ)能組件t 時(shí)刻的動(dòng)態(tài)存儲(chǔ)容量Bt為:
3)充放電情況
儲(chǔ)能組件的充放電行為由微電網(wǎng)系統(tǒng)直接控制,并在充放電行為的驅(qū)動(dòng)下,與分布式發(fā)電組件、負(fù)荷組件進(jìn)行能量傳輸。
在充電情況下,儲(chǔ)能組件接收存儲(chǔ)在電池中的功率,基于最大容量和最大充電率驗(yàn)證充電操作的可行性,進(jìn)行能量的存儲(chǔ),并將剩余的電能返回給主電網(wǎng)。
在放電情況下,儲(chǔ)能組件從微電網(wǎng)系統(tǒng)接收放電請(qǐng)求指令,驗(yàn)證供電條件,并相應(yīng)地返回可用功率。若負(fù)荷所需的功率不能完全由儲(chǔ)能組件供應(yīng),則會(huì)自動(dòng)由主電網(wǎng)供電。
隨著科技的發(fā)展,各種新型電力負(fù)荷不斷涌現(xiàn)。目前,市場(chǎng)上主要由直接可控負(fù)荷、恒溫控制負(fù)荷、價(jià)格響應(yīng)負(fù)荷和電動(dòng)汽車負(fù)荷組成[21-24]。本文主要對(duì)恒溫控制負(fù)荷和價(jià)格響應(yīng)負(fù)荷進(jìn)行建模。
1)恒溫控制負(fù)荷
恒溫控制負(fù)荷是指空調(diào)、熱水器、冰箱等需要恒溫控制的負(fù)荷。這些負(fù)荷在每個(gè)時(shí)刻都被直接控制,且需要微電網(wǎng)分配一定量的電能。
恒溫控制負(fù)荷由開(kāi)關(guān)動(dòng)作進(jìn)行控制,以確保溫度限制,t 時(shí)刻控制第i 個(gè)恒溫控制負(fù)荷動(dòng)作ucontrol,i,t的表達(dá)式為:
微電網(wǎng)能量管理與優(yōu)化可看作一個(gè)馬爾可夫決策過(guò)程,可用狀態(tài)、動(dòng)作、狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)勵(lì)表示為{ s,a,p,r },并利用深度強(qiáng)化學(xué)習(xí)求解得到最優(yōu)的策略來(lái)控制各組件的運(yùn)行,從而提高策略運(yùn)用的可擴(kuò)展性,避免領(lǐng)域?qū)<抑貜?fù)開(kāi)發(fā),減少開(kāi)發(fā)成本和維護(hù)費(fèi)用,保證微電網(wǎng)運(yùn)行的經(jīng)濟(jì)效益最大,其中s 為狀態(tài),a 為動(dòng)作,p 為狀態(tài)轉(zhuǎn)移概率,r 為獎(jiǎng)勵(lì)。深度強(qiáng)化學(xué)習(xí)在一般強(qiáng)化學(xué)習(xí)方法基礎(chǔ)上結(jié)合深度學(xué)習(xí)發(fā)展而來(lái),結(jié)合了深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力,從而使其能夠創(chuàng)新地解決復(fù)雜系統(tǒng)的感知決策問(wèn)題。深度強(qiáng)化學(xué)習(xí)可分為基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)算法和基于策略的深度強(qiáng)化學(xué)習(xí)算法[25]?;谥岛瘮?shù)的深度強(qiáng)化學(xué)習(xí)算法采用深度神經(jīng)網(wǎng)絡(luò)逼近值函數(shù);基于策略的深度強(qiáng)化學(xué)習(xí)算法通過(guò)計(jì)算關(guān)于動(dòng)作的策略梯度,沿著梯度方向,不斷調(diào)整動(dòng)作,逐漸得到最優(yōu)策略。本文主要研究基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)算法在微電網(wǎng)能量管理中的運(yùn)用。
將深度強(qiáng)化學(xué)習(xí)與微電網(wǎng)相結(jié)合進(jìn)行微電網(wǎng)能量管理,是微電網(wǎng)與人工智能結(jié)合的嘗試。基于上述微電網(wǎng)各組件定義,下面分析深度強(qiáng)化學(xué)習(xí)的微電網(wǎng)能量管理與優(yōu)化模型。在該強(qiáng)化學(xué)習(xí)模型中,智能體是微電網(wǎng)動(dòng)作選取的實(shí)體,與智能體進(jìn)行交互的整個(gè)微電網(wǎng)運(yùn)行環(huán)境是強(qiáng)化學(xué)習(xí)定義的環(huán)境,電力負(fù)荷組件和儲(chǔ)能組件的操作是強(qiáng)化學(xué)習(xí)定義的動(dòng)作值,微電網(wǎng)中各組件的基本信息是強(qiáng)化學(xué)習(xí)定義的環(huán)境狀態(tài)值。
智能體從微電網(wǎng)環(huán)境接收獎(jiǎng)勵(lì)信號(hào)和環(huán)境狀態(tài)信號(hào),其中獎(jiǎng)勵(lì)信號(hào)是根據(jù)微電網(wǎng)運(yùn)行規(guī)則人為制定的獎(jiǎng)勵(lì)機(jī)制,文中t 時(shí)刻的獎(jiǎng)勵(lì)rt定義為微電網(wǎng)能量交易的經(jīng)濟(jì)成本,即
式中:Pload為價(jià)格響應(yīng)負(fù)荷的電價(jià),Pload=Pmarketρδt,其中Pmarket為市場(chǎng)電價(jià),ρ 為調(diào)整δt的參數(shù);Nloads為價(jià)格響應(yīng)負(fù)荷的數(shù)量;PTCL為恒溫控制負(fù)荷的電價(jià);NTCLs為恒溫控制負(fù)荷的數(shù)量;Pdown,t為向主電網(wǎng)賣電的價(jià)格;Pup,t為從主電網(wǎng)買電的價(jià)格;Psold,t為向主電網(wǎng)賣電的調(diào)控價(jià)格;Esold,t為向電網(wǎng)賣電的電量;Pcost為分布式發(fā)電組件發(fā)單位電量的成本值;Gt為分布式發(fā)電組件的發(fā)電功率;Ppurchased,t為從主電網(wǎng)買電的調(diào)控價(jià)格;EPt為從電網(wǎng)買電的電量。
環(huán)境狀態(tài)信號(hào)是微電網(wǎng)中各組件的基本信息,包括各電力負(fù)荷的狀態(tài)值、儲(chǔ)能組件的儲(chǔ)能狀況、分布式發(fā)電組件的功率、電網(wǎng)買賣電量的電價(jià)等信息。智能體通過(guò)學(xué)習(xí)環(huán)境狀態(tài)信號(hào)完成對(duì)應(yīng)動(dòng)作,包括確定恒溫控制負(fù)荷的優(yōu)先級(jí)、確定價(jià)格響應(yīng)負(fù)荷對(duì)應(yīng)的價(jià)格檔位、確定微電網(wǎng)供電方向。當(dāng)對(duì)應(yīng)動(dòng)作施加于微電網(wǎng)各組件對(duì)應(yīng)的環(huán)境中時(shí),該環(huán)境會(huì)根據(jù)當(dāng)前動(dòng)作產(chǎn)生各組件間下一時(shí)刻的環(huán)境狀態(tài)值以及該動(dòng)作對(duì)應(yīng)的獎(jiǎng)勵(lì)值。這些值作用于智能體,如此循環(huán)得到最優(yōu)的策略,具體如圖1 所示。
圖1 基于深度強(qiáng)化學(xué)習(xí)的微電網(wǎng)能量管理系統(tǒng)Fig.1 Microgrid energy management system based on deep reinforcement learning
基于上述系統(tǒng)模型,提出改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法尋找累計(jì)獎(jiǎng)勵(lì)最大的微電網(wǎng)能量管理策略。學(xué)習(xí)過(guò)程中,改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法中的智能體通過(guò)接受當(dāng)前環(huán)境的狀態(tài)值來(lái)執(zhí)行當(dāng)下的最佳動(dòng)作,形成完美的閉環(huán)控制。
傳統(tǒng)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法把原深度Q 網(wǎng)絡(luò)算法的輸出分為靜態(tài)環(huán)境狀態(tài)的值函數(shù)和動(dòng)態(tài)選擇動(dòng)作額外帶來(lái)的優(yōu)勢(shì)函數(shù)[26],其優(yōu)點(diǎn)是學(xué)習(xí)到對(duì)智能體最重要的狀態(tài),而無(wú)須了解每個(gè)動(dòng)作對(duì)每個(gè)狀態(tài)的影響,可以快速識(shí)別最佳動(dòng)作。Q 網(wǎng)絡(luò)算法的輸出由價(jià)值函數(shù)網(wǎng)絡(luò)輸出和優(yōu)勢(shì)函數(shù)網(wǎng)絡(luò)輸出的線性組合得到,表達(dá)式為:
為解決競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法在動(dòng)作探索方面的不足和學(xué)習(xí)過(guò)程中穩(wěn)定性低的問(wèn)題,本文在動(dòng)作探索機(jī)制上進(jìn)行優(yōu)化。
大部分基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法采用ε-貪婪算法來(lái)選取最優(yōu)動(dòng)作。采用ε-貪婪算法的智能體以高概率選擇Q 值最大的動(dòng)作,以低概率選擇隨機(jī)動(dòng)作。考慮到智能體執(zhí)行動(dòng)作產(chǎn)生的獎(jiǎng)勵(lì)是對(duì)該動(dòng)作的評(píng)判。若利用當(dāng)前時(shí)刻的獎(jiǎng)勵(lì)值與迭代時(shí)長(zhǎng)內(nèi)平均獎(jiǎng)勵(lì)值作為一個(gè)基準(zhǔn)參數(shù)進(jìn)行下一時(shí)刻的動(dòng)作選取,則會(huì)有更高概率探索到可能的最優(yōu)動(dòng)作。因?yàn)槠洳粏螁问峭ㄟ^(guò)ε 概率進(jìn)行探索,還會(huì)通過(guò)一個(gè)新的概率參數(shù)進(jìn)行探索。這樣雖然降低了隨機(jī)探索的概率,但是增加了不同動(dòng)作類型選取的概率。
定義新參數(shù)λ 并結(jié)合參數(shù)ε 來(lái)計(jì)算下一時(shí)刻動(dòng)作選取的概率,稱之為多參數(shù)動(dòng)作探索。
式中:σ1和σ2為調(diào)整參數(shù)λ 的系數(shù)。
然后,結(jié)合ε-貪婪算法中的ε 值,計(jì)算在不同概率情況下如何選取下一時(shí)刻的動(dòng)作值a't。因此,選取下一時(shí)刻的動(dòng)作有3 種可能性。當(dāng)概率為λ 時(shí),選取當(dāng)前時(shí)刻動(dòng)作at作為下一時(shí)刻的動(dòng)作a't;當(dāng)概率為ε/|A|時(shí),隨機(jī)選取一個(gè)動(dòng)作arandom作為下一時(shí)刻的動(dòng)作a't;當(dāng)概率為1-λ-ε 時(shí),選取Q 值最大的動(dòng)作arg max Q(s,at)作為下一時(shí)刻的動(dòng)作a't。
最后,把選取的動(dòng)作應(yīng)用到微電網(wǎng)環(huán)境中,以此來(lái)學(xué)習(xí)新的策略。
結(jié)合多參數(shù)動(dòng)作探索機(jī)制,改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法的流程圖如附錄A 圖A1 所示。
深度Q 網(wǎng)絡(luò)算法和競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法中會(huì)使用雙深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),采用2 個(gè)Q 網(wǎng)絡(luò)算法進(jìn)行交互的形式。當(dāng)前網(wǎng)絡(luò)用來(lái)選擇動(dòng)作,更新模型參數(shù);目標(biāo)網(wǎng)絡(luò)用于計(jì)算目標(biāo)Q 值。目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)不需要迭代更新,而是每隔一段時(shí)間從當(dāng)前網(wǎng)絡(luò)中復(fù)制過(guò)來(lái),進(jìn)行延時(shí)更新,從而減少目標(biāo)Q值和當(dāng)前Q 值的相關(guān)性。本文改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法在使用雙深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)時(shí),運(yùn)用卷積層、池化層和全連接層進(jìn)行神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),從而更好地提取特征信息。
在進(jìn)行神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)過(guò)程中,采用輸入層、隱藏層和輸出層分模塊設(shè)計(jì)的原則。輸入層由神經(jīng)元組成,對(duì)應(yīng)輸入的環(huán)境狀態(tài)。隱藏層設(shè)計(jì)為卷積層、池化層和全連接層的相互配合,經(jīng)輸入層輸入數(shù)據(jù)后,利用2 個(gè)卷積層對(duì)數(shù)據(jù)進(jìn)行卷積處理,該卷積層采用n×n 的卷積核,但卷積核的大小依次遞減;從卷積層輸出數(shù)據(jù)后,通過(guò)全局平均池化層進(jìn)行數(shù)據(jù)池化處理。然后,將數(shù)據(jù)通過(guò)全連接層輸出到2 個(gè)子網(wǎng)絡(luò)里。在子網(wǎng)絡(luò)設(shè)計(jì)過(guò)程中,價(jià)值函數(shù)網(wǎng)絡(luò)和優(yōu)勢(shì)函數(shù)網(wǎng)絡(luò)分別采用2 層全連接層,價(jià)值函數(shù)網(wǎng)絡(luò)設(shè)計(jì)為2 個(gè)輸出,其輸出均采用全連接層,神經(jīng)元個(gè)數(shù)分別為對(duì)應(yīng)可選擇的策略數(shù),優(yōu)勢(shì)函數(shù)網(wǎng)絡(luò)全連接層的神經(jīng)元個(gè)數(shù)滿足對(duì)應(yīng)可選擇的策略數(shù)。最后,經(jīng)式(8)運(yùn)算后從輸出層輸出,該層神經(jīng)元個(gè)數(shù)對(duì)應(yīng)可選擇的策略數(shù)。
在改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法的能量管理策略生成過(guò)程中需要依賴大量數(shù)據(jù),本文選取微電網(wǎng)歷史運(yùn)行數(shù)據(jù)構(gòu)建訓(xùn)練集和測(cè)試集。該數(shù)據(jù)集包含不同的運(yùn)行場(chǎng)景,主要包括恒溫控制負(fù)荷所需的溫度值、價(jià)格響應(yīng)負(fù)荷所需的負(fù)荷值、風(fēng)力發(fā)電的發(fā)電值、電量交易市場(chǎng)的交易價(jià)格等,具有環(huán)境狀態(tài)覆蓋全面的特點(diǎn)。
實(shí)際策略運(yùn)行過(guò)程中,微電網(wǎng)能量管理決策分為離線系統(tǒng)和在線系統(tǒng)2 個(gè)部分。離線系統(tǒng)庫(kù)存儲(chǔ)微電網(wǎng)運(yùn)行歷史事件和動(dòng)作記錄,對(duì)微電網(wǎng)運(yùn)行控制進(jìn)行離線仿真,利用歷史數(shù)據(jù)累計(jì)完善數(shù)據(jù)集,通過(guò)離線訓(xùn)練方法,對(duì)利用改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法的智能體進(jìn)行訓(xùn)練,更新智能體模型和參數(shù),供在線運(yùn)行的智能體使用。在線系統(tǒng)為實(shí)時(shí)運(yùn)行系統(tǒng),智能體根據(jù)微電網(wǎng)反饋的狀態(tài)變量和獎(jiǎng)勵(lì)值,輸出控制指令,微電網(wǎng)根據(jù)控制指令運(yùn)行,并將更新的狀態(tài)和獎(jiǎng)勵(lì)值反饋給在線智能體,同時(shí)存儲(chǔ)在離線系統(tǒng)庫(kù)。在線系統(tǒng)利用離線系統(tǒng)訓(xùn)練好的智能體模型,可以在秒級(jí)時(shí)間完成計(jì)算,保證微電網(wǎng)能量管理的實(shí)時(shí)性,其詳細(xì)運(yùn)行過(guò)程如圖2 所示。
圖2 微電網(wǎng)能量管理策略生成與運(yùn)行過(guò)程Fig.2 Process of generation and operation of microgrid energy management strategy
本文采用的風(fēng)力發(fā)電數(shù)據(jù)和電力負(fù)荷數(shù)據(jù)來(lái)源于文獻(xiàn)[27]的數(shù)據(jù)庫(kù)中,數(shù)據(jù)樣本每隔1 h 采集一次,包含了2 年的分布式發(fā)電組件和電力負(fù)荷組件的特征信息。設(shè)置的微電網(wǎng)環(huán)境主要參數(shù)包括:Bmax=500 kW,儲(chǔ)能組件最大充電功率cmax=250 kW,儲(chǔ)能組件最大放電功率Dmax=250 kW,Pcost=32 歐元/MW, NTCLs=100, Nloads=150,Pmarket=5.48 歐元/MW。
本文設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如下:輸入設(shè)計(jì)為107 個(gè)神經(jīng)元,對(duì)應(yīng)107 個(gè)環(huán)境狀態(tài),分別是100 個(gè)恒溫控制負(fù)荷的功率信息、價(jià)格響應(yīng)負(fù)荷的整體功率信息、價(jià)格響應(yīng)負(fù)荷的價(jià)格水平信息、時(shí)間信息、儲(chǔ)能組件的荷電狀態(tài)信息、分布式發(fā)電組件的發(fā)電信息、從電網(wǎng)購(gòu)買電量的電價(jià)以及向電網(wǎng)銷售電量的電價(jià),這107 個(gè)輸入數(shù)據(jù)也是算法實(shí)際應(yīng)用中的數(shù)據(jù)。2 個(gè)卷積層分別采用4×4 和2×2 的卷積核;從卷積層輸出數(shù)據(jù)后,通過(guò)全局平均池化層進(jìn)行數(shù)據(jù)池化處理。然后,將數(shù)據(jù)通過(guò)神經(jīng)元個(gè)數(shù)為100 的全連接層輸出到2 個(gè)子網(wǎng)絡(luò)里;在子網(wǎng)絡(luò)設(shè)計(jì)過(guò)程中,價(jià)值函數(shù)網(wǎng)絡(luò)和優(yōu)勢(shì)函數(shù)網(wǎng)絡(luò)分別采用2 層全連接層,價(jià)值函數(shù)網(wǎng)絡(luò)全連接層的神經(jīng)元個(gè)數(shù)分別為80 和1,優(yōu)勢(shì)函數(shù)網(wǎng)絡(luò)全連接層的神經(jīng)元個(gè)數(shù)均為80。輸出層設(shè)計(jì)為80 個(gè)神經(jīng)元,對(duì)應(yīng)80 種動(dòng)作組合,分別是恒溫控制負(fù)荷對(duì)應(yīng)的4 個(gè)優(yōu)先級(jí)動(dòng)作,價(jià)格響應(yīng)負(fù)荷對(duì)應(yīng)的5 個(gè)價(jià)格水平動(dòng)作,電量過(guò)剩時(shí)確定向電網(wǎng)賣電或儲(chǔ)能組件存儲(chǔ)電量動(dòng)作,電量短缺時(shí)確定電網(wǎng)供電或儲(chǔ)能系統(tǒng)供電動(dòng)作,一共有4×5×2×2=80 種組合動(dòng)作。
在仿真環(huán)境中,分別利用深度Q 網(wǎng)絡(luò)算法和競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法以及基于多參數(shù)動(dòng)作探索機(jī)制的改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法進(jìn)行訓(xùn)練,得到獎(jiǎng)勵(lì)值變化曲線如圖3 所示。為了在圖中更好地表示,將式(6)的獎(jiǎng)勵(lì)值進(jìn)行了小數(shù)點(diǎn)左移3 位的處理。
圖3 不同算法獎(jiǎng)勵(lì)值對(duì)比Fig.3 Comparison of reward values of different algorithms
由圖3 可知,改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法比深度Q 網(wǎng)絡(luò)算法和傳統(tǒng)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法具有更好的學(xué)習(xí)穩(wěn)定性,并且得到的獎(jiǎng)勵(lì)值更高,主要是由于其采用了多參數(shù)動(dòng)作探索機(jī)制。
圖4 給出了微電網(wǎng)能量管理后得到的10 d 經(jīng)濟(jì)收益總和對(duì)比,除深度Q 網(wǎng)絡(luò)算法、競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法和改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法外,還對(duì)比文獻(xiàn)[10]中的隨機(jī)規(guī)劃算法。由圖可知,采用改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法進(jìn)行微電網(wǎng)能量管理后所得到的經(jīng)濟(jì)收益高于另外3 種算法,該方法較基于場(chǎng)景的隨機(jī)規(guī)劃算法在策略控制上有了明顯提升,并且在實(shí)際應(yīng)用中,智能體可以根據(jù)歷史數(shù)據(jù)不斷學(xué)習(xí),提前訓(xùn)練,實(shí)際控制時(shí)可直接使用,不存在收斂問(wèn)題。
圖4 不同算法經(jīng)濟(jì)收益對(duì)比Fig.4 Comparison of economic benefits of different algorithms
此外,針對(duì)第2.1 和2.2 節(jié)的改進(jìn),單獨(dú)設(shè)置了實(shí)驗(yàn),分別驗(yàn)證了改進(jìn)前競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法、只改進(jìn)第2.1 節(jié)的競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法、只改進(jìn)第2.2 節(jié)的競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法和同時(shí)改進(jìn)第2.1 和2.2 節(jié)的競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法,對(duì)比結(jié)果見(jiàn)附錄A圖A2 和圖A3。
對(duì)采用競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法與改進(jìn)競(jìng)爭(zhēng)深度Q網(wǎng)絡(luò)算法的連續(xù)10 d 的每日經(jīng)濟(jì)收益進(jìn)行對(duì)比如圖5 所示。
圖5 競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法改進(jìn)前后經(jīng)濟(jì)收益對(duì)比Fig.5 Comparison of economic benefits before and after dueling deep Q network algorithm is improved
由圖可知,在微電網(wǎng)能量管理過(guò)程中,改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法每天的收益都優(yōu)于改進(jìn)前競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法,具有更優(yōu)的能量控制策略。此外,在第8、9、10 天,競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法得到的收益值是遠(yuǎn)小于0 的。這是圖4 中競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法得到10 d 經(jīng)濟(jì)收益總和為負(fù)值的主要原因,也間接說(shuō)明直接使用競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法在第8、9、10 天的微電網(wǎng)能量管理場(chǎng)景中,能量控制策略不佳。
利用改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法對(duì)不同發(fā)電和用電預(yù)測(cè)情況下的微電網(wǎng)進(jìn)行能量管理。根據(jù)各組件與電量交易的3 種狀態(tài)進(jìn)行分析,具體如下:
1)風(fēng)力發(fā)電組件運(yùn)行過(guò)程中產(chǎn)生的發(fā)電功率與用電負(fù)荷處于一種均衡狀態(tài)時(shí),電力負(fù)荷組件和風(fēng)力發(fā)電組件的預(yù)測(cè)曲線如附錄A 圖A4 所示。經(jīng)過(guò)改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法調(diào)節(jié)后,各電力負(fù)荷組件狀態(tài)如附錄A 圖A5 所示,恒溫控制負(fù)荷在07:00—23:00 時(shí)段隨發(fā)電功率的減少會(huì)逐漸減少用電功率。儲(chǔ)能組件在03:00—06:00 時(shí)段進(jìn)行充電操作,在13:00—18:00 時(shí)段進(jìn)行放電操作,其荷電狀態(tài)和充放電功率如附錄A 圖A6 所示。當(dāng)功率值為正時(shí),表示充電操作;功率值為負(fù)時(shí),表示放電操作。能源交易市場(chǎng)有電量出售和電量購(gòu)買2 種操作,其中購(gòu)買價(jià)格是Pup,t+Ppurchased,t,銷售價(jià)格是Pdown,t-Psold,t,銷售價(jià)格和購(gòu)買價(jià)格隨電量交易進(jìn)行變化,如附錄A 圖A7 所示。
2)當(dāng)風(fēng)能發(fā)電功率小于用電功率時(shí),電力負(fù)荷組件和風(fēng)力發(fā)電組件的預(yù)測(cè)曲線如附錄A 圖A8 所示。經(jīng)改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法調(diào)節(jié)后,各電力負(fù)荷狀態(tài)如附錄A 圖A9 所示。此時(shí),儲(chǔ)能組件在04:00—08:00 時(shí)段進(jìn)行充電操作,在13:00—17:00時(shí)段進(jìn)行放電操作,如附錄A 圖A10 所示。由于風(fēng)力發(fā)電組件發(fā)電功率無(wú)法滿足電力負(fù)荷的需求,因此,能源交易市場(chǎng)以購(gòu)買電量為主,交易價(jià)格與交易電量的關(guān)系如附錄A 圖A11 所示。
3)當(dāng)風(fēng)能發(fā)電功率大于用電功率時(shí),電力負(fù)荷組件和分布式發(fā)電組件的預(yù)測(cè)曲線如附錄A 圖A12所示。經(jīng)改進(jìn)算法調(diào)節(jié)后的各電力負(fù)荷狀態(tài)如附錄A 圖A13 所示。此時(shí),儲(chǔ)能組件在00:00—02:00 時(shí)段進(jìn)行充電操作,在16:00—22:00 時(shí)段進(jìn)行放電操作,如附錄A 圖A14 所示。由于電力負(fù)荷消耗低于風(fēng)力發(fā)電組件發(fā)出的電量,能源交易市場(chǎng)以出售電量為主,交易價(jià)格與交易電量的關(guān)系如附錄A 圖A15 所示。
綜合上述數(shù)據(jù)表明,通過(guò)改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法對(duì)微電網(wǎng)進(jìn)行高效的能量管理,可以快速地解決用電優(yōu)化問(wèn)題。同時(shí),微電網(wǎng)可以合理地與電網(wǎng)進(jìn)行電量交易,提高經(jīng)濟(jì)收益,也可以充分利用可再生能源,間接減少電網(wǎng)配電過(guò)程中的電量損耗。
微電網(wǎng)是應(yīng)對(duì)可再生能源靈活接入和變化電力負(fù)荷的有效方式。為應(yīng)對(duì)這種波動(dòng)性和不確定性,本文提出一種基于多參數(shù)動(dòng)作探索機(jī)制的改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法,進(jìn)行微電網(wǎng)能量管理與優(yōu)化。通過(guò)場(chǎng)景仿真,驗(yàn)證了算法的可行性和有效性,并得出以下結(jié)論:
1)本文提出的改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法最大特點(diǎn)是能夠應(yīng)對(duì)不斷變化的微電網(wǎng)環(huán)境,通過(guò)多參數(shù)動(dòng)作探索機(jī)制,輸出更優(yōu)的調(diào)整策略,且具有更好的穩(wěn)定性。
2)利用改進(jìn)競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)算法進(jìn)行微電網(wǎng)的能量管理,可以為微電網(wǎng)運(yùn)行提供更具有經(jīng)濟(jì)效益的方案,從而達(dá)到獲得最大經(jīng)濟(jì)收益的目的。
雖然深度強(qiáng)化學(xué)習(xí)算法在微電網(wǎng)能量管理領(lǐng)域得到了初步研究,解決了策略運(yùn)用不可擴(kuò)展、領(lǐng)域?qū)<抑貜?fù)開(kāi)發(fā)、開(kāi)發(fā)成本和維護(hù)費(fèi)用過(guò)高的問(wèn)題,但由于其學(xué)習(xí)過(guò)程中較長(zhǎng)的訓(xùn)練時(shí)長(zhǎng)以及對(duì)訓(xùn)練數(shù)據(jù)依賴較大,解決上述問(wèn)題也是未來(lái)的研究工作,以更好地把深度強(qiáng)化學(xué)習(xí)應(yīng)用到微電網(wǎng)能量管理中。
附錄見(jiàn)本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。