基于深度確定性策略梯度的主動(dòng)配電網(wǎng)有功-無功協(xié)調(diào)優(yōu)化調(diào)度

2023-11-01 01:54:36孫國(guó)強(qiáng)殷巖巖衛(wèi)志農(nóng)臧海祥楚云飛

電力建設(shè) 2023年11期

孫國(guó)強(qiáng),殷巖巖,衛(wèi)志農(nóng),臧海祥,楚云飛

(河海大學(xué)能源與電氣學(xué)院,南京市 211100)

0 引言

隨著分布式電源(distributed generation, DG)在配電層面的廣泛接入,配電系統(tǒng)正從無源網(wǎng)絡(luò)演變?yōu)橛性磁潆娋W(wǎng)絡(luò),即主動(dòng)配電網(wǎng)(active distribution network, ADN)。同時(shí),光伏發(fā)電(photovoltaic, PV)、風(fēng)電(wind turbines, WT)的隨機(jī)性和波動(dòng)性增加了ADN的不確定性,導(dǎo)致電壓、潮流越限等問題變得更加嚴(yán)重[1-2]。

目前,為了實(shí)現(xiàn)ADN的協(xié)調(diào)優(yōu)化控制,國(guó)內(nèi)外學(xué)者已經(jīng)提出諸多基于模型的優(yōu)化方法。例如,文獻(xiàn)[3]構(gòu)建了ADN的混合整數(shù)非線性規(guī)劃模型和等效混合整數(shù)二次約束模型,用于配電網(wǎng)中的電壓管理。文獻(xiàn)[4]將非線性潮流約束進(jìn)行二階錐松弛,從而將配電網(wǎng)經(jīng)濟(jì)運(yùn)行優(yōu)化模型轉(zhuǎn)化為混合整數(shù)二階錐規(guī)劃問題,提高了求解精度。進(jìn)一步,考慮到DG不確定性因素對(duì)配電網(wǎng)運(yùn)行的影響,文獻(xiàn)[5]中構(gòu)建了基于隨機(jī)規(guī)劃的多階段調(diào)度模型,驗(yàn)證了該模型能在隨機(jī)狀態(tài)下自適應(yīng)調(diào)整儲(chǔ)能裝置、換流站及需求響應(yīng)決策。然而,隨機(jī)規(guī)劃需獲取不確定變量的概率分布參數(shù)[6],并采用大量場(chǎng)景刻畫不確定信息,導(dǎo)致準(zhǔn)確性和求解效率偏低[7-8]。為了消除ADN優(yōu)化配置模型中DG相關(guān)的不確定性變量,文獻(xiàn)[9]構(gòu)建了魯棒優(yōu)化框架,并采用漸緊線切割算法和列和約束生成算法相結(jié)合的方法對(duì)轉(zhuǎn)化模型求解,縮小了凸松弛間隙,提高了模型求解效率。文獻(xiàn)[10]計(jì)及新能源的預(yù)測(cè)誤差,基于離散不確定性域改進(jìn)了現(xiàn)有魯棒優(yōu)化方法,從而獲得了更廣泛的“惡劣場(chǎng)景集”。上述魯棒優(yōu)化方法無需獲取不確定性量的概率分布,而是通過不確定性集來描述DG出力的不確定性,形式簡(jiǎn)潔。但由于其在不確定性集的最惡劣實(shí)現(xiàn)情況下做出決策,因此可能導(dǎo)致優(yōu)化結(jié)果過于保守[11-13]。

基于模型的方法在ADN協(xié)調(diào)優(yōu)化控制方面取得了廣泛的成效。然而,此方法依賴于完整且明確的配電網(wǎng)物理模型,需要獲取詳細(xì)的網(wǎng)絡(luò)拓?fù)洹⒕€路參數(shù)、負(fù)荷功率等信息[14-15]。然而這些信息在現(xiàn)實(shí)獲得過程中經(jīng)常有所缺失、準(zhǔn)確性低。如果參數(shù)和物理模型不準(zhǔn)確,將會(huì)導(dǎo)致不經(jīng)濟(jì)甚至不切實(shí)際的調(diào)度決策[16]。此外,基于模型的方法計(jì)算復(fù)雜度高、存在維度災(zāi)等問題,這使得模型計(jì)算十分耗時(shí),難以實(shí)現(xiàn)在ADN中進(jìn)行實(shí)時(shí)優(yōu)化控制[17]。

近年來,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)以其在線響應(yīng)快、無需對(duì)DG的隨機(jī)性分布建模的獨(dú)特優(yōu)勢(shì)[18-19],在電力系統(tǒng)領(lǐng)域獲得了廣泛關(guān)注。文獻(xiàn)[20]將能量?jī)?chǔ)存系統(tǒng)(energy storage systems, ESS)考慮到配電網(wǎng)的電壓控制中,并采用Q深度神經(jīng)網(wǎng)絡(luò)來逼近ESS的最佳動(dòng)作價(jià)值。文獻(xiàn)[21]提出了一種基于深度Q網(wǎng)絡(luò)的有功安全校正策略,在消除線路過載和調(diào)節(jié)機(jī)組出力上具有良好的效果,但需要對(duì)連續(xù)動(dòng)作空間離散化,可能會(huì)帶來維度災(zāi)難問題[22]。為了使DRL智能體學(xué)習(xí)連續(xù)狀態(tài)和動(dòng)作空間之間的映射關(guān)系,文獻(xiàn)[23]將深度確定性策略梯度(deep deterministic policy gradient, DDPG)方法應(yīng)用到綜合能源經(jīng)濟(jì)調(diào)度中。針對(duì)電壓控制問題,文獻(xiàn)[24]基于多智能體的DDPG算法協(xié)調(diào)優(yōu)化光伏逆變器的無功功率輸出,但未考慮無功-電壓控制設(shè)備,如可投切電容器組(switchable capacitor banks, SCB)、有載調(diào)壓變壓器(on-load tap-changers, OLTC)等。針對(duì)配電系統(tǒng)優(yōu)化控制問題,上述文獻(xiàn)側(cè)重于關(guān)注單一有功或無功資源控制,這在保證配電系統(tǒng)供電安全和降低運(yùn)行成本方面存在一定局限性。此外,傳統(tǒng)DDPG方法中的經(jīng)驗(yàn)回放機(jī)制忽略了不同經(jīng)驗(yàn)的重要程度,可能存在訓(xùn)練效率低、過度學(xué)習(xí)等問題[25]。另一方面,優(yōu)先經(jīng)驗(yàn)回放(priority experience replay, PER)機(jī)制在機(jī)器人控制和游戲任務(wù)中的應(yīng)用取得了巨大成功,提高了學(xué)習(xí)效率和策略穩(wěn)定性[26]。

基于此,本文將PER機(jī)制結(jié)合到DDPG方法中,構(gòu)建了一種基于PER-DDPG的ADN在線調(diào)度框架。首先,以ADN日運(yùn)行成本最小為目標(biāo),在計(jì)及節(jié)點(diǎn)電壓偏移和潮流越限約束的基礎(chǔ)上,協(xié)調(diào)SCB、OLTC、微型燃?xì)廨啓C(jī)(micro-gas turbines, MT)和ESS等有功/無功資源,構(gòu)建了ADN有功-無功協(xié)調(diào)調(diào)度模型。其次,將此模型轉(zhuǎn)化為馬爾科夫決策過程(Markov decision process, MDP),并基于PER-DDPG框架進(jìn)行離線訓(xùn)練及在線測(cè)試。仿真結(jié)果表明,相較于傳統(tǒng)的DDPG方法,本文所提出的基于優(yōu)先經(jīng)驗(yàn)重放的DPPG方法可以實(shí)現(xiàn)對(duì)連續(xù)動(dòng)作空間的精確控制,并通過高效的經(jīng)驗(yàn)學(xué)習(xí)以獲得安全、經(jīng)濟(jì)的動(dòng)作策略。本文研究有望為基于深度確定性策略梯度的有功-無功協(xié)調(diào)優(yōu)化調(diào)度提供技術(shù)參考。

1 ADN有功-無功協(xié)調(diào)調(diào)度強(qiáng)化學(xué)習(xí)建模

本節(jié)首先構(gòu)建了基于ADN的有功-無功協(xié)調(diào)調(diào)度數(shù)學(xué)模型。在計(jì)及潮流約束和配電網(wǎng)安全約束的基礎(chǔ)上,該模型旨在以ADN日運(yùn)行成本最小為目標(biāo),在不同時(shí)段協(xié)調(diào)各有功/無功資源的出力。然后,本節(jié)將此數(shù)學(xué)模型轉(zhuǎn)化成基于MDP的調(diào)度模型,以充分利用DRL自適應(yīng)源荷不確定性的優(yōu)勢(shì)進(jìn)行求解。

1.1 基于ADN的有功-無功協(xié)調(diào)調(diào)度數(shù)學(xué)模型

1.1.1 目標(biāo)函數(shù)

本文的目標(biāo)函數(shù)包括變電站的能源交易成本和MT的燃料成本:

(1)

1.1.2 約束條件

1.1.2.1 潮流約束

(2)

(3)

(4)

1.1.2.2 配電網(wǎng)安全約束

(5)

1.1.2.3 可控設(shè)備運(yùn)行約束

1)SCB運(yùn)行約束:

(6)

2)OLTC運(yùn)行約束:

(7)

3)MT運(yùn)行約束:

(8)

4)ESS運(yùn)行約束:

(9)

1.2 基于MDP的調(diào)度模型

本節(jié)將ADN有功-無功協(xié)調(diào)優(yōu)化調(diào)度問題建模為MDP。MDP通常由學(xué)習(xí)環(huán)境E、狀態(tài)空間S、動(dòng)作空間A和獎(jiǎng)勵(lì)空間R組成。在每個(gè)時(shí)段t,DRL智能體通過觀察ADN當(dāng)前的狀態(tài)st∈S,執(zhí)行動(dòng)作at∈A,并從環(huán)境E中獲得獎(jiǎng)勵(lì)值rt∈R,然后ADN的當(dāng)前狀態(tài)st將根據(jù)狀態(tài)轉(zhuǎn)移概率函數(shù)p(st+1|st,at)轉(zhuǎn)換到下一狀態(tài)st+1。直至t達(dá)到總調(diào)度時(shí)段T時(shí),此過程終止。t時(shí)段MDP的詳細(xì)制定描述如下。

1.2.1 狀態(tài)空間

(10)

狀態(tài)空間包括當(dāng)前時(shí)段、ESS的荷電狀態(tài)、過去T個(gè)時(shí)段內(nèi)的電價(jià)、過去T個(gè)時(shí)段內(nèi)PV、WT的有功功率和過去T個(gè)時(shí)段內(nèi)負(fù)荷的有功無功功率;狀態(tài)空間中的各個(gè)變量都是連續(xù)性變量;為充分利用新能源,本文假設(shè)PV和WT是不可調(diào)度資源,并以固定單位功率因數(shù)運(yùn)行[27],故在狀態(tài)空間中不考慮新能源無功功率。

1.2.2 動(dòng)作空間

(11)

1.2.3 獎(jiǎng)勵(lì)函數(shù)

1.2.3.1 日運(yùn)營(yíng)成本項(xiàng)

(12)

1.2.3.2 約束違反項(xiàng)

鑒于ADN安全運(yùn)行的重要性,獎(jiǎng)勵(lì)函數(shù)中還應(yīng)當(dāng)考慮電壓違反和潮流越限的風(fēng)險(xiǎn)。因此,本文采用懲罰機(jī)制,對(duì)電壓違反和潮流越限進(jìn)行懲罰。

1)電壓違反懲罰項(xiàng):

(13)

2)潮流越限懲罰項(xiàng):

(14)

綜上,獎(jiǎng)勵(lì)函數(shù)定義如下:

(15)

式(15)表明,當(dāng)潮流計(jì)算收斂時(shí),獎(jiǎng)勵(lì)函數(shù)的主要目標(biāo)是使ADN的日運(yùn)營(yíng)成本最小,同時(shí)避免電壓違反。當(dāng)潮流計(jì)算發(fā)散時(shí),智能體將會(huì)受到一個(gè)較大的懲罰值。

1.2.4 狀態(tài)動(dòng)作價(jià)值函數(shù)

為了在不同狀態(tài)下獲得最優(yōu)動(dòng)作,需要使用狀態(tài)-動(dòng)作價(jià)值函數(shù)Qπ(st,at;θ)來描述在當(dāng)前狀態(tài)st下執(zhí)行動(dòng)作at,并遵循策略π后所能帶來的預(yù)期獎(jiǎng)勵(lì),該策略由一組網(wǎng)絡(luò)參數(shù)θ來控制。狀態(tài)-動(dòng)作價(jià)值函數(shù)如下式所示:

(16)

式中:π為從綜合狀態(tài)映射到調(diào)度計(jì)劃的策略,智能體在狀態(tài)st選擇何種動(dòng)作at由策略π(st)=at決定;γ為折扣因子,用來平衡未來獎(jiǎng)勵(lì)和即時(shí)獎(jiǎng)勵(lì),γ∈[0,1];E(·)為數(shù)學(xué)期望。

在ADN調(diào)度問題中,DRL智能體的目標(biāo)是在與環(huán)境的不斷交互過程中找到最優(yōu)策略π*,使ADN日運(yùn)行成本最低。這個(gè)最優(yōu)策略可以通過最大化狀態(tài)-動(dòng)作價(jià)值函數(shù)來實(shí)現(xiàn):

(17)

式中:Qπ*(st,at;θ)為最優(yōu)狀態(tài)-動(dòng)作價(jià)值函數(shù)。

2 基于DDPG的ADN有功-無功協(xié)調(diào)調(diào)度

2.1 PER-DDPG學(xué)習(xí)框架

為有效解決ADN有功-無功協(xié)調(diào)優(yōu)化中存在的連續(xù)動(dòng)作空間問題,本文構(gòu)建了基于PER-DDPG算法的ADN在線調(diào)度框架,如圖1所示,該框架中的DDPG智能體由Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)組成,每個(gè)網(wǎng)絡(luò)都有自己的目標(biāo)網(wǎng)絡(luò)以提高算法的穩(wěn)定性。為了提高智能體的采樣效率,該框架引入了優(yōu)先級(jí)經(jīng)驗(yàn)緩沖區(qū)B。在訓(xùn)練過程中,智能體與ADN環(huán)境交互并收集若干組經(jīng)驗(yàn)單元et={st,at,rt,st+1},然后根據(jù)優(yōu)先級(jí)pt對(duì)經(jīng)驗(yàn)單元進(jìn)行重要性采樣。pt值越大,相應(yīng)經(jīng)驗(yàn)單元的重要性越高,智能體從中學(xué)到經(jīng)驗(yàn)越多。

圖1 PER-DDPG算法學(xué)習(xí)框架

本文在文獻(xiàn)[25]的基礎(chǔ)上,對(duì)pt計(jì)算公式進(jìn)行改進(jìn):

pt=|δt|+ε

(18)

式中:δt為時(shí)間差分(temporal difference, TD)誤差;

ε為較小正常數(shù),用以確保每個(gè)經(jīng)驗(yàn)單元即使TD-誤差為零時(shí)仍有一定概率被抽樣。

在常規(guī)方法中,智能體往往更傾向于重放pt值較高的經(jīng)驗(yàn)單元,這可能會(huì)改變狀態(tài)訪問頻率,導(dǎo)致神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程出現(xiàn)振蕩或發(fā)散。針對(duì)上述問題,本文使用了重要性采樣權(quán)重來計(jì)算每個(gè)經(jīng)驗(yàn)單元對(duì)于權(quán)重變化的貢獻(xiàn):

(19)

式中:wi為第i個(gè)經(jīng)驗(yàn)單元所占權(quán)重;pi為第i個(gè)經(jīng)驗(yàn)單元的優(yōu)先級(jí);Bsize為經(jīng)驗(yàn)緩沖區(qū)的大小;κ∈[0,1]。

接下來詳細(xì)介紹Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)在離線訓(xùn)練階段的更新過程:

1)Critic網(wǎng)絡(luò)。

在訓(xùn)練過程中,Critic網(wǎng)絡(luò)使用具有參數(shù)θQ的深度神經(jīng)網(wǎng)絡(luò)來估計(jì)狀態(tài)-動(dòng)作價(jià)值函數(shù)。智能體根據(jù)經(jīng)驗(yàn)優(yōu)先級(jí)對(duì)一小批經(jīng)驗(yàn)單元進(jìn)行抽樣,在每次抽樣中,Critic網(wǎng)絡(luò)試圖最小化以下?lián)p失函數(shù):

(20)

(21)

(22)

2)Actor網(wǎng)絡(luò)。

在訓(xùn)練過程中,Actor網(wǎng)絡(luò)用于學(xué)習(xí)動(dòng)作策略和執(zhí)行動(dòng)作。Actor網(wǎng)絡(luò)中的參數(shù)化函數(shù)μ(st;θμ)可以確定性地將狀態(tài)映射到特定動(dòng)作來指定當(dāng)前策略。動(dòng)作策略定義的目標(biāo)如下:

J(θμ)=Est～B[Qπ(st,μ(st;θμ);θQ]

(23)

(24)

其次,基于動(dòng)作參數(shù)θμ更新:

(25)

式中:ημ為Actor網(wǎng)絡(luò)的學(xué)習(xí)率。

2.2 離線訓(xùn)練過程

本文所提PER-DDPG方法的離線訓(xùn)練過程如圖2所示。在每一輪訓(xùn)練中:首先,DDPG智能體的Actor網(wǎng)絡(luò)根據(jù)參數(shù)化函數(shù)μ(st;θμ)+Δμt制定SCB、OLTC、MT和ESS有功/無功資源的調(diào)度策略,Δμt為隨機(jī)噪聲。然后,智能體在當(dāng)前狀態(tài)st下執(zhí)行動(dòng)作at,經(jīng)潮流計(jì)算后獲得獎(jiǎng)勵(lì)rt,并觀察到新的狀態(tài)st+1,歷史樣本通過上述交互被收集存儲(chǔ)在經(jīng)驗(yàn)緩沖區(qū)中的經(jīng)驗(yàn)單元et。最后,智能體根據(jù)優(yōu)先經(jīng)驗(yàn)回放機(jī)制對(duì)經(jīng)驗(yàn)單元進(jìn)行小批量采樣,并更新Actor和Critic估計(jì)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù)。當(dāng)t達(dá)到T時(shí),一個(gè)訓(xùn)練集結(jié)束。重復(fù)以上步驟,直到訓(xùn)練集數(shù)達(dá)到最大訓(xùn)練集umax,離線訓(xùn)練過程結(jié)束,保存此時(shí)最優(yōu)的神經(jīng)網(wǎng)絡(luò)模型。

圖2 PER-DDPG算法流程

3 算例分析

3.1 算例設(shè)置

為了驗(yàn)證所提PER-DDPG方法在ADN有功-無功協(xié)調(diào)優(yōu)化調(diào)度的有效性,本文采用如圖3所示修改的IEEE-34節(jié)點(diǎn)配電算例[27]進(jìn)行仿真驗(yàn)證。該配電系統(tǒng)接入了2個(gè)MT、1個(gè)ESS、3組PV和3臺(tái)WT,各設(shè)備參數(shù)詳見表1。在節(jié)點(diǎn)7、8之間以及節(jié)點(diǎn)19、20之間分別接入2個(gè)OLTC,均具有33檔調(diào)節(jié)位置,調(diào)節(jié)范圍在-10%～10%之間。2個(gè)SCB分別安裝在節(jié)點(diǎn)24和節(jié)點(diǎn)34,每個(gè)SCB共有4組運(yùn)行單元,每組運(yùn)行單元的無功功率為120 kvar。變電站的容量為2 500 kVA。配電網(wǎng)節(jié)點(diǎn)電壓的限制范圍為0.95～1.05 pu。為了獲取配電網(wǎng)電價(jià)、各節(jié)點(diǎn)負(fù)荷需求和新能源有功及無功功率數(shù)據(jù),本文基于加州ISO開放存取同步信息系統(tǒng)時(shí)間序列數(shù)據(jù)[28]進(jìn)行分析,并以1 h為時(shí)間段提取2018—2020三年的數(shù)據(jù)信息。其中,將2018—2019年的數(shù)據(jù)作為訓(xùn)練集,2020年的數(shù)據(jù)作為測(cè)試集,用以驗(yàn)證所提方法在ADN有功-無功協(xié)調(diào)優(yōu)化調(diào)度問題上的有效性?？傉{(diào)度時(shí)段T為24 h。

表1 各設(shè)備參數(shù)

圖3 修改后的IEEE-34節(jié)點(diǎn)標(biāo)準(zhǔn)配電系統(tǒng)

本文采用Python中Tensorflow 2.2.0實(shí)現(xiàn)所提算法,并基于OpenAI Gym標(biāo)準(zhǔn)搭建了ADN有功-無功協(xié)調(diào)優(yōu)化調(diào)度學(xué)習(xí)環(huán)境。同時(shí),為了進(jìn)行潮流計(jì)算判斷收斂性,本文依賴電力系統(tǒng)分析包Pandapower。所有的算例仿真都在Intel(R) Core(TM) i7-11800H處理器2.30 GHz的工作站上進(jìn)行。

3.2 離線訓(xùn)練

本文所提PER-DDPG方法的詳細(xì)參數(shù)設(shè)置如表2所示。在本文所建立的MDP中,動(dòng)作空間同時(shí)存在連續(xù)和離散動(dòng)作。然而PER-DDPG方法只能處理連續(xù)動(dòng)作空間。因此在智能體離線訓(xùn)練之前,本文對(duì)離散動(dòng)作進(jìn)行了連續(xù)化處理,將離散-連續(xù)混合動(dòng)作空間轉(zhuǎn)化成連續(xù)動(dòng)作空間。在使用PER-DDPG方法進(jìn)行訓(xùn)練后,本文再將OLTC和SCB的連續(xù)動(dòng)作值舍入到最近的整數(shù)值。

表2 所提方法參數(shù)設(shè)置

由于PER機(jī)制可以從本文提出的方法中單獨(dú)分離,因此本文將所提PER-DDPG方法與DDPG方法進(jìn)行比較。表3展示了不同方法在離線訓(xùn)練和在線測(cè)試(迭代一次)上的平均耗時(shí)對(duì)比。本文對(duì)每種方法使用不同的隨機(jī)種子運(yùn)行5次,每次離線訓(xùn)練的最大迭代次數(shù)為106。結(jié)果表明,兩種DRL方法均能實(shí)現(xiàn)秒級(jí)在線求解,實(shí)現(xiàn)ADN有功-無功協(xié)調(diào)優(yōu)化在線調(diào)度策略。與DDPG方法相比,本文所提PER-DDPG方法的離線訓(xùn)練時(shí)間和在線測(cè)試時(shí)間更短,計(jì)算資源損耗更小。

本文進(jìn)一步比較了所提PER-DDPG方法和DDPG方法在不同隨機(jī)種子情況下的訓(xùn)練過程性能,如圖4所示。實(shí)線代表各DRL智能體的平均獎(jiǎng)勵(lì)值,陰影部分代表獎(jiǎng)勵(lì)值的波動(dòng)范圍。通過圖4可以看出,在智能體與ADN環(huán)境的交互學(xué)習(xí)過程中,PER-DDPG方法和DDPG方法的獎(jiǎng)勵(lì)值逐步增加,并最終均可收斂到一個(gè)穩(wěn)定值,表明兩種方法均可通過學(xué)習(xí)獲得使ADN日運(yùn)行成本最小的經(jīng)濟(jì)調(diào)度策略。其中,PER-DDPG方法迭代到約2×105次時(shí)出現(xiàn)了一定振蕩,這屬于訓(xùn)練早期智能體探索ADN環(huán)境的正常行為,并不影響其總體收斂性。值得注意的是,PER-DDPG方法迭代到約5.7×104次時(shí)獲得獎(jiǎng)勵(lì)值-19 500,而DDPG方法需要迭代到約17.1×104次時(shí)才能得到相同的獎(jiǎng)勵(lì)值。因此,本文所提PER-DDPG方法的智能體能夠快速學(xué)習(xí)到成功樣本,積累得到一定的成功經(jīng)驗(yàn),從而更迅速學(xué)到ADN有功-無功協(xié)調(diào)調(diào)度策略。此外,基于PER-DDPG方法的最終收斂穩(wěn)定獎(jiǎng)勵(lì)值為-9 500,而DDPG方法的最終穩(wěn)定獎(jiǎng)勵(lì)值相對(duì)較低,為-10 500。因此,本文所提出的PER-DDPG方法具有更快的收斂速度,未來折扣獎(jiǎng)勵(lì)回報(bào)相較DDPG方法提升了9.52%。

圖4 不同算法下的訓(xùn)練過程

3.3 在線測(cè)試表現(xiàn)

在實(shí)驗(yàn)交互過程達(dá)到所設(shè)置的最大迭代次數(shù)后,離線訓(xùn)練過程完成,本文保存此時(shí)訓(xùn)練完成的最優(yōu)神經(jīng)網(wǎng)絡(luò)模型,并在測(cè)試集上進(jìn)行測(cè)試。如圖5所示,測(cè)試集中PER-DDPG方法和DDPG方法的累積運(yùn)行成本分別為243.07萬元和396.27萬元。結(jié)果表明,PER-DDPG方法在一年內(nèi)能夠降低38.66%的ADN運(yùn)行成本,相比之下,DDPG方法效果較為有限。

圖5 不同算法下測(cè)試過程的累計(jì)成本

本文所提PER-DDPG智能體在測(cè)試集中某天的調(diào)度決策結(jié)果如圖6所示。

圖6(a)展示了當(dāng)天WT和PV的有功功率輸出變化。圖6(b)展示了負(fù)荷有功無功功率需求以及電價(jià)變化情況。由圖6(c)可知,智能體在低電價(jià)時(shí)段調(diào)度ESS進(jìn)行充電以儲(chǔ)存能量;而在高電價(jià)時(shí)段,智能體調(diào)度ESS進(jìn)行放電以滿足負(fù)荷運(yùn)行需求,從而降低配變功率峰谷差。由圖6(d)—(e)可知,兩個(gè)MT的功率因數(shù)被限制在0.8以上,智能體根據(jù)當(dāng)前電價(jià)和ADN負(fù)荷需求動(dòng)態(tài)地調(diào)整MT的發(fā)電量。當(dāng)負(fù)荷需求減少或電價(jià)下降時(shí),智能體調(diào)度MT減小發(fā)電量以避免過剩的電力浪費(fèi);而當(dāng)負(fù)荷需求增多或電價(jià)上漲時(shí),智能體調(diào)度MT增大發(fā)電量以緩解ADN的運(yùn)行壓力。在08:00—16:00之間,風(fēng)電和光伏的總有功功率較大,ESS進(jìn)行充電且MT減少輸出功率,以就地消納新能源,減少功率倒送。通過上述調(diào)度方式,一定程度上減小了新能源隨機(jī)性對(duì)配電系統(tǒng)的干擾。

圖6(f)—(g)分別展現(xiàn)了OLTC的擋位及SCB的運(yùn)行數(shù)量變化情況,均滿足調(diào)度周期內(nèi)動(dòng)作次數(shù)不宜過多的規(guī)定。在12:00—17:00時(shí),風(fēng)電和光伏發(fā)電出力較大,SCB減少運(yùn)行數(shù)量,防止因新能源功率倒送引起電壓越限。

不同時(shí)段各節(jié)點(diǎn)的電壓分布情況如圖7所示。由圖7可知,在無功電壓調(diào)節(jié)設(shè)備SCB和OLTC的共同作用下,ADN的各節(jié)點(diǎn)電壓都被限制在安全范圍0.95～1.05 pu內(nèi)。其中,在14:00時(shí)節(jié)點(diǎn)22上的電壓最低,為0.970 7 pu;在15:00時(shí)節(jié)點(diǎn)5上的電壓最高,為1.001 3 pu。

圖7 不同節(jié)點(diǎn)的電壓分布

從算例結(jié)果可以看出,經(jīng)本文提出的PER-DDPG方法離線訓(xùn)練后,智能體能夠在線調(diào)度ESS、MT、OLTC和SCB有功/無功資源動(dòng)作,并與PV及WT協(xié)同作用,以具有成本效益的方式響應(yīng)ADN電力負(fù)荷需求。該方法在新能源消納、削峰填谷和需求響應(yīng)等方面具有良好的效果。

4 結(jié) 論

本文針對(duì)ADN的有功-無功協(xié)調(diào)優(yōu)化調(diào)度問題,在DDPG方法的基礎(chǔ)上添加了PER機(jī)制,提出一種基于深度確定性策略梯度的主動(dòng)配電網(wǎng)有功-無功協(xié)調(diào)優(yōu)化調(diào)度策略?；谒憷治?得到如下結(jié)論:

1)本文所設(shè)計(jì)的MDP模型最大程度地模擬了ADN實(shí)際環(huán)境,不依賴于任何物理模型,避免了對(duì)新能源、負(fù)荷及電價(jià)的不確定性建模,具有實(shí)際應(yīng)用價(jià)值。

2)采用本文所提出的PER-DDPG框架進(jìn)行離線訓(xùn)練得到的最優(yōu)神經(jīng)網(wǎng)絡(luò)模型可以在線生成ADN調(diào)度策略,能夠有效解決電壓和潮流越限的問題,并同時(shí)最小化日常運(yùn)行成本。

3)在離線訓(xùn)練過程中,本文所提PER-DDPG方法相較于DDPG方法具有更高的未來折扣獎(jiǎng)勵(lì)和更快的收斂速度。