基于PSO-DDPG算法的光儲充電站實時控制策略研究

2023-09-08 08:52:24張帥劉界江蘇雨婷

機電信息 2023年17期

張帥劉界江蘇雨婷

摘要：“雙碳”背景下，光儲充電站逐漸成為未來充電站的一種主流形式。為提高光儲充電站的經(jīng)濟效益并降低二氧化碳排放，提出了一種基于改進深度強化學習的光儲充電站實時控制策略。首先，建立以碳排放最小與運行成本最低為目標的優(yōu)化模型并將其轉(zhuǎn)換為馬爾可夫決策過程；其次，提出了一種基于經(jīng)驗繼承機制的粒子群優(yōu)化-深度確定性策略梯度算法（Particle Swarm Optimization-Deep Deterministic Policy Gradient，PSO-DDPG）；最后，考慮動態(tài)碳排放因子開展算例分析，驗證了所提PSO-DDPG策略的有效性。

關(guān)鍵詞：光儲充電站；實時控制策略；深度強化學習；粒子群優(yōu)化算法；深度確定性策略梯度

中圖分類號：U469.72；TM73? ? 文獻標志碼：A? ? 文章編號：1671-0797（2023）17-0005-04

DOI：10.19514/j.cnki.cn32-1628/tm.2023.17.002

0? ? 引言

隨著電動汽車（Electric Vehicle，EV）保有量的快速增長，公共充電設(shè)施得到了越來越多的關(guān)注[1]。常規(guī)的電動汽車充電站（Charging Station，CS）僅通過向電網(wǎng)購電、向電動汽車用戶售電來實現(xiàn)盈利，但其充電負荷可調(diào)節(jié)性差，晚間充電負荷與居民負荷疊加易形成“峰上加峰”現(xiàn)象[2-3]。在此背景下，一種在站內(nèi)配置了光伏（Photovoltaic，PV）與儲能系統(tǒng)（Energy Storage System，ESS）的光儲充電站得到了發(fā)展。光伏系統(tǒng)的加入提高了充電站的能源自給率與碳減排效益，而儲能系統(tǒng)的調(diào)節(jié)作用起到了平滑配網(wǎng)（Distribution Network，DN）供電功率和削峰填谷的作用。然而，光伏出力受多重因素影響，具有實時波動的特點，而電動汽車的隨機充電行為更加大了對光儲充電站實時調(diào)度的難度[4-5]。因此，本文提出了一種融合啟發(fā)式算法與深度強化學習算法的光儲充電站實時控制策略，通過粒子群算法（Particle Swarm Optimization，PSO）拓展深度確定性策略梯度函數(shù)（Deep Deterministic Policy Gradient，DDPG）的探索性能，提高控制策略的求解質(zhì)量與實時性能。

1? ? 光儲充電站能量實時控制策略

為充分發(fā)揮光儲充電站的節(jié)能減排效益，選取充電站碳排放量最小與運行成本最低為優(yōu)化目標，建立光儲充電站能量調(diào)度模型。此外，為提高所建立優(yōu)化模型對復雜工況的實時應(yīng)對性能，本文進一步將該優(yōu)化模型建立為馬爾可夫決策過程（Markov Decision Process，MDP）[6]。

1.1? ? 光儲充電站能量調(diào)度模型

1.1.1? ? 目標函數(shù)

1）碳排放最小。為充分消納光伏，提高充電站的能源自給率與碳減排效益，本文考慮電網(wǎng)動態(tài)二氧化碳排放因子，將充電站碳排放最小作為優(yōu)化目標之一。

式中：γ 為電網(wǎng)在不同時間段的碳排放系數(shù)；Pt DN為光儲充電站向配電網(wǎng)的購電功率；T為一天總時間段；Δt為時間步長。

2）運行成本最低。光儲充電站通過能量管理系統(tǒng)對站內(nèi)能量流動進行控制，從而降低整站的運行成本，其中運行成本可以分為向電網(wǎng)購電成本以及儲能損耗成本兩部分：

式中：C1與C2為購電成本以及儲能損耗成本；γt TOU為電網(wǎng)工業(yè)分時電價（Time of Use，TOU）；Pt DN為電網(wǎng)向光儲充電站提供的有功功率大小；γESS為由儲能充放電帶來的損耗系數(shù)；Pt ESS為儲能系統(tǒng)的充放電功率，充電時為正，放電時為負。

1.1.2? ? 約束條件

1）充電站功率平衡：

式中：Pt EV為t時刻電動汽車充電負荷；Pt PV為光伏出力。

上式中等號左側(cè)代表受電端，右側(cè)代表送電端。

2）儲能運行約束：

式中：St ESS與St-1 ESS分別為儲能系統(tǒng)t時刻與t-1時刻的電池荷電狀態(tài)（State of Charge，SOC）；Pt-1 ESS為t-1時刻儲能系統(tǒng)充放電功率；EESS為儲能電池容量；Smin ESS與Smax ESS分別為儲能系統(tǒng)最小與最大SOC。

3）電網(wǎng)供電功率約束：

式中：Ptr與PAD分別為充電站所配置的變壓器與AC/DC模塊的額定容量[7]。

4）電動汽車充電約束：

式中：Si set與Si end分別為用戶i到站設(shè)置的期望SOC與離站時的實際車輛SOC；

EV為電動汽車用戶集合。

1.2? ? 基于MDP的能量實時控制策略

為提高所提策略的實時性能，本文將所建立的優(yōu)化模型轉(zhuǎn)換為馬爾可夫決策過程，其核心思想如圖1所示。在訓練過程中，智能體從環(huán)境中捕捉實時狀態(tài)st，依據(jù)當前策略做出控制動作at從而改變當前環(huán)境，而后通過獎勵rt給予智能體實時反饋，引導智能體獲得更高的獎勵值以及更優(yōu)越的控制策略。

1）狀態(tài)st代表MDP模型中環(huán)境的實時信息。本文從電網(wǎng)、光伏、儲能、用戶四個角度構(gòu)建智能體的狀態(tài)空間，狀態(tài)st為：

2）動作at是針對環(huán)境狀態(tài)st所做出的控制決策。本文將儲能充放電功率以及用戶充電樁功率作為控制動作，即：

式中：Pi，t CH為用戶i所接入充電樁的輸出功率；χi，t為充電樁開關(guān)控制變量：

1，充電狀態(tài)（13）

3）獎勵rt是環(huán)境對智能體動作at的及時反饋。依據(jù)上文建立的優(yōu)化模型，本文設(shè)計獎勵rt包含二氧化碳排放成本C以及運行成本兩項，其中運行成本包含購電成本C1與儲能損耗成本C2：

式中：π為二氧化碳排放成本系數(shù)。

2? ? 基于PSO-DDPG的求解算法

DDPG是一種基于Actor-Critic架構(gòu)的深度強化學習算法，其在連續(xù)動作空間問題上具有良好的學習性能。然而，DDPG算法訓練過程中的梯度方向固定，僅與所抽取的mini-batch中的樣本有關(guān)，這導致算法缺乏探索性，最終訓練的智能體容易陷入局部最優(yōu)。為此，本文提出了一種基于樣本繼承機制的PSO-DDPG算法，通過引入粒子群算法提高DDPG算法的探索性能。

2.1? ? PSO算法基本原理

作為一種經(jīng)典的群體智能算法，PSO算法通過模擬自然界的鳥群捕食來實現(xiàn)優(yōu)化問題的求解。具體而言，粒子群中的所有粒子都被分配了速度與位置，通過粒子個體在解空間單獨尋優(yōu)Pi，k best，進而求得全局最優(yōu)解Gk best。在迭代過程中，粒子的位置xi，k與速度vi，k可由下式更新：

式中：ω為慣性因子；c1與c2分別為代表個體學習與群體學習的加速因子；ξ1與ξ2為[0，1]區(qū)間的隨機數(shù)，賦予了PSO算法空間探索能力。

2.2? ? DDPG算法基本原理

DDPG算法通過Actor網(wǎng)絡(luò)μ（s|θμ）、目標Actor網(wǎng)絡(luò)μ′（s|θμ′）、Critic網(wǎng)絡(luò)Q（s，a|θQ）與目標Critic網(wǎng)絡(luò)Q′（s，a|θQ′）實現(xiàn)智能體的訓練。在訓練過程中，Critic網(wǎng)絡(luò)通過損失函數(shù)LQ更新網(wǎng)絡(luò)參數(shù)：

式中：Nb為mini-batch容量；yj為目標Q值；sj、aj、rj、sj+1分別為訓練樣本（sj，aj，rj，sj+1）中的狀態(tài)、動作、獎勵與下一時刻狀態(tài)；γ為折扣率。

Actor網(wǎng)絡(luò)基于確定性策略梯度損失函數(shù)[Δ]J更新網(wǎng)絡(luò)參數(shù)：

式中：[Δ]aQ（sj，aj|θQ）表示Critic網(wǎng)絡(luò)對決策動作求梯度；[Δ] μ（sj|θμ）表示Actor網(wǎng)絡(luò)對網(wǎng)絡(luò)參數(shù)求梯度。

而后，兩個目標網(wǎng)絡(luò)采用軟更新方式更新網(wǎng)絡(luò)參數(shù)，具體如式（21）所示：

式中：τ為軟更新系數(shù)；θμ，k與θμ′，k分別為Actor與目標Actor網(wǎng)絡(luò)在第k回合的網(wǎng)絡(luò)參數(shù)；θQ，k與θQ′，k分別為Critic與目標Critic網(wǎng)絡(luò)在第k回合的網(wǎng)絡(luò)參數(shù)。

2.3? ? PSO-DDPG算法訓練流程

為解決DDPG算法探索性能不足的局限，本文提出了一種PSO-DDPG算法，其訓練流程如圖2所示。首先，基于PSO算法對光儲充電站隨機場景進行求解，將滿足精度要求的全局最優(yōu)解Gk best對應(yīng)的樣本存入經(jīng)驗池中，直至達到PSO模塊的最大回合NP。其次，運行DDPG算法模塊，智能體觀測充電站狀態(tài)st，做出對儲能系統(tǒng)與充電樁的控制動作at，在得到獎勵后將樣本存入經(jīng)驗池。然后，從PSO與DDPG的混合經(jīng)驗池中隨機抽取mini-batch樣本（sj，aj，rj，sj+1）更新Critic與Actor，并進一步軟更新兩個目標網(wǎng)絡(luò)。最后，重復DDPG的訓練流程直至達到最大回合ND。這樣，探索性能優(yōu)越的PSO算法通過經(jīng)驗池將樣本繼承給DDPG智能體，增強了DDPG的探索性能與全局尋優(yōu)能力。

3? ? 算例分析

3.1? ? 參數(shù)設(shè)置

為了便于算例的量化分析，對光儲充電站設(shè)定如下條件：1）儲能容量取300 kW·h，額定充放電功率120 kW，光伏容量200 kW，站內(nèi)配置了12個60 kW快充樁；2）儲能損耗系數(shù)取0.06元/（kW·h），電網(wǎng)不同時段碳排放系數(shù)如圖3所示[7]，二氧化碳排放成本系數(shù)為0.04元/kg[8]。

3.2? ? 訓練過程分析

設(shè)PSO算法的種群規(guī)模為100，最大迭代次數(shù)為200，慣性因子取0.8，個體與群體加速因子均取1.8。此外，設(shè)DDPG算法折扣率為0.99，學習率為0.000 5，mini-batch容量為100，經(jīng)驗池容量為12 000，最大訓練次數(shù)為1 000，可得所提PSO-DDPG算法的訓練曲線如圖4所示。從圖中可見，智能體訓練獎勵曲線快速上升，并在300回合左右進入穩(wěn)定范圍，獎勵曲線最終在-6.96左右小幅振蕩，證明了所提算法能夠通過PSO經(jīng)驗繼承機制快速幫助智能體探索訓練環(huán)境。

3.3? ? 策略有效性分析

光儲充電站在無序與有序場景下的功率曲線如圖5所示，無序與有序場景的成本對比如表1所示。

由圖5（a）可見，無序場景的功率控制邏輯是當有充電負荷時先由光伏供電，光伏不足時由儲能系統(tǒng)供電，而站內(nèi)光儲無法滿足充電需求則由電網(wǎng)供電，這導致充電站未完全發(fā)揮光儲的協(xié)調(diào)互補功能，全天向電網(wǎng)購電918.30 kW·h，花費662.78元。而所提策略充分發(fā)揮了儲能與充電樁的靈活調(diào)節(jié)能力，不僅削減了最大充電負荷，同時購電費用僅為499.04元，相較于前者降低了24.71%。值得注意的是，所提策略的儲能損耗成本要高于無序場景，這主要是由于對儲能更頻繁的調(diào)度，盡管如此，相較于購電成本的降低，儲能損耗增加21.94元仍是可以接受的。以上結(jié)果驗證了所提PSO-DDPG策略能夠更好地發(fā)揮儲能的靈活調(diào)整作用，利用峰谷電價降低光儲充電站的整體運行成本。

4? ? 結(jié)束語

在“雙碳”背景下，光伏等分布式可再生能源與電動汽車的協(xié)調(diào)發(fā)展無疑是大勢所趨。針對光儲充電站，本文提出了一種基于PSO改進深度強化學習的算法，基于經(jīng)驗繼承機制提高DDPG智能體的探索性能與求解能力。通過算例結(jié)果發(fā)現(xiàn)，本文所提PSO-DDPG策略能夠有效完成光儲充電站的實時能量控制，相較于無序場景降低了24.71%的購電成本，并能夠降低二氧化碳排放。下一步將考慮電動汽車集群的V2G能力，進一步優(yōu)化所提策略。

[參考文獻]

[1] 徐昌寶，丁健，宋宏劍，等.計及電能質(zhì)量約束的充電設(shè)施布局優(yōu)化方法[J].電氣傳動，2022，52（22）：51-59.

[2] 蔣林洳，龍羿，李興源，等.基于實測數(shù)據(jù)的多類型電動汽車充電負荷分析[J].電測與儀表，2023，60（1）：36-41.

[3] DABBAGHJAMANESH M，MOEINI A，KAVOUSI-FARD A.Reinforcement Learning-Based Load Forecasting of Electric Vehicle Charging Station Using Q-Learning Technique[J].IEEE Transactions on Industrial Informatics，2021，17（6）：4229-4237.

[4] KABIR M E，ASSI C，TUSHAR M H K，et al.Optimal Scheduling of EV Charging at a Solar Power-Based Charging Station[J].IEEE Systems Journal，2020，14（3）：4221-4231.

[5] 薛貴挺，汪柳君，劉哲，等.考慮碳排放的光儲充一體站日前運行策略[J].電力系統(tǒng)保護與控制，2022，50（7）：103-110.

[6] 倪爽，崔承剛，楊寧，等.基于深度強化學習的配電網(wǎng)多時間尺度在線無功優(yōu)化[J].電力系統(tǒng)自動化，2021，45（10）：77-85.

[7] 付張杰，王育飛，薛花，等.基于NSGA-Ⅲ與模糊聚類的光儲式充電站儲能系統(tǒng)優(yōu)化運行方法[J].電力建設(shè)，2021，42（3）：27-34.

[8] 趙乃新，顧文波，美合日阿依·穆太力普.考慮低碳經(jīng)濟運行的四聯(lián)供綜合能源系統(tǒng)優(yōu)化調(diào)度[J].熱力發(fā)電，2023，52（4）：54-62.

收稿日期：2023-05-18

作者簡介：張帥（1995—），女，湖北人，助理工程師，研究方向：電力系統(tǒng)及其自動化。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于PSO-DDPG算法的光儲充電站實時控制策略研究