基于柔性策略-評(píng)價(jià)網(wǎng)絡(luò)的微電網(wǎng)源儲(chǔ)協(xié)同優(yōu)化調(diào)度策略

2022-01-20 07:05:20劉林鵬朱建全陳嘉俊葉漢芳

電力自動(dòng)化設(shè)備 2022年1期

劉林鵬，朱建全，陳嘉俊，葉漢芳

（華南理工大學(xué)電力學(xué)院，廣東廣州 510640）

0 引言

近年來(lái)，為了實(shí)現(xiàn)可再生能源的就地消納，微電網(wǎng)中可再生能源的占比日益提高［1-2］。為抑制可再生能源的間歇性和隨機(jī)性，維持微電網(wǎng)的穩(wěn)定運(yùn)行，有必要裝設(shè)一定比例的儲(chǔ)能，實(shí)現(xiàn)源儲(chǔ)協(xié)同運(yùn)行［3］。在這種背景下，如何充分地考慮可再生能源與儲(chǔ)能系統(tǒng)的特點(diǎn)，對(duì)微電網(wǎng)進(jìn)行源儲(chǔ)協(xié)同優(yōu)化調(diào)度成為一個(gè)熱點(diǎn)問(wèn)題。

目前，微電網(wǎng)的優(yōu)化調(diào)度問(wèn)題已經(jīng)得到了大量的研究。已有的方法可以分為基于模型的數(shù)學(xué)優(yōu)化算法和無(wú)模型的強(qiáng)化學(xué)習(xí)算法2 類?；谀Ｐ偷臄?shù)學(xué)優(yōu)化算法通常是通過(guò)直接求解集中式的數(shù)學(xué)優(yōu)化問(wèn)題以獲取最優(yōu)策略。例如：文獻(xiàn)［4］將微電網(wǎng)調(diào)度問(wèn)題轉(zhuǎn)化成二次型最優(yōu)控制問(wèn)題，并利用黎卡提方程解的特性對(duì)其進(jìn)行求解；文獻(xiàn)［5］將微電網(wǎng)調(diào)度問(wèn)題轉(zhuǎn)化為二階魯棒優(yōu)化模型，利用列約束生成和強(qiáng)對(duì)偶原理將原問(wèn)題分解后交替求解；文獻(xiàn)［6］使用KKT（Karush-Kuhn-Tucker）條件及二階錐松弛技術(shù)將微電網(wǎng)調(diào)度模型轉(zhuǎn)換為單層的混合整數(shù)線性規(guī)劃問(wèn)題，并調(diào)用CPLEX 求解器對(duì)其進(jìn)行求解；文獻(xiàn)［7］構(gòu)建了微電網(wǎng)雙層調(diào)度模型，并利用交替方向乘子法對(duì)其進(jìn)行求解。上述文獻(xiàn)為求解微電網(wǎng)優(yōu)化調(diào)度問(wèn)題，對(duì)原問(wèn)題中的非凸非線性約束進(jìn)行了一定簡(jiǎn)化處理。這些簡(jiǎn)化處理方法通常建立在一定假設(shè)的基礎(chǔ)上，它們求得的最優(yōu)策略與原問(wèn)題的最優(yōu)策略在某些情況下并不等價(jià)。無(wú)模型的強(qiáng)化學(xué)習(xí)算法將智能體不斷與環(huán)境進(jìn)行交互，通過(guò)觀察交互后得到的結(jié)果改進(jìn)策略。例如：文獻(xiàn)［8］使用基于值的深度Q 網(wǎng)絡(luò)DQN（Deep Q-Network）算法得到了微電網(wǎng)的在線調(diào)度策略；文獻(xiàn)［9］使用基于隨機(jī)性策略的策略-評(píng)價(jià)網(wǎng)絡(luò)AC（Actor-Critic）算法求解微電網(wǎng)的最優(yōu)調(diào)度策略；文獻(xiàn)［10］使用基于確定性策略的深度確定性策略梯度DDPG（Deep Deterministic Policy Gradient）算法求解微電網(wǎng)中共享儲(chǔ)能的最優(yōu)控制問(wèn)題。上述強(qiáng)化學(xué)習(xí)算法相較于基于模型的數(shù)學(xué)優(yōu)化算法的優(yōu)勢(shì)在于其不需要模型的信息，可通過(guò)觀察到的數(shù)據(jù)尋找最優(yōu)策略。此外，其得到的策略泛化能力強(qiáng)，在強(qiáng)隨機(jī)性環(huán)境下有較好的表現(xiàn)［8-9］。盡管強(qiáng)化學(xué)習(xí)方法在微電網(wǎng)優(yōu)化調(diào)度問(wèn)題的求解過(guò)程中有較好的表現(xiàn)，但由于它在訓(xùn)練過(guò)程中為保證智能體的探索性能，往往需要在策略探尋過(guò)程中加入一定的隨機(jī)性，這可能導(dǎo)致所搜尋的策略不滿足約束條件。為解決這個(gè)問(wèn)題，已有的文獻(xiàn)主要采取了以下措施：文獻(xiàn)［11］結(jié)合了壁壘函數(shù)的特性以保證智能體在滿足約束的條件下進(jìn)行策略學(xué)習(xí)；文獻(xiàn)［12］通過(guò)在獎(jiǎng)勵(lì)函數(shù)中設(shè)置懲罰因子，使智能體在學(xué)習(xí)過(guò)程中避開不滿足約束條件的策略；文獻(xiàn)［13］使用元學(xué)習(xí)的方式使得策略更新過(guò)程滿足約束條件。上述方法本質(zhì)上都是通過(guò)無(wú)模型學(xué)習(xí)的方式使得智能體朝著滿足約束條件的方向?qū)Σ呗赃M(jìn)行更新，但這類方法并不能保證所得策略嚴(yán)格滿足約束條件。

針對(duì)以上問(wèn)題，本文結(jié)合有模型的數(shù)學(xué)優(yōu)化與無(wú)模型的強(qiáng)化學(xué)習(xí)的思想，提出了一種基于柔性策略-評(píng)價(jià)網(wǎng)絡(luò)SAC（Soft Actor-Critic）的微電網(wǎng)源儲(chǔ)協(xié)同優(yōu)化調(diào)度方法。一方面，所提方法在不對(duì)原問(wèn)題進(jìn)行簡(jiǎn)化處理的前提下，利用強(qiáng)化學(xué)習(xí)算法將原問(wèn)題分解為多個(gè)子問(wèn)題進(jìn)行求解，并通過(guò)貝爾曼最優(yōu)定理保證了所得策略與原問(wèn)題最優(yōu)策略的等價(jià)性；另一方面，所提方法利用部分模型信息使得策略嚴(yán)格滿足約束條件。此外，為減少智能體在訓(xùn)練過(guò)程中與環(huán)境的交互時(shí)長(zhǎng)，本文提出了一種基于深層長(zhǎng)短期記憶LSTM（Long Short-Term Memory）網(wǎng)絡(luò)的環(huán)境建模方法。

1 微電網(wǎng)源儲(chǔ)協(xié)同調(diào)度模型

1.1 目標(biāo)函數(shù)

以微電網(wǎng)的運(yùn)行成本最小化為目標(biāo)，則有：

式中：Pg，t和Ps，t分別為t時(shí)段機(jī)組g和儲(chǔ)能s的有功出力，Ps，t取值為正時(shí)表示儲(chǔ)能放電，取值為負(fù)時(shí)表示儲(chǔ)能充電，其最大值為Pmaxs；Pl，t為t時(shí)段聯(lián)絡(luò)線l傳輸?shù)挠泄β?，其取值為正時(shí)表示從主網(wǎng)購(gòu)電，取值為負(fù)時(shí)表示向主網(wǎng)售電；og，t為t時(shí)段機(jī)組g狀態(tài)，其取值為0時(shí)表示處于離線狀態(tài)，取值為1時(shí)表示處于工作狀態(tài)；ct為t時(shí)段即時(shí)成本。

1.2 馬爾可夫決策過(guò)程

在利用強(qiáng)化學(xué)習(xí)求解優(yōu)化問(wèn)題時(shí)，需要先將原問(wèn)題構(gòu)建為一個(gè)馬爾可夫決策過(guò)程［14］。本文從時(shí)間維度對(duì)原問(wèn)題進(jìn)行解耦，構(gòu)建了以下的馬爾可夫決策過(guò)程。

1）狀態(tài)。

式中：Pcha，t和Pdis，t分別為t時(shí)段儲(chǔ)能的充電和放電功率；η為儲(chǔ)能的充放電效率系數(shù)；μL，t+1、μwt，t+1、μpv，t+1和μp，t+1分別為分布DL、Dwt、Dpv和Dp的均值；σL，t+1、σwt，t+1、σpv，t+1和σp，t+1分別為分布DL、Dwt、Dpv和Dp的標(biāo)準(zhǔn)差。

4）獎(jiǎng)勵(lì)。

獎(jiǎng)勵(lì)是智能體每次與環(huán)境進(jìn)行交互時(shí)收到的反饋信號(hào)，可用于指導(dǎo)策略的更新方向。為了實(shí)現(xiàn)微電網(wǎng)的運(yùn)行成本最小化，本文將獎(jiǎng)勵(lì)設(shè)置為即時(shí)成本的負(fù)值：

式中：rt為t時(shí)段智能體在狀態(tài)st下做出動(dòng)作at獲得的獎(jiǎng)勵(lì)。

5）環(huán)境。

在本文的微電網(wǎng)源儲(chǔ)協(xié)同優(yōu)化調(diào)度模型問(wèn)題中，智能體所處的環(huán)境為原問(wèn)題在時(shí)間維度解耦后的單時(shí)段優(yōu)化問(wèn)題：

在微電網(wǎng)源儲(chǔ)協(xié)同調(diào)度問(wèn)題中，決策變量包含機(jī)組出力、儲(chǔ)能充放電功率、機(jī)組的啟停狀態(tài)以及聯(lián)絡(luò)線功率。若直接用無(wú)模型的強(qiáng)化學(xué)習(xí)算法搜尋這4 個(gè)變量對(duì)應(yīng)的策略，將無(wú)法保證其搜尋的策略嚴(yán)格滿足約束條件。為解決這一問(wèn)題，將這4個(gè)變量分成了兩部分：一部分為儲(chǔ)能充放電功率和機(jī)組的啟停狀態(tài)，這部分變量通過(guò)強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò)輸出得到；另一部分為機(jī)組的出力和聯(lián)絡(luò)線功率，這部分變量由策略網(wǎng)絡(luò)輸出儲(chǔ)能充放電功率和機(jī)組的啟停狀態(tài)后通過(guò)CPLEX 商業(yè)求解器求解式（10）—（15）組成的單時(shí)段的優(yōu)化問(wèn)題得到。通過(guò)這種方式求解這4個(gè)決策變量可以保證它們嚴(yán)格滿足約束條件。

2 基于SAC的源儲(chǔ)協(xié)同優(yōu)化調(diào)度

2.1 SAC優(yōu)化策略

2.1.1 智能體的目標(biāo)函數(shù)

SAC 算法作為無(wú)模型的強(qiáng)化學(xué)習(xí)算法之一，能夠有效地在模型未知的情況下，通過(guò)不斷地與環(huán)境進(jìn)行交互以搜尋最優(yōu)策略［15］。本文將利用SAC算法學(xué)習(xí)最優(yōu)策略的智能體稱為SAC智能體。在微電網(wǎng)源儲(chǔ)協(xié)同優(yōu)化調(diào)度問(wèn)題中，SAC 智能體的目標(biāo)可定義為最大化智能體調(diào)度周期內(nèi)的總獎(jiǎng)勵(lì)與策略熵的期望值［16］：

通過(guò)求解式（18）所示的目標(biāo)函數(shù)，所得策略便可實(shí)現(xiàn)總獎(jiǎng)勵(lì)的最大化（即運(yùn)行成本最小化）。另一方面，由于目標(biāo)函數(shù)考慮了將策略熵最大化，所得策略具有更強(qiáng)的探索性能以及更好的魯棒性。

2.1.2 智能體結(jié)構(gòu)

式中：γ為獎(jiǎng)勵(lì)折扣系數(shù)。

根據(jù)貝爾曼方程，可以推導(dǎo)出狀態(tài)-動(dòng)作值函數(shù)Qπ(st，at)的遞歸方程為［14］：

2.1.3 評(píng)價(jià)網(wǎng)絡(luò)的參數(shù)更新

對(duì)于評(píng)價(jià)網(wǎng)絡(luò)，其參數(shù)是朝著真實(shí)狀態(tài)-動(dòng)作值函數(shù)的方向更新的。因此，基于式（21）以及時(shí)序差分算法可得SAC 智能體評(píng)價(jià)網(wǎng)絡(luò)的參數(shù)更新公式為［17］：

式中：θQ和θπ分別為評(píng)價(jià)網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的參數(shù)，可利用文獻(xiàn)［18］所提的小批量梯度下降法分別求解式（22）和式（24）以獲得θQ和α的更新值；H′為目標(biāo)策略熵；M為小批量更新的樣本數(shù)量；i表示樣本編號(hào)，每個(gè)樣本由(si，ai，ri，s′i)構(gòu)成，其中s′i為轉(zhuǎn)移后狀態(tài)；a′i為智能體在s′i下根據(jù)當(dāng)前策略所得動(dòng)作。智能體每次與環(huán)境進(jìn)行交互時(shí)均會(huì)產(chǎn)生一個(gè)樣本，并將其存入經(jīng)驗(yàn)回放池中［19］。

2.1.4 策略網(wǎng)絡(luò)的參數(shù)更新

對(duì)于策略網(wǎng)絡(luò)，其參數(shù)是朝著最大化總獎(jiǎng)勵(lì)和策略熵的方向進(jìn)行更新的。因此，可利用梯度上升法求解式（25）對(duì)其參數(shù)θπ進(jìn)行更新。

SAC 智能體不斷地與環(huán)境進(jìn)行交互產(chǎn)生新的樣本并存入經(jīng)驗(yàn)回放池中，且每次與環(huán)境進(jìn)行交互后都根據(jù)經(jīng)驗(yàn)回放池中的樣本對(duì)評(píng)價(jià)網(wǎng)絡(luò)和策略網(wǎng)絡(luò)進(jìn)行一次參數(shù)更新。在超參數(shù)設(shè)置合理的前提下，通過(guò)一定次數(shù)的交互訓(xùn)練后，SAC 智能體的策略最終可收斂到最優(yōu)策略［20］。

通過(guò)這種方式，可以將原問(wèn)題分解為多個(gè)子問(wèn)題求解。根據(jù)貝爾曼最優(yōu)定理，所得策略與原問(wèn)題最優(yōu)策略具有等價(jià)性，相關(guān)證明見(jiàn)附錄B。

2.2 基于深層LSTM網(wǎng)絡(luò)的環(huán)境建模

由于SAC 智能體每次與環(huán)境進(jìn)行交互時(shí)，都需要求解一個(gè)由式（10）—（16）組成的單時(shí)段優(yōu)化問(wèn)題，這將導(dǎo)致訓(xùn)練的時(shí)間大幅增加。為加快SAC 智能體的訓(xùn)練速度，本文利用深層LSTM 網(wǎng)絡(luò)對(duì)環(huán)境進(jìn)行建模。

深層LSTM 神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)RNN（Recurrent Neural Network）的一種類型，其基本結(jié)構(gòu)如附錄C 圖C1所示。從圖中可以看出，RNN 的隱藏層包含了當(dāng)前時(shí)刻的輸入信息以及上一時(shí)刻的輸入信息，因此它具有記憶功能。為解決RNN 的梯度爆炸和消失問(wèn)題，LSTM 對(duì)RNN 進(jìn)行了改進(jìn)，其結(jié)果如附錄C 圖C2 所示，圖中σ表示Logistic 函數(shù)，輸出區(qū)間為（0，1）。LSTM 在RNN 的基礎(chǔ)上引入內(nèi)部狀態(tài)ct，用于傳遞循環(huán)信息，引入外部狀態(tài)ht用于接收內(nèi)部狀態(tài)傳遞的信息，具體如下：

式中：⊙表示向量元素相乘；ft、it、ot分別為遺忘門、輸入門和輸出門，它們控制其對(duì)應(yīng)的信息通過(guò)比例，且ft、it、ot中各元素取值范圍為［0，1］；Wc、Uc和bc為可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)參數(shù)。

與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)類似，使用小批量梯度下降法更新LSTM網(wǎng)絡(luò)參數(shù)θn：

式中：K為小批量樣本數(shù)目；xj、yj分別為樣本j的特征與標(biāo)簽；y?j為樣本j的LSTM 網(wǎng)絡(luò)輸出量；β為學(xué)習(xí)率。

3 算例分析

3.1 參數(shù)設(shè)置

以圖1 所示的微電網(wǎng)為例對(duì)所提方法進(jìn)行測(cè)試，相關(guān)參數(shù)見(jiàn)附錄D。評(píng)價(jià)網(wǎng)絡(luò)與策略網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)以及用于環(huán)境建模的深層LSTM 網(wǎng)絡(luò)超參數(shù)見(jiàn)附錄E。所有算例均基于MATLAB R2021a實(shí)現(xiàn)，并在64位Windows系統(tǒng)、Intel Core i7-6700K@3.7 GHz的環(huán)境下運(yùn)行。

圖1 微電網(wǎng)結(jié)構(gòu)Fig.1 Structure of microgrid

由于深層LSTM 網(wǎng)絡(luò)的訓(xùn)練是一種“端到端”的有監(jiān)督學(xué)習(xí)方法，因此在訓(xùn)練前，首先需要準(zhǔn)備一定數(shù)量的樣本。本文通過(guò)CPLEX 商業(yè)求解器求解1 000 個(gè)不同場(chǎng)景下由式（10）—（16）組成的優(yōu)化問(wèn)題，得到了1 000 個(gè)樣本，并將90%的樣本作為訓(xùn)練集，用于訓(xùn)練深層LSTM 網(wǎng)絡(luò)；將其余10%的樣本作為測(cè)試集，用于測(cè)試模型的準(zhǔn)確性。每個(gè)樣本包含了用于訓(xùn)練的標(biāo)簽和特征，其中標(biāo)簽為ct，特征為{Ps，t，og，t+1，ES，t，pt，Pwt，t，Ppv，t，Lt，og，t}。

3.2 智能體的離線訓(xùn)練過(guò)程

為驗(yàn)證SAC 智能體在隨機(jī)環(huán)境下的學(xué)習(xí)能力，假設(shè)負(fù)荷、風(fēng)電出力、光伏出力和電價(jià)分別服從式（31）—（34）中均值和標(biāo)準(zhǔn)差的高斯分布。

圖2 展示了SAC 智能體在設(shè)置的隨機(jī)環(huán)境訓(xùn)練時(shí)，微電網(wǎng)的運(yùn)行成本期望隨訓(xùn)練次數(shù)增加而變化的過(guò)程，其中該期望值通過(guò)最近100 次訓(xùn)練結(jié)果的平均值近似表示。從圖2 中可以看出：在訓(xùn)練前期，微電網(wǎng)運(yùn)行成本的期望值隨著訓(xùn)練次數(shù)的增加而降低；在完成2 400 次訓(xùn)練之后，微電網(wǎng)運(yùn)行成本的期望值基本保持不變，因此可以認(rèn)為此時(shí)SAC 智能體找到了近似最優(yōu)策略。

圖2 SAC智能體訓(xùn)練過(guò)程Fig.2 Training process of SAC agent

為驗(yàn)證本文所提方法的優(yōu)勢(shì)，圖3 展示了無(wú)模型的SAC智能體在設(shè)置的隨機(jī)環(huán)境訓(xùn)練時(shí)的運(yùn)行成本變化情況。其中，無(wú)模型的SAC 智能體采用了文獻(xiàn)［12］中的方法，在獎(jiǎng)勵(lì)函數(shù)中對(duì)于不滿足約束條件的策略設(shè)置了懲罰因子。在本算例中，對(duì)不滿足式（12）的策略增加一個(gè)值為$200 的懲罰成本。從圖3 中可以看出，這種在獎(jiǎng)勵(lì)函數(shù)中增加懲罰因子的無(wú)模型強(qiáng)化學(xué)習(xí)方法無(wú)法保證策略嚴(yán)格滿足約束條件，造成其運(yùn)行成本產(chǎn)生較大波動(dòng)。

圖3 無(wú)模型的SAC智能體訓(xùn)練過(guò)程Fig.3 Training process of model-free SAC agent

3.3 智能體在線決策分析

將離線訓(xùn)練后的SAC智能體用于微電網(wǎng)源儲(chǔ)協(xié)同優(yōu)化調(diào)度的在線決策，并與短視（myopic）策略進(jìn)行對(duì)比。其中，短視策略通過(guò)求解式（35）中的單時(shí)段優(yōu)化問(wèn)題得到。

圖4 展示了2 種策略連續(xù)進(jìn)行1 個(gè)月的在線決策的情況。從圖中可以看出，所提方法的優(yōu)化效果明顯優(yōu)于短視策略。采用短視策略時(shí)，微電網(wǎng)在該月運(yùn)行成本均值為$766.90；而采用本文策略后，微電網(wǎng)在該月運(yùn)行成本均值為$726.36（比短視策略所得運(yùn)行成本降低了5.29%），這主要得益于本文所提的方法具有遠(yuǎn)視能力，能全局考慮調(diào)度周期內(nèi)的情況以獲得更優(yōu)的結(jié)果。

圖4 運(yùn)行1個(gè)月的結(jié)果對(duì)比Fig.4 Comparison of results in a month

進(jìn)一步地，圖5 以第一天的在線決策結(jié)果為例，詳細(xì)展示了采用本文所提方法進(jìn)行在線決策時(shí)各時(shí)段的狀態(tài)變量以及動(dòng)作變量情況?？梢园l(fā)現(xiàn)，在電價(jià)較低時(shí)，微電網(wǎng)需要從主網(wǎng)購(gòu)電以滿足負(fù)荷需求。由于此時(shí)微電網(wǎng)自備機(jī)組的運(yùn)行成本比購(gòu)電成本高，所以發(fā)電機(jī)處于停機(jī)狀態(tài)。另一方面，儲(chǔ)能選擇在電價(jià)較低時(shí)盡可能充電，隨后在電價(jià)較高時(shí)放電以獲取更高的利益。

圖5 日內(nèi)在線決策結(jié)果Fig.5 Intra-day online decision results

3.4 LSTM網(wǎng)絡(luò)環(huán)境建模分析

為測(cè)試本文所提的LSTM 網(wǎng)絡(luò)環(huán)境建模方法的有效性，將基于原環(huán)境和深層LSTM 網(wǎng)絡(luò)模型得到的微電網(wǎng)的源儲(chǔ)協(xié)同優(yōu)化調(diào)度策略進(jìn)行對(duì)比分析。

圖6 展示了不同測(cè)試場(chǎng)景下基于原環(huán)境和深層LSTM 網(wǎng)絡(luò)模型得到的成本對(duì)比情況。從圖中可以看出，基于深層LSTM 模型的輸出成本曲線與基于原環(huán)境的成本曲線基本重合，均方根誤差僅為0.315 3，這說(shuō)明深層LSTM 模型所建的環(huán)境與原環(huán)境近似等效。

圖6 深層LSTM網(wǎng)絡(luò)誤差分析Fig.6 Error analysis of deep LSTM network

表1 進(jìn)一步對(duì)比了SAC 智能體在原環(huán)境與深層LSTM 網(wǎng)絡(luò)所建環(huán)境下的離線訓(xùn)練時(shí)長(zhǎng)以及在線決策的平均成本。從表中可見(jiàn)，深層LSTM 網(wǎng)絡(luò)所構(gòu)建的環(huán)境減少了80.03%的離線訓(xùn)練時(shí)長(zhǎng)，而在線決策平均成本僅與原環(huán)境相差0.01%。這表明所提深層LSTM 網(wǎng)絡(luò)環(huán)境建模在不影響在線決策精度的前提下，顯著減少了智能體的離線訓(xùn)練時(shí)長(zhǎng)。需要說(shuō)明的是，盡管智能體的離線訓(xùn)練時(shí)間較長(zhǎng)，但在在線決策階段，由于可以直接利用離線訓(xùn)練好的策略網(wǎng)絡(luò)進(jìn)行決策，其耗時(shí)僅為0.41 s，因而可以滿足在線決策的需求。

表1 2種環(huán)境模型效果對(duì)比Table 1 Comparison of effects between two environment models

4 結(jié)論

本文提出了一種基于SAC的微電網(wǎng)源儲(chǔ)協(xié)同調(diào)度策略，得到的主要結(jié)論如下：

1）所提方法能夠通過(guò)不斷地與環(huán)境進(jìn)行交互的方式獲得最優(yōu)策略，并基于部分模型信息進(jìn)行策略搜尋，確保所得策略滿足安全約束；

2）所提環(huán)境建模方法在不影響策略準(zhǔn)確性的前提下，減少了SAC智能體的訓(xùn)練時(shí)長(zhǎng)，提高了SAC智能體的學(xué)習(xí)效率；

3）所提方法對(duì)模型信息的依賴程度較低，僅用時(shí)0.41 s 便可獲得顯著優(yōu)于短視策略的解，可以較好地滿足微電網(wǎng)源儲(chǔ)協(xié)同調(diào)度的在線決策要求。

附錄見(jiàn)本刊網(wǎng)絡(luò)版（http：//www.epae.cn）。