劉帥,孔亮,劉自發(fā),李玉文,陳逸軒
(1. 國網(wǎng)山東省電力公司威海供電公司,山東省威海市 264200;2.華北電力大學電氣與電子工程學院,北京市 102206)
輸電網(wǎng)規(guī)劃包括對輸電網(wǎng)網(wǎng)架結(jié)構(gòu)和輸電線路容量進行規(guī)劃,目的是達到相應(yīng)時期輸電能力要求,同時滿足可靠性指標和經(jīng)濟性優(yōu)化,是電力系統(tǒng)規(guī)劃的重要組成部分,也是保障電力系統(tǒng)健康發(fā)展的重要工作。在高比例可再生能源并網(wǎng)與智能電網(wǎng)快速發(fā)展的背景下,電力系統(tǒng)不確定性進一步增加[1],不確定性問題給輸電網(wǎng)規(guī)劃帶來重大挑戰(zhàn),傳統(tǒng)的規(guī)劃方法已經(jīng)無法適用新形態(tài)下的輸電網(wǎng)規(guī)劃,需要更加完善的規(guī)劃方法來滿足電力系統(tǒng)發(fā)展的需求。
輸電網(wǎng)規(guī)劃的傳統(tǒng)確定性方法存在一定的弊端,如無法處理規(guī)劃中的不確定因素、靈活性差、與其他方法配合較差等。考慮到電力系統(tǒng)對靈活性和適應(yīng)性的更高要求,就必須要研究新的輸電網(wǎng)規(guī)劃方法。電網(wǎng)柔性規(guī)劃將不確定因素引入規(guī)劃模型和過程中,以尋求靈活性更強、適應(yīng)性更好的規(guī)劃方案。電網(wǎng)柔性規(guī)劃的研究成果包括基于多場景技術(shù)的電網(wǎng)規(guī)劃模型和基于不確定理論的電網(wǎng)規(guī)劃模型。
文獻[2]基于未來場景的不確定性,從場景的發(fā)生概率出發(fā),提出了造價期望最優(yōu)模型和各場景最優(yōu)方案綜合偏離程度最小模型。文獻[3]以場景分析和概率計算的方式描述不確定性因素,快速準確地得到基于決策者偏好的輸電網(wǎng)柔性規(guī)劃方案。文獻[4]采用多場景概率法分析不確定性數(shù)據(jù)并劃分出多種場景,計算場景概率并得到輸電網(wǎng)擴展規(guī)劃模型。文獻[5]采用多場景方法處理未來電網(wǎng)規(guī)劃中的不確定性因素,以各場景下最優(yōu)方案的最小期望投資悔值為目標函數(shù)并進行求解。
基于多場景技術(shù)的電網(wǎng)規(guī)劃模型研究了不確定規(guī)劃問題的普遍解決方案,即將不確定因素轉(zhuǎn)化為多個確定性場景,計算較為簡單。但該方法也存在一定弊端。其中,基于場景發(fā)生概率的規(guī)劃方法沒有考慮場景中各種因素的關(guān)聯(lián)性,增加了場景數(shù)和計算量;基于決策偏好的場景技術(shù)憑決策者的喜好處理規(guī)劃問題,主觀色彩較強,不利于實際應(yīng)用;基于最小期望悔值的規(guī)劃方法以犧牲經(jīng)濟性來提高規(guī)劃方案的適應(yīng)性和魯棒性,電網(wǎng)規(guī)劃的結(jié)果可能產(chǎn)生大量的冗余線路。
為獲得更為安全、經(jīng)濟的輸電網(wǎng)規(guī)劃方案,學者們將概率論、模糊集理論、可信性理論、區(qū)間理論等不確定理論引入輸電網(wǎng)規(guī)劃中,提出了考慮各類不確定因素的輸電網(wǎng)規(guī)劃模型。
文獻[6]提出了區(qū)間負荷下的輸電網(wǎng)規(guī)劃模型,并基于改進的分支定界法給出了區(qū)間至多切負荷量的快速評估方法。文獻[7]對灰信息進行確定化處理并求解若干個確定性信息下的規(guī)劃模型,得到灰數(shù)模型下的最優(yōu)規(guī)劃方案。文獻[8]采用基于聯(lián)系數(shù)的輸電網(wǎng)規(guī)劃模型,根據(jù)聯(lián)系數(shù)四則運算得到考慮聯(lián)系數(shù)的直流潮流以獲得最優(yōu)輸電網(wǎng)規(guī)劃方案。
綜上所述,雖然基于不確定理論的輸電網(wǎng)規(guī)劃方法已有大量成果,但仍存在一些問題:現(xiàn)有規(guī)劃方法大多是建立在某一斷面的基礎(chǔ)上,在多場景情況下存在靈活性、適應(yīng)性不足的問題;規(guī)劃模型中較少考慮不確定因素的相互耦合關(guān)系。
深度強化學習屬于機器學習的一種,能夠自行與環(huán)境交互產(chǎn)生樣本,并用以對自身的網(wǎng)絡(luò)結(jié)構(gòu)進行訓練。該方法目前在多個領(lǐng)域有所應(yīng)用,一些學者也已經(jīng)將深度強化學習應(yīng)用于電力系統(tǒng)問題研究中。文獻[9]應(yīng)用深度策略梯度模型進行建筑能量管理調(diào)度優(yōu)化,該方法比常規(guī)方法能更有效地節(jié)省成本;文獻[10]應(yīng)用深度強化學習優(yōu)化微電網(wǎng)儲能調(diào)度。然而,目前深度學習在電力系統(tǒng)中的應(yīng)用僅限于調(diào)度問題,并不包括電力系統(tǒng)規(guī)劃問題。
本文首先提出基于信息熵的典型場景提取方法(typical scenario set with entropy,TSSE),引入場景信息熵的概念進行典型場景提取。得到多場景集合后,再將提取到的場景輸入規(guī)劃模型,得到基于多場景的輸電網(wǎng)靈活規(guī)劃模型。接著采用深度強化學習的方法,提出一種適用于輸電網(wǎng)規(guī)劃的改進指針網(wǎng)絡(luò)模型(revised pointer network,RPN),并進一步使用深度強化學習中的Actor-Critic方法對網(wǎng)絡(luò)進行訓練。應(yīng)用改進指針網(wǎng)絡(luò)與Actor-Critic結(jié)合的方法(revised pointer network with Actor-Critic, RPNAC)對電力系統(tǒng)規(guī)劃問題進行求解,以解決傳統(tǒng)輸電網(wǎng)規(guī)劃方法靈活性、適應(yīng)性較差及運算效率較低的問題。
首先提出基于信息熵的典型場景提取方法,引入場景信息熵的概念,提取生成包含風電、光伏、負荷的多種典型場景。得到多場景集合后,再將提取到的場景輸入規(guī)劃模型,最后得到基于多場景的輸電網(wǎng)靈活規(guī)劃模型。本文主要應(yīng)用文獻[11]提出的輸電網(wǎng)柔性約束規(guī)劃模型,在此基礎(chǔ)上實現(xiàn)基于多場景的輸電網(wǎng)靈活規(guī)劃。
場景法主要用于對電力系統(tǒng)內(nèi)的不確定性因素進行定量分析。通過將不確定性因素的概率分布轉(zhuǎn)化成帶權(quán)典型值組合,并對結(jié)果進行加權(quán)求和,即可得到不確定性因素的評價結(jié)果,進而生成典型場景。
因此,得到不確定性因素的概率分布是場景提取的首要前提。分布式電源具有高度隨機性與波動性,另外受用戶側(cè)需求的影響,負荷結(jié)構(gòu)、功率不斷發(fā)生變化。因此,本文考慮的不確定性因素主要有風力發(fā)電、光伏發(fā)電以及負荷功率。
對于風力發(fā)電,采用雙參數(shù)Weibull概率分布模型進行模擬[12];對于光伏發(fā)電,采用Beta分布進行模擬;對于負荷功率則采用正態(tài)分布進行模擬。
信息熵的概念來源于熱力學,用以度量對象的不確定性[13]。熵的大小表征著信息含量的多少,熵值較大說明信息含量較大,熵值較小說明信息含量較小。信息熵理論已經(jīng)在很多領(lǐng)域有所應(yīng)用,包括迭代二叉樹三代(iterative dichotomiser 3, ID3)類決策樹。ID3類決策樹模型采用最大化信息熵變化量為評判依據(jù),選取盡可能將樣本分為完全不同的兩類節(jié)點進行節(jié)點分割。
本文采取類似的思路進行典型場景提取,通過最大化場景信息熵變化量進行場景分類,再用遞歸方式將原始場景分為多個子類,對熵值較大的場景區(qū)段分配更多場景數(shù)目,對熵值較小的場景區(qū)段分配較少場景數(shù)目。取每個子類的平均值作為該類的典型場景,所有子類的場景集合即為所提取的典型場景集。該方法能在對電力系統(tǒng)運行場景有較好的表征能力的基礎(chǔ)上增加典型場景多樣性,提升規(guī)劃方案對不同場景的適應(yīng)性。
首先,輸入待分場景功率分布密度函數(shù)作為初始根節(jié)點,并計算初始根節(jié)點信息熵,即:
(1)
式中:H(v0)為初始根節(jié)點信息熵;v0為初始根節(jié)點;x為功率;p(x)為x對應(yīng)的概率密度;xmax為功率最大值。
接下來選取初始根節(jié)點的分割位置。對于某一分割位置,其分割后的信息熵為分割后形成的兩個新節(jié)點的信息熵之和:
H(v0,x0)=H(v′0)+H(v″0)
(2)
(3)
(4)
式中:x0為任一分割位置;H(v0,x0)為初始根節(jié)點分割后的信息熵;H(v′0)為分割后形成的左子節(jié)點;H(v″0)為分割后形成的右子節(jié)點;p′(x)為左子節(jié)點的概率密度函數(shù);p″(x)為右子節(jié)點的概率密度函數(shù)。
節(jié)點分割的選取原則是信息熵減小量最大化,即:
ΔH=H(v0)-H(v0,x0)
(5)
式中:ΔH為節(jié)點分割后信息熵的減小量。能夠使得式(5)最大化的分割位置即為當前節(jié)點的最優(yōu)分割位置。
節(jié)點分割之后,父節(jié)點所有可能的功率值也會被分成2份,因此在某一子節(jié)點中,便不會再出現(xiàn)另一子節(jié)點的功率值。每個節(jié)點保留的可能功率值的相應(yīng)概率會增加,功率概率密度函數(shù)也會發(fā)生變化。
對初始節(jié)點分割完成并形成兩個子節(jié)點后,需要對產(chǎn)生的新子節(jié)點進行校驗,判斷節(jié)點信息熵是否小于臨界值εH。小于臨界值εH的子節(jié)點信息熵較小,稱為“葉節(jié)點”。信息熵較小代表節(jié)點內(nèi)功率分布較為一致,在單一節(jié)點內(nèi)進行功率采樣得到的功率值趨同,不會發(fā)生較大波動。因此,對于葉節(jié)點,可以取功率分布的期望作為該節(jié)點對應(yīng)的典型場景。
未通過信息熵校驗的新節(jié)點則作為待分根節(jié)點,繼續(xù)進行節(jié)點分割,直至所有節(jié)點都成為葉節(jié)點則遞歸停止。接著計算所有葉節(jié)點對應(yīng)的典型場景,作為提取的典型場景集合輸出。每個葉節(jié)點內(nèi)部場景數(shù)量占總場景的比例作為該葉節(jié)點對應(yīng)典型場景的權(quán)重。
另外,為了保持算法內(nèi)容名稱上的前后一致,初始節(jié)點先作為葉節(jié)點輸入,隨后才被修改為根節(jié)點。
基于信息熵的場景提取步驟如圖1所示。
圖1 基于信息熵的典型場景提取方法Fig.1 Typical scenarios extraction method based on information entropy
結(jié)合前文敘述和圖1,基于信息熵的場景提取步驟可概括為:
步驟一:輸入包含風電、光伏、負荷功率的數(shù)據(jù)集信息作為初始葉節(jié)點,并根據(jù)式(1)計算初始葉節(jié)點信息熵。
步驟二:判斷所有節(jié)點是否均不可分割,若滿足,將所有葉節(jié)點作為典型場景輸出,并獲取該場景對應(yīng)包含的小時數(shù),計算概率;若不滿足,將不滿足的葉節(jié)點作為根節(jié)點,繼續(xù)以下步驟三。
步驟三:根據(jù)式(5)信息熵減小量最大化原則,及式(2)—(4)對根節(jié)點進行分割,確定分割位置。
步驟四:針對分割出的新葉節(jié)點,利用步驟二進行判斷,反復迭代,直至所有節(jié)點均滿足終止條件。
電網(wǎng)柔性規(guī)劃方法是用于求解未來多個不確定性場景的綜合最優(yōu)方案,通過提出適應(yīng)未來環(huán)境變化的柔性規(guī)劃方案,以最小的代價彌補環(huán)境變化造成的經(jīng)濟損失[14]。將提取到的場景輸入規(guī)劃模型,得到基于多場景的輸電網(wǎng)靈活規(guī)劃模型。
本文目標函數(shù)綜合考慮線路投資成本、發(fā)電機組運行成本、棄風懲罰成本,目標函數(shù)如下:
minF=∑Finvest+∑Foperation+∑Fcur
(6)
式中:∑Finvest、∑Foperation、∑Fcur分別為輸電網(wǎng)的線路投資成本、發(fā)電機組運行成本、棄風懲罰成本。
(7)
∑Foperation=
(8)
∑Fcur=
(9)
規(guī)劃模型具有以下幾個約束條件:
1)功率平衡約束:
(10)
2)線路潮流約束:
Pn-ij=Bn-ij(θn-i-θn-j)i,j∈L
(11)
式中:Bn-ij為場景n中線路ij的電納;θn-i、θn-j分別為場景n中節(jié)點i、j的電壓相角。
3)風機出力約束:
Pwind-min≤Pwind-n(t)≤Pwind-max
(12)
式中:Pwind-min、Pwind-max分別為風機出力的最小值、最大值;Pwind-n(t)為場景n中的風機出力值。
4)發(fā)電機運行約束:
(13)
遺傳算法在大規(guī)模最優(yōu)化問題中,能取得最優(yōu)值或者次優(yōu)值。然而其本身存在諸多缺陷,如在處理規(guī)模較大的最優(yōu)化問題時,算法容易陷入局部最優(yōu)、收斂速度慢等。
為解決如遺傳算法等啟發(fā)式算法存在的問題,本文在原始指針網(wǎng)絡(luò)的基礎(chǔ)上進行改進,使其能夠適用于電力系統(tǒng)網(wǎng)架規(guī)劃問題。與原始指針網(wǎng)絡(luò)應(yīng)用標簽樣本進行神經(jīng)網(wǎng)絡(luò)訓練不同,本文使用強化學習中的Actor-Critic模型進行網(wǎng)絡(luò)訓練,從而實現(xiàn)無需標簽樣本的訓練。
指針網(wǎng)絡(luò)(pointer network)是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能有效用于學習中低維度的組合優(yōu)化問題,并能以高準確度預測出問題的解。其結(jié)構(gòu)類似于sequence to sequence(seq2seq)[15]。指針網(wǎng)絡(luò)的原理是將輸入映射為一系列按概率指向輸入序列元素的指針,由一個編碼器(encoder)和一個解碼器(decoder)組成。編碼器的輸入為節(jié)點坐標組成的向量,解碼器的輸出則為節(jié)點坐標的某個排序。但是,該模型不能直接應(yīng)用于網(wǎng)架規(guī)劃問題中,需要進行一定的改進。因此,本文提出一種適用于網(wǎng)架規(guī)劃問題的改進指針網(wǎng)絡(luò)模型,如圖2所示。
圖2 改進指針網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.2 Structure of revised pointer network
與原始模型使用節(jié)點坐標作為輸入不同,改進指針網(wǎng)絡(luò)模型(revised pointer network, RPN)以網(wǎng)絡(luò)的節(jié)點-支路關(guān)聯(lián)矩陣中對應(yīng)的向量作為節(jié)點輸入,在圖2中以n1、n2表示。圖2中接受輸入的白框表示編碼器與解碼器中的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)。RNN每次以一個新節(jié)點和上一個節(jié)點的輸出作為輸入,并給出當前節(jié)點的輸出。當所有的輸入節(jié)點順序輸入結(jié)束后,編碼器的最終輸出即為指針網(wǎng)絡(luò)對于電力系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)信息的嵌入(embedding)。
對于解碼器,其中的RNN每次接受上一個節(jié)點的輸出,并把上一個節(jié)點給出的預測節(jié)點作為輸入。解碼器中首節(jié)點的輸入為編碼器給出的嵌入以及用待訓練參數(shù)表示的起始節(jié)點ng。因此,解碼器中每個節(jié)點對應(yīng)的輸出便是編碼器輸入節(jié)點的概率分布,取概率最大的節(jié)點作為預測節(jié)點,在圖2中用指向編碼器的箭頭表示。此外,解碼器每次給出預測節(jié)點時,已在解碼器中出現(xiàn)過的節(jié)點不再出現(xiàn),以此保證結(jié)果的有效性。圖2中的圓圈表示不可選節(jié)點。由所有解碼器給出的節(jié)點即為RPN給出的一個解。
由于網(wǎng)架規(guī)劃問題的解往往僅包含可建設(shè)線路中的某幾條,因此輸出向量的長度將遠小于輸入向量。針對此問題,RPN在輸入向量的尾部追加一個停止節(jié)點ns,當停止節(jié)點出現(xiàn)在輸出向量中時,便僅保留停止節(jié)點前的節(jié)點,而后續(xù)產(chǎn)生的節(jié)點無效。
值得注意的是,RPN并不能保證單次輸出即可得到最優(yōu)解。因此,在利用訓練好的RPN網(wǎng)絡(luò)進行求解時,需要將輸入向量隨機排序,重復輸入到網(wǎng)絡(luò)中,獲得多個輸出,并在輸出集合中進行搜索,得分最高者即作為最優(yōu)解輸出。
神經(jīng)網(wǎng)絡(luò)通常使用監(jiān)督學習的方法進行訓練,但對于包括網(wǎng)架規(guī)劃在內(nèi)的組合優(yōu)化問題和復雜的現(xiàn)實場景,很難在線獲得大量訓練數(shù)據(jù),且獲得足夠數(shù)量的高質(zhì)量標簽數(shù)據(jù)代價高昂,導致求解結(jié)果出現(xiàn)局部最優(yōu)解等問題。
因此,本文采用強化學習中的Actor-Critic方法訓練RPN。這類算法雖然利用值函數(shù)評估策略,但是又不純粹依賴值函數(shù)求解最優(yōu)策略,而是利用值函數(shù)信息指導策略的搜索。通過自行與環(huán)境進行交互來獲得訓練樣本,無需事先給定大量訓練數(shù)據(jù),因此適用于網(wǎng)架規(guī)劃問題。
RPN的損失函數(shù)定義為:
J(θ)=Eπ-pθL(π)
(14)
式中:θ為神經(jīng)網(wǎng)絡(luò)參數(shù);J(θ)為神經(jīng)網(wǎng)絡(luò)損失函數(shù);pθ為參數(shù)θ對應(yīng)的RPN的決策策略概率分布;π為根據(jù)策略概率分布做出的決策;L(π)為當前決策的目標函數(shù)值,由式(6)給出。
根據(jù)Actor-Critic算法,損失函數(shù)的梯度定義為:
?θJ(θ)=Eπ-pθ[(L(π)-b)?θlogpθ(π)]
(15)
式中:b為梯度的基準線方程(baseline function);pθ(π)為當前θ對應(yīng)決策概率分布下決策π的概率。
通過蒙特卡洛采樣對式(14)進行逼近,可得損失函數(shù)的梯度:
(16)
式中:B為蒙特卡洛采樣的次數(shù);k為B次采樣中的第k次采樣;πk為B次采樣中第k次采樣時根據(jù)策略概率分布做出的決策。
對于基準線方程,文獻[15]中在指針網(wǎng)絡(luò)之外為Actor-Critic單獨建立網(wǎng)絡(luò)進行計算,但這種方法具有較差的穩(wěn)定性,在實際計算中可能會導致網(wǎng)絡(luò)訓練無法收斂。因此,本文采用指數(shù)移動平均作為基準線方程。指數(shù)移動平均相比簡單移動平均,更注重近期內(nèi)的數(shù)據(jù),且數(shù)據(jù)的權(quán)重會隨著時間按照指數(shù)規(guī)律下降[16]?;鶞示€方程的形式為:
(17)
神經(jīng)網(wǎng)絡(luò)參數(shù)更新選用隨機梯度下降方式進行計算。先計算出損失函數(shù)的梯度,然后按梯度的方向,通過對權(quán)值的不斷更新調(diào)整,使函數(shù)損失值達到最小,從而獲得最優(yōu)解。該方法每次隨機選擇一個樣本來迭代更新一次,而不是針對所有樣本,因而該方法顯著提升了計算效率。
本節(jié)首先針對系統(tǒng)中的3種不確定性因素(風力發(fā)電功率、光伏發(fā)電功率、負荷功率)進行典型場景提取并與原分布進行對比。然后在IEEE Garver-6系統(tǒng)上進行輸電網(wǎng)規(guī)劃,通過與粒子群優(yōu)化算法(particle swarm optimization, PSO)算法的對比,證明RPNAC在輸電網(wǎng)規(guī)劃方面的科學性和優(yōu)勢。
為了驗證本文提出的基于信息熵的典型場景集構(gòu)建方法(typical scenario set with entropy, TSSE)的有效性,選用拉丁超立方抽樣(Latin hypercube sampling, LHS)[17]、蒙特卡洛抽樣(Monte Carlo, MC)[18]、基于推土機距離的場景提取方法(generation algorithm of typical scenario set, GATSS)[19]進行對比,針對系統(tǒng)中3種不確定因素進行典型場景提取。為衡量對原始場景的表征程度,從原始場景中進行抽樣得到規(guī)模為106的場景集合Y,計算Y與各種方法提取的規(guī)模為102的典型場景集W之間的距離T,并進行對比。計算公式為:
(18)
式中:u、w為單個場景;d為絕對值距離;ui、wj分別為各單個場景u、w中的i和j節(jié)點。計算結(jié)果如表1所示。
表1 不同方法提取結(jié)果對原場景逼近能力比較Table 1 Comparison of different methods with respect to approximating the original scenarios
由表1中結(jié)果可得,MC、GATSS、TSEE三者提取的典型場景集對原始場景的逼近能力相近,均優(yōu)于LHS。MC、GATSS、TSEE三者關(guān)于負荷功率提取的典型場景逼近效果優(yōu)于風電與光伏功率。這是由于負荷功率采用高斯分布進行逼近,其概率分布偏度為0,具有較強的對稱性,且分布曲線整體較為平坦,而風電與光伏分別采用Weibull分布與Beta分布,具有較強的不對稱性。
在保證表征效果的基礎(chǔ)上,應(yīng)使典型場景集有盡可能多樣化的典型場景,保證規(guī)劃方案在更多場景下滿足安全性校驗,從而提升規(guī)劃方案的魯棒性。本文選用方差來衡量典型場景集的多樣性,計算中忽略典型場景權(quán)重的影響,計算結(jié)果如表2所示。
表2 不同方法提取結(jié)果場景多樣性比較Table 2 Comparison of different methods with respect to scenario diversity
MC是對概率分布整體的隨機抽樣,因此其提取的典型場景集方差與概率分布方差相近。LHS在MC的基礎(chǔ)上對概率分布進行均勻分層抽樣,因此可以保證覆蓋至概率密度較小的區(qū)域,有較大的場景多樣性,但對原始分布的表征性能較差。GATSS類似于逆變換采樣,本質(zhì)上是根據(jù)概率進行等間隔采樣,因此其場景多樣性與MC相近。TSEE提取結(jié)果方差與LHS提取結(jié)果相近,且相比于MC和GATSS,對場景的覆蓋能力更強。結(jié)果表明,在保證對原始場景分布逼近效果的基礎(chǔ)上,TSEE根據(jù)信息熵來分配采樣點,能夠在概率密度變化較大的區(qū)域增加采樣頻率,保證了提取結(jié)果的多樣性。
為了驗證提出的RPNAC方法對于解決輸電網(wǎng)網(wǎng)架規(guī)劃問題的實用性,本文選用IEEE Garver-6系統(tǒng)進行計算分析驗證。
風電場中切入風速、切出風速、額定風速分別為4.0、20.0、11.1 m/s。圖3為IEEE Garver-6系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)。圖3中,實線代表已有的輸電線路,虛線代表備選線路。系統(tǒng)包含11臺發(fā)電機、5個負荷、6條輸電線路。計算標幺值時,功率基準為100 MW,線路長度造價為50萬元/km。
圖3 IEEE Garver-6系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of the Garver-6 system
為了驗證RPNAC在不同場景下都具有良好的求解能力和靈活性,結(jié)合3.1節(jié)中提取出的場景,分別采用RPNAC和PSO對3個典型場景的輸電網(wǎng)規(guī)劃問題進行求解,結(jié)果如表3所示。
表3 典型場景規(guī)劃結(jié)果對比Table 3 Comparison of planning results of typical scenarios
通過對比兩種方法對不同典型場景下的輸電系統(tǒng)規(guī)劃的結(jié)果可以看出,在絕大多數(shù)場景下,本文提出的RPNAC方法都具較為優(yōu)秀的求解能力。
使用算法進行求解前,需要對模型進行訓練。在訓練數(shù)據(jù)集上進行大量訓練,便可以利用事先學習的成果進行下一步求解,避免從零開始。模型訓練階段,抽取10個與測試集不同的規(guī)劃問題作為訓練集進行訓練,以增強模型的泛化性能。訓練的每一步迭代需從10個問題中隨機選取一個問題進行訓練,以保證訓練樣本的獨立同分布假設(shè),防止樣本之間的關(guān)聯(lián)性影響模型的效果。
通過與PSO的求解結(jié)果進行對比,可以驗證RPNAC在參數(shù)變化情況下對輸電網(wǎng)規(guī)劃問題的求解能力。通過抽樣方法可得到基于原問題的測試集。對原問題所有節(jié)點橫、縱坐標分別增加一個擾動ξ,ξ符合[-0.1,0.1]的均勻分布,保持容量等其他條件不變,通過對ξ進行抽樣,以此得到10個參數(shù)不同的規(guī)劃問題,它們組成測試集。接著采用本文提出的RPNAC和PSO對測試集中的10個問題進行求解,以便對二者進行比較。二者在測試集上的表現(xiàn)如表4所示。
表4 PSO與RPNAC測試集規(guī)劃結(jié)果Table 4 Comparison of PSO and RPNAC based on test set
對于IEEE Garver-6系統(tǒng),大部分情況下,PSO與RPNAC得分均為1.0。因此,測試集結(jié)果說明,對于IEEE Garver-6系統(tǒng)規(guī)劃問題,在大部分情況下,PSO與RPNAC均可求得最優(yōu)解。
根據(jù)表4可知,10次試驗中,僅有第2次試驗時,采用PSO與RPNAC進行規(guī)劃的結(jié)果不同。首先對除第2次試驗之外的其他試驗進行簡要說明。規(guī)劃結(jié)果表明,雖然第4—10次試驗中PSO與RPNAC求解結(jié)果相同,但所得結(jié)果的綜合評價均低于第1—3次試驗,不具有現(xiàn)實意義和實用價值,因此不再贅述。接著下面對對試驗2中RPNAC不能求得最優(yōu)解的情況進行分析。
圖4為表4中的輸電網(wǎng)規(guī)劃問題的部分規(guī)劃結(jié)果。試驗2中,PSO得分高于RPNAC,故同時畫出了RPNAC與PSO的規(guī)劃結(jié)果,如圖4中(b)、(c)所示。而其他試驗中,RPNAC與PSO規(guī)劃結(jié)果相同且同為最優(yōu),故無需重復畫出,如圖4中(a)、(d)所示。
圖4 測試集問題規(guī)劃結(jié)果Fig.4 Some of the results of the planning problems
表5為RPNAC和PSO對Garver-6系統(tǒng)規(guī)劃結(jié)果對比。試驗2中,采用PSO與RPNAC進行規(guī)劃的結(jié)果不同,故分別展示了RPNAC與PSO的規(guī)劃結(jié)果。其他試驗中,RPNAC與PSO規(guī)劃結(jié)果相同,未重復展示。表6為試驗2結(jié)果評價指標數(shù)據(jù)。
表5 RPNAC和PSO對Garver-6系統(tǒng)規(guī)劃結(jié)果對比Table 5 Comparison of planning results of Garver-6 system between RPNAC and PSO
表6 試驗2結(jié)果評價指標數(shù)據(jù)Table 6 Data of evaluation indices of experiment 2
如圖4中(a)、(d)所示,對于一般情況,RPNAC可以輸出正確的最優(yōu)規(guī)劃結(jié)果,即當節(jié)點位置變動情況較小時,RPNAC可以準確得到全局最優(yōu)解。
如表5所示,試驗2中,由RPNAC產(chǎn)生的規(guī)劃結(jié)果比由PSO產(chǎn)生的規(guī)劃結(jié)果在節(jié)點2-6增加了一條線路,可在圖4中(b)、(c)更直觀看到,此方案安全性最好,但線路投資相對較多,欠缺經(jīng)濟性,故該方案不予采用。此時通過PSO得出的規(guī)劃結(jié)果明顯優(yōu)于RPNAC。但這種情況并沒有出現(xiàn)在訓練集中,RPNAC網(wǎng)絡(luò)并沒有針對該情況得到訓練。由此可知,當測試集中出現(xiàn)與訓練集差距較大的特殊情況時,RPNAC就無法輸出最優(yōu)的規(guī)劃結(jié)果。這類問題可以通過增加訓練時長和增加訓練集規(guī)模來解決。
根據(jù)表6可知,在靈活性方面,試驗2中,相比PSO得出的規(guī)劃結(jié)果,RPNAC得出的結(jié)果具有較好的可擴展性。當規(guī)劃條件發(fā)生不可預見變化時,該系統(tǒng)能更快進行調(diào)整,并且更好應(yīng)對供需兩側(cè)響應(yīng)系統(tǒng)的不確定性變化,因此相比傳統(tǒng)的PSO,RPNAC提高了規(guī)劃模型的靈活性。
在計算速度方面,RPNAC顯著優(yōu)于PSO。這是由于RPNAC在訓練完成后,對于任意一個問題,輸出預測結(jié)果只需要根據(jù)訓練好的網(wǎng)絡(luò)進行幾次前向傳播計算并搜索最優(yōu)值即可得到結(jié)果,往往只需要不到1 s的時間。而當邊界條件發(fā)生變化時,PSO需要重新進行計算,無法利用歷史計算結(jié)果。
因此,對于規(guī)劃精度要求不高、對計算速度要求較高的問題,可以利用RPNAC進行計算。對于規(guī)劃精度要求較高的問題,可以利用增加訓練時長及訓練集規(guī)模的方法提升RPNAC的規(guī)劃精度。
首先提出基于信息熵的典型場景提取方法,結(jié)合風電、光伏、負荷這3個不確定性因素的數(shù)學模擬結(jié)果,引入場景信息熵的概念進行典型場景提取。再將提取到的多場景輸入規(guī)劃模型,最后得到基于多場景的輸電網(wǎng)靈活規(guī)劃模型。
接著采用深度強化學習的方法,在原始指針網(wǎng)絡(luò)的基礎(chǔ)上進行改進,提出一種適用于輸電網(wǎng)規(guī)劃的改進指針網(wǎng)絡(luò)模型,并采用深度強化學習中的Actor-Critic方法對網(wǎng)絡(luò)進行訓練,然后應(yīng)用RPNAC對輸電網(wǎng)規(guī)劃問題進行求解。
本文選用IEEE Garver-6系統(tǒng)進行分析驗證。算例證明,本文的場景提取方法可以在保證場景表征效果的基礎(chǔ)上增加場景的多樣性,從而增加規(guī)劃方案對場景的適應(yīng)性。在此基礎(chǔ)上的規(guī)劃模型可以用RPNAC進行求解,該方法能夠在保證相當程度求解精度的基礎(chǔ)上,相比傳統(tǒng)方法極大地提升了運算效率,提高了規(guī)劃模型的靈活性、適應(yīng)性。