• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度Q學(xué)習(xí)的電熱綜合能源系統(tǒng)能量管理

      2021-03-18 07:20:54王新迎趙琦趙黎媛楊挺
      電力建設(shè) 2021年3期
      關(guān)鍵詞:電熱能量負(fù)荷

      王新迎,趙琦,趙黎媛,楊挺

      (1.中國電力科學(xué)研究院有限公司,北京市 100192;2.天津大學(xué)電氣自動化與信息工程學(xué)院,天津市 300072)

      0 引 言

      隨著社會的不斷發(fā)展進(jìn)步,人類對于能源的需求不斷增大,而石油、煤炭等傳統(tǒng)化石能源日漸枯竭,發(fā)展環(huán)境友好的可再生能源、提高能源利用效率是當(dāng)今世界共同關(guān)注的焦點。綜合能源系統(tǒng)(integrated energy system, IES)可實現(xiàn)能源的梯級利用以及多種能源的協(xié)調(diào)互補,是緩解環(huán)境壓力的重要選擇[1-2]。在能源需求中,電能與熱能是人類生活的基本能源需求,也是綜合能源系統(tǒng)的兩大主要能源形式[3]。電熱綜合能源系統(tǒng)并非2個獨立供能系統(tǒng)的直接疊加,而是通過對多種能量單元的協(xié)同管理,在更大范圍內(nèi)實現(xiàn)系統(tǒng)資源的優(yōu)化配置。

      多種能量單元的共存和使用使得如何對電熱綜合能源系統(tǒng)進(jìn)行能量管理以實現(xiàn)系統(tǒng)的運行優(yōu)化得到廣泛關(guān)注。針對綜合能源系統(tǒng)的能量管理,文獻(xiàn)[4]研究了含光伏、風(fēng)機、儲能及熱電聯(lián)供機組等單元的微網(wǎng)運行優(yōu)化問題,將模型轉(zhuǎn)化為混合整數(shù)線性規(guī)劃問題求解;文獻(xiàn)[5]利用改進(jìn)的遺傳算法,進(jìn)行工業(yè)園區(qū)綜合能源系統(tǒng)的能量管理方法研究;文獻(xiàn)[6]研究了含可再生能源發(fā)電的電熱綜合能源系統(tǒng)的優(yōu)化調(diào)度問題,利用改進(jìn)的粒子群優(yōu)化算法求解能量調(diào)度方案。上述研究在綜合能源系統(tǒng)的能量管理和優(yōu)化調(diào)度方面取得了一定的成果,但這些工作均是在對可再生能源出力和負(fù)荷需求進(jìn)行預(yù)測的基礎(chǔ)上進(jìn)行的,求解效果依賴于預(yù)測的準(zhǔn)確性。然而,受天氣變化的影響,可再生能源發(fā)電是高度間歇性和隨機性的。這些不確定性的資源與亦具有不確定性的用戶負(fù)荷相結(jié)合,導(dǎo)致系統(tǒng)中供需雙側(cè)隨機變化,為系統(tǒng)的能量優(yōu)化管理帶來巨大挑戰(zhàn)。

      為了應(yīng)對綜合能源系統(tǒng)中的不確定性,文獻(xiàn)[7-8]采用隨機規(guī)劃方法對不確定性進(jìn)行建模,分析不確定性因素的概率分布。然而,傳統(tǒng)隨機規(guī)劃方法中誤差場景的數(shù)目直接影響能量管理模型的求解效果。若場景數(shù)目過少,則難以真實反映可再生能源的不確定性;而場景數(shù)目過多,則求解難度及求解時間會大幅增加。此外,文獻(xiàn)[9-10]采用魯棒優(yōu)化技術(shù)將不確定性因素采用不確定性集進(jìn)行刻畫,求取在最壞情況下的最優(yōu)運行方案。然而,魯棒優(yōu)化算法采用不確定性集對不確定性因素進(jìn)行刻畫,往往難以選取合適的不確定性集[11]。

      為了克服上述方法的缺點,本文引入無模型的強化學(xué)習(xí)(reinforcement learning, RL)方法以應(yīng)對電熱綜合能源系統(tǒng)能量管理問題中可再生能源(源)和異質(zhì)負(fù)荷需求(荷)的不確定性問題?;隈R爾可夫決策過程(Markov decision process, MDP)理論的強化學(xué)習(xí)是一種重要的機器學(xué)習(xí)方法,具有強大的自主學(xué)習(xí)能力和適應(yīng)能力[12]。強化學(xué)習(xí)中的智能體通過和環(huán)境進(jìn)行交互,通過“試錯”的方式不斷自適應(yīng)地學(xué)習(xí)探尋到最優(yōu)策略[13]。強化學(xué)習(xí)不需要系統(tǒng)不確定因素的分布知識,是解決含不確定性因素的優(yōu)化問題的很有潛力的方法,已被作為潛力解決方案引入智能電網(wǎng)、建筑等的運行優(yōu)化和能量管理中[14-15]。

      在采用強化學(xué)習(xí)進(jìn)行綜合能源系統(tǒng)的能量管理方面,已有學(xué)者進(jìn)行了初步探索。文獻(xiàn)[16]將綜合能源微網(wǎng)的調(diào)度問題建模為馬爾可夫決策過程,采用納什(Nash)博弈和Q-learning算法實現(xiàn)能量管理及多主體運行策略的制定。文獻(xiàn)[17]為應(yīng)對系統(tǒng)中光伏出力和異類負(fù)荷的隨機不確定性,提出了一種基于Q-learning的冷熱電聯(lián)供微網(wǎng)能量調(diào)度方法。文獻(xiàn)[18]提出了一種基于強化學(xué)習(xí)的智慧能源樞紐運行優(yōu)化方法,所提方法不需要系統(tǒng)動力學(xué)的任何知識,能夠同時降低電費和天然氣費用。然而,傳統(tǒng)的強化學(xué)習(xí)是表格型的方法,僅適用于離散狀態(tài)空間或小狀態(tài)空間問題。如果直接采用強化學(xué)習(xí)處理綜合能源系統(tǒng)的能量管理問題,需要將系統(tǒng)的狀態(tài)量進(jìn)行離散,離散化得到的狀態(tài)數(shù)量隨著自由度的增加會呈指數(shù)倍增長,從而出現(xiàn)維數(shù)災(zāi)難問題[19]。為應(yīng)對該問題,本文將深度強化學(xué)習(xí)引入所研究的問題中,提出一種基于深度Q學(xué)習(xí)網(wǎng)絡(luò)(deep Q-learning network,DQN)的電熱綜合能源系統(tǒng)能量管理方法。深度Q學(xué)習(xí)網(wǎng)絡(luò)采用深度學(xué)習(xí)對Q-learning進(jìn)行函數(shù)近似,避免對狀態(tài)空間的離散化操作。此外,不同于傳統(tǒng)方法,本文所提方法不需要可再生能源出力以及電熱負(fù)荷需求的預(yù)測信息,能夠自適應(yīng)地對源和荷的隨機波動做出響應(yīng)。

      文章首先對強化學(xué)習(xí)方法進(jìn)行詳細(xì)介紹,然后確定電熱綜合能源系統(tǒng)的能量優(yōu)化管理問題的目標(biāo)和約束,并將該問題表述為馬爾科夫決策過程,進(jìn)而采用DQN求解電熱綜合能源系統(tǒng)的能量管理問題。

      1 強化學(xué)習(xí)方法

      1.1 馬爾科夫決策過程

      強化學(xué)習(xí)的經(jīng)典研究是基于馬爾科夫決策過程[19],即系統(tǒng)下一時刻狀態(tài)僅與當(dāng)前時刻狀態(tài)和動作有關(guān)。其問題模型通常被表示為一個元組,其中:S表示狀態(tài)空間;A表示動作空間;T:S×A×S′→[0,1]是狀態(tài)轉(zhuǎn)移函數(shù),表示在一個狀態(tài)S下執(zhí)行一個動作后轉(zhuǎn)到另一個狀態(tài)S′的概率;r:S×A→r是獎勵函數(shù),表示發(fā)生狀態(tài)轉(zhuǎn)移時環(huán)境給出的即時獎勵。

      智能體在當(dāng)前狀態(tài)s采取動作a∈A(s),收到環(huán)境反饋的獎勵r(s,a),并且以T(s,a,s′)的概率轉(zhuǎn)移到下一狀態(tài)s′∈S,其中A(s)表示在狀態(tài)s可采取動作的集合。此過程可無限進(jìn)行下去,也可以到終止?fàn)顟B(tài)處結(jié)束。策略π為狀態(tài)到動作的映射:S×A→[0,1]。智能體的目標(biāo)是通過調(diào)整策略來最大化累積獎勵。通常可以使用狀態(tài)-動作值函數(shù)Qπ(s,a)來衡量某個策略π的優(yōu)劣程度。給定一個策略π,狀態(tài)-動作值函數(shù)定義如下:

      (1)

      式中:Eπ[·]是策略π下的期望;s0是初始狀態(tài);a0是初始動作;t是時間槽的索引;rt是時間槽t時的獎勵;γ∈[0,1]為折扣因子,表示未來獎勵在累積獎勵中所占的影響比重,γ越大表示越重視對未來的獎勵。

      1.2 Q學(xué)習(xí)算法

      Q學(xué)習(xí)算法是解決馬爾科夫決策過程的經(jīng)典方法,是一種不基于環(huán)境模型的強化學(xué)習(xí)算法。在Q學(xué)習(xí)算法中,內(nèi)部維護一個狀態(tài)-動作值函數(shù)表Q(st,at),采用Q(st,at)值代表在狀態(tài)st執(zhí)行動作后獲得的累積折扣獎勵。智能體通過與環(huán)境反復(fù)地交互,利用獲得的反饋信息不斷地訓(xùn)練更新值函數(shù),最終學(xué)習(xí)到完成目標(biāo)的最優(yōu)策略。Q函數(shù)的迭代更新公式表示如下:

      Qt+1(st,at)=Qt(st,at)+αδt

      (2)

      式中:α為學(xué)習(xí)率;δt表示時間差分誤差,表示為:

      δt=rt+1+γQt(st+1,a′)-Qt(st,at)

      (3)

      式中:a′是狀態(tài)st+1時能夠執(zhí)行的動作。

      1.3 DQN算法

      經(jīng)典強化學(xué)習(xí)是表格型的方法,在處理高維狀態(tài)空間或連續(xù)狀態(tài)空間的問題時,存在維數(shù)災(zāi)難的問題。受深度學(xué)習(xí)[20]強大表征能力的啟發(fā),研究人員將深度學(xué)習(xí)和強化學(xué)習(xí)相結(jié)合,得到了深度強化學(xué)習(xí)。深度強化學(xué)習(xí)采用深度學(xué)習(xí)對強化學(xué)習(xí)進(jìn)行函數(shù)近似,利用深度神經(jīng)網(wǎng)絡(luò)強大的函數(shù)逼近能力,使智能體不需要遍歷每個狀態(tài)或狀態(tài)-動作對就可以對值函數(shù)進(jìn)行表征,因此避免了維數(shù)災(zāi)難問題。深度強化學(xué)習(xí)使強化學(xué)習(xí)能夠擴展到一些以前難以處理的問題,比如高維狀態(tài)空間下的決策問題[21]。

      DeepMind公司在Q學(xué)習(xí)算法和深度學(xué)習(xí)的基礎(chǔ)上,提出了深度Q學(xué)習(xí)網(wǎng)絡(luò)(DQN)[22]。DQN使用了經(jīng)驗回放機制和目標(biāo)網(wǎng)絡(luò)技術(shù),其訓(xùn)練過程如圖1所示。

      圖1 DQN訓(xùn)練過程示意圖Fig.1 The training process of DQN

      經(jīng)驗回放機制:強化學(xué)習(xí)中的樣本是有關(guān)聯(lián)的,訓(xùn)練結(jié)果難以收斂。經(jīng)驗回放機制通過存儲智能體的經(jīng)驗et=(st,at,rt,st+1)形成記憶序列。訓(xùn)練時,每次從經(jīng)驗回放池中隨機提取小批量的經(jīng)驗,然后根據(jù)隨機梯度下降法更新網(wǎng)絡(luò)參數(shù)。

      目標(biāo)網(wǎng)絡(luò):為了使DQN算法的性能更穩(wěn)定,建立2個結(jié)構(gòu)一樣的神經(jīng)網(wǎng)絡(luò),即一直在更新神經(jīng)網(wǎng)絡(luò)參數(shù)的Q網(wǎng)絡(luò)和用于更新Q值的目標(biāo)Q網(wǎng)絡(luò)。DQN使用參數(shù)為θ的深度神經(jīng)網(wǎng)絡(luò)(Q網(wǎng)絡(luò))來逼近動作值函數(shù),表示為Q(s,a;θ) ≈Qπ(s,a)。訓(xùn)練過程中,通過最小化損失函數(shù)進(jìn)行參數(shù)更新:

      Lt(θt)=E(s,a,r,s′)[(y-Q(s,a;θt))2]

      (4)

      式中:Lt(·)為t時的損失函數(shù);θt為t時Q網(wǎng)絡(luò)的參數(shù);E(·)表示數(shù)學(xué)期望;y為Q網(wǎng)絡(luò)的優(yōu)化目標(biāo)值,表示為:

      (5)

      E(s,a,r,s′)[(y-Q(s,a;θt))θtQ(s,a;θt)]

      (6)

      2 電熱綜合能源系統(tǒng)的能量優(yōu)化管理問題

      2.1 電熱綜合能源系統(tǒng)

      電熱綜合能源系統(tǒng)通常由能量轉(zhuǎn)化單元、能量存儲單元、能量傳輸網(wǎng)絡(luò)和用戶負(fù)荷組成,同時能夠與上級主電網(wǎng)和天然氣供應(yīng)商進(jìn)行能量交互。為進(jìn)行具體分析,本文以如圖2所示的電熱綜合能源系統(tǒng)為例進(jìn)行研究,系統(tǒng)中的能量轉(zhuǎn)化單元包括熱電聯(lián)供機組(combined heat and power, CHP)、燃?xì)忮仩t(gas boiler, GB)、電鍋爐(electric boiler, EB)、可再生能源發(fā)電(renewable generation, RG)單元光伏,能量存儲單元為蓄電池(battery, BA),用戶負(fù)荷包括電負(fù)荷和熱負(fù)荷。

      圖2 電熱綜合能源系統(tǒng)示意圖Fig.2 Schematic diagram of the integrated electricity-heat energy system

      電熱綜合能源系統(tǒng)各個元件特性詳述如下:

      1)熱電聯(lián)供機組。

      熱電聯(lián)供機組是實現(xiàn)綜合能源系統(tǒng)熱、電聯(lián)供的重要設(shè)備,其消耗天然氣提供電能和熱能。熱電聯(lián)供機組在時間槽t時輸出的電功率計算如下:

      PCHP(t)=vCHP(t)HNGηCHP

      (7)

      式中:PCHP(t)為時間槽t時熱電聯(lián)供機組輸出的電功率;vCHP(t)為熱電聯(lián)供機組消耗的天然氣量;HNG為天然氣熱值;ηCHP為熱電聯(lián)供機組的電效率。

      熱電聯(lián)供機組輸出熱功率與電功率的比值為熱電比b,可表示為:

      (8)

      式中:HCHP(t)時間槽t時熱電聯(lián)供機組輸出的熱功率。

      2)燃?xì)忮仩t。

      燃?xì)忮仩t消耗天然氣提供熱能,燃?xì)忮仩t在時間槽t時輸出的熱功率計算如下:

      HGB(t)=vGB(t)HNGηGB

      (9)

      式中:HGB(t)為燃?xì)忮仩t輸出的熱功率;vGB(t)為燃?xì)忮仩t消耗的天然氣量;ηGB為燃?xì)忮仩t的效率。

      3)電鍋爐。

      電鍋爐消耗電能產(chǎn)生熱能,電鍋爐在時間槽t時輸出的熱功率計算如下:

      HEB(t)=PEB(t)ηEB

      (10)

      式中:HEB(t)為電鍋爐輸出的熱功率;PEB(t)為電鍋爐的輸入電功率;ηEB為電鍋爐的效率。

      4)蓄電池。

      蓄電池在時間槽t的荷電狀態(tài)(state of charge, SOC)為:

      SSOC(t)=SSOC(t-1)-ηBA·PBA(t)·Δt/QBA

      (11)

      式中:PBA(t)是蓄電池的運行功率,為正時表示其處于放電狀態(tài),為負(fù)時表示其處于充電狀態(tài);QBA是蓄電池的容量;Δt是相鄰兩個時間槽的時隙長度;ηBA是蓄電池的充/放電系數(shù),表示為:

      (12)

      式中:ηch∈(0, 1]為蓄電池的充電效率;ηdis∈(0, 1]為蓄電池的放電效率。

      2.2 系統(tǒng)能量優(yōu)化管理問題的數(shù)學(xué)描述

      2.2.1目標(biāo)函數(shù)

      綜合能源系統(tǒng)能量管理問題的目標(biāo)是協(xié)調(diào)系統(tǒng)中各單元出力,獲得最小化系統(tǒng)運行成本。系統(tǒng)運行成本主要由與主網(wǎng)能量交互成本、消耗的天然氣成本、蓄電池的折舊成本構(gòu)成。系統(tǒng)總成本表示為:

      minC=min(CMG+CNG+CBA)

      (13)

      式中:C為系統(tǒng)總成本;CMG為與主網(wǎng)能量交互成本;CNG為消耗的天然氣成本;CBA為蓄電池的充放電折舊成本[23]。各項成本具體表示如下:

      (14)

      (15)

      (16)

      式中:PMG(t)為時間槽t時綜合能源系統(tǒng)與主網(wǎng)的電力交換功率,為正時表示向主網(wǎng)購電,為負(fù)時表示系統(tǒng)向主網(wǎng)售電;εMG(t)為時間槽t時的電價,PMG(t)為正時電價為購電電價,PMG(t)為負(fù)時電價為售電電價;εNG(t)為時間槽t時的天然氣單價;ρBA是蓄電池的折舊成本系數(shù);T為對系統(tǒng)進(jìn)行能量管理所考慮的總時間槽個數(shù)。

      2.2.2約束條件

      綜合能源系統(tǒng)能量管理問題的約束條件包括電功率平衡約束、熱功率平衡約束、外部能源供應(yīng)約束和元件運行上下限約束。

      1)電功率平衡約束。

      式(17)為時間槽t時系統(tǒng)電功率平衡約束的數(shù)學(xué)表述。等式左側(cè)包含系統(tǒng)與主電網(wǎng)的電力交互功率、可再生能源發(fā)電單元的輸出功率、蓄電池的充/放電功率及熱電聯(lián)供單元的輸出電功率,等式右側(cè)包括電鍋爐的耗電功率及用戶的電負(fù)荷。

      PMG(t)+PRG(t)+PBA(t)+PCHP(t)=

      PEB(t)+Pload(t)

      (17)

      式中:PRG(t)為可再生能源發(fā)電單元RG的輸出功率;Pload(t)為時間槽t時的用戶電負(fù)荷。

      2)熱功率平衡約束。

      式(18)為時間槽t時系統(tǒng)熱功率平衡約束的數(shù)學(xué)表述。等式左側(cè)包含熱電聯(lián)供單元的輸出熱功率、燃?xì)忮仩t的輸出熱功率及電鍋爐的輸出熱功率,等式右側(cè)為用戶的熱負(fù)荷。

      HCHP(t)+HGB(t)+HEB(t)=Hload(t)

      (18)

      式中:Hload(t)為時間槽t時的用戶熱負(fù)荷

      3)外部能源供應(yīng)約束。

      綜合能源系統(tǒng)與主網(wǎng)間的功率交互有上下限約束:

      (19)

      對于天然氣供應(yīng),需滿足以下約束:

      (20)

      vNG(t)=vCHP(t)+vGB(t)

      (21)

      4)元件運行上下限約束。

      綜合能源系統(tǒng)中各元件均需滿足相應(yīng)的運行范圍約束,對于熱電聯(lián)供單元的輸出電功率、燃?xì)忮仩t及電鍋爐的輸出熱功率和蓄電池的充/放電功率,分別要滿足如下運行上下限約束:

      (22)

      (23)

      (24)

      (25)

      對于蓄電池,為了避免深度充放電對蓄電池造成損害,蓄電池的荷電狀態(tài)被限定在一定范圍內(nèi):

      (26)

      3 基于深度強化學(xué)習(xí)的系統(tǒng)能量優(yōu)化管理

      3.1 能量管理問題的馬爾科夫決策過程描述

      電熱綜合能源系統(tǒng)能量優(yōu)化管理的目標(biāo)是最優(yōu)地管理系統(tǒng)中各元件在每個時間槽的出力,從而降低系統(tǒng)總運行成本。由于綜合能源系統(tǒng)中間歇性可再生能源出力和電負(fù)荷、熱負(fù)荷需求是隨機的,綜合能源系統(tǒng)的能量管理問題可以看作是不確定條件下的序貫決策問題。在本節(jié)中,將電熱綜合能源系統(tǒng)的能量管理問題表述為馬爾科夫決策過程,定義狀態(tài)、動作、狀態(tài)轉(zhuǎn)移函數(shù)和獎勵函數(shù)。

      1)狀態(tài)空間描述。

      在時間槽t,智能體接收到環(huán)境的觀測狀態(tài),即綜合能源系統(tǒng)的狀態(tài)st。系統(tǒng)狀態(tài)包括用戶負(fù)荷(電負(fù)荷和熱負(fù)荷)、可再生能源發(fā)電功率、蓄電池的荷電狀態(tài),以及所處的運行時間槽t。因此,狀態(tài)st表示如下:

      st=[Pload(t),Hload(t),PRG(t),SSOC(t),t]

      (27)

      2)動作空間描述。

      電熱綜合能源系統(tǒng)能量管理的目標(biāo)是最優(yōu)地確定熱電聯(lián)供單元的輸出電功率和輸出熱功率、蓄電池的充/放電功率、綜合能源系統(tǒng)和主網(wǎng)的交互功率、GB的輸出熱功率、EB的輸入電功率和輸出熱功率。由于PCHP確定后,HCHP可由式(8)計算得到;HGB確定后,HEB可根據(jù)式(18)確定;進(jìn)而PEB、PMG也可分別通過式(10)、(17)計算確定。也就是說,在PCHP、PBA、HGB確定后,其他量可以迅速得到。將PCHP、PBA、HGB按各自范圍分別劃分為K1、K2、K3個離散的動作選擇,分別均勻離散化為動作空間ACHP、ABA和AGB:

      (28)

      (29)

      (30)

      故電熱綜合能源系統(tǒng)的動作可以表示為:

      (31)

      這里,a∈A,k1∈[1,K1],k2∈[1,K2],k3∈[1,K3]。

      3)狀態(tài)轉(zhuǎn)移函數(shù)建立。

      環(huán)境狀態(tài)st轉(zhuǎn)移到狀態(tài)st+1表示為:

      st+1=f(st,at,ωt)

      (32)

      式中:ωt表示隨機量。式(32)表示狀態(tài)轉(zhuǎn)移不僅受動作at的控制,而且還受隨機性的影響。對于Pload、Hload和PRG,由于下一時刻的用能需求和可再生能源出力未知,狀態(tài)轉(zhuǎn)移受隨機性影響。由于很難為隨機性建立一個精確的模型,本文并未對其進(jìn)行建模,而是利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)狀態(tài)轉(zhuǎn)移。

      4)獎勵函數(shù)構(gòu)建。

      在IES狀態(tài)st時,智能體執(zhí)行動作at后獲得獎勵rt。電熱綜合能源系統(tǒng)能量優(yōu)化管理的目的是最小化系統(tǒng)運行成本,因此,在時間槽t,智能體獲得的獎勵可表示為:

      rt(st,at)=-[CMG(st,at)+CNG(st,at)+

      CBA(st,at)]×0.001

      (33)

      其中,乘以0.001是對成本值進(jìn)行縮小。

      電熱綜合能源系統(tǒng)能量管理動作a的優(yōu)劣程度可以使用狀態(tài)-動作值函數(shù)Qπ(s,a)來評估,其目標(biāo)是找到最優(yōu)策略π*以最大化狀態(tài)-動作值函數(shù)。

      (34)

      3.2 基于DQN的系統(tǒng)能量管理方法

      由于電熱綜合能源系統(tǒng)中未來的可再生能源出力和用戶負(fù)荷需求是未知的,因此很難解析地確定最優(yōu)能量管理策略π*。強化學(xué)習(xí)不需要隨機過程的統(tǒng)計模型,是一種無模型的學(xué)習(xí)方法,因此非常適用于本文的含不確定性因素的電熱綜合能源系統(tǒng)能量優(yōu)化管理問題。

      然而,由于本文中的電熱綜合能源系統(tǒng)能量管理問題的狀態(tài)空間(如式(27)中所示的電負(fù)荷、熱負(fù)荷、可再生能源發(fā)電等)是連續(xù)的,需要極其大的表來近似Q函數(shù),并且更新如此大的表也是非常有挑戰(zhàn)性的,故傳統(tǒng)的強化學(xué)習(xí)方法已無法適用。因此,本文采用DQN算法進(jìn)行電熱綜合能源系統(tǒng)的能量優(yōu)化管理?;贒QN的綜合能源系統(tǒng)能量管理方法流程如圖3所示。

      圖3 基于DQN的綜合能源系統(tǒng)能量管理流程圖Fig.3 Flowchart of the DQN-based IES energy management method

      4 算例分析

      4.1 仿真算例設(shè)置

      本節(jié)對所提方法進(jìn)行仿真分析,以驗證所提出的基于DQN的綜合能源系統(tǒng)能量管理策略的有效性。以圖2所示的電熱綜合能源系統(tǒng)作為算例,其中,可再生能源發(fā)電裝置為太陽能光伏裝置。電負(fù)荷、熱負(fù)荷和光伏數(shù)據(jù)基于開源的CREST模型[24]產(chǎn)生。該模型已經(jīng)過定性驗證,且在很多研究中廣泛應(yīng)用[25-26]。該模型產(chǎn)生的數(shù)據(jù)包含隨機性,模擬了真實電熱綜合能源系統(tǒng)環(huán)境中源和荷的不確定性。由CREST模型生成了12月至次年3月的數(shù)據(jù),每月前23天的數(shù)據(jù)用于訓(xùn)練,每月的剩余天數(shù)用于性能評估。系統(tǒng)能量管理時段長度設(shè)置為1天,Δt為15 min。

      電熱綜合能源系統(tǒng)中元件的運行參數(shù)如表1所示。與主網(wǎng)交換電功率的范圍為[-3 , 3] MW,與天然氣供應(yīng)商交換功率的范圍為[0 , 4] MW,蓄電池的容量是1 000 kW·h,綜合能源系統(tǒng)其他參數(shù)見表2。電價采用分時電價,購電價格方面,谷電價為0.17元/(kW·h) (23:00—07:00),峰電價為0.83元/(kW·h) (12:00—19:00),其他時刻為平電價0.49元/ (kW·h);售電價格為購電價格的0.4倍。天然氣的單價為3.45元/m3,天然氣熱值為9.88 kW/m3。

      表1 綜合能源系統(tǒng)中元件的運行參數(shù)Table 1 Operational parameters of the IES

      表2 綜合能源系統(tǒng)的其他參數(shù)Table 2 Other parameters of the IES

      所提深度強化學(xué)習(xí)方法是使用TensorFlow平臺實現(xiàn)的。DQN網(wǎng)絡(luò)的輸入為5維狀態(tài)向量st,輸出為狀態(tài)-動作對的Q值,本文將PCHP(t)、PBA(t)、HGB(t)分別以0.2 、0.1 、0.2 MW為間隔進(jìn)行離散,即CHP的可選動作為{0, 0.2, 0.4, 0.6, 0.8, 1.0, 1.2}MW,蓄電池BA的可選動作為{-0.2, -0.1, 0, 0.1, 0.2}MW, 燃?xì)忮仩tGB的可選動作為{0, 0.2, 0.4, 0.6, 0.8, 1.0, 1.2}MW。超參數(shù),如深度神經(jīng)網(wǎng)絡(luò)隱含層的層數(shù)和每個隱含層的神經(jīng)元數(shù)目,根據(jù)深度學(xué)習(xí)社區(qū)[27]推薦的常用做法選取,并根據(jù)訓(xùn)練數(shù)據(jù)進(jìn)行試錯調(diào)整。折扣因子為0.99,學(xué)習(xí)率為0.001,mini-batch大小為128,經(jīng)驗池大小為10 000,隱含層層數(shù)為2層,每層分別有128、256個神經(jīng)元,激活函數(shù)為線性修正函數(shù) (rectified linear units, ReLU)。

      4.2 能量管理結(jié)果分析

      在將所建深度Q學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用于系統(tǒng)能量管理之前,首先訓(xùn)練DQN的參數(shù)。智能體接收電負(fù)荷、熱負(fù)荷及光伏出力的觀測數(shù)據(jù),然后根據(jù)3.2節(jié)中的訓(xùn)練過程調(diào)整DQN網(wǎng)絡(luò)的參數(shù),即權(quán)重θ。在利用訓(xùn)練數(shù)據(jù)對DQN網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練后,得到的網(wǎng)絡(luò)被保存以用于系統(tǒng)的能量優(yōu)化管理。離線訓(xùn)練完成的標(biāo)志是隨著迭代次數(shù)的增加,獎勵值變化幅度較小,不再呈明顯增加趨勢,即網(wǎng)絡(luò)達(dá)到收斂。應(yīng)用訓(xùn)練好的DQN對系統(tǒng)進(jìn)行能量管理,輸入數(shù)據(jù)是當(dāng)前電負(fù)荷、熱負(fù)荷、光伏發(fā)電量、蓄電池SOC及時間槽,輸出是CHP的電功率、蓄電池的充/放電功率和燃?xì)忮仩t的熱功率。

      為了說明所提方法的能量管理結(jié)果,選取測試集中的數(shù)據(jù)進(jìn)行測試,首先以一個冬季典型日(1月25日)為例進(jìn)行說明,結(jié)果如圖4和圖5所示。圖4為電能管理結(jié)果,包括和主網(wǎng)的電功率交換、光伏發(fā)電、熱電聯(lián)供機組輸出電功率、蓄電池運行功率和電鍋爐的輸入電功率,分別表示為GRID、PV、CHP-E、BA和EB-E;電鍋爐消耗電功率,因此其電能管理結(jié)果用負(fù)值表示。圖5為熱能管理結(jié)果,包括燃?xì)忮仩t、電鍋爐、熱電聯(lián)供機組輸出的熱功率,分別表示為GB、EB-H和CHP-H。

      圖4 基于DQN的電能管理結(jié)果Fig.4 Electric power management results based on DQN method

      由圖4可以看出,系統(tǒng)向主電網(wǎng)購電情況基本跟隨電價變化。在谷電價和平電價階段,向主網(wǎng)購電以滿足用戶電負(fù)荷需求。在峰電價階段,電負(fù)荷主要由熱電聯(lián)供單元滿足。在電負(fù)荷較小而熱負(fù)荷較大時,熱電聯(lián)供單元多生產(chǎn)的電能售回電網(wǎng),如13:00—14:00時段等。蓄電池在谷電價時充電,并在峰電價時放電以減少系統(tǒng)運行成本,如12:15—12:30時段和13:45等。

      圖5 基于DQN的熱能管理結(jié)果Fig.5 Heat power management results based on DQN method

      由圖5可以看出,系統(tǒng)中的熱能供應(yīng)來自于CHP、GB和EB。EB為谷電價時熱能的主要來源,谷電價階段且熱負(fù)荷高于1.4 MW時,EB所制熱不能滿足熱負(fù)荷需求,GB制熱進(jìn)行補充,如05:45—06:45時段。在平電價階段,熱負(fù)荷主要由GB提供,當(dāng)熱負(fù)荷高于1.2 MW時,GB的出力不能滿熱負(fù)荷需求,通過增加EB或EB與CHP的出力進(jìn)行補充。在峰電價時,熱負(fù)荷主要由CHP和GB提供,當(dāng)兩者出力之和不能滿足熱負(fù)荷需求時,通過增加EB的出力進(jìn)行補充。這表明本文提出的基于DQN的能量管理方法能夠不斷優(yōu)化各設(shè)備出力以降低系統(tǒng)運行成本。

      4.3 對比結(jié)果分析

      為了驗證所提方法的有效性,將本文提出的基于DQN的綜合能源系統(tǒng)能量管理方法與基于Q學(xué)習(xí)的能量管理方法以及依賴預(yù)測信息的調(diào)度方法進(jìn)行比較。其中,Q學(xué)習(xí)方法的動作空間劃分與DQN方法的一致。對于依賴預(yù)測信息的調(diào)度方法(傳統(tǒng)方法),采用神經(jīng)網(wǎng)絡(luò)對光伏出力和電、熱負(fù)荷進(jìn)行預(yù)測,然后類似文獻(xiàn)[4],采用優(yōu)化軟件進(jìn)行求解。對采用3種方案在測試集數(shù)據(jù)運行得到的日運行成本進(jìn)行比較,統(tǒng)計結(jié)果如表3所示。圖6給出了從測試集中隨機選取的10個測試日的日運行成本結(jié)果。

      表3 不同能量管理方法的日運行成本統(tǒng)計結(jié)果Table 3 Statistics of the daily operation costs under different methods元

      由表3可以看出,基于DQN的能量管理方法的平均日運行成本為17 621元;基于Q學(xué)習(xí)方法的平均日運行成本為18 516元,較DQN方法增加了5.08%;基于預(yù)測信息的調(diào)度方法的平均日運行成本為18 133元,較DQN方法增加了2.91%。從日運行成本的最大值、最小值、平均值以及隨機選取的測試日的日運行成本來看,DQN能量管理方法較其他2種能量管理方法獲得了更好的經(jīng)濟性能,能有效地降低系統(tǒng)運行成本。

      圖6 不同方法的系統(tǒng)運行成本對比Fig.6 Comparison of system operation costs under different methods

      5 結(jié) 論

      本文提出了一種用于綜合能源系統(tǒng)運行優(yōu)化的能量管理方法。將電熱綜合能源系統(tǒng)的能量管理問題表述為一個馬爾科夫決策過程,其中考慮了可再生能源發(fā)電和負(fù)荷需求的不確定性。為求解該馬爾科夫決策過程,提出了一種基于DQN的電熱綜合能源系統(tǒng)能量管理方法。所提方法不依賴于綜合能源系統(tǒng)中不確定因素的預(yù)測信息及分布知識,可以根據(jù)系統(tǒng)的觀測狀態(tài)直接確定系統(tǒng)的能量管理策略,因此避免了由于預(yù)測或建模不準(zhǔn)確而導(dǎo)致的后續(xù)能量管理策略的不可靠和大偏差。將所提方法在測試集上進(jìn)行測試,結(jié)果表明所提方法能夠不斷優(yōu)化各設(shè)備出力以降低系統(tǒng)運行成本。將該方法與基于傳統(tǒng)Q學(xué)習(xí)的能量管理方法進(jìn)行對比,對運行得到的日運行成本的平均值、最大值和最小值進(jìn)行比較,驗證了所提方法的有效性,表明了本文所提出的基于DQN的綜合能源系統(tǒng)能量管理方案能夠更好地實現(xiàn)系統(tǒng)的能量管理與運行優(yōu)化。

      猜你喜歡
      電熱能量負(fù)荷
      能量之源
      學(xué)會區(qū)分電能、電功和電熱
      巧辨電能、電功與電熱
      詩無邪傳遞正能量
      中華詩詞(2017年4期)2017-11-10 02:18:29
      電熱刀具在聚苯乙烯快速成型機上的應(yīng)用
      巧學(xué)電能、電功與電熱
      防止過負(fù)荷時距離保護誤動新判據(jù)
      主動降負(fù)荷才是正經(jīng)事
      負(fù)荷跟蹤運行下反應(yīng)堆一回路控制系統(tǒng)仿真與驗證
      開年就要正能量
      都市麗人(2015年2期)2015-03-20 13:32:31
      喀喇沁旗| 清涧县| 遂平县| 乐安县| 凤城市| 甘孜| 安康市| 鄂州市| 米泉市| 克东县| 高邮市| 林州市| 仁布县| 平塘县| 贵港市| 阿瓦提县| 新营市| 吴忠市| 阆中市| 罗山县| 兰溪市| 永济市| 通城县| 盱眙县| 武平县| 康平县| 昭觉县| 电白县| 顺昌县| 江城| 江北区| 鄂伦春自治旗| 黔南| 高尔夫| 桂东县| 五寨县| 宕昌县| 石屏县| 扎鲁特旗| 湖口县| 岳普湖县|