陳鑫,余濤,席磊,邱軒宇,張孝順
(1.廣東電網(wǎng)公司韶關(guān)供電局,廣東 韶關(guān) 512026;2.華南理工大學(xué)電力學(xué)院,廣東 廣州 510640)
一種新穎的智能發(fā)電控制策略
陳鑫1,余濤2,席磊2,邱軒宇2,張孝順2
(1.廣東電網(wǎng)公司韶關(guān)供電局,廣東 韶關(guān) 512026;2.華南理工大學(xué)電力學(xué)院,廣東 廣州 510640)
本文提出了一種新穎的智能發(fā)電控制策略以解決新能源接入所帶來強(qiáng)隨機(jī)電網(wǎng)環(huán)境下的互聯(lián)電網(wǎng)自動(dòng)發(fā)電控制。各區(qū)域電網(wǎng)包含電網(wǎng)實(shí)時(shí)狀態(tài)輸入智能體﹑分布式協(xié)調(diào)算法智能體和控制輸出智能體。分布式相關(guān)均衡Q(λ)學(xué)習(xí)被集成到控制智能體中作為主要的協(xié)調(diào)控制方法。此外,本文還詳細(xì)討論了JADE技術(shù)智能體的通信﹑行為和動(dòng)作的作用機(jī)理。該平臺(tái)已通過南方電網(wǎng)四省實(shí)時(shí)頻率偏差模型證實(shí)能實(shí)現(xiàn)AGC區(qū)域的協(xié)調(diào)控制,尤其是當(dāng)某區(qū)域電網(wǎng)控制誤差A(yù)CE不能完全消除時(shí)。多智能體控制模塊可以嵌入不同的控制算法并能評(píng)估其控制性能,這表明該平臺(tái)具有很好的可擴(kuò)展性﹑靈活性和高效性。
自動(dòng)發(fā)電控制;多智能體系統(tǒng);Q學(xué)習(xí);相關(guān)均衡;隨機(jī)最優(yōu)控制
現(xiàn)代電網(wǎng)已發(fā)展成為在電力市場(chǎng)機(jī)制基礎(chǔ)上的多控制區(qū)域的互聯(lián)系統(tǒng),自動(dòng)發(fā)電控制(Automatic Generation Control, AGC)作為互聯(lián)電網(wǎng)實(shí)現(xiàn)功率和頻率控制的主要手段,其控制效果直接影響著電網(wǎng)品質(zhì)。由于電力系統(tǒng)運(yùn)行點(diǎn)隨日﹑月﹑季﹑年的不斷變化,基于傳統(tǒng)控制算法的固定增益控制器難以滿足日益復(fù)雜的電力系統(tǒng)對(duì)控制性能的要求。也即當(dāng)某一區(qū)域的控制器在某一時(shí)段無法為零化其控制誤差時(shí),系統(tǒng)頻率和聯(lián)絡(luò)線功率交換將無法穩(wěn)定運(yùn)行[1]。因此,適應(yīng)性和靈活性更強(qiáng)的智能算法被引入AGC控制器的設(shè)計(jì)以解決多區(qū)域互聯(lián)系統(tǒng)的協(xié)作控制問題。然而,國內(nèi)外并沒有統(tǒng)一標(biāo)準(zhǔn)的AGC智能仿真平臺(tái)以實(shí)現(xiàn)互聯(lián)電網(wǎng)多控制區(qū)域的協(xié)作控制和有效評(píng)估智能算法的控制效果。
電力系統(tǒng)仿真平臺(tái)如PSD﹑MATLAB/ Power System Toolbox等其循環(huán)運(yùn)算效率低﹑封裝性不好,對(duì)未來復(fù)雜多區(qū)域強(qiáng)隨機(jī)環(huán)境下的AGC不能很好的實(shí)現(xiàn)實(shí)時(shí)仿真控制;如RTDS又因其價(jià)格昂貴,維護(hù)費(fèi)用大,一般的研究人員或研究機(jī)構(gòu)根本無法承擔(dān);同時(shí),以上仿真平臺(tái)的自定義能力都較弱,各區(qū)域之間通信語言并沒有形成統(tǒng)一的規(guī)范,難以嵌入用戶自定義較強(qiáng)的智能算法。因此,本文引入多智能體技術(shù)以開發(fā)多區(qū)域互聯(lián)系統(tǒng)AGC的協(xié)調(diào)控制平臺(tái)。
多智能體(Multi-Agent, MA)技術(shù)是當(dāng)前IT領(lǐng)域發(fā)展最快的方向之一[2-5],在電力系統(tǒng)中的應(yīng)用目前已取得大量的研究成果[6-8]。由此而衍生的多智能體系統(tǒng)(MAS)是指在一定的環(huán)境下,由一群具有不同或者類似功能的智能體(Agent),在交互的環(huán)境中完成一個(gè)或多個(gè)功能目標(biāo)的系統(tǒng)[9-10]。MAS可以快速方便地求解分布式問題,其擴(kuò)展性強(qiáng)[11-14]。因此MAS在微電網(wǎng)協(xié)作優(yōu)化控制以及互聯(lián)電網(wǎng)故障診斷等方面都有所應(yīng)用[15-16]。然而,有關(guān)MAS的多數(shù)文章僅借助其概念并未進(jìn)行深層智能化的應(yīng)用,都未涉及Agent的自主學(xué)習(xí)和相互動(dòng)態(tài)博弈的應(yīng)用研究。
為此,本文提出了基于JADE技術(shù)開發(fā)新型多智能體動(dòng)態(tài)博弈的AGC控制平臺(tái),并實(shí)時(shí)模擬由于新能源接入而帶來的電網(wǎng)強(qiáng)隨機(jī)環(huán)境下的自動(dòng)發(fā)電控制。該平臺(tái)由頻率響應(yīng)模型模塊﹑實(shí)時(shí)數(shù)據(jù)傳輸模塊和多智能體控制模塊三部分組成。每個(gè)控制區(qū)域包含區(qū)域電網(wǎng)實(shí)時(shí)狀態(tài)智能體﹑算法實(shí)現(xiàn)智能體和控制輸出智能體。分布式相關(guān)均衡Q(λ)學(xué)習(xí)被集成到控制智能體中作為主要的協(xié)調(diào)控制方法,避免由于某一區(qū)域不能單獨(dú)實(shí)現(xiàn)頻率偏差的調(diào)整而陷入頻率偏差過大的狀態(tài)。本平臺(tái)在南方電網(wǎng)四省區(qū)域詳細(xì)動(dòng)態(tài)全過程頻率偏差模型上進(jìn)行了仿真研究,側(cè)證了本平臺(tái)擴(kuò)展性強(qiáng)﹑靈活性和高效性。
1.1 JADE的概述
JADE是基于Java的一個(gè)多智能體應(yīng)用程序開發(fā)平臺(tái)。JADE遵循FIPA規(guī)范,能實(shí)現(xiàn)多智能體系統(tǒng)間的互操作。JADE的目標(biāo)是通過遵循可理解的系統(tǒng)服務(wù)和主體集的規(guī)范來簡(jiǎn)化智能體系統(tǒng)的開發(fā)過程。JADE agent開發(fā)平臺(tái)提供了智能體最基本的服務(wù)和基礎(chǔ)設(shè)施:①智能體生命周期管理和移動(dòng)性;②白頁服務(wù)和黃頁服務(wù);③點(diǎn)對(duì)點(diǎn)信息傳輸服務(wù);④智能體安全性管理;⑤智能體多任務(wù)調(diào)度等。
1.2 JADE深層開發(fā)技術(shù)
JADE是一套免費(fèi)開源的多Agent系統(tǒng)開發(fā)框架,提供了Agent賴以生存的運(yùn)行時(shí)環(huán)境。Agent在JADE中是作為一種自治的具有合作能力﹑通信能力的實(shí)體,外部不能獲得Agent的引用,即不能直接存取Agent的屬性,也不能直接指定Agent的行為。創(chuàng)建Agent的具體任務(wù)只能由容器(Container)來完成,返回的結(jié)果也只是封裝后的Agent。JADE為Agent的任務(wù)定義了一種Behaviour類,Behaviour中可以規(guī)定Agent執(zhí)行時(shí)應(yīng)遵循的不同協(xié)議,如合同網(wǎng)(FIPAContractNet)等,來實(shí)現(xiàn)其交互合作能力。
1.2.1 智能體的行為
為支持Agent內(nèi)部并行活動(dòng)的高效執(zhí)行,JADE引入了Behaviour的概念。一個(gè)Behaviour就代表了智能體能夠執(zhí)行的任務(wù)。在JADE中,行為必須從其父類jade.core.behaviours.Behaviour派生。Behaviour類有很多子類,分別對(duì)應(yīng)著不同類型的behaviours,如Simple Behaviour表示簡(jiǎn)單行為,Composite Behaviour表示組合行為等。
為了使智能體具有某種行為,編程人員必須利用Agent類的addBehaviour方法向智能體中顯示的加入。行為可以在任何時(shí)候加入到智能體中。每個(gè)從Behaviour派生的行為類必須實(shí)現(xiàn)action和done方法。Action方法定義了一系列智能體執(zhí)行的操作,而done方法表明行為是否結(jié)束完畢。如果done方法返回的值為真,那表示這個(gè)行為已經(jīng)執(zhí)行完畢,可以從智能體的行為池刪除。圖1表明了智能體行為的執(zhí)行流程。
圖1 Agent行為執(zhí)行流程圖Fig.1 Agent behavior execution flow
1.2.2 智能體之間的通信
通信能力是JADE中智能體具有的最重要的特征之一。通信過程中所采用的通信模式為異步消息傳遞。也就是說,每個(gè)智能體都有一個(gè)消息隊(duì)列即mailbox,如果其他智能體需要與其通信時(shí),JADE runtime就把相應(yīng)消息投遞到其mailbox中。當(dāng)mailbox中出現(xiàn)消息時(shí),相應(yīng)的智能體被通知,再由該智能體調(diào)用Behaviour類中的action()方法對(duì)消息作出響應(yīng)。
智能體之間的通信是通過ACL(Agent Communication Language)語言進(jìn)行的,ACL是由FIPA制定的智能體互操作國際標(biāo)準(zhǔn)。ACL消息格式主要包括消息發(fā)送方﹑消息接收方﹑通信原語以及消息內(nèi)容。在JADE中,消息是由jade.lang.acl.ACMessage類對(duì)象表示。通信的消息由多個(gè)字段組成,主要的字段有:Sender字段﹑Receivers列表﹑Performative字段﹑Content字段﹑Language字段﹑Ontology字段等。
發(fā)送﹑接受消息:如果要向其它Agent發(fā)送消息,Agent首先需建立一個(gè)ACLMessage對(duì)象,并設(shè)置適當(dāng)?shù)膶傩灾?,最后調(diào)用Agent.Send()方法來發(fā)送信息。接收消息時(shí),Agent可以用receive()方法從其消息隊(duì)列中取出消息。這種方法返回隊(duì)列中的第一條消息并從隊(duì)列中將其刪除,或者返回Null。
1.2.3 ONTOLOGY
Ontology即本體,這個(gè)概念最初起源于哲學(xué)領(lǐng)域,用于研究客觀事物的存在的本質(zhì)。而在信息技術(shù)飛速發(fā)展的今天,本體的概念早已由哲學(xué)領(lǐng)域延伸到人工智能﹑信息系統(tǒng)﹑知識(shí)系統(tǒng)等其他各個(gè)領(lǐng)域。在人工智能領(lǐng)域,Ontology定義為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系來構(gòu)成的規(guī)定這些詞匯外延的規(guī)則”。
Agent間的通信內(nèi)容有多種的消息內(nèi)容,因此為Agent間所交換的信息內(nèi)容定義自己的詞匯和語義就顯得很有必要。因此,通過定義一個(gè)Ontology來用于Agent間的通信。
使用Ontology保證了JADE的Agent可以同其他異質(zhì)Agent系統(tǒng)進(jìn)行互操作。利用Ontology進(jìn)行Agent之間的通信可以實(shí)現(xiàn)以下幾種通信:1)Agent A請(qǐng)求Agent B執(zhí)行某項(xiàng)特殊的任務(wù);2)Agent A詢問Agent B某一命題是否為真;3)實(shí)現(xiàn)Concept接口。
智能體是能感應(yīng)環(huán)境變化并自主尋優(yōu)運(yùn)行的軟件實(shí)體,智能體之間通過交互協(xié)作而完成某項(xiàng)特定任務(wù)。多智能體研究重點(diǎn)在于結(jié)合實(shí)際應(yīng)用系統(tǒng),具體研究任務(wù)分解﹑協(xié)作模型﹑協(xié)作控制策略以及多智能體學(xué)習(xí)方法。本文所開發(fā)的AGC多智能體動(dòng)態(tài)博弈平臺(tái)分為三個(gè)部分:負(fù)荷頻率偏差模型﹑實(shí)時(shí)數(shù)據(jù)傳輸模塊和多智能體控制算法實(shí)現(xiàn)模塊,如圖2所示。本文僅多智能體控制算法實(shí)現(xiàn)模塊進(jìn)行詳細(xì)敘述。
多智能體控制模塊包含平臺(tái)服務(wù)智能體﹑電網(wǎng)狀態(tài)輸入/控制輸出智能體和分布式協(xié)調(diào)算法智能體,如圖3所示。
圖2 AGC多智能體控制平臺(tái)Fig.2 AGC control platform for multi-agent
圖3 多智能體控制模塊Fig.3 Multi-agent control module
2.1 平臺(tái)服務(wù)智能體
FIPA定義了平臺(tái)應(yīng)提供的若干服務(wù),包括智能體管理系統(tǒng)ams,目錄服務(wù)df和消息傳輸服務(wù)。本文為實(shí)時(shí)控制平臺(tái),因此加入同步控制智能體以記錄本次循環(huán)控制的時(shí)間。JADE平臺(tái)實(shí)體化后總是自動(dòng)生成這四類智能體,為本平臺(tái)的智能體創(chuàng)建﹑運(yùn)行與銷毀提供各類服務(wù)。
智能體ams主要負(fù)責(zé)智能體的命名﹑定位和控制服務(wù)。每個(gè)智能體必須在ams中注冊(cè)得到一個(gè)有效﹑唯一的標(biāo)志AID,用于智能體生命周期的管理。
智能體df也是智能體平臺(tái)必須的部分,主要提供平臺(tái)內(nèi)的黃頁服務(wù),例如對(duì)其它控制單元可視狀態(tài)的查詢﹑統(tǒng)計(jì)查詢信息等。
消息傳輸服務(wù)是默認(rèn)的跨平臺(tái)的智能體消息傳輸機(jī)制,提供了不同智能體之間的ACL消息交互機(jī)制。在消息傳輸機(jī)制中,ACC是消息傳輸?shù)耐ǖ溃琈TP是不同ACC之間的消息交互協(xié)議。
同步智能體記錄了平臺(tái)當(dāng)前運(yùn)行的時(shí)間,并根據(jù)各智能體的消息處理時(shí)間定量計(jì)算各智能體的有效同步時(shí)間。各智能體的計(jì)算結(jié)果僅在同步時(shí)段內(nèi)有效。如某類智能體在同步時(shí)段內(nèi)不能完成指定任務(wù),則啟動(dòng)此類備用智能體繼續(xù)任務(wù)。
2.2 狀態(tài)輸入/控制輸出智能體
此類智能體是保證區(qū)域控制智能體正常運(yùn)行的前提。狀態(tài)輸入智能體主要包括接收﹑解碼來自區(qū)域電網(wǎng)的實(shí)時(shí)狀態(tài)信號(hào)﹑時(shí)段信號(hào)等,并負(fù)責(zé)分配給各智能體所需要的狀態(tài)信號(hào);控制輸出智能體負(fù)責(zé)信號(hào)編碼,并打包發(fā)送給各電網(wǎng)區(qū)域。區(qū)間內(nèi)智能體主要是數(shù)據(jù)的接收﹑發(fā)送與數(shù)據(jù)備份。
此類智能體實(shí)現(xiàn)機(jī)制較為簡(jiǎn)單,在給智能體注冊(cè)后,即可添加行為TickerBehaviour執(zhí)行周期性數(shù)據(jù)收發(fā)備份工作。時(shí)間間隔等同于AGC時(shí)間執(zhí)行間隔,一般為3-5秒。
2.3 分布式協(xié)調(diào)算法智能體
在多智能體控制模塊的分布式智能算法中,測(cè)量智能體的數(shù)據(jù)輸入為該區(qū)域的聯(lián)絡(luò)線功率偏差與頻率偏差,輸出為此區(qū)域的控制誤差(Area Control Error, ACE)值和滾動(dòng)CPS(Control Performance Standards) 平均值。區(qū)域信息交換智能體則負(fù)責(zé)接收來自其它區(qū)域電網(wǎng)的狀態(tài)信號(hào)和控制信號(hào)和發(fā)送本區(qū)域的狀態(tài)控制信號(hào)給其它需要區(qū)域。隨后,各區(qū)域的ACE與CPS值傳輸?shù)娇刂七x擇智能體,此智能體決定采用集中式AGC控制器還是分散式AGC控制器。
選擇的原則為各區(qū)域狀態(tài)動(dòng)作的信息是否齊備和集中AGC智能體是否正常工作,如都是則選擇集中AGC智能體,輸出為各個(gè)區(qū)域的及時(shí)均衡動(dòng)作值;否則選擇分散AGC智能體,如果數(shù)據(jù)齊全,各分散AGC控制器分配各自計(jì)算的均衡動(dòng)作并互不影響;如果數(shù)據(jù)不全,各分散控制器調(diào)入數(shù)據(jù)不齊全區(qū)域的上一次正常數(shù)據(jù)再行計(jì)算均衡動(dòng)作值并分配動(dòng)作。整個(gè)互聯(lián)電網(wǎng)有且僅有一個(gè)集中AGC控制器,而測(cè)量智能體和分散AGC控制器在每一區(qū)域電網(wǎng)均有一個(gè)。
Reward信度分配智能體是對(duì)上一步聯(lián)合動(dòng)作下電網(wǎng)反饋的獎(jiǎng)勵(lì)進(jìn)行重新評(píng)估。評(píng)估的原則為:1)扣除上一步擾動(dòng)的結(jié)果;2)扣除聯(lián)絡(luò)線的波動(dòng)對(duì)獎(jiǎng)勵(lì)的影響。算法選擇智能體決定采用智能算法的編號(hào),平臺(tái)可供選擇算法有強(qiáng)化學(xué)習(xí)標(biāo)準(zhǔn)Q﹑Q(λ)算法和多智能體相關(guān)均衡算法DCE Q(λ)和斯泰格貝格均衡算法Asymmetric Q(λ)。這里僅對(duì)測(cè)量智能體和動(dòng)作區(qū)間的模糊化作簡(jiǎn)要介紹。算法描述請(qǐng)參閱相關(guān)文獻(xiàn)[17]。
測(cè)量智能體負(fù)責(zé)控制算法所需要數(shù)據(jù)狀態(tài)數(shù)據(jù)的測(cè)量。本文采用北美電力可靠性協(xié)會(huì)(NERC)于1999年正式推出聯(lián)絡(luò)線功率偏差與系統(tǒng)頻率偏差模式下互聯(lián)電網(wǎng)AGC的控制性能標(biāo)準(zhǔn)(CPS)來確定區(qū)域ACE與CPS值[18]。
區(qū)域控制偏差A(yù)CE定義為:
式中:分別為聯(lián)絡(luò)線實(shí)際潮流值與期望潮流值;B為頻率偏差系數(shù);﹑分別為系統(tǒng)實(shí)際頻率值與期望頻率值。
CPS1要求某i區(qū)域電網(wǎng)在考核時(shí)間段內(nèi)(例如10min)滿足
式中:Bi為控制區(qū)域i的頻率偏差系數(shù);為互聯(lián)電網(wǎng)對(duì)全年1分鐘頻率平均偏差均方根的控制目標(biāo)值;n為該考核時(shí)段的分鐘數(shù)。這一時(shí)段CPS1指標(biāo)的統(tǒng)計(jì)公式為:
CPS2要求某i區(qū)域電網(wǎng)在考核時(shí)間段內(nèi)(10min) ACE平均值的絕對(duì)值控制在某誤差以內(nèi):
2.4 強(qiáng)化學(xué)習(xí)算法一般結(jié)構(gòu)
本平臺(tái)主要是在AGC控制器中嵌入強(qiáng)化學(xué)習(xí)算法以解決傳統(tǒng)固定增益控制器所不能解決的問題:電力系統(tǒng)運(yùn)行點(diǎn)隨季節(jié)的變化﹑電網(wǎng)結(jié)構(gòu)的復(fù)雜等而不能進(jìn)行有效的控制。不論是單智能體算法還是多智能體算法,其算法都有如下基本形式:
式中V﹑Q分別為輸入信號(hào)所處狀態(tài)﹑狀態(tài)-動(dòng)作的值函數(shù),f1為根據(jù)Q值確定V值的函數(shù),f2為根據(jù)Q值確定最優(yōu)策略 π*(s)的函數(shù),R為立即獎(jiǎng)勵(lì)值,γ為獎(jiǎng)勵(lì)折扣值,P為概率轉(zhuǎn)移矩陣。
本平臺(tái)中,強(qiáng)化學(xué)習(xí)引入智能體控制器以實(shí)現(xiàn)區(qū)域電網(wǎng)AGC控制。AGC智能控制器抽象如下:在每一離散時(shí)刻k=1, 2…,每一個(gè)控制器觀測(cè)當(dāng)前系統(tǒng)所處狀態(tài)s∈S,根據(jù)自身最優(yōu)策略采取一最優(yōu)動(dòng)作,其后環(huán)境反饋給智能體一個(gè)獎(jiǎng)勵(lì)值評(píng)估采取的最優(yōu)動(dòng)作,根據(jù)獎(jiǎng)勵(lì)值修正最優(yōu)策略,依次循環(huán)。獎(jiǎng)勵(lì)值可以根據(jù)控制目標(biāo)設(shè)定,本文采取CPS指標(biāo)評(píng)估控制效果,可以選取其10-min滾動(dòng)平均值作為控制器獎(jiǎng)勵(lì)函數(shù)的狀態(tài)反饋輸入。
2.5 資格跡的選取
AGC不同于簡(jiǎn)單的博弈論對(duì)策游戲,其控制過程復(fù)雜。由于火電機(jī)組大滯后環(huán)節(jié)等二次調(diào)頻過程的獎(jiǎng)勵(lì)通常具有延時(shí)回報(bào)問題。因此具有多步回溯功能的資格跡需要被引入至強(qiáng)化學(xué)習(xí)算法中以解決時(shí)間信度分配問題。資格跡(Eligibility Trace)詳細(xì)記錄各聯(lián)合動(dòng)作策略發(fā)生的頻率,并依此對(duì)各動(dòng)作策略的迭代Q值進(jìn)行更新,常用的資格跡算法有四種:TD(λ)﹑SARSA(λ)﹑Watkin's Q(λ)和Peng's Q(λ)。
TD(λ)和SARSA(λ)是比較簡(jiǎn)單的兩種資格跡,分別記錄控制器過去訪問過的狀態(tài)﹑狀態(tài)-動(dòng)作區(qū)間。由于算法簡(jiǎn)單,且整合容易,這兩種資格跡常用在計(jì)算量需求不大的場(chǎng)合。
Watkin's Q(λ)算法是單智能體強(qiáng)化學(xué)習(xí)中最常用的算法,主要思想是迭代Q值的更新一直向前追溯直至非貪婪動(dòng)作策略的采用。因此,在預(yù)學(xué)習(xí)階段中此算法由于探索(explore)的必要必定大量采用非貪婪策略,資格跡常常頻繁被切斷。其改進(jìn)算法即為Peng's Q(λ),這一改進(jìn)也付出了計(jì)算量翻倍的代價(jià)。
本平臺(tái)提供四種資格跡可供選擇,在選擇中需要根據(jù)算法實(shí)際情況和系統(tǒng)實(shí)際運(yùn)行確定選取的資格跡,有效保證延時(shí)獎(jiǎng)勵(lì)的正確分配。
南方電網(wǎng)(China Southern Grid, CSG)由廣東電網(wǎng)﹑廣西電網(wǎng)﹑云南電網(wǎng)﹑貴州電網(wǎng)和海南電網(wǎng)五省構(gòu)成,屬于交直流混合輸電系統(tǒng),于2005年采用CPS控制標(biāo)準(zhǔn)。由于海南電網(wǎng)所占份額很少,且僅有一條外線相連于廣東電網(wǎng),故本平臺(tái)僅考慮四區(qū)域互聯(lián)電網(wǎng)??刂破髡{(diào)度端AGC總指令控制周期為4s,L10廣東電網(wǎng)取288MW,廣西電網(wǎng)取75MW,貴州電網(wǎng)和云南電網(wǎng)分別取81MW和78MW。ε10和ε1分別取0.042和0.052。仿真過程中,電網(wǎng)外部環(huán)境描述為強(qiáng)隨機(jī)環(huán)境,采用白噪聲進(jìn)行測(cè)試,其設(shè)定過程參見文獻(xiàn)[19]。
3.1 AGC控制器設(shè)計(jì)
本實(shí)例中AGC控制器采用算法為相關(guān)均衡CE-Q學(xué)習(xí),由于計(jì)算量較大,采用較簡(jiǎn)單的資格跡SARSA(λ)。
3.2 CE-Q算法簡(jiǎn)介
CE-Q(Correlated Equilibrium-Q learning)是一種基于值函數(shù)迭代的在線學(xué)習(xí)和動(dòng)態(tài)優(yōu)化技術(shù)。相關(guān)均衡策略的線性約束描述為對(duì)所有智能體i﹑所有動(dòng)作ai﹑a-i∈Ai(π(ai)>0)式(5)均成立:
滿足式(5)的相關(guān)均衡策略隨著智能體的增多而增多。由此CE-Q狀態(tài)值函數(shù)和最優(yōu)均衡策略函數(shù)分別定義為:
式中πst為給定的最優(yōu)均衡策略。
相關(guān)均衡物理含義為,在各區(qū)域電網(wǎng)當(dāng)前狀態(tài)下,根據(jù)各子值函數(shù),確定最優(yōu)均衡點(diǎn)以最大化利于各個(gè)區(qū)域電網(wǎng)ACE的變小和CPS值的提升。它賦予每一聯(lián)合動(dòng)作對(duì)以一定的概率,每一不為零概率的動(dòng)作對(duì)其Q值均較大。各個(gè)不為零概率的動(dòng)作對(duì)組成了最優(yōu)均衡策略。
獎(jiǎng)勵(lì)函數(shù)選用ACE的瞬時(shí)方差,也即現(xiàn)狀態(tài)ACE值與上一步ACE值的差。研究發(fā)現(xiàn),這一獎(jiǎng)勵(lì)函數(shù)能很好的立即識(shí)別最優(yōu)動(dòng)作和次優(yōu)動(dòng)作,有效加快收斂速度和收斂性能。
3.3 實(shí)時(shí)控制效果
3.3.1 預(yù)學(xué)習(xí)階段
強(qiáng)化學(xué)習(xí)AGC控制器要進(jìn)行在線控制,必須要在詳細(xì)的模型中離線學(xué)習(xí)達(dá)到最優(yōu)策略方可進(jìn)行在線控制。預(yù)學(xué)習(xí)過程采用典型正弦擾動(dòng),其廣東電網(wǎng)預(yù)學(xué)習(xí)過程如圖4所示,可以看出在經(jīng)過大約9000秒學(xué)習(xí)之后,ACE為0,CPS1值達(dá)到200且之后AGC控制器輸出平滑沒有毛刺,能完全追蹤負(fù)荷的變化,說明最優(yōu)策略的學(xué)習(xí)已經(jīng)完成,可以投入在線運(yùn)行。
圖4 典型預(yù)學(xué)習(xí)過程Fig.4 Typical pre-learning process
3.3.2 在線實(shí)時(shí)控制
在上訴預(yù)學(xué)習(xí)完成后,保存各個(gè)Q值和lookup表格,投入到南方電網(wǎng)四省區(qū)域電網(wǎng)的AGC實(shí)時(shí)在線控制中。廣東電網(wǎng)實(shí)時(shí)控制效果參見圖5,可見本平臺(tái)ACE控制在允許范圍以內(nèi),CPS1控制接近200,頻率偏差控制在0.1Hz以內(nèi)??梢?,本平臺(tái)能很好的實(shí)現(xiàn)多智能體AGC仿真控制。
本文提出了基于JADE多智能體技術(shù)的AGC控制平臺(tái)以評(píng)估智能算法控制性能和解決未來自動(dòng)發(fā)電控制過程所面臨的強(qiáng)隨機(jī)環(huán)境。該平臺(tái)的優(yōu)點(diǎn)在于能夠準(zhǔn)確抽象并快速模擬多智能體系統(tǒng)的AGC控制,通過變換系統(tǒng)的參數(shù)和加載不同的控制算法,既可以在同種控制方法下對(duì)其他因素的影響進(jìn)行對(duì)比,又可以對(duì)不同控制算法之間進(jìn)行橫向比較和評(píng)測(cè)。本文加載了具有相關(guān)均衡思想的CEQ控制算法實(shí)現(xiàn)南方電網(wǎng)各省之間的AGC協(xié)作控制,避免由于某一區(qū)域不能單獨(dú)實(shí)現(xiàn)頻率偏差的調(diào)整而陷入頻率偏差過大的狀態(tài),并取得良好的控制效果。此平臺(tái)可為未來復(fù)雜互聯(lián)多區(qū)域的控制協(xié)作算法的研究提供更多公正而可靠的評(píng)測(cè),為設(shè)計(jì)和提升算法性能提供研究基礎(chǔ)。同時(shí),該平臺(tái)的建立也為未來復(fù)雜多區(qū)域強(qiáng)隨機(jī)互聯(lián)系統(tǒng)的AGC控制手段的升級(jí)提供了一條走向?qū)嶋H應(yīng)用的思路。
圖5 廣東電網(wǎng)實(shí)時(shí)控制效果圖Fig.5 Real-time control renderings of Guangdong Power Grid
[1] 席磊, 張孝順, 程樂峰, 等.基于 JADE 多智能體動(dòng)態(tài)博弈的自動(dòng)發(fā)電控制仿真平臺(tái)研究[J].新型工業(yè)化, 2014, 4(11):5-18.L XI, X S ZHANG, L F CHENG, et al.Research on Multi-agent simulation Platform for AGC based on JADE[J].The Journal of New Industrialization, 2014, 4(11):5-18.
[2] 胡兆光, 方燕平.智能工程及其在電力發(fā)展戰(zhàn)略研究中的應(yīng)用[J].中國電機(jī)工程學(xué)報(bào), 2000, 20(3):45-49.Z G Hu, Y P Fang.Intelligent engineering and its application to power development strategy study[J].Proceedings of the CSEE, 2000, 20(3):45-49.
[3] 楊煜普, 李曉萌, 許曉鳴.多智能體協(xié)作技術(shù)綜述[J].信息與控制, 2001, 30(4):337-342.Y P Yang, X M Li, X M Xu.A survey of technology of multi-agent cooperation[J].Information and Control, 2001, 30(4):337-342.
[4] 劉金琨, 爾聯(lián)潔.多智能體技術(shù)應(yīng)用綜述[J].控制與決策, 2001, 16(2):133-140.J K Liu, L J Er.Overview of application of multi-agent technology[J].Control and Decision, 2001, 16(2):133-140.
[5] 付明玉, 吳寶奇, 張曉霜.基于反步滑模控制的動(dòng)力定位船鋪管循跡建模與分析[J].新型工業(yè)化, 2014, 4(3):17-22.FU Mingyu, WU Baoqi, Zhang Xiaoshuang.Modeling and analysis of trajectory tracking for DP vessel pipelaying based on backstepping sliding mode method [J].The Journal of New Industrialization, 2014, 4(3):17-22.
[6] 劉紅進(jìn), 袁斌, 戴宏偉, 等.多代理系統(tǒng)及其在電力系統(tǒng)中的應(yīng)用[J].電力系統(tǒng)自動(dòng)化, 2001 (10):45-52.H J LIU, B YUAN, H W DAI, et al.Multi-agent system and its application in power systems[J].Automation of Electric Power Systems, 2001, 25(19):45-48.
[7] 束洪春, 唐嵐, 董俊.多Agent 技術(shù)在電力系統(tǒng)中的應(yīng)用展望[J].電網(wǎng)技術(shù), 2005, 29(6) :27- 31.H C Shu, L Tang, J Dong.A survey on application of multi-agent system in power system[J].Power System Technology, 2005, 29(6):27-31.
[8] 羅凱明, 李興源, 李雪.多代理技術(shù)在電力系統(tǒng)中的應(yīng)用[J].國際電力, 2004, 8 ( 3) :38- 43.K M Luo, X Y Li, X Li.Applications of Muti-Ag Technology in Power Systems[J].International Electric Power for China, 2004, 8(3):38-43.
[9] Franklin S, Graesser A.Is It an Agent, or just a Program? A Taxonomy for Autonomous Agents [A] .Proceedings of the Third International Work shop on Agent Theories, Architectures and Languages[C].Budapest (Hungary) :Springer- Verlag, 1996:21- 35.
[10] 周小利, 王宏強(qiáng), 程永強(qiáng), 等.寬帶MIMO雷達(dá)角度估計(jì)的統(tǒng)計(jì)分辨力[J].新型工業(yè)化, 2014, 4(4):9-16.ZHOU Xiaoli, WANG Hongqiang, CHENG Yongqiang, et al.Statistical Resolution Limit of Angle Estimation for Wideband MIMO Radar [J].The Journal of New Industrialization, 2014, 4(4):9-16.
[11] Leseure M J, Brookes N J.A support tool for knowledge management activities[C].Management of Innovation and Technology, ICMIT 2000.Proceedings of the 2000 IEEE International Conference on, Volume:2.12-15 Nov.2000:696-701.
[12] Chin-Bin Wang, Yuh-Min Chen, Yuh-Zen Chen, A distributed knowledge model for collaborative engineering knowledge management in allied concurrent engineering [C].Engineering Management Conference, 2002 IEEE International, 2002, 2(8):701-707.
[13] 劉曉東, 黃萬偉, 吳云潔, 等.彈性彈體被動(dòng)﹑主動(dòng)和復(fù)合控制及其適用性分析[J].新型工業(yè)化, 2014, 4(5):11-19.Liu Xiaodong, Huang Wanwei, Wu Yunjie, et al.Passive, Active and Compound Control for Elastic Missile and Applicability Analysis[J].The Journal of New Industrialization, 2014, 4(5):11-19.
[14] 常志遠(yuǎn).基于自適應(yīng)EWMA 算法t 控制圖檢測(cè)能力的研究[J].新型工業(yè)化, 2014, 4(6):15-21.CHANG Zhiyuan.Research on detection capability of t control chart based on adaptive EWMA algorithm[J].The Journal of New Industrialization, 2014, 4(6):15-21.
[15] Aris L D, Nikos D.Operation of a multi agent System for micro-grid control[J].IEEE Transaction on Power Systems, 2005, 20(3):1447-1455.
[16] 趙偉, 白曉民, 丁劍, 等.基于協(xié)同式專家系統(tǒng)及多智能體技術(shù)的電網(wǎng)故障診斷方法[J].中國電機(jī)工程學(xué)報(bào), 2006, 26(20):1-8.
[17] W Zhao, X M Bai, J Ding, et al.A New Fault Diagnosis Approach of Power Grid Based on Cooperative Expert System and Multiagent Technology [J].Proceedings of the CSEE, 2006, 26(20):1-8.
[18] Daneshfar F, Bevrani H.Load-frequency control:a GA-based multi-agent reinforcement learning[J].IET Proc.of Gener.Transm.Distrib., 2010, 4(1):13-26.
[19] Jaleeli N, Vanslyck L S.NERC's new control performance standards[J].IEEE Trans.On Power System, 1999, 14(3):1091-1099.
[20] 余濤, 周斌, 陳家榮.基于Q學(xué)習(xí)的互聯(lián)電網(wǎng)動(dòng)態(tài)最優(yōu)CPS控制[J].中國電機(jī)工程學(xué)報(bào), 2009, 29(19):13-19.Yu Tao, Zhou Bin.Q-learning based dynamic optimal CPS control methodology for interconnected power systems[J].Proceedings of the CSEE, 2009, 29(19):13-19.
A Novel Policy for Smart Generation Control
CHEN Xin1, YU Tao2, XI Lei2, QIU Xuanyu2, ZHANG Xiaoshun2
(1.Shaoguan Power Supply Bureau, Shaoguan 512026, China; 2.School of Electric Power, South China University of Technology, Guangzhou 510640, China)
A novel policy is proposed in this paper to deal with smart generation control under strong random grid environment considering emerging renewable energy sources.Every control area contains input grid status agents, synergetic algorithm implementation agents, and output controller agents.Decentralized correlated equilibrium Q(λ) learning was integrated in control agent as the main synergetic control method.Besides, the mechanism of agent communication, behavior and action of this platform are discussed in details.It has been proved that this platform applied to China Southern Power Grid could achieve coordination control between automatic generation control areas, especially when one of the areas could not drive its area control error to zero.Different control algorithms can be embedded into control agent and its control performance can be evaluated, which demonstrates the effectiveness, scalability and flexibility of this platform.
AGC; MAS; correlated Q learning; correlated equilibrium; stochastic optimal control
陳鑫,余濤,席磊,等.一種新穎的智能發(fā)電控制策略[J].新型工業(yè)化,2015,5(5):40-48
10.3969/j.issn.2095-6649.2015.05.06
:CHEN Xin, YU Tao, XI Lei, et al.A Novel Policy for Smart Generation Controll [J].The Journal of New Industrialization, 2015, 5(5)∶ 40?48.
國家自然科學(xué)基金(51177051,51477055),國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)(2013CB228205),廣東省綠色能源技術(shù)重點(diǎn)實(shí)驗(yàn)室資助項(xiàng)目(2008A060301002)
陳鑫(1982-),男,學(xué)士,主要研究方向:電力系統(tǒng)運(yùn)行控制工作;余濤(1974-),男,教授,博士生導(dǎo)師,博士研究生,主要研究方向:復(fù)雜電力系統(tǒng)的非線性控制理論和仿真研究;席磊(1982-),男,博士研究生,主要研究方向:電力系統(tǒng)優(yōu)化運(yùn)行與控制的研究;邱軒宇(1990-),男,碩士研究生,主要研究方向:電力系統(tǒng)優(yōu)化運(yùn)行與控制的研究;張孝順(1990-),男,博士研究生,主要研究方向:強(qiáng)化學(xué)習(xí)算法在電力系統(tǒng)優(yōu)化的研究與應(yīng)用。