孫 勇, 王惠鋒, 孟祥東, 李寶聚, 王大亮, 王 堯, 胡 梟, 陳厚合
(1. 國(guó)網(wǎng)吉林省電力有限公司, 吉林 長(zhǎng)春 130022; 2. 東北電力大學(xué)電氣工程學(xué)院, 吉林省 吉林市 132012; 3. 國(guó)網(wǎng)吉林省電力有限公司電力科學(xué)研究院, 吉林 長(zhǎng)春 130021; 4. 國(guó)網(wǎng)吉林省電力有限公司長(zhǎng)春供電公司, 吉林 長(zhǎng)春 130021)
需求響應(yīng)(Demand Response, DR)作為智能電網(wǎng)框架下的重要互動(dòng)資源,對(duì)于維護(hù)系統(tǒng)穩(wěn)定性、減少電網(wǎng)公司投資、促進(jìn)新能源消納等方面起到積極作用。由于用戶(hù)側(cè)多能負(fù)荷的耦合程度日漸加深,且可調(diào)控資源潛力和用戶(hù)用能偏好都與系統(tǒng)的高效運(yùn)行息息相關(guān),因此用戶(hù)參與需求響應(yīng)收益的準(zhǔn)確建模、利益分配機(jī)制的選擇和博弈過(guò)程分析都對(duì)于繼續(xù)推進(jìn)電力市場(chǎng)化改革以及良性的電力現(xiàn)貨市場(chǎng)建設(shè)具有重要意義。
受惠于電力市場(chǎng)化進(jìn)程早、電力金融體系相對(duì)完備和市場(chǎng)化自由度較高,國(guó)外在需求響應(yīng)的研究中很早就使用了博弈論作為研究手段,并且展望了不同類(lèi)型博弈在電力市場(chǎng)中不同領(lǐng)域的應(yīng)用前景[1-4],國(guó)內(nèi)相關(guān)研究也緊隨其后。文獻(xiàn)[5]結(jié)合非合作博弈探討了需求響應(yīng)在無(wú)功支撐和改善電網(wǎng)性能方面的影響,但對(duì)經(jīng)濟(jì)方面的考量則較為模糊。文獻(xiàn)[6]以經(jīng)濟(jì)角度作為主要出發(fā)點(diǎn),通過(guò)對(duì)售電商需求響應(yīng)策略和補(bǔ)貼價(jià)格的制定,論證了在其模型下參與響應(yīng)的各方都能夠因此獲利;在此基礎(chǔ)上,文獻(xiàn)[7]繼續(xù)結(jié)合經(jīng)濟(jì)因素,針對(duì)風(fēng)險(xiǎn)厭惡型能源,考慮市場(chǎng)價(jià)格不確定性,提出一種雙層兩階段模型以探尋電力零售商競(jìng)價(jià)策略和能源定價(jià)問(wèn)題;文獻(xiàn)[8]通過(guò)光熱聚合商、多能運(yùn)營(yíng)商和用戶(hù)三方的利益均衡,采用主從博弈架構(gòu),在有效提升用戶(hù)側(cè)用能滿(mǎn)意度的同時(shí),也在一定幅度上提高了系統(tǒng)的經(jīng)濟(jì)效益。文獻(xiàn)[9]轉(zhuǎn)而從發(fā)電側(cè)角度出發(fā),在模型方面作出改進(jìn),選擇主從博弈與討價(jià)還價(jià)博弈共同組成了雙層模型,論證了機(jī)制上的部分改動(dòng)可以進(jìn)一步使博弈各方的經(jīng)濟(jì)效益顯著提升,然而一定程度上忽略了用電側(cè)作為需求響應(yīng)主體的重要地位。文獻(xiàn)[10,11]從家庭角度,使用了多周期微分博弈建立模型,采用0-1混合線(xiàn)性規(guī)劃計(jì)算納什均衡,給出了個(gè)人房主與電力供應(yīng)商之間參與需求響應(yīng)的博弈策略;文獻(xiàn)[12]則完全從用戶(hù)角度切入,設(shè)計(jì)了家庭之間的點(diǎn)對(duì)點(diǎn)能源交易,結(jié)合非合作博弈探討了該交易下的動(dòng)態(tài)定價(jià)策略,不過(guò)由于家庭用電只占電力負(fù)荷比重中較小的部分,意義上仍較為有限;文獻(xiàn)[13,14]雖聚焦于需求側(cè),提出了多層博弈競(jìng)標(biāo)模型和主從架構(gòu)下的多微網(wǎng)綜合需求響應(yīng)方法,但具體到策略刻畫(huà)上較為模糊;文獻(xiàn)[15-19]雖主要聚焦于工業(yè)用戶(hù),采用了主從博弈來(lái)描述聚合商與用戶(hù)之間的博弈關(guān)系并探尋了二者在此架構(gòu)下交互的收益問(wèn)題,但其中部分背景環(huán)境與國(guó)內(nèi)電力市場(chǎng)現(xiàn)狀仍客觀上存在有一定差異,在參考價(jià)值方面具備一定的局限性。
總體而言,現(xiàn)有的研究在用戶(hù)主動(dòng)響應(yīng)決策方面的描述尚不全面。譬如在目標(biāo)群體選擇上,大部分文獻(xiàn)僅針對(duì)單一用戶(hù)的響應(yīng)策略,且忽略了用戶(hù)在制定其響應(yīng)策略時(shí)的有限理性;在用戶(hù)用能消費(fèi)的決策方面,現(xiàn)有研究通常通過(guò)考慮用戶(hù)用能時(shí)的購(gòu)買(mǎi)成本、參與需求響應(yīng)的收益、補(bǔ)貼、市場(chǎng)消費(fèi)剩余等因素來(lái)量化用戶(hù)用能消費(fèi)的估值,建立用戶(hù)用能決策模型,但對(duì)于參與需求響應(yīng)行為反映在用戶(hù)自身之影響的刻畫(huà)仍較為粗糙[20,21]。
本文引入Bayes博弈理論來(lái)研究用戶(hù)參與需求側(cè)響應(yīng)的博弈行為,在按容量區(qū)分不同體量用戶(hù)的基礎(chǔ)上建立雙層模型,構(gòu)建了層間交互關(guān)系,設(shè)計(jì)了聚合商與用戶(hù)的收益分配機(jī)制;最后通過(guò)算例分析,得到了在聚合商不同利益分配機(jī)制下,用戶(hù)的合作策略?xún)A向以及聚合商參與需求響應(yīng)的價(jià)格和容量申報(bào)策略,分析了園區(qū)內(nèi)需求響應(yīng)對(duì)用戶(hù)側(cè)資源調(diào)控具有重要作用和意義,一定程度上可為工業(yè)園區(qū)內(nèi)有意愿參與需求響應(yīng)的各級(jí)各利益主體策略決策的制定提供部分參考和依據(jù)。
需求響應(yīng)的參與者包括執(zhí)行者與運(yùn)營(yíng)商兩部分;執(zhí)行者為用戶(hù)側(cè)的各類(lèi)可控負(fù)荷,運(yùn)營(yíng)商可按角色分為三個(gè)主體:負(fù)荷聚合商、電力調(diào)度中心與電力交易中心。負(fù)荷聚合商負(fù)責(zé)聚合各類(lèi)電力用戶(hù)需求響應(yīng)資源,參與市場(chǎng)化需求響應(yīng),為年用電量5 GW·h以上的用戶(hù)(批發(fā)用戶(hù))和5 GW·h以下的用戶(hù)(零售用戶(hù))提供服務(wù);電力調(diào)度中心負(fù)責(zé)組織市場(chǎng)主體注冊(cè)的安全校核、交易出清、評(píng)價(jià)考核、建設(shè)運(yùn)維;而電力交易中心負(fù)責(zé)需求響應(yīng)市場(chǎng)主體的注冊(cè)申報(bào)、合同管理、信息披露、出具結(jié)算等[22]。運(yùn)營(yíng)商各主體間交互狀況可從信息層和物理層兩個(gè)層面上進(jìn)行描述,如圖1和圖2所示。
圖1 工業(yè)園區(qū)需求響應(yīng)的信息層交互結(jié)構(gòu)Fig.1 Information layer interaction structure for demand response in industrial parks
圖2 工業(yè)園區(qū)需求響應(yīng)的物理層交互結(jié)構(gòu)Fig.2 Physical layer interaction structure for demand response in industrial parks
信息層交互是指整個(gè)系統(tǒng)內(nèi)參與需求響應(yīng)的全部主體,其信息流動(dòng)的交互狀況。如圖1所示,園區(qū)內(nèi)存在多個(gè)規(guī)模不同的負(fù)荷聚合商,每個(gè)負(fù)荷聚合商各自與園區(qū)內(nèi)有意向參與需求響應(yīng)的用戶(hù)簽訂服務(wù)合同,在合同有效期內(nèi),聚合商代行參與需求響應(yīng)。需要說(shuō)明的是,大用戶(hù)(批發(fā)用戶(hù))可以繞過(guò)負(fù)荷聚合商,直接參與負(fù)荷響應(yīng)。
物理層交互則是考慮到了負(fù)荷聚合商的特殊屬性——無(wú)實(shí)體。由于聚合商本身不提供任何負(fù)荷,只是其所代理的全部用戶(hù)的負(fù)荷集合,因此在物理層面上實(shí)際只有一類(lèi)節(jié)點(diǎn),即電力用戶(hù),包括批發(fā)用戶(hù)和零售用戶(hù)。
綜上所述,調(diào)度中心和交易中心可視為供電公司在參與需求響應(yīng)管理過(guò)程中在物理層和信息層的兩種表現(xiàn)形式;相對(duì)而言,前者更關(guān)注需求響應(yīng)過(guò)程中的響應(yīng)執(zhí)行行為本身,而后者則更側(cè)重于在經(jīng)濟(jì)層面對(duì)市場(chǎng)內(nèi)用戶(hù)的激勵(lì)及其所產(chǎn)生的正面引導(dǎo)作用。
本文根據(jù)我國(guó)現(xiàn)行工業(yè)園區(qū)中需求響應(yīng)的商業(yè)模式,即交易中心-聚合商-用戶(hù)三層結(jié)構(gòu),設(shè)定了需求響應(yīng)采取邀約制,即:在用電高峰時(shí),由于電力供應(yīng)緊張,交易中心發(fā)出邀約在市場(chǎng)中尋求提供更多可用電能,試圖彌補(bǔ)用電缺口;而在用電低谷時(shí),由于供電能力盈余,交易中心發(fā)出邀約在市場(chǎng)中尋求消耗更多電能,以保證電網(wǎng)的經(jīng)濟(jì)運(yùn)行。設(shè)置邀約在響應(yīng)執(zhí)行日2天前的上午發(fā)布,在需求發(fā)布后,各負(fù)荷聚合商和批發(fā)用戶(hù)各自決定申報(bào)容量和申報(bào)價(jià)格,在邀約發(fā)布后12 h內(nèi)完成市場(chǎng)申報(bào),隨后在市場(chǎng)出清過(guò)程中,按申報(bào)價(jià)格由低到高依次調(diào)用,報(bào)價(jià)相同時(shí)按截止時(shí)間前、最近一次申報(bào)時(shí)間的先后順序依次調(diào)用,直至滿(mǎn)足響應(yīng)容量需求。出清容量按照全量中標(biāo),次日?qǐng)?zhí)行響應(yīng);在響應(yīng)執(zhí)行后、結(jié)果申訴前,還會(huì)進(jìn)行響應(yīng)評(píng)價(jià)并作出結(jié)算[22],該過(guò)程如圖3所示。
圖3 需求響應(yīng)邀約機(jī)制Fig.3 Demand response invitation mechanism
圖3中,申報(bào)和出清兩個(gè)步驟意味著不同的負(fù)荷聚合商之間必然存在利益沖突。且因?yàn)橛脩?hù)具有自主選擇簽約聚合商的權(quán)利,故對(duì)于聚合商而言應(yīng)在博弈過(guò)程中盡可能多地?fù)魯∑渌酆仙?從而謀求獲得更多的用戶(hù)資源,并通過(guò)合理的利益分配機(jī)制將簽約用戶(hù)保持在自己名下從而最大化自身利益,這體現(xiàn)了聚合商作為商業(yè)機(jī)構(gòu)本征存在的逐利性。聚合商、批發(fā)用戶(hù)和零售用戶(hù)三類(lèi)博弈參與者參與需求響應(yīng)的一般狀態(tài)模式如圖4所示,粗直線(xiàn)表示與交易中心進(jìn)行需求響應(yīng)行為時(shí)各參與者的利益邊界,在博弈過(guò)程中會(huì)被不斷推動(dòng),直至博弈達(dá)到均衡點(diǎn)時(shí)停止。
圖4 參與需求響應(yīng)的一般狀態(tài)Fig.4 General state of participation in demand response
實(shí)際上,圖4中的利益邊界并非一種具象化的、物理存在的實(shí)體邊界,而是用以表達(dá)需求響應(yīng)過(guò)程中不同參與者收益流動(dòng)的交互邊界。圖4中任意兩條相鄰的利益邊界所夾圍成的區(qū)域都可視為上層博弈中的一個(gè)對(duì)象整體,且該區(qū)域的全部收益來(lái)源均由交易中心提供,各扇區(qū)圓心角的比值即為園區(qū)內(nèi)對(duì)應(yīng)區(qū)域的市場(chǎng)份額之比。
在利益邊界的動(dòng)止問(wèn)題上,本文擬通過(guò)不滿(mǎn)意度機(jī)制的設(shè)置對(duì)用戶(hù)與聚合商的合約關(guān)系進(jìn)行更新,這意味著一旦合約關(guān)系發(fā)生變化,圖4中某些區(qū)域原有的合作關(guān)系便不再能夠維持原狀(這表征為區(qū)域元素的變動(dòng)),此即為驅(qū)動(dòng)利益邊界推動(dòng)的原動(dòng)力;而邊界的推動(dòng)過(guò)程本身則在次月的需求響應(yīng)行為中體現(xiàn),并且由于次月的合約關(guān)系表很大可能仍會(huì)發(fā)生變化,這意味著在次次月,邊界仍會(huì)被再次推動(dòng);當(dāng)且僅當(dāng)達(dá)到博弈的均衡點(diǎn),即所有用戶(hù)都沒(méi)有在次月改變運(yùn)營(yíng)商的動(dòng)機(jī)(因?yàn)槿魏螁畏矫娴母膭?dòng)都無(wú)法獲得更多收益)時(shí),邊界失去驅(qū)動(dòng)力,變動(dòng)停止。
整體博弈架構(gòu)如圖5所示,由于上層博弈中的所有參與者都直接從交易中心獲取收益,而所獲收益的總額取決于該次響應(yīng)的出清價(jià)格,出清價(jià)格又與各參與者的策略決策(也即響應(yīng)申報(bào)容量和申報(bào)價(jià)格)二者強(qiáng)相關(guān),故任一參與者在參與響應(yīng)的過(guò)程中,其策略決策都會(huì)影響其他參與者的收益,這是一種典型的多方非合作博弈[23]。又因?yàn)閷?shí)際的出清結(jié)果中只公開(kāi)中標(biāo)容量和中標(biāo)單價(jià),競(jìng)爭(zhēng)對(duì)手的其他信息對(duì)于博弈參與者而言是缺失的,無(wú)法對(duì)其申報(bào)策略產(chǎn)生明確的引導(dǎo)方向,故而該博弈是一種不完全信息博弈。
圖5 園區(qū)需求響應(yīng)雙層博弈架構(gòu)Fig.5 Bi-level game structure of demand response in park
而在亞結(jié)構(gòu)視角的博弈下層,由于批發(fā)用戶(hù)本身不具備組織其他用戶(hù)參與需求響應(yīng)的能力,零售用戶(hù)若想要獲得需求響應(yīng)的收益必須與聚合商結(jié)盟;又因?yàn)榫酆仙滩⒎菆@區(qū)內(nèi)的用戶(hù),自身無(wú)法提供任何其所申報(bào)的響應(yīng)容量,本質(zhì)上其僅是一個(gè)由眾多用戶(hù)組成的聯(lián)盟代理,以與用戶(hù)簽訂合約的方式為聯(lián)盟提供協(xié)議約束力,并對(duì)所獲得的收益進(jìn)行再分配,而后下發(fā)給其名下用戶(hù)。這意味著在博弈下層,每一負(fù)荷聚合商的名下,都形成了支付可轉(zhuǎn)移的合作博弈,也即在下層形成了多個(gè)合作博弈格局[24]。至此,一個(gè)由Bayes博弈作為上層、數(shù)個(gè)合作博弈作為下層的雙層博弈模型得以構(gòu)建。
3.1節(jié)提及推動(dòng)利益邊界的原動(dòng)力是下層博弈中用戶(hù)合約的改變,而促成該變化的原因涉及模型的層間交互過(guò)程以及不滿(mǎn)意度機(jī)制的設(shè)計(jì),其中用戶(hù)的不滿(mǎn)意度直接影響下層所形成的合作聯(lián)盟。如表1所示,數(shù)字1表示對(duì)應(yīng)行的用戶(hù)與對(duì)應(yīng)列的負(fù)荷聚合商締結(jié)了聯(lián)盟關(guān)系,否則使用數(shù)字0表示;合作聯(lián)盟一旦形成,僅在本月全部單次響應(yīng)完成后、下月需求響應(yīng)開(kāi)始前允許變更。
表1 下層合約關(guān)系表Tab.1 Lower level contract relationship table
當(dāng)初始的下層合約關(guān)系表給定后,各聚合商的可響應(yīng)容量上限隨即確定。對(duì)用戶(hù)而言,自身的博弈策略表現(xiàn)為合作對(duì)象的選擇,而用戶(hù)所提供的可響應(yīng)容量會(huì)直接影響聚合商在上層博弈中的收益。當(dāng)輪Bayes博弈后所產(chǎn)生的上層收益表見(jiàn)表2,表2中,r為用戶(hù)的收益,R為聚合商的收益。
表2 上層收益矩陣表Tab.2 Upper level income matrix table
表1中,任意一個(gè)用戶(hù)只能與一個(gè)聚合商在本月簽訂合約,表示與該聚合商名下的全部其他用戶(hù)組成聯(lián)盟,然后開(kāi)始第i次迭代過(guò)程。由于在第i次迭代過(guò)程中的上層博弈時(shí),申報(bào)的響應(yīng)容量上限受制于第i次的合約關(guān)系表,而響應(yīng)容量上限又會(huì)影響聚合商的申報(bào)策略,這進(jìn)一步影響了其收益,改變了上層收益矩陣表中的元素,這就形成了下層博弈對(duì)上層博弈的影響。而在當(dāng)次響應(yīng)過(guò)程結(jié)束后,聚合商通過(guò)對(duì)已獲得收益的再分配,來(lái)直接影響其聯(lián)盟內(nèi)每個(gè)用戶(hù)的收益;若用戶(hù)對(duì)分得的該收益不滿(mǎn)意,就會(huì)在合約到期時(shí)改變其聯(lián)盟對(duì)象,轉(zhuǎn)投其他聚合商尋求合作,就會(huì)導(dǎo)致下層合約關(guān)系表中的元素的變化,形成了上層博弈對(duì)下層博弈的影響。
通過(guò)這種相互影響和不斷迭代,兩層博弈通過(guò)該機(jī)制建立起了內(nèi)在關(guān)聯(lián),如圖6所示。最終在經(jīng)歷多個(gè)子博弈均衡后,可以達(dá)到穩(wěn)固的聯(lián)盟關(guān)系,在該關(guān)系中,任一參與者脫離聯(lián)盟都無(wú)法單方面獲得較之前更高的收益,這一狀態(tài)即為該博弈的一個(gè)Nash均衡點(diǎn)。而對(duì)任一聚合商而言,此時(shí)其即將采用的申報(bào)容量和申報(bào)價(jià)格,即是其全部動(dòng)作策略的最佳反應(yīng),也稱(chēng)最優(yōu)決策。
圖6 層間迭代關(guān)系Fig.6 Iterative relationship between layers
由于用戶(hù)對(duì)經(jīng)負(fù)荷聚合商再分配后的、自身分得的利益未必達(dá)到預(yù)期收益值,因此可能會(huì)在次月更換其他合作聚合商以圖獲取更多收益,具體表現(xiàn)為用戶(hù)對(duì)當(dāng)前對(duì)象不滿(mǎn)意度的積累到達(dá)一定程度時(shí),對(duì)自身在下層合約關(guān)系表中相應(yīng)的元素作出變更,以不滿(mǎn)意度函數(shù)zk作為用戶(hù)做出該變更行為的概率。不滿(mǎn)意度函數(shù)如式(1)所示:
ak<1,bk>0
(1)
式中,ak和bk為不滿(mǎn)意度函數(shù)參數(shù),用來(lái)調(diào)節(jié)不滿(mǎn)意度的影響權(quán)重;∑r(i)為用戶(hù)i在本月內(nèi)實(shí)際獲得的全部響應(yīng)收益;∑Er(i)為用戶(hù)i在本月內(nèi)期望獲得的響應(yīng)收益(與某用戶(hù)自己響應(yīng)容量絕對(duì)值最小的5位其他用戶(hù)收益的算數(shù)平均值);ReLU(·)函數(shù)即線(xiàn)性整流函數(shù)作為激活函數(shù)對(duì)非正部分進(jìn)行歸零處理。例如當(dāng)用戶(hù)i在本月內(nèi)實(shí)際共獲得3萬(wàn)元,ak取0.8、bk取1時(shí),隨期望獲得收益不同而引起的其不滿(mǎn)意度的變化如圖7所示。當(dāng)且僅當(dāng)博弈達(dá)到均衡點(diǎn)處且無(wú)外部條件改變時(shí),所有用戶(hù)都不會(huì)在次月主動(dòng)改變自己的合作策略。
圖7 期望收益變化引起的其不滿(mǎn)意度的變化Fig.7 Changes in dissatisfaction caused by changes in expected earnings
由于用戶(hù)的收益實(shí)質(zhì)上依賴(lài)于聚合商所獲收益后再分配的過(guò)程,因此分配機(jī)制直接決定了用戶(hù)收益和不滿(mǎn)意度。本文在下層模型中的支付可轉(zhuǎn)移的合作博弈中,擬設(shè)置五種利益分配方式:等分、按容量比例分配、按Shapley值分配、按核仁分配和等MDP(Modified Disruption Propensity, MDP)指標(biāo)[25]分配五種。
(1)等分:聯(lián)盟下每位參與者平等分割該聯(lián)盟的聯(lián)盟價(jià)值。
(2)按容量比例分配:參與者分得的收益與其組成聯(lián)盟的容量成正比。
(3)按Shapley值分配:通過(guò)加權(quán)因子的控制,按照參與者的邊際貢獻(xiàn)進(jìn)行分配。Shapley值具體計(jì)算如式(2)所示,式中變量詳釋見(jiàn)參考文獻(xiàn)[25]:
[v(s)-v(s{i})]
(2)
(4)按核仁分配:通過(guò)對(duì)核的幾何中心的求取,將表征核仁的向量映射回三維坐標(biāo)。由于核的存在性滿(mǎn)足了穩(wěn)定分配的最低要求,保證了所有參與者在該分配下都不會(huì)脫離聯(lián)盟,選擇通過(guò)犧牲一定的經(jīng)濟(jì)性來(lái)確保聯(lián)盟的穩(wěn)定。
(5)等MDP指標(biāo)分配:MDP指標(biāo)是一種改進(jìn)的破壞聯(lián)盟傾向指標(biāo),用來(lái)表示某參與者拒絕合作所帶給其他參與者的人均損失與自身?yè)p失之比,其核心思路是考慮讓所有參與者的這種破壞聯(lián)盟的傾向相等,來(lái)保證對(duì)分配的接受程度一致。具體公式如式(3)所示,式中變量詳釋見(jiàn)參考文獻(xiàn)[25]:
(3)
對(duì)于用戶(hù)收益分配機(jī)制的對(duì)比和分析將在算例部分進(jìn)一步闡明。
聚合商收益RLA采用日清月結(jié)的方式,其收益包括三個(gè)部分,分別為日前邀約需求響應(yīng)收益RRI、可中斷負(fù)荷交易響應(yīng)收益RIL以及零售分成電費(fèi)收益RRS,如式(4)所示:
RLA=RRI+RIL+RRS
(4)
其中RRI和RIL作為獎(jiǎng)勵(lì)響應(yīng)收益,分別來(lái)自于兩種不同的交易類(lèi)型,而零售分成電費(fèi)的收益RRS,則是來(lái)自于未參與響應(yīng),但享受了響應(yīng)所帶來(lái)的便利的各個(gè)用戶(hù)所繳納電費(fèi)中的一部分。
如式(5)所示,日前邀約需求響應(yīng)收益,主要是響應(yīng)費(fèi)用RRIDR和考核費(fèi)用RRIA兩部分構(gòu)成,兩項(xiàng)分別主要是圍繞有效響應(yīng)容量和無(wú)效響應(yīng)容量來(lái)構(gòu)建,本節(jié)各式中部分參數(shù)含義見(jiàn)附表1。
附表1 《廣東省市場(chǎng)化需求響應(yīng)實(shí)施細(xì)則(試行)》中部分參數(shù)設(shè)置App.Tab.1 Partial parameter in commercialized demand response implementation rules of Guangdong province (trial)
RRI=RRIDR-RRIA
=∑QECRI+∑[QI·max(M1CRI,P3)]
(5)
總體而言根據(jù)有效響應(yīng)容量獲得正的收益,根據(jù)無(wú)效響應(yīng)容量獲得懲罰,也就是所謂的考核費(fèi)用。在約束上則要滿(mǎn)足日前邀約的可響應(yīng)容量能力約束,和日前邀約的非虛假申報(bào)約束如式(6)所示:
(6)
可中斷負(fù)荷交易響應(yīng)收益則是由備用費(fèi)用RSP和調(diào)用費(fèi)用RTR兩部分組成的,如式(7)所示:
(7)
由于在單次響應(yīng)過(guò)程中,如果某聚合商被當(dāng)次調(diào)用,則備用費(fèi)用部分不會(huì)獲得收益,這意味著兩部分收益不可能同時(shí)存在,故而使用調(diào)用狀態(tài)函數(shù)u,令u=1表示調(diào)用,u=0表示未調(diào)用。約束方面則要滿(mǎn)足可中斷負(fù)荷的可響應(yīng)容量能力約束和可中斷負(fù)荷的非虛假申報(bào)約束,如式(8)所示:
(8)
以上各式中的無(wú)效響應(yīng)容量QI和有效響應(yīng)容量QE則按照式(9)計(jì)算:
(9)
式中,QF為實(shí)際響應(yīng)容量;QBL為結(jié)算基線(xiàn)負(fù)荷;QR為實(shí)測(cè)負(fù)荷。在之前的實(shí)際響應(yīng)容量求取當(dāng)中,需要用到結(jié)算基線(xiàn)負(fù)荷,即未實(shí)施需求響應(yīng)和有序用電時(shí)響應(yīng)資源的用電負(fù)荷。進(jìn)一步可以劃分為五種制定類(lèi)型,主要區(qū)別在于負(fù)荷樣本數(shù)不同,其制定標(biāo)準(zhǔn)參考文獻(xiàn)[22]中的附錄部分。
零售分成電費(fèi)由全月需求地區(qū)電力用戶(hù)分?jǐn)傎M(fèi)用與地區(qū)電力用戶(hù)月度實(shí)際用電量的比值確定:
(10)
由于度電分?jǐn)傎M(fèi)用無(wú)限增加是不現(xiàn)實(shí)的,所以在此基礎(chǔ)之上設(shè)置度電分?jǐn)偵舷轈T。在用戶(hù)分?jǐn)傎M(fèi)用RZU>CT時(shí),當(dāng)月不再組織日前邀約和可中斷負(fù)荷交易,并且要按照折算系數(shù)K去等比例地調(diào)整響應(yīng)收益。K具體值如式(11)所示:
(11)
對(duì)于聚合商之間的非合作關(guān)系,該Bayes博弈模型可以使用五元組Γ=〈N,S,Θ,p,u〉描述為:
i∈N+
(12)
在均衡解的存在性證明方面,Nash在Kakutani定理和Berge定理的基礎(chǔ)之上給出了混合策略Nash均衡存在性定理,即:對(duì)策略式博弈G={N;S1,…,Sn,u1,…,un},若策略集合Si為Euclid空間的非空緊子集,支付函數(shù)ui關(guān)于策略組合s連續(xù),則該博弈存在混合策略Nash均衡[25]。對(duì)于本文的博弈模型,由于策略集合來(lái)源于申報(bào)價(jià)格和申報(bào)容量?jī)煞N不相干動(dòng)作組成的二維策略空間,且二者在各自維度上均是連續(xù)的,故而其組成的二維策略空間也是稠密且連續(xù)的,所以策略集合顯然為Euclid空間的非空緊子集;對(duì)于式(4)的收益函數(shù),由于其三部分RRI、RIL、RRS都是連續(xù)的,故而其和也是連續(xù)的,滿(mǎn)足該定理的全部條件,從而該博弈均衡解的存在性得證。
在均衡解求取方面,本文提出一種改進(jìn)的虛擬遺憾最小化[26,27]算法,在動(dòng)作空間內(nèi)隨機(jī)一個(gè)出來(lái)作為行動(dòng)策略,依靠出清信息與實(shí)際收益來(lái)確定虛擬遺憾值,通過(guò)虛擬遺憾的梯度最速下降方向來(lái)對(duì)本輪內(nèi)的、先前生成的策略來(lái)進(jìn)行獎(jiǎng)勵(lì)與懲罰,獎(jiǎng)勵(lì)與懲罰的具體權(quán)重按照生成策略與出清信息的歐式空間距離來(lái)確定。當(dāng)最小化平均整體遺憾值趨于0時(shí),其所得的平均策略通過(guò)2ε-均衡定理認(rèn)為近似收斂到納什均衡策略[28]。該算法流程如圖8所示。
圖8 改進(jìn)的虛擬遺憾最小化算法流程圖Fig.8 Flow chart of improved counterfactual regret minimization
本文所提算法通過(guò)對(duì)策略使用遺憾值進(jìn)行獎(jiǎng)勵(lì)或懲罰來(lái)不斷自我學(xué)習(xí),從而引導(dǎo)策略的生成傾向以較快的速度逼近平均整體遺憾更小的方向,并保證模型收斂性與求解效率。
本文算例采取2020和2021年廣東省某工業(yè)園區(qū)邀約響應(yīng)的實(shí)際數(shù)據(jù)。在收益模型部分,對(duì)第3節(jié)公式中的全部參數(shù)設(shè)置見(jiàn)附表1,其中,共統(tǒng)計(jì)了28個(gè)聚合商在2020和2021兩個(gè)年度在本園區(qū)內(nèi)共計(jì)1 585次需求響應(yīng)中隨機(jī)抽取5名聚合商響應(yīng)的實(shí)際收益平均值,并在表3中給出了此5名聚合商若采用本文給出的策略所能取得的預(yù)期收益,而后將二者進(jìn)行了對(duì)比。此外,全部28個(gè)聚合商的平均每次響應(yīng)收益增長(zhǎng)和平均每次響應(yīng)收益增幅如圖9所示。通過(guò)分析可以認(rèn)為總體而言,多數(shù)聚合商如果采用了本文提出的策略,其平均收益對(duì)比采用策略前均會(huì)有所提升,僅有少數(shù)聚合商的收益一定程度上下降。
表3 部分聚合商實(shí)際收益與采用本文策略后的預(yù)期收益及對(duì)比Tab.3 Actual income of some aggregators and expected income after adopting strategies in this paper
圖9 全部聚合商的平均每次響應(yīng)收益增長(zhǎng)和平均每次響應(yīng)收益增幅Fig.9 Average revenue per response growth and average revenue per response growth across all aggregators
在策略曲線(xiàn)的變化趨勢(shì)方面,以聚合商1為例,其申報(bào)策略曲線(xiàn)如圖10所示。每個(gè)需求場(chǎng)景下,都包含其之前全部場(chǎng)景的歷史數(shù)據(jù),由圖10可知,該聚合商的申報(bào)價(jià)格策略在第300次邀約響應(yīng)場(chǎng)景附近開(kāi)始趨于平穩(wěn),在經(jīng)歷了全部1 585次邀約響應(yīng)的場(chǎng)景后最終在800元/(MW·h)附近小幅度波動(dòng);其申報(bào)容量策略在第380次邀約響應(yīng)的場(chǎng)景附近開(kāi)始趨于平穩(wěn),在經(jīng)歷了全部1 585次邀約響應(yīng)的場(chǎng)景后,最終在3.5 MW·h附近波動(dòng)但幅度較大,這是由于前文提出的不滿(mǎn)意度機(jī)制作為一種變更合作關(guān)系的概率,會(huì)在一定程度上導(dǎo)致申報(bào)策略的波動(dòng)。根據(jù)多次學(xué)習(xí)結(jié)果的統(tǒng)計(jì),伴隨著訓(xùn)練集數(shù)量的提升,其策略波動(dòng)性會(huì)在一定程度上漸趨于平緩。
圖10 1 585個(gè)需求響應(yīng)場(chǎng)景下聚合商1申報(bào)策略曲線(xiàn)Fig.10 Curve of declaration strategy of aggregator 1 under 1 585 demand response scenarios
對(duì)于下層博弈的利益分配機(jī)制,為便于對(duì)比分析,現(xiàn)進(jìn)行4處理想化處理:
(1)為排除用戶(hù)在下層博弈中不完全理性所帶來(lái)的對(duì)結(jié)果的不確定性影響,假設(shè)用戶(hù)完全理性,即式(1)中的概率性不滿(mǎn)意度zk使用式(13)中的確定性不滿(mǎn)意度zk′來(lái)進(jìn)行簡(jiǎn)化替代,概率性不滿(mǎn)意度zk在此僅作為評(píng)價(jià)指標(biāo):
(13)
(2)用戶(hù)i每月提供的響應(yīng)容量上限恒定不變,即不隨月份發(fā)生變化。
(3)聚合商用以分配給用戶(hù)的總支付,占其全部收益的百分比固定不變,本文按照75%取值。
(4)不滿(mǎn)意度冷卻:用戶(hù)不會(huì)在離開(kāi)某聚合商名下后的相鄰兩個(gè)月內(nèi)再回到該聚合商名下。
在此前提下,為方便對(duì)利益分配機(jī)制的分析,此處設(shè)置一新算例,選用表3中的五名聚合商作為園區(qū)內(nèi)全部的可選聚合商,將每個(gè)聚合商都分配一種不同的收益分配機(jī)制,即在此場(chǎng)景下,園區(qū)內(nèi)全部137名用戶(hù)同一時(shí)間僅能選擇這五名聚合商中的某一個(gè)進(jìn)行合作。為了方便比對(duì),這五類(lèi)分配機(jī)制下的初始合作用戶(hù)數(shù)量應(yīng)盡可能保持一致,具體見(jiàn)表4。
表4 所選聚合商及其對(duì)應(yīng)的收益分配機(jī)制Tab.4 Selected aggregators and their corresponding income distribution mechanism
圖11和圖12分別展示了五種不同分配方式下用戶(hù)數(shù)量變化趨勢(shì)和用戶(hù)平均不滿(mǎn)意度變化趨勢(shì)?,F(xiàn)對(duì)5種收益分配機(jī)制分析如下:
圖11 不同分配方式下聚合商名下用戶(hù)數(shù)量變化趨勢(shì)Fig.11 Change trend of number of users under aggregator name with different allocation methods
圖12 不同分配方式下聚合商名下用戶(hù)平均不滿(mǎn)意度變化趨勢(shì)Fig.12 Change trend of average user dissatisfaction of aggregators with different distribution methods
等分:在該園區(qū)用戶(hù)數(shù)量的規(guī)模下,由于初始合作的用戶(hù)體量差異客觀存在,而等分的利益分配方式總會(huì)妨害部分用戶(hù)利益,使其不滿(mǎn)意度維持較高狀態(tài),并且隨時(shí)間的推移該變化呈升高趨勢(shì),引起客戶(hù)持續(xù)流失直至用戶(hù)數(shù)量下降至足夠低的水平,此時(shí)采用該分配方式的聚合商被迫以極低的響應(yīng)容量上限參與需求響應(yīng),其收益也持續(xù)走低。在此情形下,一旦用戶(hù)所能提供的響應(yīng)容量上限小于上層博弈中聚合商參與需求響應(yīng)的響應(yīng)下限時(shí),該聚合商便不再滿(mǎn)足需求響應(yīng)的基本條件,失去次月參與上層博弈的資格,進(jìn)而不再能獲得任何收益,最終導(dǎo)致采用該分配方式的聚合商退市。
按容量比例分配:相比于等分的分配方式,按容量比例分配會(huì)在一定程度上降低用戶(hù)的總體不滿(mǎn)意度,但算例中受制于用戶(hù)完全理性的理想化條件,用戶(hù)數(shù)量流失速度并未有明顯改善??傮w而言可以認(rèn)為在足夠長(zhǎng)的時(shí)間尺度內(nèi),機(jī)械地按照容量比例的分配方式仍會(huì)流失全部用戶(hù),直至聚合商退市。從博弈論中核仁這一概念的視角下來(lái)看,意味著前兩種分配方式下的分配策略必然不在核中,即策略元素不是核范圍內(nèi)的元素。
按Shapley值分配:按Shapley值分配的方式實(shí)際上是按照參與者的邊際貢獻(xiàn)來(lái)進(jìn)行分配的,作為一種平均主義思想的分配方式,對(duì)于用戶(hù)而言相對(duì)較為公平。圖12中該分配方式下的平均不滿(mǎn)意度水平在全部五種方式中處于相對(duì)較低水平??傮w來(lái)看其在用戶(hù)組成上雖未必穩(wěn)定,但能夠提供的響應(yīng)容量上限和與之強(qiáng)相關(guān)的收益必然相對(duì)平穩(wěn),可以認(rèn)為是一種較為公平的分配方式。
按核仁分配:如圖12所示,按核仁分配最為明顯的特點(diǎn)是用戶(hù)的平均不滿(mǎn)意度能夠維持在相對(duì)較低的水平,并且有緩慢下降的趨勢(shì)。然而雖然其用戶(hù)數(shù)量的增長(zhǎng)水平較高,但仍以規(guī)模較小的小容量用戶(hù)為主,其總提供容量上限的趨勢(shì)仍不明朗。這意味著按照核仁分配收益的方式,雖在物理意義上較為明確(最小化最大剩余思想),也相對(duì)較為符合多數(shù)用戶(hù)的決策理念,但隨著其他分配方式下壟斷聯(lián)盟的形成,其穩(wěn)定度在長(zhǎng)時(shí)間尺度下也必然會(huì)下降,依然將存在退市風(fēng)險(xiǎn)。然而在理論上,如果在長(zhǎng)時(shí)間內(nèi)其他聚合商未能形成體量足夠的聯(lián)盟,該分配方式仍可認(rèn)為表現(xiàn)優(yōu)異,并在適宜條件下可以保持規(guī)模的緩步增長(zhǎng)。
按等MDP指標(biāo)分配:在該分配方式下,用戶(hù)平均不滿(mǎn)意度水平較高。由于該方式著眼于退出聯(lián)盟給他人帶來(lái)的損失與給自身帶來(lái)?yè)p失的比值,意味著對(duì)于體量較大的用戶(hù)通常能獲得更低的不滿(mǎn)意度,也即自身持有較高容量的用戶(hù)更傾向于選擇在該規(guī)則下與聚合商達(dá)成合作。實(shí)際上在本算例的限制條件下,該分配方式的優(yōu)越性較難體現(xiàn),但若用戶(hù)池中不同用戶(hù)持有容量的方差較大,且聚合商在上層博弈中的響應(yīng)容量上限不會(huì)被限制在較低的水平時(shí),則若采用該分配方式將會(huì)逐漸自發(fā)擴(kuò)大其聯(lián)盟的規(guī)模,并不斷擠壓其他聚合商的生存空間,如圖13所示,在經(jīng)歷足夠長(zhǎng)的時(shí)間后將可能會(huì)形成壟斷地位。
圖13 取消響應(yīng)容量上限前后使用等MDP指標(biāo)分配對(duì)用戶(hù)數(shù)量的影響Fig.13 Impact on number of users of MDP indicator allocation before and after canceling response capacity ceiling
綜上所述,在園區(qū)內(nèi)的聚合商僅有上述5類(lèi)收益分配方式且滿(mǎn)足前述4種理想化條件的場(chǎng)景下,等分和按容量比例分配的收益分配方式均會(huì)以不同的速度流失用戶(hù),造成聯(lián)盟崩解導(dǎo)致對(duì)應(yīng)的上位聚合商被迫退市,而其他3種利益分配方式能夠在稍長(zhǎng)的時(shí)間里維持相對(duì)穩(wěn)定的運(yùn)營(yíng)狀況,且各自有其特點(diǎn);其中,按核仁分配在用戶(hù)不滿(mǎn)意度方面表現(xiàn)較好,按等MDP指標(biāo)分配則可以在滿(mǎn)足一定條件(較大的用戶(hù)容量方差、申報(bào)響應(yīng)容量上限足夠高)時(shí)發(fā)揮優(yōu)勢(shì)形成壟斷地位,而按Shapley值分配能在用戶(hù)平均不滿(mǎn)意度水平維持在較低水平的同時(shí)一定程度上緩和用戶(hù)流失,是一種較為平衡的可選分配方式。
本文從不同利益視角下出發(fā),通過(guò)提出園區(qū)內(nèi)全部需求響應(yīng)參與者參與至需求響應(yīng)過(guò)程中的利益關(guān)系并構(gòu)建博弈架構(gòu),算例驗(yàn)證了所提方法的可行性與有效性,并得到以下結(jié)論:
(1)通過(guò)理論分析與推導(dǎo),證明所提出的Bayes博弈模型存在均衡解,并應(yīng)用一種改進(jìn)的虛擬遺憾最小化方法求解,結(jié)果表明該算法具有較好的收斂效果,可以在部分信息不公開(kāi)的情況下對(duì)博弈策略的生成進(jìn)行引導(dǎo)。
(2)算例仿真結(jié)果說(shuō)明本文通過(guò)引入博弈架構(gòu)描述聚合商與用戶(hù)在參與需求響應(yīng)過(guò)程中的關(guān)系,能夠提高聚合商的收益,通過(guò)收益維持已參與需求響應(yīng)的用戶(hù)繼續(xù)參與需求響應(yīng),吸引未參與需求響應(yīng)的用戶(hù)參與到需求響應(yīng)中來(lái),改善用戶(hù)用電模式,達(dá)到削峰填谷的作用。
(3)從聚合商視角下審視收益分配制度,若采用等分和容量比例方式均會(huì)在較短時(shí)間內(nèi)發(fā)生退市,而隨著用戶(hù)容量方差、申報(bào)響應(yīng)容量上限等外部條件的不同,按Shapley值分配、按核仁分配和等MDP指標(biāo)分配三種分配方式各有優(yōu)劣,仍需結(jié)合具體環(huán)境下的具體條件進(jìn)一步計(jì)算才能保證所選擇的收益分配方式可以持續(xù)運(yùn)營(yíng)。
附錄