李竹 傅啟明 丁正凱 劉璐 張穎 陳建平
收稿日期:2023-06-14;修回日期:2023-08-21? 基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2020YFC2006602);國(guó)家自然科學(xué)基金資助項(xiàng)目(62102278,62172324,61876217,61876121);江蘇省高等學(xué)校自然科學(xué)研究項(xiàng)目(21KJA520005);江蘇省重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(BE2020026);江蘇省自然科學(xué)基金資助項(xiàng)目(BK20190942);江蘇省研究生教育教學(xué)改革項(xiàng)目
作者簡(jiǎn)介:李竹(1997—),女,江蘇南京人,碩士研究生,主要研究方向?yàn)榻ㄖ悄芑?、?qiáng)化學(xué)習(xí);傅啟明(1985—),男(通信作者),江蘇淮安人,副教授,碩導(dǎo),博士,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、模式識(shí)別、建筑節(jié)能(fqm_1@126.com);丁正凱(1996—),男,江蘇鹽城人,碩士,主要研究方向?yàn)榻ㄖ悄芑?qiáng)化學(xué)習(xí);劉璐(1998—),女,江蘇泰州人,碩士研究生,主要研究方向?yàn)榻ㄖ悄芑?qiáng)化學(xué)習(xí);張穎(1998—),女,江蘇鎮(zhèn)江人,碩士研究生,主要研究方向?yàn)榻ㄖ悄芑?、?qiáng)化學(xué)習(xí);陳建平(1963—),男,江蘇南京人,教授,俄羅斯工程院外籍院士,碩導(dǎo),主要研究方向?yàn)榻ㄖ?jié)能、智能信息處理.
摘? 要:住宅暖通空調(diào)系統(tǒng)通常耗用大量能源,同時(shí)也極大地影響居住者的熱舒適性。目前,強(qiáng)化學(xué)習(xí)廣泛應(yīng)用于優(yōu)化暖通空調(diào)系統(tǒng),然而這一方法需要投入大量時(shí)間和數(shù)據(jù)資源。為了解決該問(wèn)題,提出了一個(gè)新的基于事件驅(qū)動(dòng)的馬爾可夫決策過(guò)程(event-driven Markov decision process,ED-MDP)框架,并在此基礎(chǔ)上,提出了基于事件驅(qū)動(dòng)的深度確定性策略梯度(event-driven deep deterministic policy gradient,ED-DDPG)方法,通過(guò)事件觸發(fā)優(yōu)化控制,結(jié)合強(qiáng)化學(xué)習(xí)算法求解最優(yōu)控制策略。實(shí)驗(yàn)結(jié)果顯示,與基準(zhǔn)方法相比,ED-DDPG在提升學(xué)習(xí)速度和減少?zèng)Q策頻率方面表現(xiàn)出色,并在節(jié)能和維持熱舒適方面取得了顯著成果。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,該方法在優(yōu)化住宅暖通空調(diào)控制方面展現(xiàn)出強(qiáng)大的魯棒性和適應(yīng)性。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí); 事件驅(qū)動(dòng); 暖通空調(diào); 住宅建筑; 熱舒適
中圖分類號(hào):TP391??? 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2024)02-031-0527-06
doi:10.19734/j.issn.1001-3695.2023.06.0273
Event-driven reinforcement learning thermal comfort controlfor residential buildings
Li Zhu1a,1b, Fu Qiming1a,1b, Ding Zhengkai1a,1b, Liu Lu1a,1b, Zhang Ying1a,1b, Chen Jianping1b,1c,2
(1. a.School of Electronic & Information Engineering, b.Jiangsu Provincial Key Laboratory of Intelligent Energy Saving in Buildings, c.College of Architecture & Urban Planning, Suzhou University of Science & Technology, Suzhou Jiangsu 215009, China; 2.Chongqing Industrial Big Data Innovation Center Co.,Ltd., Chongqing 400707, China)
Abstract:Residential HVAC systems typically constitute a substantial portion of energy consumption and exert a significant influence on occupants thermal comfort. At present, reinforcement learning is widely employed to optimize HVAC systems; however, this approach necessitates a substantial investment of time and data resources. To address this issue, this paper proposed a novel framework based on an event-driven Markov decision process(ED-MDP) and further introduce an event-driven deep deterministic policy gradient(ED-DDPG) method. This approach amalgamated reinforcement learning algorithms to deduce optimal control policies through event-triggered optimization. The experimental results demonstrate that ED-DDPG excels in enhancing learning speed and reducing decision frequency compared to the benchmark method. Furthermore, it attains notable accomplishments in energy conservation and sustaining thermal comfort. Following comprehensive testing and validation, the method showcases robustness and adaptability in optimizing residential HVAC control.
Key words:reinforcement learning; event-driven; HVAC; residential buildings; thermal comfort
0? 引言
隨著全球氣候變化日益加劇,降低建筑能耗和提高熱舒適顯得尤為重要。據(jù)國(guó)際能源署報(bào)告稱,住宅建筑占建筑能耗的最大份額,僅2020年消耗了全球能耗的35%[1]。而在建筑系統(tǒng)中,暖通空調(diào)系統(tǒng)的能耗最高,占比超過(guò)50%[2]。因此,降低暖通空調(diào)系統(tǒng)能耗已成為優(yōu)化建筑控制的研究重點(diǎn)之一。然而,在追求建筑節(jié)能的同時(shí),不能以犧牲熱舒適為代價(jià)。尤其是在疫情期間,人們?cè)谑覂?nèi)停留時(shí)間更長(zhǎng)[3],因此,研究人員和相關(guān)從業(yè)者越來(lái)越關(guān)注如何在保持住宅建筑熱舒適性的前提下最大限度地減少能耗。
目前,大多數(shù)暖通空調(diào)系統(tǒng)采用RBC(rule-based control)、PID(proportional integral derivative)[4]、拉格拉朗日松弛法[5]和MPC(model predictive control)[6]等方法。然而,RBC在實(shí)際應(yīng)用中存在一些限制,其控制精度有限,難以適應(yīng)復(fù)雜的實(shí)際環(huán)境;PID控制器依賴于固定的參數(shù),當(dāng)環(huán)境變化時(shí)可能無(wú)法提供最佳的性能;盡管MPC控制效果可能更好,但是在實(shí)踐中構(gòu)建一個(gè)簡(jiǎn)化的且足夠準(zhǔn)確的建筑模型并不容易。室內(nèi)環(huán)境受到多種因素影響,如建筑結(jié)構(gòu)、建筑布局、建筑內(nèi)部熱量和室外環(huán)境等。當(dāng)模型無(wú)法準(zhǔn)確描述建筑熱動(dòng)力學(xué),并存在較大偏差時(shí),控制性能可能會(huì)偏離預(yù)期[7]。
強(qiáng)化學(xué)習(xí)為暖通空調(diào)系統(tǒng)的控制帶來(lái)了新的機(jī)遇[8]。Mozer[9]最早將強(qiáng)化學(xué)習(xí)應(yīng)用于住宅建筑;隨后,Chen等人[10]提出了一種Q學(xué)習(xí)方法,旨在最大限度地減少能耗和熱不適。但是對(duì)于具有大的狀態(tài)和動(dòng)作空間的問(wèn)題,簡(jiǎn)單強(qiáng)化學(xué)習(xí)方法可能不實(shí)用。為了應(yīng)對(duì)這一挑戰(zhàn),深度Q網(wǎng)絡(luò)(deep Q-network,DQN)方法由于其簡(jiǎn)單性和高數(shù)據(jù)效率而成為暖通空調(diào)控制的常見(jiàn)選擇[11]。然而,DQN需要對(duì)動(dòng)作空間進(jìn)行離散化,而足夠精細(xì)的離散化會(huì)成倍地增加動(dòng)作的數(shù)量,使得控制額外參數(shù)變得越來(lái)越難。為了處理連續(xù)的動(dòng)作空間,F(xiàn)u等人[12]提出了基于深度確定性策略梯度(deep deterministic policy gradients,DDPG)方法,避免了動(dòng)作空間的離散化。盡管強(qiáng)化學(xué)習(xí)在暖通空調(diào)系統(tǒng)中展現(xiàn)了巨大的潛力,但是傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法在固定的時(shí)間步上進(jìn)行學(xué)習(xí),而暖通空調(diào)系統(tǒng)的控制涉及連續(xù)的時(shí)間步,這導(dǎo)致了一些問(wèn)題。首先,由于連續(xù)時(shí)間步之間具有相似性,強(qiáng)化學(xué)習(xí)方法可能會(huì)導(dǎo)致數(shù)據(jù)冗余和低效利用。因?yàn)樵谶B續(xù)時(shí)間步之間,環(huán)境可能保持相似的狀態(tài),但傳統(tǒng)方法仍然需要進(jìn)行策略更新和數(shù)據(jù)收集,造成了資源的浪費(fèi)。其次,時(shí)間間隔的選擇對(duì)控制性能有重要影響。較長(zhǎng)的時(shí)間間隔會(huì)降低控制的精度,可能會(huì)錯(cuò)過(guò)重要的狀態(tài)變化和事件。而較短的時(shí)間間隔會(huì)導(dǎo)致過(guò)多的動(dòng)作調(diào)整,增加了計(jì)算負(fù)擔(dān),并且可能會(huì)引起過(guò)度頻繁的策略更新,降低了控制的穩(wěn)定性和效率。此外,暖通空調(diào)系統(tǒng)的控制問(wèn)題通常涉及高維狀態(tài)空間,這進(jìn)一步增加了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的復(fù)雜性。高維狀態(tài)空間意味著智能體需要處理大量的狀態(tài)信息,導(dǎo)致計(jì)算資源和時(shí)間的增加。這使得傳統(tǒng)方法在實(shí)際應(yīng)用中可能面臨著計(jì)算效率和學(xué)習(xí)性能的折中。因此,在有限資源情況下,如何提升學(xué)習(xí)速度和節(jié)省資源,以保證節(jié)能和熱舒適是必要的,這也是促使開(kāi)展本文研究的直接原因。
事件驅(qū)動(dòng)的思想在暖通空調(diào)領(lǐng)域一直備受關(guān)注。與傳統(tǒng)的周期性控制方法不同,它僅在事件發(fā)生時(shí)觸發(fā)控制行為。Wang等人[13]提出了一種基于事件驅(qū)動(dòng)和機(jī)器學(xué)習(xí)的方法以提高運(yùn)行效率,該方法優(yōu)于傳統(tǒng)的固定時(shí)間序列方法。為了進(jìn)一步簡(jiǎn)化計(jì)算過(guò)程,Jia等人[14]為暖通空調(diào)控制問(wèn)題建立了局部和全局事件,并通過(guò)實(shí)驗(yàn)證明了其良好的性能。然而在實(shí)際問(wèn)題中,通常不存在任何封閉形式的函數(shù)來(lái)準(zhǔn)確量化所選擇的事件與事件驅(qū)動(dòng)類控制策略性能之間的關(guān)系。因此,事件的構(gòu)建具有較高的復(fù)雜性,并且對(duì)先驗(yàn)知識(shí)有較高的依賴性。此外,事件驅(qū)動(dòng)的方法可能只關(guān)注短期調(diào)整,而未充分考慮暖通空調(diào)系統(tǒng)的長(zhǎng)期性能。
綜合以上分析,本文針對(duì)傳統(tǒng)強(qiáng)化學(xué)習(xí)在復(fù)雜環(huán)境中學(xué)習(xí)效率低以及頻繁操作等問(wèn)題,提出了一種基于事件驅(qū)動(dòng)的深度強(qiáng)化學(xué)習(xí)(event-driven deep reinforcement learning,ED-DRL)方法。如圖1所示,該方法基于“間歇性”概念,在重要事件發(fā)生后才作出決策,提高了數(shù)據(jù)的利用率。此外,ED-DRL 通過(guò)學(xué)習(xí)動(dòng)態(tài)非線性特征(室內(nèi)溫度),可以捕捉和利用一些不經(jīng)常出現(xiàn)的狀態(tài)。最后,ED-DRL 還可以結(jié)合先驗(yàn)知識(shí),在事件定義期間分配變量權(quán)重,從而可以靈活地適應(yīng)看不見(jiàn)的環(huán)境[15]。本文通過(guò)實(shí)驗(yàn)證實(shí)了所提方法在優(yōu)化暖通空調(diào)控制上的有效性,有望成為改進(jìn)傳統(tǒng)強(qiáng)化學(xué)習(xí)控制方法的一種有力手段。
1? 基礎(chǔ)知識(shí)
強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)智能體與環(huán)境的交互學(xué)習(xí)如何作出決策以獲得最大的獎(jiǎng)賞。強(qiáng)化學(xué)習(xí)通常使用馬爾可夫決策過(guò)程(Markov decision process,MDP)建模智能體與環(huán)境的交互過(guò)程,其具體表述為一個(gè)五元組:Γ(S,A,P,R,γ),其中S是有限狀態(tài)集,表示系統(tǒng)可能處于的所有狀態(tài)的集合;A是有限動(dòng)作集,表示智能體可以采取的所有動(dòng)作的集合;P是狀態(tài)轉(zhuǎn)移概率函數(shù),表示狀態(tài)st下采取動(dòng)作at后進(jìn)入下一個(gè)狀態(tài)st+1的概率,即p(st+1|st,at),其中t表示時(shí)間步;R是獎(jiǎng)賞函數(shù),表示在狀態(tài)st下采取動(dòng)作得到的即時(shí)獎(jiǎng)賞,即R(st,at,st+1);γ是折扣因子。
如圖2所示,智能體在每個(gè)時(shí)間步t觀察到環(huán)境的狀態(tài)st,根據(jù)當(dāng)前策略π選擇一個(gè)動(dòng)作at,同時(shí)獲取到一個(gè)即時(shí)獎(jiǎng)賞rt+1。環(huán)境會(huì)根據(jù)當(dāng)前狀態(tài)和動(dòng)作向智能體返回一個(gè)新?tīng)顟B(tài)st+1和下一時(shí)刻的即時(shí)獎(jiǎng)賞rt+2,這個(gè)過(guò)程一直持續(xù)到終止?fàn)顟B(tài)。在每個(gè)時(shí)間步t,智能體根據(jù)當(dāng)前狀態(tài)和歷史經(jīng)驗(yàn)來(lái)更新策略和價(jià)值函數(shù),使回報(bào)的期望最大化。其中,回報(bào)被定義為折扣獎(jiǎng)賞的總和[16],如式(1)所示。
G(t)=∑TK=tγk-tr(t)(1)
價(jià)值函數(shù)用于評(píng)估在給定策略下?tīng)顟B(tài)或動(dòng)作的價(jià)值,可以分為狀態(tài)價(jià)值函數(shù)和狀態(tài)動(dòng)作價(jià)值函數(shù)。前者表示給定狀態(tài)st下的期望累積獎(jiǎng)賞,如式(2)所示。
Vπ(s)=Euclid Math TwoEApπ[G(t)|S(t)=st](2)
為了進(jìn)一步考慮動(dòng)作空間對(duì)目標(biāo)獎(jiǎng)賞的影響,在策略π下,目標(biāo)獎(jiǎng)賞可以用狀態(tài)動(dòng)作價(jià)值Q函數(shù)表示:
Qπ(s,a)=Eπ[G(t)|S(t)=s,A(t)=a](3)
然而,傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法是基于時(shí)間序列的,智能體需要與環(huán)境不斷交互以收集數(shù)據(jù)并更新策略。這種交互方式可能需要更多的計(jì)算資源和更復(fù)雜的模型,以處理大量的狀態(tài)和動(dòng)作,這在實(shí)際應(yīng)用中可能受到一定的限制。因此,為了應(yīng)對(duì)這些問(wèn)題,需要引入更加高效和靈活的方法,以提高算法的性能和效果,并降低對(duì)計(jì)算資源的需求。
2? ED-DRL方法
為了應(yīng)對(duì)強(qiáng)化學(xué)習(xí)方法在連續(xù)的學(xué)習(xí)過(guò)程中需要大量的交互數(shù)據(jù)和計(jì)算資源的問(wèn)題,本文提出一種ED-DRL方法,該方法由三部分組成。首先,針對(duì)傳統(tǒng)強(qiáng)化學(xué)習(xí)的低效率問(wèn)題,設(shè)計(jì)了一種新型的ED-MDP模型。通過(guò)事件驅(qū)動(dòng)的思想,不再每個(gè)時(shí)間步都與環(huán)境交互,而是根據(jù)事件的發(fā)生來(lái)選擇合適的決策時(shí)機(jī),避免了不必要的交互和計(jì)算資源的浪費(fèi)。其次,為了進(jìn)一步優(yōu)化控制,根據(jù)先驗(yàn)知識(shí)選擇重要的狀態(tài)變化作為事件,并設(shè)置合理的觸發(fā)條件。這樣,智能體可以針對(duì)重要事件進(jìn)行更加精細(xì)的策略更新。通過(guò)先驗(yàn)知識(shí)的指導(dǎo),智能體能判斷關(guān)鍵事件,以更加高效地學(xué)習(xí)和適應(yīng)環(huán)境的變化。最后,基于DDPG算法提出了一種結(jié)合事件驅(qū)動(dòng)的ED-DDPG算法。ED-DDPG能夠更好地利用事件信息,在連續(xù)動(dòng)作加速學(xué)習(xí)過(guò)程并提高學(xué)習(xí)效果。智能體在學(xué)習(xí)策略時(shí),能夠根據(jù)事件的觸發(fā)條件有選擇地更新策略,從而進(jìn)一步提高學(xué)習(xí)效率和性能。
2.1? ED-MDP框架設(shè)計(jì)
本文以多區(qū)域住宅建筑為基礎(chǔ),討論了優(yōu)化暖通空調(diào)系統(tǒng)的能耗和熱舒適度控制問(wèn)題。為了建立框架,采用了離散的時(shí)間表示,每個(gè)時(shí)間步為半小時(shí),用t=0,1,2,…表示。然而,傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法在周期性和離散性學(xué)習(xí)過(guò)程中可能是低效的,尤其是在學(xué)習(xí)環(huán)境穩(wěn)定的情況下。為了解決這個(gè)問(wèn)題,本文采用了事件驅(qū)動(dòng)方法來(lái)確定是否更新智能體的策略。因此,傳統(tǒng)的MDP模型可以被重新定義為一個(gè)具有事件驅(qū)動(dòng)的六元組:Ι(S,A,P,R,γ,e)。其中,e代表事件。當(dāng)觸發(fā)函數(shù)大于閾值時(shí),智能體被觸發(fā)并執(zhí)行策略,同時(shí)發(fā)生狀態(tài)轉(zhuǎn)移,轉(zhuǎn)移函數(shù)為p(st+1|st,a,e)[17]。具體來(lái)說(shuō),將多區(qū)域住宅建筑視為環(huán)境,ED-DRL視為智能體。此外,系統(tǒng)的狀態(tài)、動(dòng)作、獎(jiǎng)賞的設(shè)計(jì)如下:
a)狀態(tài)。狀態(tài)由環(huán)境所決定。對(duì)于智能體來(lái)說(shuō),擁有全面的狀態(tài)信息可以幫助其學(xué)習(xí)到更優(yōu)的策略。然而,狀態(tài)空間過(guò)大會(huì)導(dǎo)致探索變得困難,因此需要定義適量的變量以表示環(huán)境信息。在本文中,考慮了室內(nèi)環(huán)境狀態(tài)(每個(gè)房間人員占用率和室內(nèi)溫度)、室外環(huán)境狀態(tài)(室外溫度)、影響能耗狀態(tài)(電價(jià)和舒適溫度上限)。即
S(t)=[Occz(t),Tz,in(t),Tout(t),λretail(t),Thigh(t)]
其中:Occz(t)表示房間內(nèi)是否有人,z表示房間號(hào)。值得注意的是,舒適溫度上限Thigh(t)會(huì)根據(jù)人員占用率的變化而進(jìn)行調(diào)整。當(dāng)房間沒(méi)人時(shí),為了節(jié)省能耗,可以擴(kuò)大舒適溫度范圍;而當(dāng)有人時(shí),為了保證熱舒適,就恢復(fù)正常閾值。
b)動(dòng)作。動(dòng)作可以定義為暖通空調(diào)中的控制變量。本文將暖通空調(diào)的溫度設(shè)定點(diǎn)定義為動(dòng)作,即A(t)=[Spz(t)]。
c)對(duì)于平衡能耗和熱舒適的多目標(biāo)問(wèn)題,本文將權(quán)重因子α作為調(diào)節(jié)參數(shù),如式(4)所示。
R(t)=α∑tRcomfort(t′)-∑tt′=t-1λretail(t′)EHVAC(t′)(4)
其中:λretail(t′)表示零售價(jià)格,EHVAC(t′)表示能耗,Rcomfort(t′)表示溫度在舒適范圍內(nèi)的獎(jiǎng)賞。給定舒適范圍TH(t)∈[Tlow,Thigh(t)],當(dāng)執(zhí)行動(dòng)作偏離閾值時(shí),會(huì)增加負(fù)獎(jiǎng)賞。具體定義如式(5)所示。
Rcomfort(t′)=0.5??????? if Tlow<Tin(t′)<Thigh(t′)
Thigh(t′)-Tin(t′)if Tin(t′)>Thigh(t′)
Tin(t′)-Tlowif Tin(t′)<Tlow(5)
傳統(tǒng)強(qiáng)化學(xué)習(xí)學(xué)習(xí)過(guò)程中,智能體觀察環(huán)境狀態(tài)、執(zhí)行動(dòng)作,環(huán)境給予回報(bào),周期性地完成每一個(gè)學(xué)習(xí)步,而ED-DRL框架如圖3所示,狀態(tài)與獎(jiǎng)賞仍然是周期性的,但是動(dòng)作轉(zhuǎn)換成了非周期性的。值得注意的是,非周期性的動(dòng)作不是指不執(zhí)行動(dòng)作,而是不進(jìn)行策略更新及策略搜索,直接沿用上一動(dòng)作。
2.2? 觸發(fā)規(guī)則設(shè)計(jì)
傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法通常采用周期性的策略更新,這種方式在某些情況下是有效的強(qiáng)化學(xué)習(xí),但是從學(xué)習(xí)效率的角度看,周期性的方式并不總是合適的。如果暖通空調(diào)系統(tǒng)在沒(méi)有受到外部干擾或受到干擾較小時(shí),一般能夠按照預(yù)期的要求平穩(wěn)運(yùn)行。這種情況下,周期性的策略更新可以認(rèn)為是資源的浪費(fèi)。事件驅(qū)動(dòng)方法正是為了緩解周期性采樣的缺點(diǎn)而提出的[18]。預(yù)先設(shè)置了一些事件,并根據(jù)觸發(fā)條件來(lái)決定是否需要進(jìn)行策略搜索。如圖4所示,假設(shè)暖通空調(diào)系統(tǒng)環(huán)境較為穩(wěn)定,則觸發(fā)條件不滿足,智能體無(wú)須進(jìn)行策略搜索,繼續(xù)執(zhí)行當(dāng)前的動(dòng)作;否則,需要更新策略。
在ED-MDP模型中,事件驅(qū)動(dòng)的關(guān)鍵在于觸發(fā)規(guī)則的設(shè)計(jì)。當(dāng)智能體觀測(cè)結(jié)束后,可以根據(jù)上一刻觀測(cè)和當(dāng)前觀測(cè)的變化率判斷是否需要觸發(fā)事件。例如,當(dāng)室內(nèi)溫度超過(guò)某個(gè)閾值時(shí),可以觸發(fā)事件,系統(tǒng)會(huì)自動(dòng)調(diào)整溫度以保持舒適。通過(guò)預(yù)先設(shè)計(jì)事件,系統(tǒng)可以更輕易地捕捉影響響應(yīng)環(huán)境變化的先驗(yàn)因素,從而提高學(xué)習(xí)效率。
本文設(shè)計(jì)了狀態(tài)轉(zhuǎn)換事件與組合事件兩種事件類型。如果需要可以很容易地將其他類型的事件添加到ED-MDP框架中。
a)狀態(tài)轉(zhuǎn)換事件。某些狀態(tài)的變化對(duì)系統(tǒng)的運(yùn)行有很大的影響??紤]到零售價(jià)格λretail(t)對(duì)能耗的直接影響,將λretail(t)的變化列為事件1[19]。假設(shè)當(dāng)前零售價(jià)格為λretail(t)與上一時(shí)刻λretail(t′)不同時(shí),則觸發(fā)事件1。事件1定義如式(6)所示。
epz[[λretail(t′),λretail(t)]|λretail(t′),λretail(t)∈[λlow,λhigh]](6)
其中:λretail(t)與λretail(t′)都在價(jià)格范圍[λlow,λhigh]內(nèi),λlow表示最低零售價(jià)格,λhigh表示最高零售價(jià)格。
同樣地,事件2定義如式(7)所示。
eoz[[Occ(t′),Occ(t)]|Occ(t′),Occ(t)∈[-1,1]](7)
其中:Occ(t)與Occ(t′)在[-1,1]內(nèi),-1表示室內(nèi)沒(méi)人,1表示室內(nèi)有人。
b)組合事件。當(dāng)不同狀態(tài)同時(shí)變化時(shí),可以定義為組合事件[20]??紤]熱舒適是優(yōu)化的目標(biāo)之一,且舒適度范圍根據(jù)人員的變化而變化,則將TH(t′)與Occz(t′)的組合列為事件3。事件3定義如式(8)所示。
eTHz[[THoz(t′),THoz(t)]|Occz(t′)∈[-1,1],
THoz(t′)∈[Tlow,Tχ(t′)]](8)
其中:設(shè)置了一個(gè)舒適度范圍THoz(t)∈[Tlow,Tχ(t′)],不同于TH(t),Tχ(t′)≤Thigh(t′),當(dāng)即將要超出閾值時(shí)觸發(fā)事件3,能更好地控制溫度保持在舒適的范圍內(nèi)。
2.3? ED-DDPG算法設(shè)計(jì)
為了解決上述的ED-MDP問(wèn)題,基于通用的DDPG算法,本文提出了一種ED-DDPG算法。在溫度控制問(wèn)題中,溫度被視為一個(gè)連續(xù)的物理量,因此需要使用連續(xù)動(dòng)作來(lái)提供更精細(xì)的控制操作。DQN算法則主要用于處理離散動(dòng)作空間,可能無(wú)法提供足夠的靈活性和精確度。相比之下,DDPG作為一種代表性的DRL方法,能夠有效解決連續(xù)性控制問(wèn)題,通過(guò)深度神經(jīng)網(wǎng)絡(luò)生成Q值或動(dòng)作概率,并輸出連續(xù)的動(dòng)作。
多區(qū)域暖通空調(diào)系統(tǒng)的完整控制框架如圖5所示。就網(wǎng)絡(luò)結(jié)構(gòu)來(lái)說(shuō),ED-DDPG運(yùn)用了Actor和Critic兩種類型的網(wǎng)絡(luò)。同時(shí)還延續(xù)DQN使用固定目標(biāo)網(wǎng)絡(luò)的思想,每種網(wǎng)絡(luò)都包含目標(biāo)網(wǎng)絡(luò)和估計(jì)網(wǎng)絡(luò)。傳統(tǒng)policy gradient方法采用隨機(jī)策略,每一次獲取動(dòng)作需要對(duì)當(dāng)前最優(yōu)策略的分布進(jìn)行采樣,而ED-DDPG采取確定性策略,Actor網(wǎng)絡(luò)的輸入是當(dāng)前狀態(tài),輸出的是一個(gè)確定性的動(dòng)作。Critic網(wǎng)絡(luò)用來(lái)擬合狀態(tài)動(dòng)作價(jià)值函數(shù),它的輸入由當(dāng)前狀態(tài)和Actor網(wǎng)絡(luò)生成的動(dòng)作組成,輸出是當(dāng)前狀態(tài)動(dòng)作對(duì)Q值。這個(gè)Q值將被進(jìn)一步用于更新Actor網(wǎng)絡(luò)的參數(shù)。
ED-DDPG算法具體解釋如下:
首先,隨機(jī)初始化Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)的參數(shù)分別用θμ和θQ表示,同時(shí)也初始化它們的目標(biāo)網(wǎng)絡(luò)[21],如式(9)和(10)所示。
Actor:PolicyNetonline:μθ(s|θμ)target:μθ′(s|θμ′)(9)
Critic:QNetonline:Qθ(s|θQ)target:Qθ′(s|θQ′)(10)
對(duì)于每次迭代,需初始化狀態(tài),然后判斷是否觸發(fā)事件。如果不觸發(fā)事件,則繼續(xù)執(zhí)行這個(gè)動(dòng)作;如果觸發(fā)事件,則根據(jù)當(dāng)前Actor網(wǎng)絡(luò)選擇控制動(dòng)作,即溫度設(shè)定點(diǎn),同時(shí)將噪聲添加到所選擇的動(dòng)作以促進(jìn)對(duì)算法的探索。接下來(lái),以t為控制間隔,執(zhí)行所選動(dòng)作,并觀察得到的獎(jiǎng)賞和下一個(gè)狀態(tài),將狀態(tài)轉(zhuǎn)移序列{S(t),Spz(t),R(t),S(t+1)}存放在經(jīng)驗(yàn)緩存池中,用于進(jìn)一步訓(xùn)練。當(dāng)收集到足夠數(shù)量的狀態(tài)轉(zhuǎn)移序列時(shí),隨機(jī)選擇一小批狀態(tài)轉(zhuǎn)移序列來(lái)更新Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的參數(shù),更新目標(biāo)y(i)(t)如式(11)所示。
y(i)(t)=R(i)(t)+γQ′(S(i)(t+1),μ′(S(i)(t+1)|θμ′)|θQ′)(11)
其中:i表示當(dāng)前序列號(hào)。Critic網(wǎng)絡(luò)的損失函數(shù)被定義為目標(biāo)Q值和當(dāng)前Q值之間的均方誤差,如式(12)所示。
L(θQ)=1M∑t[y(i)(t)-Q(S(i)(t),μ(S(i)(t)|θμ|θQ)]2(12)
設(shè)置學(xué)習(xí)率為ηQ,利用最小化損失函數(shù)更新參數(shù)θQ,如式(13)所示。
θQ=θQ-ηQθμL(θQ)(13)
Actor網(wǎng)絡(luò)根據(jù)確定性策略梯度進(jìn)行更新參數(shù)θμ,如式(14)和(15)所示。
θμJ(θ)=1M∑t[aQ(S(i)(t),μ(S(i)(t)|θμ)|θQ) θμμ(S(i)(t)|θμ)](14)
θμ=θμ-ημJ(15)
同時(shí), 為避免計(jì)算網(wǎng)絡(luò)梯度時(shí)的振蕩和發(fā)散問(wèn)題,按照軟更新(soft update)方式更新兩個(gè)目標(biāo)網(wǎng)絡(luò)參數(shù),可以保證參數(shù)波動(dòng)較小且易于收斂, 如式(16)所示。
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′(16)
3? 實(shí)驗(yàn)分析
3.1? 仿真設(shè)置
本文使用了一個(gè)有五個(gè)房間的三人住宅模型[22],其中臥室(房間1和2)和客廳(房間3)為訓(xùn)練和測(cè)試暖通空調(diào)的功能房間。而廁所和廚房只在特定情況下占用,因此不在考慮之列。住宅的占用率根據(jù)一周中的時(shí)間而變化。圖6展示了人員活動(dòng)規(guī)律,人員根據(jù)工作日和周末產(chǎn)生了不同的行動(dòng)軌跡。
天氣數(shù)據(jù)來(lái)自氣象局[23],如圖7所示,橫軸表示訓(xùn)練或測(cè)試的時(shí)間步,縱軸表示相應(yīng)的室外溫度。因?yàn)檠芯康闹攸c(diǎn)是制冷,所以選擇較為炎熱的7月和8月的天氣數(shù)據(jù)。其中7月用于訓(xùn)練,8月用于測(cè)試。此外,還創(chuàng)建了一個(gè)模擬電價(jià)序列,其中λlow=0.5,λhigh=1.5, 電價(jià)每四小時(shí)在高低值之間交替。另外,本文定義有人時(shí)Tlow=24,Thigh(t)=26,沒(méi)人時(shí)Tlow=24,Thigh(t)=28。
3.2? 網(wǎng)絡(luò)參數(shù)設(shè)置
實(shí)驗(yàn)實(shí)現(xiàn)方法基于Python以及PyTorch框架,表1列出了ED-DDPG中使用的參數(shù)。在Actor網(wǎng)絡(luò)的輸出層,使用的激活函數(shù)是tanh,確保輸出值在[-1,1]。表2給出了DQN中使用的參數(shù),動(dòng)作空間從23~28 ℃,以0.5℃為步長(zhǎng)離散化,從而導(dǎo)致每個(gè)房間11個(gè)可能的動(dòng)作,3個(gè)房間暖通空調(diào)總共1 331個(gè)動(dòng)作組合。
3.3? 參數(shù)影響分析
為了深入研究ED-DDPG算法在不同情況下對(duì)模型參數(shù)的敏感性,進(jìn)行了詳細(xì)的實(shí)驗(yàn)分析,重點(diǎn)關(guān)注神經(jīng)網(wǎng)絡(luò)參數(shù)、獎(jiǎng)賞權(quán)重參數(shù)和事件觸發(fā)閾值。通過(guò)觀察這些參數(shù)對(duì)ED-DDPG算法學(xué)習(xí)性能的影響,選擇最合適的參數(shù)組合,以實(shí)現(xiàn)最優(yōu)的算法性能。
在圖8中,橫軸表示回合數(shù),縱軸表示該方法獲得的平均獎(jiǎng)賞。圖8(a)展示了不同折扣因子下ED-DDPG的收斂速度。折扣因子決定了智能體對(duì)未來(lái)獎(jiǎng)勵(lì)的重視程度。觀察圖8(a)可以發(fā)現(xiàn),當(dāng)折扣因子為0.9時(shí),算法收斂得最快,同時(shí)在50回合后獲得了最高的獎(jiǎng)賞。但是,當(dāng)折扣因子為0.99時(shí),算法可能會(huì)過(guò)度探索,無(wú)法及時(shí)響應(yīng)當(dāng)前的獎(jiǎng)賞信號(hào),因此50回合后的獎(jiǎng)賞明顯下降。圖8(b)展示了不同批量下ED-DDPG的收斂速度,批量指每次輸入神經(jīng)網(wǎng)絡(luò)的樣本數(shù)量??梢钥吹?,當(dāng)批量為128時(shí),獎(jiǎng)賞明顯高于其他參數(shù),因?yàn)檩^大的批量可以減少數(shù)據(jù)讀取和內(nèi)存訪問(wèn)的次數(shù)。圖8(c)展示了不同學(xué)習(xí)率下ED-DDPG的收斂速度。當(dāng)學(xué)習(xí)率為0.001時(shí),該算法可以收斂到最佳性能。但是,當(dāng)學(xué)習(xí)率過(guò)大(0.01)或過(guò)?。?.000 1)時(shí),算法無(wú)法收斂到最佳性能。圖8(d)展示了不同衰減率下ED-DDPG的收斂速度,衰減率用于控制學(xué)習(xí)率的變化速度。當(dāng)衰減率為0.005時(shí),算法收斂得最快。然而,當(dāng)衰減率過(guò)大(0.05)或過(guò)?。?.000 5)時(shí),收斂速度和獎(jiǎng)賞大小都不如0.005。
獎(jiǎng)賞權(quán)重參數(shù)在很大程度上影響能耗和熱舒適性之間的權(quán)衡。為了更好地平衡這兩個(gè)因素,在其他參數(shù)保持相同的情況下,本文對(duì)參數(shù)α進(jìn)行了研究,范圍為0.1~1。在圖9中,橫軸表示采用不同權(quán)重設(shè)置時(shí)的熱舒適違反情況,縱軸表示相應(yīng)的能耗。這里熱舒適違反指所有時(shí)間步中超出熱舒適區(qū)域的比率。當(dāng)α=0.9時(shí),產(chǎn)生的能耗最高,約為15.82;當(dāng)α=0.6時(shí),熱舒適違反最高,約為9.834%;而當(dāng)α=1時(shí),能耗約為15.04,熱舒適違反約為2.845%,獎(jiǎng)賞權(quán)重對(duì)于能耗和熱舒適性的平衡達(dá)到了最佳狀態(tài)。
在觸發(fā)規(guī)則設(shè)計(jì)中,本文定義了三個(gè)事件。事件1和2是相對(duì)簡(jiǎn)單的觸發(fā)條件,分別根據(jù)價(jià)格和房間占用率的變化來(lái)觸發(fā)。而在事件3中,智能體根據(jù)三個(gè)房間的占用率與熱舒適閾值的變化來(lái)觸發(fā)。具體來(lái)說(shuō),當(dāng)有人出現(xiàn)在房間內(nèi)時(shí),智能體會(huì)根據(jù)相應(yīng)房間的熱舒適閾值來(lái)判斷是否觸發(fā)事件。不同的觸發(fā)閾值選擇會(huì)導(dǎo)致不同的熱舒適效果。為了選擇合適的觸發(fā)閾值,進(jìn)行了五組實(shí)驗(yàn),并在表3中列出了不同情況下的設(shè)置。
在圖10(a)(b)中,橫軸對(duì)應(yīng)了五個(gè)例子,縱軸分別表示相應(yīng)的熱舒適違反和能耗。從圖10中可以觀察到,無(wú)論是在熱舒適性還是節(jié)能方面,c3都保持在較高水平。這可能是因?yàn)橛|發(fā)閾值恰好等于熱舒適閾值,智能體能夠更好地判斷環(huán)境的舒適程度。從c4和c5的結(jié)果可以看出,如果觸發(fā)閾值范圍較小,可能會(huì)導(dǎo)致頻繁的變動(dòng),使智能體無(wú)法學(xué)習(xí)到關(guān)鍵的信息,從而無(wú)法有效地平衡熱舒適性和能耗,尤其是在c5中,能耗最高。而c1和c2的結(jié)果顯示,即使room1或room3與c3的設(shè)置相同,也不能很好地權(quán)衡兩個(gè)目標(biāo)。尤其是在c1中,room1的熱舒適違反最高。總體而言,如果選擇了合理的參數(shù)配置,就可以保證ED-DDPG逐漸收斂至一個(gè)較好的性能。
3.4? 實(shí)驗(yàn)結(jié)果分析
3.4.1? 收斂性分析
本文對(duì)比了實(shí)現(xiàn)暖通空調(diào)優(yōu)化控制的不同方法,包括ED-DDPG、DDPG、DQN和TD3(twin delayed deep deterministic policy gradient)。DQN、DDPG和TD3都是深度強(qiáng)化學(xué)習(xí)算法,針對(duì)不同類型的問(wèn)題和動(dòng)作空間進(jìn)行了設(shè)計(jì)和改進(jìn),在建筑領(lǐng)域受到廣泛關(guān)注,特別是DDPG在該領(lǐng)域更為流行。DQN適用于解決離散動(dòng)作空間問(wèn)題,通過(guò)Q值函數(shù)輸出每個(gè)動(dòng)作的Q值,并使用貪婪策略選擇動(dòng)作。而DDPG和TD3適用于連續(xù)動(dòng)作空間問(wèn)題,通過(guò)策略函數(shù)輸出連續(xù)動(dòng)作。TD3是在DDPG的基礎(chǔ)上引入了雙Q網(wǎng)絡(luò)和目標(biāo)策略延遲更新等改進(jìn),以提高訓(xùn)練穩(wěn)定性和性能。盡管TD3在某些場(chǎng)景下可能表現(xiàn)更優(yōu),但是相對(duì)于TD3,DDPG算法更容易實(shí)現(xiàn)和調(diào)整,并且在多個(gè)領(lǐng)域已經(jīng)證明了其有效性。因此,本文選擇采用DDPG作為主要的深度強(qiáng)化學(xué)習(xí)算法,并且大部分實(shí)驗(yàn)都以DDPG作為比較基準(zhǔn)。
圖11展示了這些方法的收斂性,每種方法訓(xùn)練了三次,用相同顏色但不同線條表示。通過(guò)圖11可以觀察到,ED-DDPG在大約40回合時(shí)就趨于收斂,比其他方法收斂速度更快。這是因?yàn)镋D-DDPG利用了事件驅(qū)動(dòng)的優(yōu)化控制,智能體在重要事件發(fā)生時(shí)選擇更新策略,避免了在連續(xù)時(shí)間步上進(jìn)行不必要的策略更新和數(shù)據(jù)收集,從而加快了學(xué)習(xí)過(guò)程。 此外,雖然TD3與DDPG在后期趨近于ED-DDPG,ED-DDPG相對(duì)于其他方法獲得了相對(duì)更高的平均獎(jiǎng)賞。因?yàn)镋D-DDPG能夠靈活地適應(yīng)不同的環(huán)境和情況,并在重要事件發(fā)生時(shí)選擇最佳的策略更新時(shí)機(jī)。這使得ED-DDPG能夠更好地學(xué)習(xí)到環(huán)境的動(dòng)態(tài)變化,并根據(jù)事件判斷哪些因素能耗和熱舒適性的影響最為關(guān)鍵,證明了ED-DDPG在優(yōu)化暖通空調(diào)控制上達(dá)到了更好的性能。
3.4.2? 熱舒適與能耗分析
為了進(jìn)一步驗(yàn)證ED-DDPG方法的優(yōu)越性,本文不僅與強(qiáng)化學(xué)習(xí)方法進(jìn)行了對(duì)比,還選擇了RBC方法作為對(duì)照。在RBC方法中,制定了一組規(guī)則,即在有人時(shí)將溫度設(shè)定為24℃,在無(wú)人時(shí)將溫度設(shè)定為28℃。表4對(duì)比了ED-DDPG與其他基準(zhǔn)方法在能耗和熱舒適性方面的效果??梢杂^察到,在所有方法中,雖然TD3和RBC在熱舒適性方面表現(xiàn)較好,但是ED-DDPG方法在實(shí)現(xiàn)最低能耗的同時(shí),保持了較高的熱舒適性。具體來(lái)說(shuō),相比于TD3方法,ED-DDPG的能耗略低約0.3單位,而與RBC方法相比,其能耗較低約0.8單位。從熱舒適與能耗平衡的角度來(lái)看,ED-DDPG是最優(yōu)的選擇。此外,圖12展示了7月31日三個(gè)房間的室內(nèi)溫度在不同方法下的對(duì)比,橫軸表示一天中的時(shí)間,縱軸表示各房間的室內(nèi)溫度。相比于DDPG,可以看出ED-DDPG更為平緩,只有環(huán)境突然變化時(shí)才會(huì)波動(dòng)。這是因?yàn)镋D-DDPG方法無(wú)須固定時(shí)間步內(nèi)更新策略,而是根據(jù)事件自主調(diào)整時(shí)間間隔,所以不僅不會(huì)錯(cuò)過(guò)重要的環(huán)境變化,而且還提高了學(xué)習(xí)的穩(wěn)定性。盡管ED-DDPG、TD3和RBC方法都能夠在三個(gè)房間中良好地維持熱舒適性,然而從節(jié)能效果的角度來(lái)看,ED-DDPG方法更為優(yōu)越。
傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在每個(gè)時(shí)間步都需要與環(huán)境進(jìn)行交互,以收集數(shù)據(jù)并進(jìn)行策略更新,這導(dǎo)致學(xué)習(xí)過(guò)程變得低效。而ED-DDPG方法在重要事件發(fā)生后才作出決策,通過(guò)減少?zèng)Q策頻率,避免了在連續(xù)時(shí)間步上頻繁進(jìn)行策略更新,從而節(jié)省了計(jì)算資源并延長(zhǎng)設(shè)備的使用壽命。表5列出了ED-DDPG與DDPG方法在決策數(shù)量上的對(duì)比??梢郧宄乜吹?,ED-DDPG在三個(gè)房間中的決策數(shù)量明顯少于DDPG。
3.4.3? 測(cè)試
為了驗(yàn)證ED-DDPG方法的魯棒性和擴(kuò)展性,基于之前訓(xùn)練數(shù)據(jù),又進(jìn)行了測(cè)試實(shí)驗(yàn)。根據(jù)表6可以看出,ED-DDPG方法在維持熱舒適與能耗之間達(dá)到了最佳平衡。盡管RBC方法在熱舒適方面違反最低,但卻導(dǎo)致了較高的能耗。另一方面,雖然其他強(qiáng)化學(xué)習(xí)方法的能耗略低于ED-DDPG,但卻存在很高的熱舒適違反率,這意味著它們?cè)趯?shí)際應(yīng)用中可能無(wú)法滿足用戶對(duì)熱舒適的需求。相比之下,ED-DDPG在能耗和熱舒適平衡方面表現(xiàn)更為出色,是未來(lái)更具實(shí)踐潛力的選擇。此外,從表7可以看出,ED-DDPG的決策率較DDPG明顯降低,意味著通過(guò)減少?zèng)Q策次數(shù)能夠節(jié)省計(jì)算資源的消耗。因此,可以得出結(jié)論,ED-DDPG在節(jié)省計(jì)算資源消耗、能耗與熱舒適方面都具有明顯的優(yōu)越性。
4? 結(jié)束語(yǔ)
本文將事件驅(qū)動(dòng)引入經(jīng)典的MDP框架,提出一種新的結(jié)合事件驅(qū)動(dòng)的ED-MDP框架,以應(yīng)對(duì)環(huán)境中規(guī)律性的變化。通過(guò)定義和識(shí)別不同的事件,智能體無(wú)須每個(gè)時(shí)間步都進(jìn)行策略更新,提高了資源利用率。在此基礎(chǔ)上,提出一種新的ED-DDPG方法,并用于優(yōu)化暖通空調(diào)的控制。實(shí)驗(yàn)結(jié)果表明,相比于DDPG、DQN和RBC方法,ED-DDPG能夠更好地平衡能耗和熱舒適之間的關(guān)系,在減少?zèng)Q策率的同時(shí)提升了學(xué)習(xí)速度,證明了ED-DDPG方法在暖通空調(diào)優(yōu)化控制方面的優(yōu)越性。在未來(lái)的研究中,值得探索一種更為有效的事件驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)的交互模式,使這兩種優(yōu)化方式從相互獨(dú)立變?yōu)橄嗷ズ献?。通過(guò)這種方式可以持續(xù)優(yōu)化事件觸發(fā)的準(zhǔn)確性,并提高數(shù)據(jù)處理和分析的效率,為解決優(yōu)化問(wèn)題提供創(chuàng)新的解決方案。
參考文獻(xiàn):
[1]Hamilton I, Rapf O, Kockat D J, et al. Global status report for buil-dings and construction[R]. Nairobi, Kenya: United Nations Environmental Programme, 2020.
[2]Li Wenqiang, Gong Guangcai, Fan Houhua, et al. A clustering-based approach for“cross-scale”load prediction on building level in HVAC systems[J]. Applied Energy, 2021,282: 116223.[3]Qi Hongchao, Xiao Shuang, Shi Runye, et al. COVID-19 transmission in Mainland China is associated with temperature and humidity: a time-series analysis[J]. Science of the Total Environment, 2020,728: 138778.
[4]Wemhoff A P. Calibration of HVAC equipment PID coefficients for energy conservation[J]. Energy and Buildings, 2012,45: 60-66.
[5]Xu Zhanbo, Liu Shuo, Hu Guoqiang, et al. Optimal coordination of air conditioning system and personal fans for building energy efficiency improvement[J]. Energy and Buildings, 2017,141: 308-320.
[6]Eini R, Abdelwahed S. A neural network-based model predictive control approach for buildings comfort management[C]//Proc of IEEE International Smart Cities Conference. Piscataway, NJ: IEEE Press, 2020.
[7]Fu Qiming, Chen Xiyao, Ma Shuai, et al. Optimal control method of HVAC based on multi-agent deep reinforcement learning[J]. Energy and Buildings, 2022, 270: 112284.
[8]Fu Qiming, Han Zhicong, Chen Jianping, et al. Applications of reinforcement learning for building energy efficiency control: a review[J]. Journal of Building Engineering, 2022,50: 104165.
[9]Mozer M C. The neural network house: an environment that adapts to its inhabitants[C]//Proc of AAAI Spring Symposium. Palo Alto,CA: AAAI Press, 1998.
[10]Chen Yujiao, Norford L K, Samuelson H W, et al. Optimal control of HVAC and window systems for natural ventilation through reinforcement learning[J]. Energy and Buildings, 2018,169: 195-205.
[11]李可, 傅啟明, 陳建平, 等. 基于分類 DQN 的建筑能耗預(yù)測(cè)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2022,31(10): 156-165. (Li Ke, Fu Qiming, Chen Jianping, et al. Building energy consumption prediction based on classification DQN[J]. Computer Systems Applications, 2022, 31(10): 156-165.)
[12]Fu Qiming, Liu Lu, Zhao Lifan, et al. Predictive control of power demand peak regulation based on deep reinforcement learning[J]. Journal of Building Engineering, 2023,75: 106992.
[13]Wang Junqi,Liu Rundong,Zhang Linfeng,et al. Triggering optimal control of air conditioning systems by event-driven mechanism: comparing direct and indirect approaches[J].Energies,2019,12(20):3863.
[14]Jia Qingshan, Wu Junjie, Wu Zijian, et al. Event-based HVAC control-a complexity-based approach[J]. IEEE Trans on Automation Science and Engineering, 2018,15(4): 1909-1919.
[15]Ran Yongyi, Zhou Xin, Hu Han, et al. Optimizing data center energy efficiency via event-driven deep reinforcement learning[J]. IEEE Trans on Services Computing, 2022,16(2): 1296-1309.
[16]Sutton R S, Barto A G. Reinforcement learning: an introduction[M]. Cambridge,MA: MIT Press, 2018.
[17]張文旭, 馬磊, 王曉東. 基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)研究[J]. 智能系統(tǒng)學(xué)報(bào), 2017,12(1): 82-87. (Zhang Wenxu, Ma Lei, Wang Xiaodong. Reinforcement learning for event-triggered multi-agent systems[J]. CAAI Trans on Intelligent Systems, 2017,12(1): 82-87.)
[18]徐鵬, 謝廣明, 文家燕, 等. 事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)多智能體編隊(duì)控制[J]. 智能系統(tǒng)學(xué)報(bào), 2019,14(1): 93-98. (Xu Peng, Xie Guangming, Wen Jiayan, et al. Event-driven reinforcement learning for multi-intelligent body formation control[J]. Journal of Intelligent Systems, 2019,14(1): 93-98.)
[19]Xu Zhanbo, Hu Guoqiang, Spanos C J, et al. PMV-based event-triggered mechanism for building energy management under uncertainties[J]. Energy and Buildings, 2017,152: 73-85.
[20]Wu Zijian, Jia Qingshan, Guan Xiaohong. Optimal control of multiroom HVAC system: an event-based approach[J]. IEEE Trans on Control Systems Technology, 2015,24(2):662-669.
[21]李永福, 周發(fā)濤, 黃龍旺, 等. 基于深度強(qiáng)化學(xué)習(xí)的網(wǎng)聯(lián)車輛隊(duì)列縱向控制[J/OL]. 控制與決策.(2023-03-20).https://doi.org/10.13195/j.kzyjc.2022.2094. (Li Yongfu, Zhou Fatao, Huang Longwang, et al. Deep reinforcement learning-based longitudinal control of networked vehicle queues[J/OL]. Control and Decision(2023-03-20).https://doi.org/10.13195/j.kzyjc.2022.2094.)
[22]Deng Jie, Yao Runming, Yu Wei, et al. Effectiveness of the thermal mass of external walls on residential buildings for part-time part-space heating and cooling using the state-space method[J]. Energy and Buildings, 2019, 190: 155-171.
[23]China Meteorological Bureau, Tsinghua University. China standard weather data for analyzing building thermal conditions[S]. Beijing: China Architecture and Building Press, 2005.