• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種面向建筑節(jié)能的強化學(xué)習(xí)自適應(yīng)控制方法

      2017-11-28 09:51:24胡齡爻陳建平傅啟明胡文倪慶文
      中成藥 2017年11期
      關(guān)鍵詞:步數(shù)能耗設(shè)置

      胡齡爻 ,陳建平 ,傅啟明 ,4,胡文 ,倪慶文

      1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215009 2.江蘇省建筑智慧節(jié)能重點實驗室,江蘇 蘇州 215009 3.蘇州市移動網(wǎng)絡(luò)技術(shù)與應(yīng)用重點實驗室,江蘇 蘇州 215009 4.吉林大學(xué) 符號計算與知識工程教育部重點實驗室,長春 130012

      一種面向建筑節(jié)能的強化學(xué)習(xí)自適應(yīng)控制方法

      胡齡爻1,2,3,陳建平1,2,3,傅啟明1,2,3,4,胡文1,2,3,倪慶文1,2,3

      1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215009 2.江蘇省建筑智慧節(jié)能重點實驗室,江蘇 蘇州 215009 3.蘇州市移動網(wǎng)絡(luò)技術(shù)與應(yīng)用重點實驗室,江蘇 蘇州 215009 4.吉林大學(xué) 符號計算與知識工程教育部重點實驗室,長春 130012

      針對建筑節(jié)能領(lǐng)域中傳統(tǒng)控制方法對于建筑物相關(guān)設(shè)備控制存在收斂速度慢、不穩(wěn)定等問題,結(jié)合強化學(xué)習(xí)中經(jīng)典的Q學(xué)習(xí)方法,提出一種強化學(xué)習(xí)自適應(yīng)控制方法——RLAC。該方法通過對建筑物內(nèi)能耗交換機制進行建模,結(jié)合Q學(xué)習(xí)方法,求解最優(yōu)值函數(shù),進一步得出最優(yōu)控制策略,確保在不降低建筑物人體舒適度的情況下,達到建筑節(jié)能的目的。將所提出的RLAC與On/Off以及Fuzzy-PD方法用于模擬建筑物能耗問題進行對比實驗,實驗結(jié)果表明,RLAC具有較快的收斂速度以及較好的收斂精度。

      強化學(xué)習(xí);馬爾科夫決策過程;Q學(xué)習(xí);建筑節(jié)能;自適應(yīng)控制

      1 引言

      縱觀近幾十年建筑領(lǐng)域的發(fā)展,建筑結(jié)構(gòu)設(shè)計與設(shè)備管理方面,特別是涉及到生態(tài)控制和能源消耗的領(lǐng)域上,都有很顯著的進步和變化。一個明顯的轉(zhuǎn)折點是在20世紀70年代石油危機爆發(fā)之后,提出封閉的建筑物以最小化建筑物的能源消耗這一概念,但是這導(dǎo)致室內(nèi)空氣質(zhì)量直線下降和全世界范圍的健康問題。這就直接造成了研究確保人類舒適度的前提下,同時聯(lián)系光照、溫濕度和空氣質(zhì)量等其他因素的研究趨勢。

      在現(xiàn)有的能耗研究中,建筑物能耗占世界范圍內(nèi)總基礎(chǔ)能耗的45%,這是在總能源消耗中占比例最高的一項。全球范圍的建筑能耗,包括民用住宅和商業(yè)建筑,在發(fā)達國家每年的增長速率已達到20%~40%。然而在一項調(diào)查中,商業(yè)建筑物的年均耗能大約是70~300 kWh/m2,這個數(shù)據(jù)是民用住宅的10到20倍。人口的增長、建筑服務(wù)壓力的提升和舒適標準的提高都增大了建筑物的能源消耗,這些預(yù)示著未來仍然會持續(xù)能源需求的增長趨勢。正是因為上述原因,建筑節(jié)能已然成為當今所有國家和國際水平在能源政策上重視的首要目標。建筑物的能源消耗問題已經(jīng)得到越來越多的關(guān)注,畢竟建筑物是與人類生活工作息息相關(guān)的,也是現(xiàn)代化發(fā)展中必不可少的一個環(huán)節(jié)。

      控制器是實現(xiàn)建筑節(jié)能必不可少的重要組成部分。神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)、預(yù)測控制和它們之間的組合是現(xiàn)有在建筑領(lǐng)域的主流控制器研發(fā)的方向[1-4]。Dounis等人提出一種Fuzzy-PD方法的控制器,用模糊的比例微分方法來控制建筑領(lǐng)域內(nèi)的相關(guān)設(shè)備[2]。然而在智能控制算法上應(yīng)用廣泛的是強化學(xué)習(xí)和深度學(xué)習(xí)[5],有許多學(xué)者將強化學(xué)習(xí)的方法應(yīng)用在能耗預(yù)測或控制領(lǐng)域上[6-11]。其中較為典型的是Dalamagkidis等人于2007年提出的一種線性強化學(xué)習(xí)控制器——LRLC(Linear Reinforcement Learning Controller)[6],主要是用基于強化學(xué)習(xí)的時間差分方法(Temporal-Difference,TD)的算法,進行能耗監(jiān)測和策略決策。LRLC與傳統(tǒng)的On/Off控制器和Fuzzy-PD控制器相比較,在監(jiān)測能耗和控制穩(wěn)定性上有更好的表現(xiàn),但是由于其算法要求有足夠的探索過程,在真實的建筑物中,抽出一個很小的時間讓控制器去選擇隨機的動作是不可能實現(xiàn)的。因為即使選擇的動作是接近最優(yōu)動作的,這也會導(dǎo)致用戶不滿度或者整體能源消耗臨時增加。在實際中出現(xiàn)的問題有:在冬天(或夏天)的時候控制器會允許開冷氣(或暖氣)。在此之后,Dalamagkidis等人還提出了一種基于RLS-TD(recursive least-squares algorithm)遞歸最小二乘算法的強化學(xué)習(xí)控制器[12],其實驗結(jié)果表明與之前的方法比較有進一步的提升。

      由于傳統(tǒng)的方法如Fuzzy-PD[13-14],控制建筑領(lǐng)域內(nèi)的相關(guān)設(shè)備,有收斂速度慢和穩(wěn)定性差的缺點,于是提出一種強化學(xué)習(xí)自適應(yīng)控制方法RLAC(Reinforcement Learning Adaptive Control)。RLAC采用Q學(xué)習(xí)算法對空調(diào)系統(tǒng)和通風(fēng)系統(tǒng)等建筑內(nèi)設(shè)備進行控制,通過狀態(tài)s得到r值進而得到Q值,從Q值中得到的策略選擇動作a,采取動作之后更新s,一直重復(fù)更新至終止時間步。RLAC與LRLC的差異在于:LRLC是需要確切模型的,而RLAC是不需要模型的,在與環(huán)境的交互中可最終收斂到最優(yōu)策略。進行幾組對比實驗結(jié)果表明,RLAC方法具有有效的節(jié)能性;RLAC在不同初始狀態(tài)設(shè)置下均能達到良好的收斂速度和精度;與Fuzzy-PD方法和On/Off方法相比較,有更快的收斂速度,收斂之后更加穩(wěn)定。

      2 相關(guān)理論

      一個強化學(xué)習(xí)任務(wù)可以被建模為馬爾可夫決策過程(Markov Decision Process,MDP),其中環(huán)境的狀態(tài)只取決于當前狀態(tài)和選擇的動作,因此可以利用現(xiàn)有的信息去預(yù)測未來的狀態(tài)和該狀態(tài)的期望回報。此時獎賞值函數(shù)只取決于當前狀態(tài)和動作,與其他歷史狀態(tài)和動作無關(guān)。MDP一般可以表示為一個四元組(S,A,T,R),其中S表示所有環(huán)境狀態(tài)s構(gòu)成的狀態(tài)空間,狀態(tài)s可由多個變量構(gòu)成;A表示學(xué)習(xí)器(Agent)所能執(zhí)行的所有動作a構(gòu)成的集合;T:S×A×S→[ ]0,1為環(huán)境狀態(tài)遷移概率函數(shù),T(s,a,s′)表示Agent在狀態(tài)s中執(zhí)行動作a后環(huán)境遷移到新狀態(tài)s′的概率;R:S×A×S→?為獎賞函數(shù),R(s,a,s′)表示Agent在環(huán)境狀態(tài)s中執(zhí)行動作a且環(huán)境遷移到狀態(tài)s′所能得到的立即獎賞,一般也用r表示。

      策略(policy)定義了強化學(xué)習(xí)Agent的行為方式,簡單地說,策略就是從環(huán)境感知的狀態(tài)到可采用動作的一個映射。策略分為確定策略和隨機策略,確定策略是從狀態(tài)到動作的映射;隨機策略是從狀態(tài)動作對到概率的映射。因此,強化學(xué)習(xí)的目標是學(xué)習(xí)一個最優(yōu)策略,該最優(yōu)策略能夠獲得最大的期望累積獎賞,通常也被稱為回報,如式(1)所示:

      其中γ是一個0≤γ≤1的參數(shù),被稱為折扣率。γ越小,就表示Agent越關(guān)心長期獎賞。值函數(shù)是關(guān)于回報的期望,因此,強化學(xué)習(xí)問題也可以轉(zhuǎn)換為求解最優(yōu)值函數(shù)的問題。值函數(shù)分為動作值函數(shù)Q(s,a)和狀態(tài)值函數(shù)V(s),其中狀態(tài)值函數(shù)V(s)用來表示狀態(tài)的好壞,動作值函數(shù)Q(s,a)用于表示動作狀態(tài)對的好壞。Q(s,a)與V(s)的更新公式如式(3)和式(4),其中 α在強化學(xué)習(xí)中被稱為學(xué)習(xí)率,其取值范圍是(0,1]。

      很多強化學(xué)習(xí)問題是一個沒有終止狀態(tài)的問題,因此,回報值也會趨于無窮大。為了解決這個問題,強化學(xué)習(xí)中給出折扣回報的定義,公式如下:

      強化學(xué)習(xí)方法可基本分為三類,每一種都有其適用范圍和優(yōu)缺點,按照是否需要模型分為需要模型的動態(tài)規(guī)劃方法(Dynamic Programming,DP),以及不需要模型的蒙特卡羅方法(Monte-Carlo,MC)和時間差分方法(Temporal-Difference,TD)。MC和TD的區(qū)別在于MC需要走完一個情節(jié)到終止狀態(tài)再估計值函數(shù),而TD則不需要完整的情節(jié)樣本。本文用的是時間差分的學(xué)習(xí)方法中的Q學(xué)習(xí)算法,是一種異策略(off-policy)的TD控制算法。在不依賴策略的情況下,Q學(xué)習(xí)學(xué)到的動作值函數(shù)Q會直接逼近最優(yōu)動作值函數(shù)。Q學(xué)習(xí)的Q值更新公式為[15]:

      3 強化學(xué)習(xí)自適應(yīng)控制方法

      3.1 算法框架建模

      RLAC采用Q學(xué)習(xí)算法,狀態(tài)s是二氧化碳濃度、室內(nèi)溫度和設(shè)置溫度的矩陣表示,動作a是空調(diào)系統(tǒng)動作、開窗動作和通風(fēng)系統(tǒng)動作的排列組合,達到室內(nèi)溫度穩(wěn)定在設(shè)定溫度、通風(fēng)并減少能耗的效果。

      3.1.1 環(huán)境建模

      對于Agent而言,外部環(huán)境是一個封閉性房間,需要的參數(shù)是房間內(nèi)的溫度Tt(單位是攝氏度),室內(nèi)CO2濃度ρt(單位為10-6)以及設(shè)置溫度setT(單位是℃),這三個參數(shù)構(gòu)成了RLAC中的狀態(tài)s。根據(jù)實際情況,設(shè)置室內(nèi)溫度Tt的范圍為[0,40],ρt的范圍為[200,1 000],實際情況的溫度和CO2濃度一定是處于這個范圍內(nèi)的。CO2濃度的作用是:當CO2濃度低至300×10-6時給一個接近于0的值;當該濃度高于850×10-6時給一個接近于1的值。這里設(shè)置的300×10-6是室外CO2濃度能達到的最低水平,而850×10-6則是室內(nèi)人體感覺舒適的最高水平。在開啟空調(diào)系統(tǒng)的同時,采取通風(fēng)系統(tǒng)和開窗動作,會一定程度上減弱空調(diào)系統(tǒng)的作用,本文模型設(shè)定減弱參數(shù)為0.2。模型中CO2濃度與開窗動作和通風(fēng)系統(tǒng)有關(guān),影響因子比例設(shè)為1∶2。

      3.1.2 算法框架設(shè)計

      RLAC中全部動作建模為64×3的矩陣,action_num=64,其橫向量是一個三維的向量,表示一個動作。動作向量第一位kongtiao_fig表示空調(diào)系統(tǒng)動作:1表示取暖小風(fēng),2表示制冷小風(fēng),3表示取暖大風(fēng),4表示制冷大風(fēng);第二位windows_fig表示開窗狀態(tài):0為關(guān)閉,1為微張,2為半張,3為全開;最后一位tongfeng_fig表示通風(fēng)系統(tǒng)動作:0是關(guān)閉,1是小檔,2是中檔,3是大檔。

      RLAC中狀態(tài)s=[Tt,ρt,setT]由房間內(nèi)的溫度Tt,室內(nèi)二氧化碳濃度ρt,以及空調(diào)設(shè)置溫度setT幾個參數(shù)構(gòu)成,其計算公式如式(7)~(9)所示。狀態(tài)中附加的一個參數(shù)是實時能耗Et,其中T0是室內(nèi)初始溫度,Emax是一個片段的空調(diào)系統(tǒng)、電動開窗系統(tǒng)和通風(fēng)系統(tǒng)的最大總能耗值,這個值通常是由經(jīng)驗獲得,可以從空調(diào)與通風(fēng)系統(tǒng)設(shè)備的操作特性和它的近期操作設(shè)置中得到。T_penalty是室內(nèi)溫度參數(shù);indoor_air_quality_penalty是室內(nèi)空氣質(zhì)量參數(shù);E_penalty是能耗參數(shù)。

      獎賞被建模為在區(qū)間[-1,0]中可取任何值的變量,這個變量是作為一個懲罰值,也就是說在能源消耗非常高或者二氧化碳濃度很高時,這個變量值很?。ń咏?1),反之這個變量值將很大(接近于0),其計算如式(6)所示。w1、w2、w3分別是其權(quán)重參數(shù),室內(nèi)溫度穩(wěn)定在設(shè)置溫度是首要目的,同樣也要考慮CO2濃度和能耗因素,經(jīng)過多次實驗效果對比,RLAC模型中參數(shù)的設(shè)置為:w1=0.7,w2=0.25,w3=0.05。這樣能保證最終r值在在區(qū)間[-1,0]內(nèi),并且整個系統(tǒng)保持良好的性能表現(xiàn)。

      RLAC中狀態(tài)轉(zhuǎn)移公式如式(10)~(13)所示,其中T_changerate表示溫度變化速率,與采取動作是大風(fēng)還是小風(fēng)有關(guān),其公式如式(12)所示。

      r值作為模型最終評價標準,是室內(nèi)溫度參數(shù)、室內(nèi)空氣質(zhì)量參數(shù)與能耗參數(shù)的加權(quán)值,設(shè)置r為一個負值,如公式(6)所示,當三個相關(guān)參數(shù)越小時,r的值就越大,模型需要的就是盡可能大的r值。也就是說,當室內(nèi)溫度越接近設(shè)置溫度,室內(nèi)CO2濃度越低,能耗值越低時,模型獲得的r值就越大,這也就是控制器要達到的最終目的——在不影響人的舒適度的條件下達到節(jié)能的目的。

      3.2 控制算法

      (9)直到s是終止狀態(tài)。

      算法1主要借鑒Q學(xué)習(xí)的主要思想,在狀態(tài)s下采取動作a之后更新r值,利用Q中得到的策略選擇a并采取動作,之后進一步更新r和s。每一個時間步都采取動作并更新狀態(tài)和r值來改變策略,最終收斂于最優(yōu)策略。

      RLAC方法的具體算法,見算法1:

      算法1 RLAC

      (1)初始化r=0,a為64×3的矩陣。

      (2)重復(fù)(對于每個片段)。

      (3)初始化 s0(T0,ρ0,setT)。

      (4)重復(fù)(對片段的每個時間步)。

      (5)根據(jù)r的值選擇一個動作a,并采取這個動作。

      (6)根據(jù)公式(10)~(13)進行狀態(tài)轉(zhuǎn)移 s←s'。

      (7)根據(jù)公式(6)~(9)更新 r值。

      (8)根據(jù)公式(5)更新Q 值。

      4 實驗結(jié)果與分析

      為了驗證RLAC模型的有效性,將仿真實驗在Pytho2.7環(huán)境中進行,采用的編輯器為Sublime Text3。下列實驗均設(shè)置每個情節(jié)最大步數(shù)為5 000步,一共160個情節(jié)共800 000步。

      4.1 RLAC的仿真步驟

      RLAC的仿真步驟如下:

      步驟1 建立狀態(tài)變遷模型(如式(10)~(13)、獎懲反饋模型(如式(6)~(9)和評價行為值函數(shù) Q(st,at)(如式(5))。

      步驟2初始化評價行為值函數(shù)Q(st,at)、學(xué)習(xí)率α,折扣率γ,其中,s表示狀態(tài)因素,a表示行為因素,γ是一個0≤γ≤1的參數(shù),狀態(tài)因素是由室內(nèi)溫度Tt、室內(nèi)二氧化碳濃度ρt、實時能耗Et和空調(diào)設(shè)置溫度setT構(gòu)成,行為因素是由空調(diào)系統(tǒng)行為、電動開窗系統(tǒng)行為和通風(fēng)系統(tǒng)行為構(gòu)成。

      步驟3運行片段,每個片段包括N個單位時間步,令時刻t=0,初始化初始狀態(tài)因素s0,也就是確定0時刻的T0、ρ0、E0=0和 setT 。

      步驟3.1每個單位時間步的運行包括:對當前狀態(tài)因素st,根據(jù)貪心選擇策略h(st)計算確定出當前狀態(tài)因素st在時刻t的行為因素at,a∈h(st)。

      采取這個行為因素at,根據(jù)建立的狀態(tài)變遷模型計算狀態(tài)因素的變遷,狀態(tài)因素變遷到下一狀態(tài)因素st+1。

      根據(jù)建立的獎懲反饋模型計算得出在狀態(tài)因素st和行為因素at下的獎懲rt。

      更新(如式(5))當前評價行為值函數(shù)Q(st,at)。

      更新學(xué)習(xí)率α,t=t+1。

      步驟4進行判斷,具體為:

      若st+1對應(yīng)的狀態(tài)不符合狀態(tài)結(jié)束條件,則返回到步驟3.1,進行下一單位時間步的運行。

      若st+1對應(yīng)的狀態(tài)符合狀態(tài)結(jié)束條件,則監(jiān)測所有狀態(tài)因素下的評價行為值函數(shù)是否滿足預(yù)定的精度要求,若有評價行為值函數(shù)不滿足精度要求,則返回到步驟3進行新的片段的運行,若評價行為值函數(shù)都滿足精度要求,則結(jié)束循環(huán)。

      步驟4中,若st+1對應(yīng)的狀態(tài)不符合狀態(tài)結(jié)束條件是指:若st+1對應(yīng)的單位時間步的步數(shù)小于循環(huán)設(shè)置的最大步數(shù)N;若st+1對應(yīng)的狀態(tài)符合狀態(tài)結(jié)束條件是指:若st+1對應(yīng)的單位時間步的步數(shù)等于循環(huán)設(shè)置的最大步數(shù)N。當然,狀態(tài)結(jié)束條件也可以設(shè)置為其他的狀態(tài)因素結(jié)束條件。

      4.2 RLAC的仿真實驗結(jié)果

      (1)關(guān)于模型的節(jié)能性的對比實驗

      如表1所示,實驗1.1,1.2為一組,初始狀態(tài)都是s0=[8,850,30],其獎賞函數(shù)r的權(quán)重參數(shù)不同,實驗1.1設(shè)置為 w=[0.7,0.25,0.05],實驗1.2設(shè)置為 w=[0.7,0.3,0],其區(qū)別在于實驗1.1的獎賞函數(shù)中考慮了能耗參數(shù),而實驗1.2的獎賞函數(shù)中未考慮能耗參數(shù)。實驗1.3,1.4為一組,初始狀態(tài)都是s0=[30,770,20],這兩個實驗區(qū)別也是在獎賞函數(shù)的權(quán)重參數(shù)設(shè)置上,與上一組實驗設(shè)置相同。實驗結(jié)果表明,是否考慮能耗參數(shù)并未影響實驗的收斂速度和收斂效果,只在總能耗值和平均能耗上產(chǎn)生差異。如表1所示,雖然在實驗收斂前,實驗1.1比實驗1.2的平均能耗分別高出430左右,但在實驗數(shù)據(jù)收斂之后,其平均能耗比實驗1.2的數(shù)據(jù)低了1 000左右,從長遠節(jié)能的方面考慮,考慮節(jié)能因素的實驗1.1比較未考慮節(jié)能因素的實驗1.2更符合節(jié)能的目的。實驗1.3與實驗1.4的實驗數(shù)據(jù)更能說明這一點,實驗1.3在收斂前后的平均能耗比實驗1.4分別低了2 000和4 300左右,表明考慮節(jié)能因素在內(nèi)的獎賞函數(shù)使整個系統(tǒng)更節(jié)能。

      表1 實驗1中四組子實驗各參數(shù)表

      接下來的所有實驗均考慮能耗參數(shù),即獎賞函數(shù)權(quán)重值w=[0.7,0.25,0.05]。

      (2)關(guān)于RLAC方法收斂性能的對比實驗

      實驗2.1的初始狀態(tài)為s0=[30,770,26],實驗2.2的初始狀態(tài)為s0=[16,770,26],實驗2.3的初始狀態(tài)為s0=[30,850,20],實驗2.4的初始狀態(tài)為s0=[8,850,30]。實驗數(shù)據(jù)如圖1至圖4所示。

      圖1 實驗2收斂后CO2濃度變化

      圖2 實驗2收斂之后溫度變化圖

      圖1 是實驗2四組子實驗收斂之后CO2濃度的變化圖,由圖可知RLAC方法與實驗2.1在1 400步左右達到最低濃度300×10-6,并保持良好的穩(wěn)定性;而實驗2.2、實驗2.3和實驗2.4則在1 200、1 600和1 400步左右達到一樣的效果。相比較而言,F(xiàn)uzzy-PD方法表現(xiàn)不如RLAC方法,在四組實驗中分別在1 400、1 500、2 000和2 200步左右達到最低400×10-6左右。實驗表明,RLAC能在更短時間步內(nèi)達到更好的通風(fēng)效果,以保證良好的室內(nèi)空氣質(zhì)量。

      圖2是實驗2中四組子實驗收斂之后室內(nèi)溫度的變化圖,由圖可知兩種方法均可達到設(shè)置溫度并保持穩(wěn)定,其差別在于收斂速度不同:RLAC在四組子實驗中分別在1 600、2 600、1 600和2 200步左右達到收斂;而Fuzzy-PD方法則需要2 600、3 500、2 400和2 800步。實驗表明,RLAC方法比較Fuzzy-PD方法能在更短的時間步內(nèi)達到設(shè)置溫度,并保持良好的穩(wěn)定性,保證室內(nèi)良好舒適的熱環(huán)境。

      圖3是實驗2在實驗過程中的總回報收斂圖,如圖所示實驗2.1每個情節(jié)總回報在前20個情節(jié)內(nèi)RLAC回報處在震蕩非常大的階段,振幅一度超過6 000,但在20~80個情節(jié)內(nèi)振幅保持在4 000以內(nèi),此時的震蕩幅度還是比較大;400 000步即80個情節(jié)左右收斂在-2 000左右,振幅不超過1 000。實驗2.2、實驗2.3和實驗2.4的總回報則分別在100、108和122個情節(jié)收斂到-4 500、-5 000和-13 000左右。

      圖4是實驗2在160個情節(jié)內(nèi)的每個情節(jié)所需收斂步數(shù)圖,如圖所示:實驗2.1在實驗剛剛開始幾個情節(jié)并未收斂,所以顯示的收斂步數(shù)是最大值5 000步;在60個情節(jié)之前收斂步數(shù)很不穩(wěn)定,震蕩幅度很大,這個時間段RLAC處于學(xué)習(xí)階段;而在60~80個情節(jié)內(nèi),系統(tǒng)達到有微振幅的階段,此時系統(tǒng)在調(diào)整策略;最終在80個情節(jié)之后基本收斂在1 400步左右,系統(tǒng)達到穩(wěn)定最優(yōu)策略。實驗2.2、實驗2.3和實驗2.4則分別在100、100和120個情節(jié)之后達到1 500步左右并保持穩(wěn)定。

      圖3 實驗2總回報收斂圖

      圖4 實驗2收斂步數(shù)圖

      (3)關(guān)于RLAC方法對建筑物內(nèi)相關(guān)設(shè)備控制性能的實驗

      本實驗主要是將RLAC方法與Fuzzy-PD方法和On/Off方法進行對比實驗。

      圖5是設(shè)置初始狀態(tài)為s0=[30,850,26]的情況下,總回報與情節(jié)數(shù)的收斂情況,該圖數(shù)據(jù)為20次實驗數(shù)據(jù)取平均得到。實驗中設(shè)置一共有160個情節(jié),每個情節(jié)是5 000步,總步數(shù)為800 000步。

      圖5 實驗3總回報收斂圖

      由圖5可看出,RLAC模型在實驗開始階段表現(xiàn)很不穩(wěn)定,每個情節(jié)的總回報值上下波動超過了±2 000,平均到每一步的獎賞波動超過±0.4,這是因為這個階段是Agent剛開始學(xué)習(xí)的階段,采取試錯的方法在探索與利用之間找到平衡。經(jīng)過約30個情節(jié)訓(xùn)練與學(xué)習(xí),RLAC模型的總回報值波動值縮小到±500左右,平均到每一步的獎賞波動幅度約為±0.1;最后模型經(jīng)過60個情節(jié)之后基本收斂,每個情節(jié)的總回報值上下波動不超過±70,平均到每一步的獎賞上下波動不超過±0.014,基本可以確定模型收斂??梢詮膱D中看到,RLAC模型Agent的學(xué)習(xí)速率是很快的,基本在300 000步(60個情節(jié))就能收斂,總的實驗時間為0∶34∶57,收斂時間約為0∶13∶00。

      圖6是RLAC在每一個情節(jié)內(nèi)達到收斂所需步數(shù),由圖中可看出:實驗設(shè)置每個情節(jié)為5 000步,剛開始實驗?zāi)P筒荒茉? 000步內(nèi)收斂;0~50個情節(jié)內(nèi)收斂步數(shù)一直在2 500~4 400步的范圍里震蕩,這個階段是Agent的學(xué)習(xí)階段;50個情節(jié)之后收斂步數(shù)有個明顯下降的趨勢,直到60個情節(jié)基本穩(wěn)定收斂在1 400步,說明在60個情節(jié)之后Agent找到了最優(yōu)策略,使得系統(tǒng)在之后的每個情節(jié)內(nèi)都能在14 00步左右達到穩(wěn)定。

      圖6 實驗3每個情節(jié)的收斂步數(shù)

      圖7 是在每個情節(jié)總回報值基本收斂之后,隨機取出其中一個情節(jié),在5 000步內(nèi)室內(nèi)溫度T的變化情況,每200步采樣一次。由圖可知,0~1 400步階段,RLAC模型Agent在探索學(xué)習(xí)階段,溫度變化很不穩(wěn)定。但在1 400步之后本文模型基本穩(wěn)定,室內(nèi)溫度T保持在設(shè)置溫度26℃左右。由此可得出結(jié)論,RLAC模型Agent可滿足空調(diào)系統(tǒng)維持室內(nèi)溫度等于設(shè)置溫度的要求。Fuzzy-PD方法在2 000步左右才收斂到設(shè)置溫度26℃,On/Off方法則需要在2 600步之后才能收斂。由圖7可得出,RLAC采用強化學(xué)習(xí)方法比傳統(tǒng)Fuzzy-PD方法和On/Off方法效果更好,在更少的步數(shù)內(nèi)就能收斂達到穩(wěn)定。

      圖7 實驗3情節(jié)收斂后室內(nèi)溫度變化圖

      圖8 是在每個情節(jié)總回報值基本收斂之后,隨機取出其中一個情節(jié),每200步采樣一次,在5 000步內(nèi)室內(nèi)CO2濃度的變化情況。由圖可知,0~1 200步階段,RLAC模型Agent在探索學(xué)習(xí)階段,CO2濃度沒有達到要求的低于450×10-6。但在1 200步之后本文模型基本穩(wěn)定,室內(nèi)CO2濃度保持在與室外CO2濃度380×10-6左右。而Fuzzy-PD方法在1 800步之后才到達穩(wěn)定值400,;On/Off方法要經(jīng)過2 400步的學(xué)習(xí)才達到收斂,收斂于485左右。由圖8可知RLAC模型可以滿足室內(nèi)通風(fēng)的效果,比另外兩個方法在更少的步數(shù)內(nèi)收斂,并且CO2濃度穩(wěn)定值最低,通風(fēng)效果最好。

      圖8 實驗3情節(jié)收斂后CO2濃度變化圖

      5 結(jié)束語

      針對傳統(tǒng)控制方法對于建筑物通風(fēng)與空調(diào)系統(tǒng)控制存在收斂速度慢、不穩(wěn)定等問題,提出一個基于強化學(xué)習(xí)的動態(tài)自適應(yīng)控制模型RLAC,RLAC采用Q學(xué)習(xí)算法,對真實房屋空調(diào)系統(tǒng)與通風(fēng)系統(tǒng)進行模型構(gòu)造,并將節(jié)能因素考慮在內(nèi)。RLAC輸入為CO2濃度、室內(nèi)溫度和設(shè)置溫度三個狀態(tài)的矩陣表示,輸出是空調(diào)系統(tǒng)動作、開窗動作和通風(fēng)系統(tǒng)動作的排列組合,目的是在保證達到設(shè)置溫度和CO2濃度的基礎(chǔ)上達到節(jié)能的效果。實驗中設(shè)置一共有160個情節(jié),每個情節(jié)是5 000步,通過160個情節(jié)的實驗,并將RLAC數(shù)據(jù)與Fuzzy-PD方法和On/Off方法的實驗數(shù)據(jù)進行對比實驗。實驗結(jié)果表明:(1)RLAC方法具有有效的節(jié)能性;(2)RLAC在不同設(shè)置參數(shù)下均能達到良好的收斂性和穩(wěn)定性;(3)強化學(xué)習(xí)的算法思想用于建筑物空調(diào)與通風(fēng)系統(tǒng)的控制領(lǐng)域,對比Fuzzy-PD和On/Off兩種方法RLAC有更好的收斂性和魯棒性。

      [1]Dounis A I,Santamouris M J,Lefas C C,et al.Thermal comfort degradation by a visual comfort fuzzy reasoning machineunder natural ventilation[J].Journal of Applied Energy,1994,48(2):115-130.

      [2]Dounis A I,Santamouris M J,Lefas C C,et al.Design of a fuzzyset environmentcomfort system[J].Energy and Buildings,1995,22(1):81-87.

      [3]Dounis A I,Bruant M,Guarracino G,et al.Indoor air quality control by a fuzzy reasoning machine in naturallyventilated buildings[J].Journal of Applied Energy,1996,54(1):11-28.

      [4]Clarke J A,Cockroft J,Conner S,et al.Simulation-assisted control in building energy management systems[J].Energy and Buildings,2002,34(9):933-940.

      [5]Mnih V,Kavukcuoglu K,Silver D,et al.Playing atari with deep reinforcement learning[C]//NIPS Deep Learning Workshop,2013.

      [6]Dalamagkidis K,Kolokotsa D,Kalaitzakis K,et al.Reinforcement learning for energy conservation and comfort in buildings[J].Building and Environment,2007,42(7):2686-2698.

      [7]Mocanu E,Nguyen P H,King W L,et al.Unsupervised energy prediction in a smart grid context using reinforcement cross-building transfer learning[J].Energy and Buildings,2016,116:646-655.

      [8]Shaikh P H,Nor N B M,Nallagownden P,et al.A review on optimized control systems for building energy and comfort management of smart sustainable buildings[J].Renewable and Sustainable Energy Reviews,2014,34:409-429.

      [9]Whiffen T R,Naylor S,Hill J,et al.A concept review of power line communication in building energy management systems for the small to medium sized nondomestic built environment[J].Renewable and Sustainable Energy Reviews,2016,64:618-633.

      [10]Hazyuk I,Ghiaus C,Penhouet D.Model predictive control of thermal comfort as a benchmark for controller performance[J].Automation in Construction,2014,43:98-109.

      [11]Yang L,Nagy Z,Goffin P,et al.Reinforcement learning for optimal control of low exergy buildings[J].Applied Energy,2015,156:577-586.

      [12]Dalamagkidis K,Kolokotsa D.Reinforcement learning for building environment control[M].[S.l.]:INTECH Open Access Publisher,2008:283-294.

      [13]Egilegor B,Uribe J P,Arregi G,et al.A fuzzy control adapted by a neural network to maintain a dwelling within thermal comfort[C]//Proceedings of Building Simulation,1997,97:87-94.

      [14]Ulpiani G,Borgognoni M,Romagnoli A,et al.Comparing the performance of on/off,PID and fuzzy controllers applied to the heating system of an energy-efficient building[J].Energy and Buildings,2016,116:1-17.

      [15]Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge:MIT Press,1998.

      HU Lingyao1,2,3,CHEN Jianping1,2,3,FU Qiming1,2,3,4,HU Wen1,2,3,NI Qingwen1,2,3

      1.College of Electronics and Information Engineering,Suzhou University of Science and Technology,Suzhou,Jiangsu 215009,China 2.Jiangsu Province Key Laboratory of Intelligent Building Energy Efficiency,Suzhou,Jiangsu 215009,China 3.Suzhou Key Laboratory of Mobile Network Technology and Application,Suzhou,Jiangsu 215009,China 4.Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University,Changchun 130012,China

      Building energy efficiency oriented reinforcement learning adaptive control method.Computer Engineering and Applications,2017,53(21):239-246.

      With respect to the problem of slow convergence and instability for the traditional methods,in the field of building energy efficiency,this paper proposes a new reinforcement learning adaptive control method,RLAC by combining Q-learning.The proposed method models the exchange mechanism of the building energy consumption,and tries to find the better control policy by solving the optimal value function.Furthermore,RLAC can decrease the energy consumption without losing the performance of good comfort of the building occupants.Compared with the On/Off and Fuzzy-PD,the proposed RLAC has a better convergence performance in speed and accuracy.

      reinforcement learning;Markov Decision Process(MDP);Q-learning;building energy efficiency;adaptive control

      A

      TP181

      10.3778/j.issn.1002-8331.1702-0217

      國家自然科學(xué)基金(No.61502329,No.61602334,No.61672371);住房與城鄉(xiāng)建設(shè)部科學(xué)技術(shù)項目(No.2015-K1-047);江蘇省自然科學(xué)基金(No.BK20140283);蘇州市體育局體育科研局管課題(No.TY2015-301);蘇州市科技計劃項目(No.SYG201255,No.SZS201304)。

      胡齡爻(1994—),女,碩士,主要研究領(lǐng)域為強化學(xué)習(xí)、建筑節(jié)能;陳建平(1963—),男,教授,碩士生導(dǎo)師,主要研究領(lǐng)域為建筑節(jié)能、智能信息處理;傅啟明(1985—),男,講師,中國計算機學(xué)會會員,主要研究領(lǐng)域為強化學(xué)習(xí)、模式識別、建筑節(jié)能,E-mail:fqm_1@126.com;胡文(1992—),女,碩士,主要研究領(lǐng)域為強化學(xué)習(xí)、建筑節(jié)能;倪慶文(1993—),女,碩士,主要研究領(lǐng)域為建筑節(jié)能。

      2017-02-22

      2017-05-03

      1002-8331(2017)21-0239-08

      猜你喜歡
      步數(shù)能耗設(shè)置
      速度和步數(shù),哪個更重要
      120t轉(zhuǎn)爐降低工序能耗生產(chǎn)實踐
      昆鋼科技(2022年2期)2022-07-08 06:36:14
      能耗雙控下,漲價潮再度來襲!
      中隊崗位該如何設(shè)置
      少先隊活動(2021年4期)2021-07-23 01:46:22
      楚國的探索之旅
      奇妙博物館(2021年4期)2021-05-04 08:59:48
      探討如何設(shè)計零能耗住宅
      微信運動步數(shù)識人指南
      小演奏家(2018年9期)2018-12-06 08:42:02
      日本先進的“零能耗住宅”
      華人時刊(2018年15期)2018-11-10 03:25:26
      本刊欄目設(shè)置說明
      中俄臨床醫(yī)學(xué)專業(yè)課程設(shè)置的比較與思考
      大渡口区| 托里县| 景德镇市| 西和县| 东台市| 旅游| 兴仁县| 奇台县| 淮南市| 西安市| 宝兴县| 东乡族自治县| 科尔| 常山县| 达拉特旗| 龙海市| 翁源县| 永寿县| 江油市| 韶关市| 武威市| 奎屯市| 巨野县| 荆门市| 苏尼特右旗| 苏尼特左旗| 霍城县| 介休市| 夹江县| 海安县| 建瓯市| 定日县| 江孜县| 中卫市| 新龙县| 彰化市| 灵寿县| 富宁县| 和顺县| 彩票| 图们市|