盧楚杰 李思慧
1(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 廣東 廣州 510006) 2(湖南大學(xué)土木工程學(xué)院 湖南 長(zhǎng)沙 410082)
研究表明,以用戶為核心(Occupant-centric)的建筑設(shè)備控制策略具有巨大的節(jié)能潛力[1]。以空調(diào)系統(tǒng)為例,房間內(nèi)用戶存在與否影響著空調(diào)的啟停狀態(tài),用戶數(shù)量影響著空調(diào)的送風(fēng)溫度和新風(fēng)量等運(yùn)行參數(shù),而用戶行為在更高層次上影響著控制和節(jié)能策略[2]。
建筑入住率感知(Occupancy Sensing)是指獲取建筑內(nèi)用戶存在與否、用戶數(shù)量等信息[3],這些信息除了用于建筑設(shè)備控制以外,還可被用作建筑能源模擬與管理,是智慧建筑的重要組成部分[4-5]。機(jī)器學(xué)習(xí)技術(shù)已經(jīng)被廣泛運(yùn)用于建筑入住率感知模型[6],其框架通常涉及數(shù)據(jù)采集、特征選擇、算法選擇、訓(xùn)練和性能評(píng)估五個(gè)步驟。入住率感知模型包括基于運(yùn)動(dòng)檢測(cè)(紅外傳感器、超聲波傳感器等)、基于環(huán)境參數(shù)(CO2傳感器、溫濕度傳感器等)、基于終端設(shè)備(智能手機(jī)、RFID等)、基于信號(hào)強(qiáng)度(Wi-Fi、藍(lán)牙等)、基于圖像目標(biāo)檢測(cè)(攝像頭等)、基于智慧電表等方法[3]。但是每種方法均有弊端,比如:紅外傳感器易于獲取用戶存在與否,但難以獲取用戶人數(shù)等詳細(xì)信息,同時(shí)其感知范圍受限于視距,并且難以感知靜止的人體,誤差較大;CO2傳感器等環(huán)境傳感器讀數(shù)具有一定的延時(shí)性,且感知精度有限;攝像頭等利用計(jì)算機(jī)視覺(jué)技術(shù)的方法雖然具有極高的感知精度,但是由于涉及隱私問(wèn)題,這類方法在許多室內(nèi)應(yīng)用場(chǎng)景中難以推廣。
為了避免涉及隱私問(wèn)題的同時(shí)改善入住率感知精度,本文提出一種基于機(jī)器學(xué)習(xí)框架的建筑入住率感知模型。利用多傳感器獲取建筑內(nèi)已存在的數(shù)據(jù)流(不涉及隱私問(wèn)題),嘗試將不同數(shù)據(jù)源的信息進(jìn)行融合,評(píng)價(jià)不同機(jī)器學(xué)習(xí)算法在建立建筑入住率感知模型時(shí)的有效性。此外,還將進(jìn)一步地探索不同模型在不同季節(jié)、不同樓層之間的可轉(zhuǎn)移性。
文獻(xiàn)[7]提供了位于加拿大渥太華卡爾頓大學(xué)某辦公樓的入住率及相關(guān)數(shù)據(jù),其中包括室內(nèi)多個(gè)位置的CO2傳感器讀數(shù),接入Wi-Fi終端設(shè)備數(shù),瞬時(shí)照明負(fù)載和瞬時(shí)插座負(fù)載,同時(shí)利用攝像頭記錄下每個(gè)時(shí)刻的真實(shí)用戶數(shù)量,記錄的時(shí)間間隔均為5分鐘。為了便于分析,本文將原始數(shù)據(jù)集按照樓層和季節(jié)劃分成了四個(gè)數(shù)據(jù)集,具體細(xì)節(jié)見(jiàn)表1。
表1 數(shù)據(jù)集劃分
從建筑物中收集的原始數(shù)據(jù)一般不能直接用于機(jī)器學(xué)習(xí)建模,因?yàn)樵紨?shù)據(jù)中可能具有以下問(wèn)題:1) 原始數(shù)據(jù)一般包含噪聲和缺失值;2) 原始數(shù)據(jù)通常具有無(wú)關(guān)信息或冗余信息。前者一般通過(guò)數(shù)據(jù)清洗等數(shù)據(jù)預(yù)處理方法解決;后者一般通過(guò)特征選擇來(lái)進(jìn)行數(shù)據(jù)篩選,常用的方法有主成分分析[8]、信息增益理論[9]等。
圖1(a)為數(shù)據(jù)集1中的各項(xiàng)數(shù)據(jù)(特征),其中:CO2濃度是指原始數(shù)據(jù)中室內(nèi)多個(gè)位置的CO2傳感器讀數(shù)的平均值;總負(fù)載是原始數(shù)據(jù)中照明負(fù)載與插座負(fù)載之和。表2中,建筑內(nèi)的實(shí)際人數(shù)被劃分成了四個(gè)入住率水平,這是因?yàn)閷?duì)實(shí)際的建筑設(shè)備而言,如空調(diào)系統(tǒng),入住率水平已能夠滿足其控制策略的優(yōu)化,同時(shí)降低了建立入住率感知模型的難度。圖1(b)為數(shù)據(jù)集1中的實(shí)際人數(shù)與入住率。
圖1 數(shù)據(jù)集1展示
表2 入住率水平
數(shù)據(jù)集1中的5個(gè)特征可以組成31個(gè)特征子集,通過(guò)基于相關(guān)性的特征選擇方法(Correlation-based Feature Selection,CFS)對(duì)特征子集進(jìn)行篩選,有助于提高入住率感知模型的準(zhǔn)確率。好的特征子集需要包含與類高度相關(guān)的特征,并且特征之間彼此不相關(guān),CFS的優(yōu)勢(shì)便是其不僅考察特征子集中單個(gè)特征的預(yù)測(cè)能力,還考察特征之間的冗余程度[10],其啟發(fā)式方程為:
(1)
式中:Merit是包含n個(gè)特征的特征子集的啟發(fā)式“度量”,大小在0到1之間,值越靠近1則說(shuō)明該特征子集越好;rcf和rff均為皮爾遜相關(guān)系數(shù),rcf為特征-類相關(guān)系數(shù),rff為特征-特征相關(guān)系數(shù)。
建筑入住率感知模型屬于多元分類任務(wù),將選取7種常見(jiàn)的監(jiān)督學(xué)習(xí)類機(jī)器學(xué)習(xí)算法,包括邏輯回歸、支持向量機(jī)(線性、徑向基)、K近鄰、樸素貝葉斯、決策樹(shù)、隨機(jī)森林。
處理多元分類任務(wù)時(shí),邏輯回歸算法一般確定為最大概率的類別;線性支持向量機(jī)用于處理線性可分的數(shù)據(jù),通過(guò)訓(xùn)練樣本尋找超平面來(lái)進(jìn)行分類,而徑向基支持向量機(jī)分別用于處理線性不可分的數(shù)據(jù),將其映射至更高維度,再進(jìn)行分類;K近鄰算法通過(guò)距離度量找出離測(cè)試?yán)罱腒個(gè)訓(xùn)練樣本,以此確定測(cè)試?yán)念悇e;決策樹(shù)從訓(xùn)練樣本中學(xué)習(xí)將預(yù)測(cè)空間簡(jiǎn)單劃分為多個(gè)區(qū)域,從而進(jìn)行多元分類;隨機(jī)森林通過(guò)創(chuàng)建許多分類樹(shù)來(lái)提高預(yù)測(cè)準(zhǔn)確性[6,11]。
為了增強(qiáng)測(cè)試結(jié)果的穩(wěn)定性和保真性,在訓(xùn)練機(jī)器學(xué)習(xí)算法時(shí)對(duì)數(shù)據(jù)集應(yīng)用k折交叉驗(yàn)證法,即將數(shù)據(jù)集劃分成k份,每次用k-1份的并集作為訓(xùn)練集,用剩下的1份作為測(cè)試集,從而進(jìn)行k次訓(xùn)練與測(cè)試,最終返回的是k個(gè)測(cè)試結(jié)果的平均值[11]。
利用機(jī)器學(xué)習(xí)進(jìn)行建模之后,需要對(duì)入住率感知模型的性能進(jìn)行評(píng)估,選取兩個(gè)常用的指標(biāo)[12]:
(1) 準(zhǔn)確率(Accuracy):即入住率感知正確的樣本數(shù)占樣本總數(shù)的比例。入住率感知模型目標(biāo)是將準(zhǔn)確率最大化。
(2)
(2) 均方根誤差(Root Mean Square Error,RMSE):入住率感知結(jié)果的平均誤差幅度。入住率感知模型目標(biāo)是將均方根誤差最小化。
(3)
圖2為各特征與入住率之間的相關(guān)性熱點(diǎn)圖??梢钥闯?,各特征與入住率水平都具有較高的相關(guān)性,其中最高的是Wi-Fi設(shè)備數(shù),為0.81,說(shuō)明建筑內(nèi)接入Wi-Fi終端設(shè)備數(shù)最能反映入住率水平。同時(shí)各特征之間的相關(guān)性也很高,說(shuō)明可能存在冗余特征。其中,照明負(fù)載、插座負(fù)載與總負(fù)載之間的相關(guān)性分別達(dá)到了0.95和0.93,呈高度相關(guān),這是因?yàn)榭傌?fù)載是由前兩者求和所得。
圖2 各特征間相關(guān)性熱點(diǎn)圖
表3為利用CFS對(duì)各特征子集的預(yù)測(cè)能力進(jìn)行評(píng)估的結(jié)果。在單個(gè)特征的子集中,Wi-Fi設(shè)備數(shù)的Merit值最高,說(shuō)明Wi-Fi設(shè)備數(shù)的預(yù)測(cè)能力最強(qiáng),這與相關(guān)性熱點(diǎn)圖分析結(jié)果是一致的。在所有特征子集中,總負(fù)載與Wi-Fi設(shè)備數(shù)兩個(gè)特征融合的子集的Merit值最高,說(shuō)明其預(yù)測(cè)能力最強(qiáng),所以選擇該特征子集建立入住率感知模型。同時(shí),可以看出多個(gè)特征融合的子集的Merit值不一定比單個(gè)特征的子集高,比如Wi-Fi設(shè)備數(shù)的Merit值為0.81,CO2濃度、照明負(fù)載、插座負(fù)載、總負(fù)載和Wi-Fi設(shè)備數(shù)五個(gè)特征融合的子集Merit值僅為0.798,說(shuō)明多傳感器融合的預(yù)測(cè)能力不一定比單傳感器的預(yù)測(cè)能力強(qiáng)。
表3 基于相關(guān)性的特征選擇
(1) 有效性分析。有效性分析是指在同一數(shù)據(jù)集(即同一季節(jié)同一樓層)中進(jìn)行訓(xùn)練與測(cè)試。以數(shù)據(jù)集1為例,選取總負(fù)載與Wi-Fi設(shè)備數(shù)兩個(gè)特征融合的子集進(jìn)行有效性分析,利用10折交叉驗(yàn)證法確保評(píng)估結(jié)果的穩(wěn)定性,結(jié)果見(jiàn)表4。所有算法的準(zhǔn)確率平均值都超過(guò)了60%,說(shuō)明總負(fù)載與Wi-Fi設(shè)備數(shù)兩個(gè)特征融合能夠有效感知建筑內(nèi)入住率水平。其中:線性支持向量機(jī)獲得了最高的準(zhǔn)確率平均值(77%)和最低的均方根誤差平均值(0.37);徑向基支持向量機(jī)和樸素貝葉斯也有較好的結(jié)果;而決策樹(shù)的結(jié)果最不理想,準(zhǔn)確率僅為61.7%。
表4 入住率感知模型的有效性分析
(2) 可轉(zhuǎn)移性分析??赊D(zhuǎn)移性分析是指將訓(xùn)練好的入住率模型在不同樓層或不同季節(jié)中測(cè)試(即在一個(gè)數(shù)據(jù)集上訓(xùn)練的入住率感知模型在另一個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試分析)。監(jiān)督類機(jī)器學(xué)習(xí)算法在建立入住率感知模型時(shí)需要收集一定的數(shù)據(jù),十分耗時(shí),若能夠?qū)⒂?xùn)練好的入住率感知模型在不同建筑或房間、不同季節(jié)間進(jìn)行轉(zhuǎn)移,則能夠大大減少訓(xùn)練成本,增加入住率感知模型的可用性。
表5為同一樓層不同季節(jié)中的可轉(zhuǎn)移性測(cè)試結(jié)果(在數(shù)據(jù)集1上訓(xùn)練,在數(shù)據(jù)集2上測(cè)試)??梢钥闯?,所有算法的準(zhǔn)確率也都超過(guò)了60%,并且與在同一季節(jié)同一樓層測(cè)試的結(jié)果接近,說(shuō)明入住率感知模型在不同季節(jié)間是可以轉(zhuǎn)移的。其中徑向基支持向量機(jī)和樸素貝葉斯獲得了較高的準(zhǔn)確率(84.3%和82.7%)和較低的均方根誤差(0.40和0.42),而決策樹(shù)算法的結(jié)果依舊是最差的(68.5%和0.56)。
表5 入住率感知模型在不同季節(jié)的可轉(zhuǎn)移性分析
表6為不同樓層同一季節(jié)的可轉(zhuǎn)移性測(cè)試結(jié)果(在數(shù)據(jù)集1上訓(xùn)練,在數(shù)據(jù)集3上測(cè)試),表7為不同樓層不同季節(jié)的可轉(zhuǎn)移性測(cè)試結(jié)果(在數(shù)據(jù)集1上訓(xùn)練,在數(shù)據(jù)集4上測(cè)試)。在不同樓層中轉(zhuǎn)移應(yīng)用時(shí),各算法的準(zhǔn)確率基本都低于40%,說(shuō)明基于這些機(jī)器學(xué)習(xí)算法的入住率感知模型在不同樓層中的可轉(zhuǎn)移性是不可靠的。可以看出,即便本文中不同樓層的大小、結(jié)構(gòu)和方向大致相同,但是室內(nèi)布置、傳感器位置和用戶行為的變化都可能為入住率感知模型的轉(zhuǎn)移增加許多挑戰(zhàn),需要探索新的特征或者其他更先進(jìn)的機(jī)器學(xué)習(xí)算法。
表6 入住率感知模型在不同樓層的可轉(zhuǎn)移性分析
續(xù)表6
表7 入住率感知模型在不同樓層和不同季節(jié)的可轉(zhuǎn)移性分析
為了避免涉及隱私問(wèn)題的同時(shí)改善入住率感知精度,首先利用CFS對(duì)多傳感器數(shù)據(jù)進(jìn)行篩選,再利用7種機(jī)器學(xué)習(xí)算法建立入住率感知模型。以某辦公樓的入住率數(shù)據(jù)為例進(jìn)行研究,結(jié)果顯示多傳感器融合能夠有效感知建筑入住率水平,并且入住率感知模型能夠應(yīng)用在不同季節(jié)中,支持向量機(jī)(包括線性和徑向基)和樸素貝葉斯算法在預(yù)測(cè)入住率時(shí)均具有較好的預(yù)測(cè)性能。但是入住率模型在不同樓層中應(yīng)用時(shí),所有算法準(zhǔn)確率均偏低。此外,研究結(jié)果還表明,由于冗余特征的存在,多傳感器融合的預(yù)測(cè)能力不一定比單傳感器的預(yù)測(cè)能力強(qiáng)。