• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于樣本集質(zhì)量的建筑能耗預(yù)測(cè)機(jī)器學(xué)習(xí)算法選擇及參數(shù)設(shè)置

      2022-06-21 07:17:46李曉倩
      重慶大學(xué)學(xué)報(bào) 2022年5期
      關(guān)鍵詞:參數(shù)設(shè)置樣本量學(xué)習(xí)效果

      劉 剛,李曉倩,韓 臻

      (天津大學(xué) a.建筑學(xué)院;b.天津市建筑物理環(huán)境與生態(tài)技術(shù)重點(diǎn)實(shí)驗(yàn)室,天津 300072)

      可持續(xù)建筑節(jié)能效果很大程度上取決于建筑初期設(shè)計(jì)[1]。近年來(lái),結(jié)合建筑能耗預(yù)測(cè)方法和優(yōu)化算法在建筑設(shè)計(jì)初期輔助節(jié)能優(yōu)化決策成為研究熱點(diǎn)[2]。優(yōu)化過(guò)程中通常會(huì)生成大量的備選方案,能否快速進(jìn)行建筑能耗預(yù)測(cè)成為影響優(yōu)化效率的關(guān)鍵因素。隨著人工智能技術(shù)的不斷發(fā)展,基于機(jī)器學(xué)習(xí)的能耗預(yù)測(cè)方法越來(lái)越多的應(yīng)用于建筑能耗優(yōu)化中。實(shí)踐證明,通過(guò)機(jī)器學(xué)習(xí)預(yù)測(cè)建筑能耗大大提高了建筑節(jié)能優(yōu)化設(shè)計(jì)的效率,正逐步為建筑師所接納。在實(shí)際應(yīng)用中,建筑節(jié)能優(yōu)化問(wèn)題多為在已知可行空間內(nèi)尋找最優(yōu)方案[3],但在優(yōu)化過(guò)程中,個(gè)體方案多為隨機(jī)生成或有引導(dǎo)性的隨機(jī)生成[4-6],使得用于學(xué)習(xí)的訓(xùn)練樣本集分布情況未知?,F(xiàn)有研究中,關(guān)于樣本集質(zhì)量(即樣本分布不均衡問(wèn)題)的研究多集中于分類問(wèn)題中[7-9],在關(guān)于回歸問(wèn)題中機(jī)器學(xué)習(xí)算法的選擇及其參數(shù)設(shè)置的研究中,關(guān)于樣本集質(zhì)量尚無(wú)統(tǒng)一定義[10],多集中于樣本集大小對(duì)學(xué)習(xí)效果的影響或樣本個(gè)體質(zhì)量對(duì)學(xué)習(xí)效果的影響,較少關(guān)注樣本集樣本分布情況即樣本集所包含信息完整性對(duì)學(xué)習(xí)效果的影響[11-14]。但在樣本分布情況未知的前提下,隨意選擇的算法或不合理的參數(shù)設(shè)置可能會(huì)導(dǎo)致算法性能不理想,從而影響建筑節(jié)能優(yōu)化效果。同時(shí),對(duì)于建筑師而言,由于機(jī)器學(xué)習(xí)原理及應(yīng)用的復(fù)雜性,尚未有較統(tǒng)一且明確的學(xué)習(xí)方法選擇及參數(shù)設(shè)置依據(jù)對(duì)其進(jìn)行指導(dǎo)。

      文中提出了基于樣本量及樣本覆蓋性的樣本集質(zhì)量評(píng)價(jià)方法,通過(guò)比較幾種常用的機(jī)器學(xué)習(xí)方法及參數(shù)設(shè)置在不同質(zhì)量樣本集情況下的學(xué)習(xí)效果,分析樣本集質(zhì)量與機(jī)器學(xué)習(xí)算法性能之間的關(guān)系,針對(duì)不同質(zhì)量樣本集提出學(xué)習(xí)方法選擇及參數(shù)設(shè)置建議,為建筑師使用提供理論指導(dǎo)。

      1 理論與方法

      1.1 傳統(tǒng)機(jī)器學(xué)習(xí)算法

      支持向量回歸(Support Vector Regression,SVR)[15]是支持向量機(jī)的重要分支,廣泛應(yīng)用于非線性回歸問(wèn)題[16]。該算法基于核函數(shù)的小樣本統(tǒng)計(jì)理論,其核心是VC維理論及結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,可以有效避免陷入局部最優(yōu)而達(dá)到全局最優(yōu), 并通過(guò)核函數(shù)將低維空間問(wèn)題映射至高維空間,將其轉(zhuǎn)化為線性回歸關(guān)系[17]。SVR算法具有結(jié)構(gòu)簡(jiǎn)單、穩(wěn)定性強(qiáng)、泛化能力強(qiáng)的優(yōu)點(diǎn),可以有效解決模型選擇與欠學(xué)習(xí)、過(guò)學(xué)習(xí)、小樣本、非線性和局部最優(yōu)等問(wèn)題,是建筑能耗預(yù)測(cè)中常用算法[18-21]。

      BP神經(jīng)網(wǎng)絡(luò)(Back-Propagation Network,BP)是一種典型的多層前向型神經(jīng)網(wǎng)絡(luò),利用誤差反向傳播算法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,理論上通過(guò)選擇適當(dāng)?shù)木W(wǎng)絡(luò)層次及神經(jīng)元個(gè)數(shù)可以任意逼近非線性函數(shù)[22]。該方法具有一定的自適應(yīng)與自組織能力以及非線性映射能力,在建筑能耗預(yù)測(cè)問(wèn)題中顯示出明顯優(yōu)勢(shì)[16]。但性能受樣本數(shù)據(jù)及神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)影響較大,且隨著樣本量的增多訓(xùn)練時(shí)間會(huì)大大加長(zhǎng),因此,選擇適當(dāng)?shù)耐負(fù)浣Y(jié)構(gòu)對(duì)該算法尤其重要。

      1.2 集成機(jī)器學(xué)習(xí)算法

      集成學(xué)習(xí)(Ensemble Learning)是機(jī)器學(xué)習(xí)領(lǐng)域重要的研究方向之一,通過(guò)多個(gè)學(xué)習(xí)算法對(duì)同一個(gè)問(wèn)題進(jìn)行學(xué)習(xí),得到多個(gè)具有差異性的學(xué)習(xí)器,并通過(guò)一定組合方法對(duì)其學(xué)習(xí)結(jié)果進(jìn)行組合得到最終結(jié)果,核心思想是充分利用誤差較大的個(gè)體學(xué)習(xí)器所獲得的局部信息來(lái)增強(qiáng)集成學(xué)習(xí)器的整體準(zhǔn)確度和可靠性,而不是直接將其舍棄。集成學(xué)習(xí)具有準(zhǔn)確度高,穩(wěn)定性高,對(duì)參數(shù)設(shè)置敏感性相對(duì)較小以及學(xué)習(xí)效率高等優(yōu)點(diǎn),在建筑能耗預(yù)測(cè)中應(yīng)用日趨廣泛[23-25]。其中,應(yīng)用最多且范圍最廣的為Bagging算法與Boosting算法。

      Bagging算法通過(guò)自主采樣法(Bootstrap)產(chǎn)生新的訓(xùn)練子集訓(xùn)練基學(xué)習(xí)器,結(jié)合策略組合各基學(xué)習(xí)器預(yù)測(cè)結(jié)果進(jìn)行輸出,基學(xué)習(xí)算法對(duì)訓(xùn)練數(shù)據(jù)越敏感,基學(xué)習(xí)器差異性越大,集成效果越好。

      算法1Bagging算法

      輸入:訓(xùn)練集D,個(gè)體學(xué)習(xí)器L,迭代次數(shù)T;

      fort=1, 2, 3, …,T:

      1)對(duì)樣本集進(jìn)行自主采樣得到訓(xùn)練子集Dt;

      2)使用訓(xùn)練子集訓(xùn)練得到個(gè)體學(xué)習(xí)器ht;

      end

      Boosting算法的基本思想是將多個(gè)預(yù)測(cè)精度較低的弱學(xué)習(xí)器提升至精度較高的強(qiáng)學(xué)習(xí)器。其中,最具代表性的為AdaBoost算法,核心思想是通過(guò)將自身的學(xué)習(xí)結(jié)果反饋到問(wèn)題空間來(lái)進(jìn)行交互,根據(jù)自身對(duì)環(huán)境的擬合程度來(lái)改變樣本的采樣概率[26],從而加強(qiáng)對(duì)精度較低個(gè)體的學(xué)習(xí)。

      算法2AdaBoost算法

      輸入:訓(xùn)練集D,個(gè)體學(xué)習(xí)器L,迭代次數(shù)T;

      1)樣本權(quán)重初始化為ωi= 1/N,i= 1, 2, …,N,其中N為樣本總數(shù);

      2)通過(guò)迭代獲得強(qiáng)學(xué)習(xí)器:

      fort= 1, 2, …,T。

      ①在訓(xùn)練集上根據(jù)權(quán)重ωi進(jìn)行學(xué)習(xí)獲得弱學(xué)習(xí)器ht;

      ②計(jì)算當(dāng)前弱學(xué)習(xí)器中每個(gè)樣本的相對(duì)誤差并根據(jù)誤差更新權(quán)重。

      Bagging及AdaBoost算法均為使用較廣泛的集成學(xué)習(xí)算法,Bagging主要通過(guò)減小方差來(lái)提高學(xué)習(xí)性能,而AdaBoost在減小方差的同時(shí)還可以減小偏差,但Bagging對(duì)方差的減小程度大于AdaBoost。且Bagging與AdaBoost相比穩(wěn)定性和魯棒性更強(qiáng),但AdaBoost在降低錯(cuò)誤率的程度上強(qiáng)于Bagging[27]。

      2 樣本集質(zhì)量劃分方法

      在使用機(jī)器學(xué)習(xí)算法時(shí),樣本集質(zhì)量對(duì)絕大多數(shù)機(jī)器學(xué)習(xí)算法的學(xué)習(xí)效果影響較大,學(xué)習(xí)算法選擇及其參數(shù)設(shè)置一直是機(jī)器學(xué)習(xí)研究中的熱點(diǎn)問(wèn)題,目前尚未有準(zhǔn)確的結(jié)論可供參考,多通過(guò)參數(shù)尋優(yōu)或經(jīng)驗(yàn)驗(yàn)證進(jìn)行設(shè)置,存在較大的主觀性和局限性。在回歸問(wèn)題中,較少考慮樣本數(shù)據(jù)分布特征,未充分利用隱含在數(shù)據(jù)集中的信息[28]。在建筑節(jié)能優(yōu)化實(shí)踐中,其數(shù)據(jù)集存在以下特點(diǎn):1)解集空間已知,屬于已知范圍內(nèi)的尋優(yōu)問(wèn)題;2)訓(xùn)練集為無(wú)噪聲仿真數(shù)據(jù),但訓(xùn)練集通過(guò)性能模擬得到,耗時(shí)較長(zhǎng);3)樣本在解集空間中分布情況未知,可能會(huì)出現(xiàn)樣本聚集,影響學(xué)習(xí)效果。

      基于以上特征,文中提出一種基于樣本量及樣本覆蓋性的樣本集質(zhì)量評(píng)價(jià)方法,以此為基礎(chǔ),測(cè)試不同樣本集質(zhì)量下機(jī)器學(xué)習(xí)算法的學(xué)習(xí)效果。首先,根據(jù)“3σ”準(zhǔn)則,將樣本集樣本量分為小、中、大3個(gè)等級(jí)。其次,引入優(yōu)化算法中解集質(zhì)量評(píng)價(jià)指標(biāo)——覆蓋性(Coverage)評(píng)價(jià)樣本在可行空間內(nèi)的分布情況,如圖1所示。

      圖1 樣本集樣本覆蓋性示意圖Fig.1 The coverage of sample set

      覆蓋性常用于優(yōu)化算法中評(píng)價(jià)解集在解集空間中分布廣泛性的指標(biāo),反映了樣本點(diǎn)在可行求解空間中的分布情況,以表現(xiàn)在解集空間內(nèi)的搜索程度,用以衡量是否陷入局部最優(yōu)。其計(jì)算方法為

      (1)

      其中,

      式中,COV為覆蓋性;SDk為第k個(gè)變量的標(biāo)準(zhǔn)差(k= 1, 2, …,m),m為變量個(gè)數(shù);hkj為第j個(gè)個(gè)體第k個(gè)變量的值(j= 1, 2, …,t),t為個(gè)體數(shù)量;Mk為第k個(gè)變量的平均值。由式(1)可知,覆蓋性由各樣本點(diǎn)各變量方差乘積求得,反應(yīng)樣本中各變量在空間中的不均衡性,即空間覆蓋程度。在樣本量相同的情況下,樣本的覆蓋性越高,說(shuō)明樣本在可行空間內(nèi)的分布越均勻,樣本集在各變量維度上的信息完整度越高,越有利于算法進(jìn)行學(xué)習(xí)。

      文中通過(guò)對(duì)樣本量分別為50、200、500的樣本集(均為隨機(jī)生成)進(jìn)行重復(fù)測(cè)試并計(jì)算其覆蓋性。結(jié)果表明,樣本集的覆蓋性大致遵循正態(tài)分布,如圖2所示,故樣本集覆蓋性等級(jí)劃分采用“3σ”準(zhǔn)則。

      圖2 樣本量為50、200、500的樣本集覆蓋性分布情況Fig.2 Coverage Probability Histogram for sample sets in different sizes (sample size: 50, 200, 500)

      3 實(shí)驗(yàn)設(shè)置

      設(shè)計(jì)2組實(shí)驗(yàn)測(cè)試不同樣本集質(zhì)量對(duì)其學(xué)習(xí)算法性能的影響。首先,測(cè)試傳統(tǒng)機(jī)器學(xué)習(xí)算法在不同質(zhì)量樣本集下的表現(xiàn),從中選出對(duì)于每類樣本集表現(xiàn)較好的學(xué)習(xí)方法及參數(shù)設(shè)置,將其作為第2組實(shí)驗(yàn)的基學(xué)習(xí)器;其次,以第一階段的實(shí)驗(yàn)結(jié)果為基礎(chǔ),測(cè)試集成學(xué)習(xí)算法對(duì)不同質(zhì)量樣本集的預(yù)測(cè)效果。最后,得出較好預(yù)測(cè)效果所需樣本量,以及對(duì)應(yīng)的機(jī)器學(xué)習(xí)方法及其參數(shù)設(shè)置,為建筑節(jié)能優(yōu)化設(shè)計(jì)提供幫助。

      3.1 實(shí)驗(yàn)環(huán)境及樣本集設(shè)置

      實(shí)驗(yàn)的運(yùn)行環(huán)境為:Interi7 8核 2.81 GHz處理器,8G RAM內(nèi)存,64位Windows 10操作系統(tǒng)。實(shí)驗(yàn)樣本集來(lái)自天津一虛擬辦公建筑的全年平均能耗模擬數(shù)據(jù)。該建筑共包含4大功能分區(qū),分別為辦公區(qū)、多媒體會(huì)議區(qū)、餐飲區(qū)及中庭交通區(qū)。因研究重點(diǎn)在測(cè)試機(jī)器學(xué)習(xí)算法性能,在合理的范圍內(nèi)簡(jiǎn)化模型,如圖3所示。各樣本集中的所有樣本均為可行空間內(nèi)隨機(jī)生成的個(gè)體樣本,其能耗通過(guò)Grasshopper中能耗模擬插件Honeybee仿真模擬得出。變量及取值范圍,如表1所示,能耗相關(guān)參數(shù)設(shè)置及運(yùn)行時(shí)間設(shè)置等均依照相關(guān)辦公建筑設(shè)計(jì)規(guī)范設(shè)定。

      圖3 天津一虛擬辦公建筑模型示意圖Fig.3 The model of a virtual office building in Tianjin

      表1 變量表

      基于建筑節(jié)能優(yōu)化實(shí)踐中數(shù)據(jù)集的特征,綜合考慮實(shí)際應(yīng)用中的時(shí)間成本,將樣本量分為50,200,500三個(gè)等級(jí),分別代表小、中、大樣本量。針對(duì)每類樣本量各生成1 500個(gè)樣本集并計(jì)算其覆蓋性,依據(jù)“3σ”準(zhǔn)則將其劃分為低、中、高覆蓋性。具體樣本集分類及其特征如表2所示。

      表2 樣本集分類及特征

      3.2 實(shí)驗(yàn)設(shè)置

      機(jī)器學(xué)習(xí)算法通過(guò)python Scikit-Learn中的SVR、MLPRegressor、BaggingRegressor及AdaBoostRegressor工具包實(shí)現(xiàn)。在訓(xùn)練學(xué)習(xí)器之前,為消除變量量級(jí)對(duì)學(xué)習(xí)性能的影響,對(duì)樣本數(shù)據(jù)進(jìn)行歸一化處理:

      (2)

      其中,x′為歸一化后的數(shù)據(jù),xavg,xstd分別為x的平均值和方差。

      實(shí)驗(yàn)1:傳統(tǒng)機(jī)器學(xué)習(xí)算法性能評(píng)價(jià)。

      選取SVR算法及BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行訓(xùn)練,各類樣本集中隨機(jī)選擇一個(gè)作為該類樣本集代表。對(duì)于每一樣本集,80%的樣本作為訓(xùn)練集,剩余20%作為測(cè)試集。對(duì)于SVR算法,主要超參數(shù)包括正則化參數(shù)C,不敏感參數(shù)ε及核函數(shù)中的參數(shù);對(duì)于BP神經(jīng)網(wǎng)絡(luò)算法,主要超參數(shù)包括隱藏層結(jié)構(gòu),激活函數(shù)以及學(xué)習(xí)率??紤]到計(jì)算時(shí)間成本,使用與待測(cè)試樣本集同維度的Scikit-Learn自帶標(biāo)準(zhǔn)數(shù)據(jù)集Boston Housing進(jìn)行預(yù)實(shí)驗(yàn),確定較優(yōu)學(xué)習(xí)效果下的各參數(shù)大致范圍,并選取對(duì)學(xué)習(xí)效果影響較大的超參數(shù)作為測(cè)試參數(shù)。最終選取SVR算法中高斯核函數(shù)的系數(shù)γ及BP神經(jīng)網(wǎng)絡(luò)中神經(jīng)元結(jié)構(gòu)的神經(jīng)元個(gè)數(shù)作為測(cè)試超參數(shù),其余超參數(shù)設(shè)置同樣依據(jù)預(yù)實(shí)驗(yàn)中學(xué)習(xí)效果較優(yōu)的模型參數(shù)。具體算法參數(shù)設(shè)置,如表3所示。

      表3 實(shí)驗(yàn)1算法超參數(shù)設(shè)置

      實(shí)驗(yàn)2:集成機(jī)器學(xué)習(xí)算法性能評(píng)價(jià)。

      選取實(shí)驗(yàn)1中綜合性能較好的1組SVR及BP設(shè)定參數(shù),作為集成學(xué)習(xí)算法的基學(xué)習(xí)器,將Bagging、AdaBoost算法作為比較算法,主要分析基學(xué)習(xí)器及集成規(guī)模對(duì)集成效果的影響。訓(xùn)練集及測(cè)試集劃分同實(shí)驗(yàn)1。由于集成學(xué)習(xí)算法對(duì)于基學(xué)習(xí)器正確率的最低要求為0.5,在集成過(guò)程中剔除正確率小于0.5的基學(xué)習(xí)器。算法參數(shù)設(shè)置如表4所示。

      表4 實(shí)驗(yàn)2算法超參數(shù)設(shè)置

      3.3 學(xué)習(xí)方法性能評(píng)價(jià)

      算法性能評(píng)價(jià)包含擬合效果、有效率以及時(shí)間成本3方面。其中,擬合效果采用均方誤差(mean squared error, MSE)及決定系數(shù)(Coefficient of determination,R2)進(jìn)行評(píng)價(jià)。在實(shí)驗(yàn)中,R2大于0.9視為優(yōu)秀的學(xué)習(xí)算法,將有效率定義為用R2大于0.9的概率,時(shí)間成本為算法運(yùn)行一次的時(shí)間。

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 實(shí)驗(yàn)1結(jié)果與分析

      所有算法訓(xùn)練100次取平均值作為最終結(jié)果進(jìn)行比較,SVR算法及BP算法對(duì)不同質(zhì)量樣本集的決定系數(shù)和均方誤差如圖4~圖9所示,運(yùn)算時(shí)間如表5~表6所示,有效性如表7~表8所示。

      圖4 Sample50決定系數(shù)Fig.4 The R2 of Sample50

      圖5 Sample50均方誤差Fig.5 The MSE of Sample50

      圖6 Sample200決定系數(shù)Fig.6 The R2 of Sample200

      圖8 Sample500決定系數(shù)Fig.8 The R2 of Sample500

      圖9 Sample500均方誤差Fig.9 The MSE of Sample500

      表5 SVR算法計(jì)算時(shí)間

      表6 BP算法計(jì)算時(shí)間

      表7 SVR算法有效率

      表8 BP算法有效率

      通過(guò)對(duì)實(shí)驗(yàn)1結(jié)果進(jìn)行分析,可得到如下結(jié)論:

      1)擬合效果方面,Sample50中所有覆蓋性樣本集擬合效果均較差,SVR算法及BP神經(jīng)網(wǎng)絡(luò)算法均未達(dá)到R2>0.9的優(yōu)秀標(biāo)準(zhǔn),但SVR算法擬合效果普遍優(yōu)于BP神經(jīng)網(wǎng)絡(luò)算法。Sample200中,擬合效果明顯提升,當(dāng)神經(jīng)元個(gè)數(shù)小于35時(shí),SVR算法表現(xiàn)優(yōu)異,對(duì)于低、高覆蓋性的樣本集,在γ取0.03時(shí)取得最優(yōu)效果并達(dá)到優(yōu)秀標(biāo)準(zhǔn),當(dāng)神經(jīng)元個(gè)數(shù)大于35時(shí),BP神經(jīng)網(wǎng)絡(luò)算法的擬合效果優(yōu)于SVR算法,但計(jì)算時(shí)間較長(zhǎng)。對(duì)于中覆蓋性樣本集,始終未達(dá)到優(yōu)秀標(biāo)準(zhǔn)。Sample500中,擬合效果極優(yōu),2種算法的r2均可達(dá)到0.9以上,BP神經(jīng)網(wǎng)絡(luò)算法甚至可達(dá)0.95;

      2)樣本量越大,計(jì)算成本越高,有效率越高,準(zhǔn)確性越強(qiáng),即訓(xùn)練樣本中包含的可行空間內(nèi)的信息越豐富,學(xué)習(xí)效果越好。同時(shí),隨著樣本量的增加,擬合效果對(duì)學(xué)習(xí)算法及參數(shù)設(shè)置的敏感性下降,即各算法及參數(shù)設(shè)置之間的學(xué)習(xí)差異減??;

      3)覆蓋性對(duì)學(xué)習(xí)效果有一定影響,當(dāng)樣本量相同時(shí),各樣本集覆蓋性雖然存在差異,但其學(xué)習(xí)效果的變化趨勢(shì)基本相同。樣本量不同時(shí),覆蓋性對(duì)學(xué)習(xí)效果的影響存異,在實(shí)驗(yàn)中,樣本量為50,200時(shí),其學(xué)習(xí)效果從優(yōu)至劣依次為高、低、中覆蓋性;當(dāng)樣本量為500時(shí),SVR算法的學(xué)習(xí)效果優(yōu)劣排序?yàn)楦?、中、低,而B(niǎo)P神經(jīng)網(wǎng)絡(luò)算法學(xué)習(xí)效果優(yōu)劣排序則為中、高、低。由此可見(jiàn),覆蓋性與學(xué)習(xí)器的學(xué)習(xí)效果并不始終成正相關(guān)關(guān)系,而是與樣本量及學(xué)習(xí)算法有關(guān)。印證了Zhou等[29]在“選擇性集成”概念中證明的通過(guò)選擇部分個(gè)體學(xué)習(xí)器來(lái)構(gòu)建集成可能要優(yōu)于使用所有個(gè)體學(xué)習(xí)器構(gòu)建的集成;

      4) 在實(shí)驗(yàn)中,SVR算法在不同參數(shù)設(shè)置下算法復(fù)雜度無(wú)明顯差別,BP神經(jīng)網(wǎng)絡(luò)算法的復(fù)雜度隨著隱藏層結(jié)構(gòu)的復(fù)雜化而逐漸增加,結(jié)果表明,當(dāng)隱藏層結(jié)構(gòu)達(dá)到一定復(fù)雜度時(shí),繼續(xù)增加神經(jīng)元個(gè)數(shù),反而會(huì)降低學(xué)習(xí)效果,且神經(jīng)元個(gè)數(shù)越多,時(shí)間成本越大,在選擇算法及參數(shù)設(shè)定時(shí),應(yīng)選用適當(dāng)復(fù)雜度算法,以防止出現(xiàn)過(guò)擬合現(xiàn)象;

      5)對(duì)于不同樣本量樣本集,計(jì)算時(shí)間雖隨著樣本量增加而逐漸增大,并無(wú)數(shù)量級(jí)上的差別,測(cè)試模型較為簡(jiǎn)單,隨著模型復(fù)雜度的增加,樣本量帶來(lái)的計(jì)算時(shí)間差異會(huì)逐漸增大。在建筑優(yōu)化過(guò)程中,時(shí)間成本的增加主要來(lái)自于生成樣本集時(shí)所需的模擬計(jì)算時(shí)間,故當(dāng)樣本量增大時(shí),整體時(shí)間成本會(huì)大大增加。

      4.2 實(shí)驗(yàn)2結(jié)果與分析

      在實(shí)驗(yàn)1中,Sample50中所有樣本集均未達(dá)到優(yōu)秀水平,Sample200中覆蓋性樣本集未達(dá)到優(yōu)秀水平,對(duì)以上樣本集進(jìn)行集成學(xué)習(xí)實(shí)驗(yàn),以獲得較好的擬合效果?;鶎W(xué)習(xí)器綜合考慮準(zhǔn)確性、有效率及計(jì)算時(shí)間3方面,以實(shí)驗(yàn)1結(jié)果為參考,選取表現(xiàn)較好且模型復(fù)雜度適中的算法及參數(shù)設(shè)置作為基學(xué)習(xí)器。因支持向量機(jī)是一種比較穩(wěn)定的學(xué)習(xí)算法,直接集成效果不佳,故基學(xué)習(xí)器均選取不同復(fù)雜度的神經(jīng)網(wǎng)絡(luò)算法。其中,Sample50因樣本量較少且R2呈遞增趨勢(shì),故選取4種隱藏層結(jié)構(gòu)依次進(jìn)行集成。具體學(xué)習(xí)器設(shè)置及集成學(xué)習(xí)參數(shù)如表9所示。

      表9 集成學(xué)習(xí)參數(shù)設(shè)置

      實(shí)驗(yàn)2算法R2如圖10~圖13所示,計(jì)算時(shí)間如表10~表11所示,算法有效性如表12~表13所示。通過(guò)對(duì)實(shí)驗(yàn)2結(jié)果進(jìn)行分析,可得到以下結(jié)論:

      1)在擬合效果方面,對(duì)于Sample50的三類樣本集,由于基學(xué)習(xí)器學(xué)習(xí)效果較差,經(jīng)集成之后,絕大多數(shù)集成學(xué)習(xí)器仍未達(dá)到優(yōu)秀標(biāo)準(zhǔn),僅在高覆蓋性樣本集中,以隱藏層結(jié)構(gòu)為(40, )的BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器作為基學(xué)習(xí)器時(shí),R2可達(dá)到0.9以上。但在各類覆蓋性中,均有集成學(xué)習(xí)器R2可達(dá)到0.85以上,達(dá)到回歸學(xué)習(xí)器可使用的基本要求。在Sample200_med樣本集中,當(dāng)AdaBoost算法的集成規(guī)模達(dá)到40時(shí),R2達(dá)到0.9;

      2)在基學(xué)習(xí)器方面,基學(xué)習(xí)器的擬合效果與最終集成后的擬合效果并不完全成正相關(guān)關(guān)系。因?yàn)榛鶎W(xué)習(xí)器的復(fù)雜度過(guò)高,導(dǎo)致其泛化能力較弱,在集成時(shí)生成的個(gè)體學(xué)習(xí)器差異度較小,從而影響其擬合效果;

      3)在集成規(guī)模方面,當(dāng)集成規(guī)模達(dá)到一定數(shù)值之后,繼續(xù)增大集成規(guī)模并不會(huì)明顯提升集成效果,甚至?xí)p弱擬合效果(如圖7中AdaBoost[(50, )]);

      4)在計(jì)算時(shí)間方面,隨著集成規(guī)模的擴(kuò)大,時(shí)間成本逐漸增高。計(jì)算時(shí)間受樣本量影響較大,當(dāng)樣本量增加時(shí),時(shí)間成本明顯提高。綜合考慮,在設(shè)定集成規(guī)模時(shí),應(yīng)適中為宜。

      圖10 Sample50_low集成學(xué)習(xí)決定系數(shù)Fig.10 The R2 of Sample50_low

      圖11 Sample50_med集成學(xué)習(xí)決定系數(shù)Fig.11 The R2 of Sample50_med

      圖12 Sample50_high集成算法決定系數(shù)Fig.12 The R2 of Sample50_high

      圖13 Sample200_med集成算法決定系數(shù)Fig.13 The R2 of Sample200_med

      表10 Sample50集成算法計(jì)算時(shí)間

      表11 Sample200集成算法計(jì)算時(shí)間

      表12 Sample50集成算法結(jié)果有效率

      表13 Sample200_med集成算法結(jié)果有效率

      綜合實(shí)驗(yàn)結(jié)果,樣本量為50時(shí)無(wú)法保證在大多數(shù)情況下達(dá)到較優(yōu)學(xué)習(xí)效果,但R2可以達(dá)到0.85以上,已達(dá)到可用標(biāo)準(zhǔn),若建筑師無(wú)充足時(shí)間且對(duì)預(yù)測(cè)精度要求較低時(shí),可使用樣本量為50的樣本集。樣本量為200時(shí),全部覆蓋度可以保證0.9以上的R2,耗時(shí)在可接受范圍內(nèi),為較理想的樣本量。樣本量為500時(shí),僅使用傳統(tǒng)機(jī)器學(xué)習(xí)算法就可以達(dá)到極好的學(xué)習(xí)效果,R2可達(dá)0.95以上,學(xué)習(xí)用時(shí)較短,但其生成樣本集時(shí)間成本巨大,若建筑師有充足的時(shí)間且對(duì)預(yù)測(cè)精度有極高要求,可采用該樣本集。針對(duì)不同質(zhì)量樣本集的學(xué)習(xí)方法及參數(shù)設(shè)置建議及其學(xué)習(xí)效果如表14所示。

      表14 不同質(zhì)量樣本集的學(xué)習(xí)方法選擇與參數(shù)設(shè)置建議

      5 結(jié) 論

      文中基于樣本量及樣本分布特征對(duì)樣本集質(zhì)量進(jìn)行評(píng)價(jià)與分類,針對(duì)不同質(zhì)量樣本集構(gòu)建了建筑能耗預(yù)測(cè)模型,分析樣本量與樣本分布特征對(duì)機(jī)器學(xué)習(xí)算法學(xué)習(xí)性能的影響,得到以下結(jié)論:

      1)樣本量及樣本覆蓋性對(duì)機(jī)器學(xué)習(xí)算法的學(xué)習(xí)性能有影響,其中,樣本量的影響程度大于樣本覆蓋性。對(duì)于某一種機(jī)器學(xué)習(xí)算法,在相同樣本量的情況下,不同覆蓋性樣本集的學(xué)習(xí)效果隨參數(shù)變化的趨勢(shì)相同。對(duì)于不同算法,在同樣本量情況下,樣本覆蓋性對(duì)學(xué)習(xí)效果的影響有所不同。因此,樣本覆蓋性與算法的學(xué)習(xí)效果并不始終成正相關(guān)關(guān)系,而是與樣本量及選擇的學(xué)習(xí)算法有關(guān)。

      2)當(dāng)樣本量越大時(shí),學(xué)習(xí)效果對(duì)學(xué)習(xí)算法及參數(shù)設(shè)置的敏感性越低,各算法及參數(shù)設(shè)置之間的學(xué)習(xí)效果差異減小。雖樣本量越大學(xué)習(xí)效果越佳,但時(shí)間成本亦隨之增加(其主要增加量來(lái)自于生成樣本所需的模擬計(jì)算時(shí)間),針對(duì)本案例,當(dāng)樣本量為200時(shí),無(wú)論覆蓋性如何,均足以取得較優(yōu)的學(xué)習(xí)效果。

      3)集成學(xué)習(xí)對(duì)擬合效果的提升較為明顯,當(dāng)其集成規(guī)模達(dá)到一定程度后,繼續(xù)擴(kuò)大集成規(guī)模,時(shí)間成本增量較大,但其擬合效果提升較小。

      在實(shí)際設(shè)計(jì)應(yīng)用中,需根據(jù)特定問(wèn)題選擇適宜的算法進(jìn)行求解。文中提出了針對(duì)各類質(zhì)量樣本集的適用算法及其參數(shù)設(shè)置,為建筑師實(shí)際使用提供了參考。在未來(lái)研究中,將繼續(xù)研究樣本集質(zhì)量及其余超參數(shù)與學(xué)習(xí)效果的關(guān)系,建立自適應(yīng)的機(jī)器學(xué)習(xí)算法集并將其集成至優(yōu)化算法中,進(jìn)一步提高建筑節(jié)能優(yōu)化效率。

      猜你喜歡
      參數(shù)設(shè)置樣本量學(xué)習(xí)效果
      “百詞斬”對(duì)于大學(xué)英語(yǔ)四級(jí)詞匯學(xué)習(xí)效果的實(shí)證研究
      民族文匯(2022年14期)2022-05-10 03:08:22
      醫(yī)學(xué)研究中樣本量的選擇
      基于學(xué)習(xí)性評(píng)價(jià)原則提高研究性學(xué)習(xí)效果的研究
      蓮心寶寶有話說(shuō)
      航空裝備測(cè)試性試驗(yàn)樣本量確定方法
      Sample Size Calculations for Comparing Groups with Binary Outcomes
      蟻群算法求解TSP中的參數(shù)設(shè)置
      動(dòng)車(chē)環(huán)境下U900異頻切換參數(shù)設(shè)置探討
      基于MATLAB仿真的井下變壓器參數(shù)設(shè)置研究
      自適應(yīng)樣本量調(diào)整中Fisher合并P值法和傳統(tǒng)檢驗(yàn)法的模擬比較
      察隅县| 股票| 宣城市| 安西县| 苏尼特右旗| 芦溪县| 贺州市| 四会市| 潞城市| 西安市| 黄浦区| 清镇市| 鲁山县| 合水县| 汤原县| 乌兰浩特市| 黄山市| 壤塘县| 淮南市| 财经| 古田县| 蕉岭县| 台东市| 通许县| 高州市| 金坛市| 乌兰浩特市| 万宁市| 昌都县| 台北市| 共和县| 江阴市| 英超| 乌兰浩特市| 锡林郭勒盟| 大悟县| 商丘市| 阿鲁科尔沁旗| 阳山县| 油尖旺区| 孝义市|