劉 航,鮑晨晨,謝 婷,高 山
(1.大連理工大學(xué) 電子信息與電氣工程學(xué)部,遼寧 大連 116023;2.大連理工大學(xué) 遼寧省集成電路與生物醫(yī)學(xué)電子系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116023; 3.大連理工大學(xué) 網(wǎng)絡(luò)與信息化中心,遼寧 大連 116023)
隨著云計算,大數(shù)據(jù)及其應(yīng)用的興起,計算機(jī)機(jī)房乃至大型數(shù)據(jù)中心得到了迅速發(fā)展,不僅規(guī)模不斷增加,內(nèi)部服務(wù)器的密度和集成化也不斷提高。目前,服務(wù)器內(nèi)部高度集成的單顆芯片可以產(chǎn)生大約200 W/cm2的熱流密度,并且會隨著技術(shù)發(fā)展繼續(xù)增加[1]。在這種情況下,如果出現(xiàn)風(fēng)扇失靈、通風(fēng)不暢、長時間滿負(fù)荷運(yùn)行等情況,服務(wù)器內(nèi)部以及周圍會產(chǎn)生較高溫度,導(dǎo)致機(jī)房內(nèi)部溫度分布不均衡,形成局部熱點(diǎn)區(qū)域。機(jī)房空調(diào)為了維持服務(wù)器設(shè)備正常運(yùn)行的溫度,必然要增加制冷功率,這會消耗更多能耗用于制冷。若熱點(diǎn)不能及時被消除,高溫還會引起服務(wù)器宕機(jī),甚至造成芯片的物理損壞。因此獲取機(jī)房內(nèi)部溫度分布,監(jiān)測、識別熱點(diǎn)區(qū)域有助于降低機(jī)房的能耗。
紅外熱像儀可獲取物體表面二維溫度分布,能夠間接反映服務(wù)器的運(yùn)行狀態(tài),具備直觀、快速、非接觸、精度高等優(yōu)點(diǎn)。Mohd等人列舉了熱成像技術(shù)在診斷電氣設(shè)備上的各種應(yīng)用[2],其中包括了各類熱異常及相應(yīng)的測量方案。Amin等人將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用在引擎散熱器的紅外診斷上[3]。
本文提出的基于熱成像的熱點(diǎn)成因診斷方法通過采集服務(wù)器出風(fēng)口的紅外圖像,從中發(fā)現(xiàn)熱點(diǎn)后,提取熱點(diǎn)溫度分布特征,最后利用機(jī)器學(xué)習(xí)識別熱點(diǎn)的成因。所用的機(jī)器學(xué)習(xí)方法主要包括支持向量機(jī)(SVM)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[4]。
SVM是一種有監(jiān)督機(jī)器學(xué)習(xí)算法,在小樣本、非線性分類問題上極具優(yōu)勢[5],但是需要人工提取數(shù)據(jù)特征向量。特征向量的選取將直接影響分類的準(zhǔn)確率,因此需要尋找并篩選出對服務(wù)器運(yùn)行狀態(tài)敏感的溫度分布特征。
然而,在機(jī)房的實(shí)際運(yùn)行中,被監(jiān)測熱點(diǎn)主要由偶發(fā)事件產(chǎn)生,在有限時間內(nèi)很難收集足夠多的熱點(diǎn)圖像。因此,訓(xùn)練集的各類別樣本數(shù)量較少,且不均衡。然而,分類器在面對不同類別訓(xùn)練樣本數(shù)不均衡的情況下,分類性能會顯著下降[10]。雖然數(shù)據(jù)增強(qiáng)技術(shù)(例如平移、剪切、旋轉(zhuǎn)等)能夠在一定程度上提升這種情況下的準(zhǔn)確率,但是這些數(shù)據(jù)增強(qiáng)方法產(chǎn)生的數(shù)據(jù)相關(guān)性較大,不能從根本上解決問題[11]。
對抗生成網(wǎng)絡(luò)(GAN)是一種無監(jiān)督類型的生成模型,在2014年由Good fellow提出[12]。GAN模型由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成,生成網(wǎng)絡(luò)盡可能合成趨近真實(shí)樣本數(shù)據(jù)分布的偽樣本,判別網(wǎng)絡(luò)盡力去分辨真實(shí)樣本和偽樣本,通過零和博弈(Zero-sum Game)的對抗過程,最終達(dá)到納什均衡(Nash Equilibrium),在對抗過程中使得生成網(wǎng)絡(luò)獲得趨近真實(shí)數(shù)據(jù)分布的能力。零和博弈的公式如下:
minGmaxDV(D,G)=
Ex~Pdata[logD(x)]+Ez~pz(z)[log(1-D(G(z)))]
其中:D代表判別映射函數(shù),G代表生成映射函數(shù),Pdata代表真實(shí)樣本數(shù)據(jù)的分布,Z代表噪聲(即輸入數(shù)據(jù)),PZ代表噪聲分布。通過不斷迭代學(xué)習(xí),生成網(wǎng)絡(luò)可根據(jù)真實(shí)數(shù)據(jù)樣本分布特征合成與其相近的偽樣本。因此,GAN模型可以生成非相關(guān)的樣本數(shù)據(jù),且具有更強(qiáng)的解釋性。原始的GAN存在著訓(xùn)練困難、生成器和判別器的loss無法指示訓(xùn)練進(jìn)程、生成樣本缺乏多樣性等問題。很多學(xué)者都在嘗試解決這些問題。其中,Wasserstein GAN(WGAN)的結(jié)果較為理想[13]。WGAN修改了原始GAN的實(shí)現(xiàn)流程,如在判別器最后一層去掉了sigmoid,生成器和判別器的loss不取log,每次更新判別器的參數(shù)之后把它們的絕對值截斷到不超過一個固定常數(shù)c等。WGAN徹底解決GAN訓(xùn)練不穩(wěn)定的問題,基本解決了模型崩潰問題,確保了生成樣本的多樣性。Chen等人提出的InfoGAN模型,不僅能夠很好地學(xué)習(xí)數(shù)據(jù)之間的類型差別,也能夠很好地學(xué)習(xí)到數(shù)據(jù)本身的一些易于區(qū)分的特點(diǎn),而且生成模型對這些特點(diǎn)具有很好的泛化能力[14]。Alec等人提出的DCGAN也是對GAN較成功的改進(jìn),其改進(jìn)主要是在網(wǎng)絡(luò)結(jié)構(gòu)上。DCGAN極大的提升了GAN訓(xùn)練的穩(wěn)定性以及生成樣本質(zhì)量[15]。
本文給出了與熱點(diǎn)成因相關(guān)的特征向量,介紹了利用SVM或AlexNet識別熱點(diǎn)成因的方法,并通過實(shí)驗(yàn)對比分析了有無DCGAN增強(qiáng)訓(xùn)練樣本集的診斷性能。
熱點(diǎn)成因診斷的基本流程,是通過熱像儀采集服務(wù)器出風(fēng)口一側(cè)的紅外圖像,經(jīng)過圖像標(biāo)準(zhǔn)化、熱點(diǎn)提取[16]、特征提取及機(jī)器學(xué)習(xí)等步驟,識別服務(wù)器所處工作狀態(tài),如CPU負(fù)荷、各處風(fēng)扇狀態(tài)、空氣流通情況等。為后續(xù)消除熱點(diǎn)操作提供決策支持。針對特征提取及機(jī)器學(xué)習(xí)過程,本文使用了兩種方法,并通過實(shí)驗(yàn)對比了各自的性能。
采用SVM作為分類器模型時,需要首先對紅外圖像中的熱點(diǎn)區(qū)域的數(shù)據(jù)進(jìn)行特征提取。根據(jù)每種特征對熱點(diǎn)成因診斷準(zhǔn)確率的貢獻(xiàn),利用特征選擇算法,從數(shù)據(jù)統(tǒng)計、圖像紋理、形態(tài)學(xué)三方面,篩選出了紅外圖像中熱點(diǎn)區(qū)域的有效特征,可用于熱點(diǎn)成因診斷。
(一)發(fā)病情況 墊江縣某鎮(zhèn)養(yǎng)殖戶飼養(yǎng)了2 000只種鴨,在小河邊(河中的水質(zhì)較差)、樹林中放養(yǎng),大部份種鴨開始產(chǎn)蛋。10月中下旬陸續(xù)有種鴨發(fā)病,曾用鴨瘟疫苗免疫注射過,用氟哌酸治療,效果不明顯,先后共死亡220只,死亡率為11%;附近農(nóng)戶圈舍飼喂有鵝,雞未發(fā)病。
統(tǒng)計特征由表1所示,包括灰度概率密度、灰度均值、灰度方差、統(tǒng)計直方圖概率均值、熵、峰態(tài)、歪斜度等特征。相關(guān)公式如表1所示。其中,h和w分別表示圖像的長和寬,N表示像素數(shù)量,ni表示灰度值為i的像素個數(shù),I為紅外灰度圖像。
表1 統(tǒng)計特征表
紋理特征包括Tamura特征和LBP_GLCM特征[16]。Tamura紋理特征包含的內(nèi)容如表2所示。其中,粗糙度中Sbest(i,j)表示圖像(i,j)位置的像素的能得到最大領(lǐng)域均值差值的窗大??;對比度中μ4為圖像灰度的四階矩;方向度中HD表示方向梯度直方圖,k為直方圖峰值,np為直方圖所有峰值,Wk表示該峰值所包含的區(qū)間,Φk表示波峰的中心位置;線性度中PDd是方向共生矩陣,n為PDd的大?。灰?guī)則度中r表示規(guī)范化因子,Scrs、Scon、Sdir、Slin分別表示粗糙度、對比度、方向度和線性度的標(biāo)準(zhǔn)差。LBP_GLCM紋理特征提取是通過使用局部二值化(LBP,Local Binary Patterns)特征描述算子計算得到LBP模式下的灰度子圖,然后基于LBP子圖計算灰度共生矩陣(GLCM,Gray-Level Co-Occurrence Matrix)特征,相關(guān)公式如表3所示。其中Hl(i,j)表示坐標(biāo)(i,j)處的灰度概率密度,(μx,μy)和(σx,σy)分別表示水平方向和豎直方向的像素均值和標(biāo)準(zhǔn)差。
形態(tài)學(xué)的有效特征包括:熱點(diǎn)區(qū)域占服務(wù)器的面積比、服務(wù)器溫度重心位置、溫度最大值區(qū)域的重心的橫坐標(biāo),溫度最大值的面積比例、熱點(diǎn)區(qū)域的周長、歐拉數(shù)。
表2 Tamura紋理特征表
表3 LBP_GLCM紋理特征表
深度學(xué)習(xí)相關(guān)算法是基于大量數(shù)據(jù)訓(xùn)練實(shí)現(xiàn)的。然而,由于沒有足夠多的熱點(diǎn)圖像樣本,熱點(diǎn)成因診斷的分類器訓(xùn)練過程將面臨小數(shù)據(jù)樣本集問題,通常采用特征提取方式實(shí)現(xiàn)目標(biāo)分類。相比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),AlexNet增加了Dropout、Relu激活函數(shù)和數(shù)據(jù)增強(qiáng),提高了傳統(tǒng)網(wǎng)絡(luò)的分類效果。
針對機(jī)房熱點(diǎn)紅外圖像樣本集的特點(diǎn),將AlexNet網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),如圖1所示。其結(jié)構(gòu)包含5個二維卷積層、5個批歸一化處理層、4個最大池化層、3個Dropout層和一個全連接層,采用ReLU激活函數(shù)[17]。卷積層中卷積核的個數(shù)依次為32、64、128、256和512,大小均為3×3。全連接層使用線性分類函數(shù),并增加Dropout函數(shù)避免過擬合問題。
圖1 改進(jìn)的AlexNet模型結(jié)構(gòu)圖
在DCGAN模型中生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的結(jié)構(gòu)都是卷積神經(jīng)網(wǎng)絡(luò),它的結(jié)構(gòu)特點(diǎn)是:1)在兩個網(wǎng)絡(luò)中都使用了批歸一化處理;2)分別用局部卷積和帶步長的卷積替換了池化層;3)生成網(wǎng)絡(luò)采用ReLU激活函數(shù);4)判別網(wǎng)絡(luò)使用LeakyReLU激活函數(shù)。與傳統(tǒng)的GAN模型相比,DCGAN模型改善了合成樣本的質(zhì)量和多樣性,提高了收斂速度。
生成網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示,包括一個全連接層、三個批歸一化處理層、兩個上采樣層和三個二維卷積層。其中,二維卷積層的核尺寸為3×3,padding為1,卷積步長為1。激活函數(shù)采用的是Tanh和LeakyReLU,其中LeakyReLU的負(fù)斜率為0.2。
圖2 DCGAN模型生成網(wǎng)絡(luò)結(jié)構(gòu)圖
判別網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示,包括4個二維卷積層,4個Dropout層,三個批歸一化層和一個全連接層。其中,二維卷積層的核尺寸為3×3,padding為1,卷積步長為2。激活函數(shù)采用的是Sigmoid 和LeakyReLU,其中LeakyReLU的負(fù)斜率為0.25。為了避免過擬合現(xiàn)象,在判別層網(wǎng)絡(luò)增加了Dropout層,神經(jīng)元停止工作的概率設(shè)為0.25。
DCGAN的結(jié)構(gòu)如圖4所示。生成網(wǎng)絡(luò)的輸入是高斯噪聲,范圍在[0,1]。因此,為了在判別網(wǎng)絡(luò)中能對真實(shí)圖像和合成圖像匹配判斷,需要將真實(shí)數(shù)據(jù)集在輸入判別網(wǎng)絡(luò)前進(jìn)行歸一化。判別網(wǎng)絡(luò)的輸入是真實(shí)圖像或者生成圖像,通過卷積操作可得到輸入可能為真實(shí)圖像的概率。判別網(wǎng)絡(luò)的學(xué)習(xí)經(jīng)驗(yàn)被反饋至生成網(wǎng)絡(luò),用于生成網(wǎng)絡(luò)的下一步優(yōu)化。通過多次迭代,生成網(wǎng)絡(luò)將生成接近真實(shí)圖像的生成圖像。由于使用了Adam優(yōu)化器,DCGAN網(wǎng)絡(luò)模型的收斂更快,并可避免過擬合現(xiàn)象。根據(jù)文獻(xiàn)[18],Adam優(yōu)化器的學(xué)習(xí)率可分別設(shè)置為2E-4,一階和二階動量梯度衰減率可設(shè)置為0.5和0.999。
圖4 對抗生成網(wǎng)絡(luò)結(jié)構(gòu)圖
實(shí)驗(yàn)在大連理工大學(xué)的網(wǎng)絡(luò)與信息化中心的機(jī)房進(jìn)行。通過控制DELL 720服務(wù)器的軟硬件工作狀態(tài),以及對周圍環(huán)境的設(shè)置,模擬了5種可產(chǎn)生熱點(diǎn)的場景,分別是CPU長時間60%負(fù)荷、CPU長時間100%負(fù)荷、主風(fēng)扇損壞、CPU風(fēng)扇損壞、服務(wù)器進(jìn)氣口處空氣流通不暢。出現(xiàn)熱點(diǎn)后,利用FLIR E8手持熱像儀采集服務(wù)器出風(fēng)口一側(cè)的紅外圖像。
實(shí)驗(yàn)共采集5類1 350張紅外圖像,如圖5所示。考慮到拍攝角度會引起溫度分布發(fā)生形變,首先提取服務(wù)器在圖像的區(qū)域,然后利用透視變換得到具有標(biāo)準(zhǔn)長寬比的服務(wù)器溫度分布(如圖6)。利用同態(tài)濾波增強(qiáng)算法和一維最大熵分割算法得到服務(wù)器熱點(diǎn)區(qū)域的溫度分布(如圖7)。
圖5 服務(wù)器運(yùn)行狀態(tài)下紅外圖
診斷過程分別使用了SVM和AlexNet分類器。SVM使用統(tǒng)計特征、紋理特征、形態(tài)學(xué)特征作為分類器的輸入特征集;AlexNet采用卷積核自動提取圖像特征。
采用DCGAN作為生成器合成樣本時,模型采用Pytorch按照圖2、3的結(jié)構(gòu)進(jìn)行搭建。模型的輸入為1×100的高斯噪聲向量,設(shè)置模型的epoch為200,batch size為12,按照圖4的計算結(jié)構(gòu)進(jìn)行訓(xùn)練。將1 350張真實(shí)熱點(diǎn)圖像隨機(jī)劃分為訓(xùn)練集(900張)和測試集(450張),分別記為集合SR0和SR1。將SR0輸入至DCGAN進(jìn)行圖像生成訓(xùn)練,每種類別下生成496張圖像,總計生成2 480張合成熱點(diǎn)圖像(如圖8),記為集合SD。
圖8 DCGAN合成圖片
實(shí)驗(yàn)按照有無合成圖像、診斷模型的類別分為4組,如表4所示。每組實(shí)驗(yàn)在訓(xùn)練得到分類器模型后,均使用SR1測試其診斷準(zhǔn)確率。各組實(shí)驗(yàn)的準(zhǔn)確率如表5所示。
表4 各組實(shí)驗(yàn)使用的訓(xùn)練集和分類器模型
表5 各組實(shí)驗(yàn)的準(zhǔn)確率 %
通過對比實(shí)驗(yàn)一和實(shí)驗(yàn)三的結(jié)果可以發(fā)現(xiàn),SVM和AlexNet使用真實(shí)數(shù)據(jù)集,即在小樣本數(shù)據(jù)集,訓(xùn)練得到的模型,在診斷準(zhǔn)確率方面沒有顯著的差異,均能達(dá)到90%左右。SVM能夠達(dá)到這一效果的前提是繁雜的特征選擇工作;AlexNet能夠自動地提取樣本有效特征。通過對比實(shí)驗(yàn)二與實(shí)驗(yàn)三的結(jié)果可以發(fā)現(xiàn),利用DCGAN增強(qiáng)訓(xùn)練數(shù)據(jù)集后再訓(xùn)練這兩種模型,SVM的訓(xùn)練集準(zhǔn)確率提升到95.01%,但是測試集準(zhǔn)確率相較之前下降了2.22%;而AlexNet的訓(xùn)練集和測試診斷集準(zhǔn)確率均有所提升,其中測試集準(zhǔn)確率比實(shí)驗(yàn)三提升了5.11%。
通過實(shí)驗(yàn)結(jié)果可以看出,使用DCGAN增強(qiáng)訓(xùn)練數(shù)據(jù)集的策略不是對任何分類器模型都有效。DCGAN會使SVM出現(xiàn)過擬合的問題,致使診斷性能下降;使AlexNet顯著提升診斷性能。因此,針對本文提出的基于熱成像的熱點(diǎn)成因診斷問題,利用DCGAN增強(qiáng)訓(xùn)練集合,并選擇AlexNet作為分類器模型,可以得到更優(yōu)的診斷性能。
本文研究了基于熱成像的機(jī)房熱點(diǎn)的成因診斷方法。針對服務(wù)器上熱點(diǎn)的溫度分布,在計算出特征集合后,利用SVM可以對熱點(diǎn)成因進(jìn)行識別。本文給出了經(jīng)篩選的與熱點(diǎn)成因關(guān)聯(lián)的特征集合。利用卷積神經(jīng)網(wǎng)絡(luò),如AlexNet,自動提取分布特征并識別也可以實(shí)現(xiàn)熱點(diǎn)成因的診斷。
針對機(jī)房中無法在短時間內(nèi)收集足夠多的熱點(diǎn)圖像用于訓(xùn)練,本文提出利用對抗神經(jīng)網(wǎng)絡(luò),如DCGAN,合成出更多的熱點(diǎn)溫度分布圖,用于增強(qiáng)訓(xùn)練樣本集。
通過4組實(shí)驗(yàn)對比了SVM和AlexNet在有或無DCGAN增強(qiáng)訓(xùn)練樣本的情況下對熱點(diǎn)成因診斷的準(zhǔn)確率。從實(shí)驗(yàn)結(jié)果發(fā)現(xiàn), DCGAN可以提升AlexNet的診斷性能,而對SVM無效。由此,本文選擇AlexNet+DCGAN組合作為熱點(diǎn)成因的診斷方法。該組合構(gòu)建的模型優(yōu)勢主要有兩點(diǎn):一是由于服務(wù)器紅外圖像信噪比低,圖像有效特征較難準(zhǔn)確提取,而通過卷積核自動提取特征能夠有效簡化特征選擇的難度;二是借助DCGAN擴(kuò)展原始數(shù)據(jù)集,能夠?qū)lexNet分類模型的性能進(jìn)一步提升,能夠很好地應(yīng)對工程實(shí)踐中樣本數(shù)量較少的情況。