使用高分辨率網(wǎng)絡在熱紅外圖像上提取人臉關鍵區(qū)域溫度

2021-01-11 08:08:30徐象國尹志鑫

家電科技 2020年6期

徐象國尹志鑫

1.浙江大學制冷與低溫研究所浙江省制冷與低溫技術重點實驗室浙江杭州 310027

2.浙江大學平衡建筑研究中心浙江杭州 310027

1 引言

在常規(guī)的供暖通風空調(diào)（HVAC）系統(tǒng)中，空調(diào)的溫度設定點是假設室內(nèi)人員的熱感覺是靜態(tài)且彼此無差異的前提下得出的固定值。然而，每個室內(nèi)人員的熱感覺可能都不同且隨著各類環(huán)境條件和自身條件而變化。所以，近年來，越來越多的學者在個體即時熱舒適模型上進行了研究工作，其特點在于：

（1）從個體直接采集輸入信息而不是采集空間中的整體信息（回風溫度、濕度等），體現(xiàn)了個體即時的熱舒適性。

（2）用數(shù)據(jù)驅動的方式得到模型，可以靈活測試不同的模型和輸入?yún)?shù)。

（3）有能力不斷加入新的數(shù)據(jù)進入模型。而臉部皮膚溫度作為表征人體體溫調(diào)節(jié)系統(tǒng)狀態(tài)的重要特征，被眾多學者所采集作為模型的輸入?yún)?shù)[1][2][3][4]。

如圖1所示，Ghahramani等[1]讓實驗者帶上裝有溫度傳感器的眼鏡進行溫度采集，Chaudhuri等[2]和Choi等[3]將傳感器直接布置在實驗者皮膚表面進行采集。雖然這種方式采樣準確，但對人員的干擾較大，對其本身的熱感覺產(chǎn)生影響。Li等[4]使用了Kinect相機提取臉部區(qū)域并將該區(qū)域映射至標定好的熱紅外相機中，這種方式雖然對實驗者沒有干擾，但設備布置繁瑣，標定困難，后續(xù)的應用場景也較為受限。由于熱紅外圖像中的人臉各個區(qū)域識別難度大，高精度熱紅外設備較為昂貴，還未有學者在熱紅外圖像上進行人臉關鍵區(qū)域的識別和溫度采集。近年來，深度學習技術在可見光人臉圖像識別上取得了突破性的進展[5]，熱紅外設備的價格也逐漸降低，越來越多的學者開始將關注點放在熱紅外圖像識別任務上來。所以，對于臉部區(qū)域皮膚溫度的采集，本文提出了一種新的解決方案：利用深度學習的相關技術，直接在熱紅外圖像上進行關鍵點檢測，以提取相應區(qū)域皮膚表面溫度。

在紅外光譜中，熱紅外圖像是指那些輻射信息波長在3 μm和14 μm之間的圖像[6]。其相比可見光圖像的優(yōu)勢在于在光照條件較暗的環(huán)境下和圖像信息涉及隱私保護的情況下，熱紅外圖像往往可以提供更多的信息。由于探測設備昂貴，熱紅外人臉數(shù)據(jù)集數(shù)目非常有限，在熱紅外圖像進行人臉關鍵點檢測的工作非常少。Kopaczka等[7]使用主動外觀模型（AAM）進行熱紅外人臉關鍵點檢測，這是一個傳統(tǒng)的人工構建的模型，用來計算數(shù)據(jù)集中人臉的平均形狀和外觀以預測關鍵點。然而，和其他人工構建的模型一樣，其在有非正臉、夸張表情和遮擋的圖片中效果不好。

近期，有學者[9][10]提出使用U-net進行熱紅外圖像人臉關鍵點的檢測。如圖2所示，U-net網(wǎng)絡是一個用于醫(yī)學圖像語義分割任務的基礎網(wǎng)絡，由于任務特征相近，學者們將其用于熱紅外人臉關鍵點檢測。Chu等[9]提出使用兩級訓練網(wǎng)絡在熱紅外圖像上進行關鍵點檢測。第一級用來識別圖像中的臉部輪廓，第二級用來從輪廓圖像信息中得出關鍵點坐標，另外，一個輔助的輸出人臉表情的網(wǎng)絡被用來增強訓練結果。Keong等[10]也采用了類似的方法。這種方法的缺點在只能對正臉、無遮擋的圖像進行識別，而輕微的遮擋和方向變化都會產(chǎn)生較大的誤差。我們分析認為，這種原因在于熱紅外圖像的人臉信息本身相比可見光圖像減少了許多，而如圖2所示，網(wǎng)絡中的下采樣到低分辨率圖像再上采樣到高分辨率圖像放大了信息的損失，導致檢測結果較差。其中，下采樣和上采樣是指通過卷積對圖像的縮放操作，目的是獲得圖像的特征信息。

近年來，高分辨率特征學習網(wǎng)絡（HRNet）在許多人臉視覺任務上都取得了不錯的成果。高分辨率特征學習網(wǎng)絡（HRNet）是由微軟亞洲研究院和中科大在2019年提出[11]的，隨后又更新發(fā)展了HRNetv2，如圖3所示。其網(wǎng)絡架構相比U-net的優(yōu)勢在于保持了高分辨率特征圖的信息，并與低分辨率圖像信息加以融合，大大降低了信息的損失程度。所以，我們提出在熱紅外圖像處理上也使用HRNet作為基礎網(wǎng)絡訓練人臉關鍵點檢測模型，以減少信息缺失。另外，我們將人臉屬性（性別、表情、臉部朝向）等作為權重增加至損失函數(shù)中，以減少類別間的不平衡，增強網(wǎng)絡對于較難情況下（遮擋、側臉）等圖像的識別，以增強網(wǎng)絡的泛化能力。

圖1 Ghahramani等[1]和Choi[3]采用的傳感器采集溫度方式

圖2 U-net網(wǎng)絡結構[10]

圖3 HRNet_v2網(wǎng)絡結構圖[11]

本文將按照如下結構進行論述：第一節(jié)是引言部分。第二節(jié)是我們使用的USTC-NVIE數(shù)據(jù)庫的介紹以及對數(shù)據(jù)庫中的圖像和關鍵點的處理。第三節(jié)展示了我們訓練的過程和細節(jié)。第四節(jié)是結果與評價部分。第五節(jié)得出結論。

2 數(shù)據(jù)庫介紹和數(shù)據(jù)預處理

2.1 數(shù)據(jù)庫介紹

圖4 標注好的可見光27點人臉關鍵點

圖5 標注好的紅外13點人臉關鍵點

圖6 關鍵點轉換前后對比圖

表1 人臉屬性表格

USTC-NVIE（自然可見和紅外面部表情）數(shù)據(jù)庫是安徽省計算與通信軟件重點實驗室（CCSL）在863項目的贊助下建立的面部表情數(shù)據(jù)庫[12][13]。數(shù)據(jù)庫中含有100多個實驗者的可見光和熱紅外面部數(shù)據(jù)，紅外圖像的空間分辨率為320×256像素。Wang等[12][13]分別為可見光面部圖像和熱紅外面部圖像標注了27點和13點人臉關鍵點數(shù)據(jù)，是關鍵點識別中較好的數(shù)據(jù)來源。另外，NVIE數(shù)據(jù)庫中含有已經(jīng)分好類的人臉屬性，例如帶或不帶眼鏡、人臉朝向和表情?，F(xiàn)在，數(shù)據(jù)庫可以通過https://nvie.ustc.edu.cn/公開免費獲得。

2.2 數(shù)據(jù)預處理

2.2.1 紅外數(shù)據(jù)點的透視變換

USTC-NVIE數(shù)據(jù)庫中含有兩個數(shù)據(jù)集，一個數(shù)據(jù)集為自然采集表情的數(shù)據(jù)集，含有200余位實驗者的約20000余張可見光和熱紅外照片，另一個為讓實驗者擺出表情的數(shù)據(jù)集（以下稱為posed database），含有109位實驗者的3023張可見光和熱紅外照片。由于后者的可見光照片和熱紅外照片是一一對應關系，方便進行關鍵點的映射和互相比較，所以本研究采用posed database作為研究數(shù)據(jù)集。在進行處理之前，我們對數(shù)據(jù)集中的誤標、錯標進行了篩查和糾正。在USTC-NVIE數(shù)據(jù)集中，如圖4、圖5所示，可見光的人臉圖片被標注了27點關鍵點，熱紅外的人臉圖片被標注了13點關鍵點，為了后續(xù)研究的相互比較，我們利用標注好的關鍵點使用opencv中的透視變換將可見光圖像中的27點關鍵點映射到對應的熱紅外圖像中[14]。

具體方法如下：

（1）找到可見光數(shù)據(jù)集中的27點關鍵點和熱紅外數(shù)據(jù)集中的13點的共同關鍵點，分別為左眼睛左眼角、左眼睛右眼角、右眼睛左眼角、右眼睛右眼角、鼻子左下角、鼻子右下角、嘴巴左邊角和嘴巴右邊角。

（2）利用opencv中的findHomography函數(shù)[15]得到可見光關鍵點和熱紅外關鍵點的映射矩陣，其中method參數(shù)選取RANSAC方法以減小標注點之間的誤差影響。

（3）利用得到的映射矩陣將可見光中的關鍵點映射到熱紅外圖像中，得到熱紅外圖像中相對應的27點關鍵點坐標。

如圖6 a）、b）所示，效果如下。

2.2.2 人臉屬性標注和轉換

除了標注關鍵點，我們還對圖像的屬性做了標注和轉換。如2.1介紹，在USTC-NVIE數(shù)據(jù)庫中，Wang等[12][13]已經(jīng)在帶或不帶眼鏡、人臉朝向、表情上對圖片做了分類，我們另外對人臉的性別做了標注，由于數(shù)據(jù)庫中的實驗者年齡較為相仿，我們沒有為年齡屬性進行標注。所有的人臉屬性見表1。

2.2.3 可見光圖像的變換

據(jù)1.1中介紹，熱紅外圖像在低光照條件下有其獨特的優(yōu)勢。所以，我們后續(xù)會嘗試對比熱紅外圖像與低光照條件下的可見光圖像的識別效果，如圖7所示，我們對posed database中的可見光圖片進行了隨機的亮度和對比度的降低，以模擬低光照狀態(tài)下的可見光圖片。在以下章節(jié)中，我們將原始的可見光數(shù)據(jù)集稱作RGB數(shù)據(jù)集，將這部分進行過處理的數(shù)據(jù)集叫做RGB_LOW數(shù)據(jù)集。

3 訓練過程和細節(jié)

3.1 高分辨率特征學習網(wǎng)絡

高分辨率特征學習網(wǎng)絡（HRNet）是由中科大和微軟研究院于2018年提出的。在傳統(tǒng)的網(wǎng)絡結構如VGGNet中，最終得到的特征圖分辨率較低，對于人臉關鍵點檢測、人體姿態(tài)檢測這類任務損失了較多的空間結構。為了彌補通過卷積網(wǎng)絡后特征圖空間結構的損失，傳統(tǒng)的解決方案如Hourglass[16]、U-net[17]都是采取先降低分辨率，后升高分辨率的方案。而HRNet則保持了特征圖的高分辨率，通過在高分辨率特征圖主網(wǎng)絡逐漸并行加入低分辨率特征圖子網(wǎng)絡，不同網(wǎng)絡實現(xiàn)多尺度融合與特征提取實現(xiàn)的[11]。這種方式保持了原有的特征圖的信息，在空間上更精確，對于人臉關鍵點檢測任務，Sun等[17]已經(jīng)使用HRNet作為模型骨架在300w、wflw等數(shù)據(jù)集上取得了非常優(yōu)異的成績。熱紅外圖像相對可見光圖信息相對少，臉部特征不明顯，所以我們認為一個低分辨率轉高分辨的網(wǎng)絡結構會丟失更多的特征信息，而使用HRNet則會有效保持臉部的空間信息，有利于關鍵點的準確識別。

3.2 含有人臉屬性權重的損失函數(shù)

在原始的HRNet中，作者采用了較為常見的MSE損失函數(shù)：

其中，M代表所有的圖例，N代表一個圖例中回歸熱圖中的所有像素數(shù)，‖pg-pp‖代表了像素點之間的距離，在我們的研究中使用范數(shù)。然而，該損失函數(shù)沒有考慮類別間的不平衡問題，對不同類型難度（正側臉、不同表情）的樣例等都賦予了相同的權重，使得模型容易過多關注那些樣例較多和較為容易的例子。如果不用其他的技巧，使用這樣的訓練集訓練出的模型很難適用于大角度以及遮擋的問題圖片。而且，我們的熱紅外數(shù)據(jù)集難例相對較少，這使得難例所包含的信息更容易被忽視。所以，我們提出將標注的人臉屬性加入至損失函數(shù)中：

其中的Wc發(fā)揮了重要的作用，C代表該樣本的總體的類別數(shù)，該樣本所屬類別的數(shù)量在訓練集中占有的比例越少，則這部分的值越大，則損失函數(shù)會賦予該樣本更大的權重值，加強該樣本的訓練，提升了模型的泛化性能。

圖7 進行低光照處理的前后對比圖

圖8 人臉檢測和裁剪過程

3.3 訓練和測試過程

我們的訓練過程遵循了類似Sun等[11]的過程。如圖8，我們使用zhang[19]的方法在熱紅外圖像中檢測出人臉。而后，我們根據(jù)中心位置和人臉框大小將圖像進行裁剪并縮放至256×256分辨率的圖像。

另外，我們對圖像進行了數(shù)據(jù)增強。我們隨機將圖像將圖像進行了±30度的旋轉、水平的翻轉，0.8～1.25倍的縮放和3個像素點的中心點隨機偏移。

我們使用的模型采用了HRNetV2-W18，如圖9所示，HRNetV2相比HRNet的改進主要在于最后特征圖的輸出融合了來自低分辨率信息圖的信息，這一點在關鍵點檢測任務上會帶來準確度的提升[11]。

我們將基礎學習率設置為0.0001，分別在第30期和第50期的時候降低為0.00001和0.000001。模型的訓練以32個批大小在NVIDIA GTX 1070上單GPU上進行訓練。為了方便后續(xù)的損失函數(shù)權重計算，我們利用pandas庫[20]將所有的人臉屬性進行了“one-hot”編碼轉換，如此，所有屬性值都為0或者1。損失函數(shù)在原圖像特征圖大小的1/4上進行優(yōu)化。

圖9 不同版本的HRNet輸出層特征

圖10 熱紅外關鍵點識別效果對應展示

圖11 增加人臉屬性權重系數(shù)前后的識別效果對比

我們將80%的數(shù)據(jù)作為訓練數(shù)據(jù)，10%的數(shù)據(jù)作為驗證數(shù)據(jù)，另外的10%數(shù)據(jù)作為測試數(shù)據(jù)。在測試過程中，每個關鍵點是由原始分辨率的1/4的特征圖預測出來并根據(jù)Chen等[21]所描述的方法將預測點由最高點響應向第二高響應進行了1/4像素點的偏移[21]以增加關鍵點檢測的準確率。

4 結果評價

4.1 評價指標

我們使用歸一化平均誤差（NME）來評價模型好壞，它表征了使用兩眼之間的距離歸一化后的關鍵點之間的距離。如式（3）所示：

在式（3）中，‖Lg-Lp‖代表了真實的關鍵點預測值和預測出的關鍵值之間的范數(shù)距離，P代表了預測的關鍵點數(shù)目，在我們這里是27，Di代表了兩個眼睛外眼角之間的距離，N代表了圖例的數(shù)量。

表2 各種方法在測試集上表現(xiàn)結果

表3 可見光與熱紅外圖像的比較

4.2 評價結果

我們分別使用AAM，U-net，HRNet和含有人臉屬性權重的損失函數(shù)訓練的HRNet（以下簡稱HRNet_attri）在posed database上進行了訓練和測試，各種方法在測試集上表現(xiàn)結果如表2所示，其中HRNet要明顯優(yōu)于其他方法。NME表征了總體的關鍵點的誤差，F(xiàn)R表征失敗率，F(xiàn)R（0.08）代表測試集中NME＞0.08的比率，F(xiàn)R（0.1）代表測試集中NME＞0.1的比率，兩者越小代表著模型對關鍵點識別的穩(wěn)定性更好。從表2中可以看出，HRNET相比其他模型取得了較大的準確率（nme）的提升。而HRNet_attri則進一步提升了準確率，降低了偏差較大的比率。圖10展現(xiàn)了使用HRNet_attri模型在熱紅外圖像上的識別效果圖和其相對應的可見光圖像。

圖11展現(xiàn)了一些對于一些難度較大的例子中HRNet和HRNet_attri分別的識別效果，從圖中的眉毛、嘴巴等位置的識別效果可以看出，在增加了人臉屬性作為損失函數(shù)權重后，HRNet_attri的識別效果要優(yōu)于HRNET。

圖12更進一步展現(xiàn)了HRNet_attri的效果細節(jié)。我們展示了各個類別下的模型的NME，可以看出在大多數(shù)類別下，HRNet_attri都達到了相比其他方法更優(yōu)的效果。增加權重后的模型對于較難的例子（遮擋條件、大角度、夸張表情）都有著不錯的提升效果，而且對于簡單的例子也同樣有著提升效果。

更進一步，為了對比熱紅外圖像和低光照條件下的可見光關鍵點識別率，我們對RGB和RGB_LOW數(shù)據(jù)集訓練了HRNET_attri模型，結果見表3。從表3中可以看出，盡管模型在熱紅外圖像上識別關鍵點的準確率與正常的可見光圖像上還有較大差距，但在黑暗環(huán)境下和一些隱私保護的情況下，熱紅外圖像的識別率較高，可以代替可見光圖像進行識別。

5 討論與結論

在上面章節(jié)中，我們使用高分辨率特征學習網(wǎng)絡在熱紅外圖像上進行了人臉關鍵點的檢測，在得出關鍵點坐標后，如圖13，我們就可以按照關鍵點所在的區(qū)域對溫度數(shù)據(jù)進行框選和提取，例如眼睛、眉毛、鼻子、嘴巴等，并將其區(qū)域內(nèi)的溫度數(shù)據(jù)的平均值作為該區(qū)域的代表溫度作為后續(xù)舒適性模型的特征輸入。

然而，我們的研究工作還存在一些局限性：（1）我們的研究中對溫度的提取局限在臉部區(qū)域，這限制了后續(xù)熱舒適模型的訓練，未來我們會嘗試在人體圖像上進行關鍵點識別，以提取更多的表征人體代謝循環(huán)的區(qū)域（如手腕、脖子）等溫度。（2）我們的研究中熱紅外圖像的分辨率是320×256像素，這樣的分辨率圖像還需要較為昂貴的熱紅外圖像采集設備，而在低分辨率熱紅外圖像上進行準確的關鍵點識別是我們未來繼續(xù)研究的方向。（3）我們的研究按照數(shù)據(jù)庫的標注進行了27點關鍵點識別，但是現(xiàn)在較為主流的關鍵點識別通常為68、98點[23][24]，更多的關鍵點識別會提取到更多和更為精確的臉部對應區(qū)域溫度，相關的工作會在未來的研究中進行。

通過以上章節(jié)的討論，我們可以得到以下的結論：

（1）針對人臉關鍵區(qū)域的溫度提取，我們提出了一種新的解決方案：使用高分辨率特征學習網(wǎng)絡直接在熱紅外圖像上進行人臉關鍵點檢測，從而提取相應關鍵區(qū)域溫度。對比相關研究，我們的模型識別準確率更高，穩(wěn)定性更好。

（2）我們將人臉屬性作為權重加入至損失函數(shù)中，有效解決了類別間的不平衡問題，提高了較難（夸張表情、遮擋條件、大角度）圖像的識別準確率。

圖12 各個類別下模型的NME值

圖13 根據(jù)人臉關鍵點進行臉部區(qū)域溫度的提取

（3）我們對比了熱紅外圖像與可見光、可見光低光照下的識別準確率，說明在熱紅外圖像上進行關鍵點識別是可行和準確的，在一些特殊條件下（如低光照、隱私保護），熱紅外圖像可以代替可見光圖像進行準確的關鍵點識別。