基于在線字典學(xué)習(xí)的人臉超分辨率重建

2017-07-08 11:52:52劉芳華阮若林王建峰倪浩

現(xiàn)代電子技術(shù) 2017年13期

劉芳華+阮若林+王建峰+倪浩

摘要：針對基于學(xué)習(xí)的人臉超分辨率算法噪點、偽影較多，且噪聲魯棒性較差的問題，提出一種基于在線字典學(xué)習(xí)的人臉超分辨率重建算法。以人臉圖集作為訓(xùn)練圖庫，運用在線字典學(xué)習(xí)方法提高字典訓(xùn)練的精度。獨立調(diào)整字典學(xué)習(xí)階段的正則化參數(shù)和求解重建稀疏系數(shù)階段的以獲取最優(yōu)的超完備字典和稀疏系數(shù)用于圖像重建。實驗結(jié)果表明，目標(biāo)圖像峰值信噪比比同一類型的稀疏編碼超分法平均提高了0.85 dB，結(jié)構(gòu)相似性增加了0.013 3，有效地抑制了噪點和偽影。在含噪人臉圖像應(yīng)用中，噪聲水平提高時，峰值信噪比下降相對較平緩，提升人臉超分效果的同時改善了算法的噪聲魯棒性。

關(guān)鍵詞：在線字典學(xué)習(xí)；超分辨率重建；含噪人臉圖像；稀疏編碼

中圖分類號： TN911.73?34； TP391.9 文獻標(biāo)識碼： A 文章編號： 1004?373X（2017）13?0057?05

Abstract： Aiming at the problems of more noisy points and artifacts， and poor noise robustness existing in the learning?based human face super?resolution algorithm， a human face super?resolution reconstruction algorithm based on online dictionary learning is proposed. The human face image set is taken as the training library. The online dictionary learning method is used to improve the accuracy of dictionary training. The regularization parameter λt of the dictionary learning phase is regulated independently， and regularization parameter λr in the reconstruction stage of the sparse coefficients is solved to get the optimal overcomplete dictionary and sparse coefficients for image reconstruction. The experimental results show that the peak signal?to?noise ratio （PSNR） of the target image of the proposed algorithm is 0.85 dB higher and the structural similarity is 0.0133 higher than that of the same type sparse coding super?resolution algorithm averagely， which can restrain the noisy point and artifact effectively. The application result of noisy human face image shows that the PSNR is decreased smoothly when the noise level is increased， which can improve the robustness against noise while promoting the performance of face super?resolution.

Keywords： online dictionary learning； super?resolution reconstruction； noisy human face image； sparse coding

0 引言

在安全監(jiān)控、授權(quán)、生物測量等人臉圖像應(yīng)用領(lǐng)域，人臉圖像獲取時的外部條件不盡相同，如大多數(shù)監(jiān)控場景中，攝像頭離監(jiān)控對象較遠，導(dǎo)致場景圖像中人臉分辨率很低。因此需通過超分辨率重建等技術(shù)增強人臉分辨率，改善識別、建模等后續(xù)處理任務(wù)的效果[1]。為充分挖掘臉部的特殊結(jié)構(gòu)，人臉超分算法大多運用稀疏編碼方法，在局部圖像子空間利用非負矩陣分解等算法解決低分人臉超分問題[2]。文獻[3]將人臉相關(guān)的超分方法稱為“虛幻臉”，運用啟發(fā)式方法建立基于圖像金字塔的迭代預(yù)測模型，因先驗不夠準(zhǔn)確和像素獨立預(yù)測會產(chǎn)生圖像不連續(xù)和偽影。文獻[4]中的兩步統(tǒng)計法整合了全局主成分分析（Principal Component Analysis，PCA）模型和局部塊模型，前者用到的啟發(fā)式模型對超分結(jié)果過度渲染，而后者又過于復(fù)雜。文獻[5]中基于張量塊和殘差補償?shù)姆椒ńo人臉增加更多細節(jié)，但偽影也較明顯。文獻[6]從圖像樣本塊學(xué)習(xí)得到多級局部約束，利用圖像塊修復(fù)方法恢復(fù)高分圖像。文獻[7]結(jié)合變形人臉模型和基于PCA的超分框架，將基于PCA的超分方法應(yīng)用到低分輸入圖像的紋理和形狀中，重建相應(yīng)的高分紋理和形狀，這兩種方法與原圖相差較大。文獻[8]將人臉圖像分為器官和面部輪廓兩部分，前者通過精確的學(xué)習(xí)算法保留高頻圖像結(jié)構(gòu)的連續(xù)性，后者用學(xué)習(xí)到的統(tǒng)計先驗來凸顯輪廓結(jié)構(gòu)，超分效果較好。

許多常規(guī)圖像超分算法用于人臉超分辨率重建也能取得較好的效果。文獻[9]采用流形學(xué)習(xí)方法，利用局部線性嵌入通過樣本學(xué)習(xí)得到高、低分辨率圖像之間的關(guān)系用于恢復(fù)目標(biāo)高分圖像。文獻[10]提出的稀疏編碼超分方法利用聯(lián)合字典訓(xùn)練生成超完備字典，但邊緣偽影較明顯。在一定的重建約束條件下，有的算法利用多幀序列圖像結(jié)合求解最大后驗概率完成超分任務(wù)，還有一些利用在局部圖像塊對學(xué)習(xí)到的先驗知識用于單圖超分。由于這類算法未考慮到人臉圖像的特征，且受字典精度影響較大，當(dāng)輸入低分圖像的分辨率非常低時，算法效果較差。本文針對常規(guī)圖像超分算法的不足，以基于學(xué)習(xí)的人臉超分算法為基礎(chǔ)，提出基于在線字典學(xué)習(xí)的人臉圖像超分辨率重建算法，通過引入在線字典訓(xùn)練和優(yōu)化稀疏系數(shù)來提高超分效果。

1 基于學(xué)習(xí)的人臉超分辨率重建

根據(jù)稀疏表示理論，人臉、自然圖像等信號可以表示為超完備字典中一系列基向量的稀疏線性組合[11]。通常，基于學(xué)習(xí)的人臉超分辨率重建框架中，需求解以下目標(biāo)函數(shù)的最小值：

式中：為正則化參數(shù)；為圖像塊集中的第個圖像塊，可表示為超完備字典與其對應(yīng)的的稀疏系數(shù)的稀疏線性組合；和分別為數(shù)據(jù)擬合項和稀疏懲罰項。

與一些典型的基于稀疏表示的單幅圖像超分辨率重建模型一樣，引入拉格朗日乘子后，基于學(xué)習(xí)的人臉超分辨率重建問題可以表述為[12]：

式（2）可以看成一個典型的基追蹤問題或Lasso問題，正則化參數(shù)用于平衡式中的兩項。和兩個變量中一個固定求另一個時為經(jīng)典的凸優(yōu)化問題?？梢酝ㄟ^最優(yōu)方向法、奇異值分解[13]等方法迭代直到收斂，更新得到和同時，如果字典過大，稀疏系數(shù)的值可能會過小，因此需要約束的列使其范數(shù)小于或等于1，即訓(xùn)練得到的超完備字典必須滿足其中約束條件為：

根據(jù)上述稀疏表示模型，人臉超分辨率重建可分為四步：

第一步，圖像塊處理。根據(jù)重建圖像建立高分人臉訓(xùn)練圖庫，按照字典訓(xùn)練要求將訓(xùn)練圖像和輸入低分人臉圖像劃分為圖像塊，再利用特征提取算子提取人臉圖像特征，通常使用的含4個一維濾波器：為轉(zhuǎn)置。每個圖像塊經(jīng)過濾波器處理后得到4個描述特征的向量，將它們組合起來可以形成一個總體特征向量來表示圖像塊[9]。

第二步，字典訓(xùn)練。根據(jù)式（2），通過隨機填充、離散余弦變換等簡單方法設(shè)定初始字典，再用正交匹配追蹤等算法解出稀疏系數(shù)然后用奇異值分解等方法對稀疏字典逐列迭代更新得到高分字典和低分字典

第三步，求解稀疏系數(shù)。結(jié)合輸入低分人臉圖像塊和已解出的通過式（4）解出用于圖像重建的稀疏系數(shù)

在Matlab中可以利用SPAMS工具箱中提供的函數(shù)順利解出。

第四步，圖像重建。稀疏表示理論認為高、低分辨率空間中稀疏系數(shù)近似相同，即存在則高分圖像塊的高頻部分可以通過下式計算：

再將所有預(yù)測到的重疊若干像素合并所有高分圖像塊得到目標(biāo)高分圖像的高頻部分。在重疊區(qū)域，最終恢復(fù)值為各像素多次預(yù)測得到的加權(quán)平均值。最后，將低分輸入人臉與插值放大后得到與目標(biāo)圖像大小相同的作為重建圖像的低頻部分，與計算得到的高頻部分疊加得到目標(biāo)高分圖像：

式中：為從高分圖像的第個位置上提取圖像塊的窗函數(shù)。除上述直接重建模型外，為使重建圖像嚴(yán)格滿足重建約束其中和分別為下采樣和模糊操作數(shù)。一些重建模型除包含重建約束項和稀疏超分正則項外，還引入局部先驗、非局部先驗等正則項，通過梯度遞減迭代計算出目標(biāo)高分圖像[14]。

2 改進算法

以基于學(xué)習(xí)的超分辨率重建技術(shù)為基礎(chǔ)，文中算法在字典訓(xùn)練時引入在線學(xué)習(xí)方法訓(xùn)練生成超完備字典對，并通過優(yōu)化正則化參數(shù)、改善噪聲的魯棒性來進一步提升算法的超分效果和去噪能力。

2.1 引入在線字典學(xué)習(xí)

在基于學(xué)習(xí)的超分辨率重建過程中，字典訓(xùn)練的結(jié)果是影響超分結(jié)果的關(guān)鍵因素。在線字典訓(xùn)練時，可看作是的統(tǒng)計參數(shù)組合，利用圖像塊進行字典更新時，其結(jié)果只與當(dāng)前字典和輸入的圖像塊數(shù)據(jù)有關(guān)，而與之前的圖像塊數(shù)據(jù)無關(guān)[15]。也就是說，在線學(xué)習(xí)得到的字典更新時并不需要完整的歷史圖像塊信息，它與傳統(tǒng)的字典學(xué)習(xí)方法的區(qū)別可表述為：

在線字典學(xué)習(xí)過程中并不需要每次都記錄、處理它將當(dāng)前的和上一步迭代生成的結(jié)合起來，可以統(tǒng)計地表示為這種字典學(xué)習(xí)方法生成的字典更為準(zhǔn)確，而且在視頻幀序列等大規(guī)模動態(tài)數(shù)據(jù)的應(yīng)用方面應(yīng)用廣泛，這是傳統(tǒng)的字典學(xué)習(xí)方法無法企及的。因此，文中采用在線字典學(xué)習(xí)算法分別進行高、低分人臉樣本訓(xùn)練，先后得到和具體方法如下：

（1）初始化訓(xùn)練參數(shù)。設(shè)定字典訓(xùn)練階段用到的正則化參數(shù)和圖像塊大小以圖像塊集作為輸入信號，利用隨機矩陣、離散余弦變換、稀疏編碼等方法對初始字典進行初始化。

（2）稀疏編碼計算稀疏系數(shù)。從初始字典開始，利用最小角回歸算法迭代求解：

式中：表示字典訓(xùn)練的迭代次數(shù)，根據(jù)已知輸入的圖像塊向量更新稀疏系數(shù)雖然用于訓(xùn)練的人臉圖像集非常大，但圖片數(shù)量通常是確定的，即訓(xùn)練集尺寸是一定的。因此，盡管在線字典學(xué)習(xí)算法也適用于不定尺寸訓(xùn)練集和大規(guī)模訓(xùn)練集，文中為了平衡算法時間消耗和訓(xùn)練效果，與一些傳統(tǒng)字典訓(xùn)練算法比較，還是采用確定大小的訓(xùn)練集進行字典訓(xùn)練。

（3）迭代更新字典。用作為熱啟動，結(jié)合每次更新得到的稀疏系數(shù)根據(jù)下式迭代更新

為了使的列不會因過大而導(dǎo)致其不滿足約束條件這里引入約束最優(yōu)化來解決這個問題。結(jié)合牛頓迭代法進行歸一化處理后得到：

（4）生成字典。次迭代完成后，生成超完備字典根據(jù)已知的訓(xùn)練高分圖像和插值縮小得到的低分訓(xùn)練圖像按照上述步驟分別先后生成高分字典和低分字典

2.2 優(yōu)化稀疏系數(shù)

當(dāng)算法在字典學(xué)習(xí)階段引入在線字典學(xué)習(xí)等較為精確的學(xué)習(xí)方法時，可以得到最優(yōu)的超完備字典對根據(jù)若要使重建的高分圖像塊足夠準(zhǔn)確，除高分字典外，也必須足夠準(zhǔn)確。而式（4）中根據(jù)輸入和求解的稀疏系數(shù)也只是一個用于圖像塊重建的近似值。而根據(jù)式（4），可以通過調(diào)整字典訓(xùn)練階段的正則化參數(shù)來找到最適合的重建稀疏系數(shù)

在式（11）中第一行的字典訓(xùn)練階段和第二行求解重建稀疏系數(shù)階段，許多算法都使用相同的正則化參數(shù)，即結(jié)合上述分析，當(dāng)訓(xùn)練和重建階段設(shè)置相同的正則化參數(shù)時，如果通過調(diào)整得到最優(yōu)的則字典訓(xùn)練階段的也同時被調(diào)整，就無法保證訓(xùn)練生成的足夠精確。因此，文中改進算法在字典訓(xùn)練階段和求解重建稀疏系數(shù)階段分別設(shè)置不同的正則化參數(shù)和實驗中可以通過靈活調(diào)整它們的值分別得到圖像塊重建時所需的最優(yōu)高分字典和稀疏系數(shù)。

3 實驗結(jié)果

實驗中采用Multi?PIE[16]中大小為240×320的1 990幅人臉圖集作為訓(xùn)練集，用雙三次插值法（Bicubic）將高分人臉源圖像縮小3倍作為測試圖像隨機選取。目標(biāo)超分圖像放大3倍。采樣圖像塊數(shù)量取50 000，低、高分圖像塊大小分別為3×3和9×9，重建時高分圖像塊重疊1像素。Bicubic放大2倍后用特征提取算子提取特征，且只對人眼比較敏感的輸入彩色圖像亮度部分進行超分重建。

3.1 PSNR與視覺效果

實驗中將本文算法與Bicubic法、位置修補法[6]（Ma10）和稀疏編碼法[10]（Yang10）的超分效果進行對比，使用常用的峰值信噪比（Peak Signal to Noise Ratio，PSNR）和結(jié)構(gòu)相似性（Structural Similarity，SSIM）兩項指標(biāo)來評價。其中，Ma10和Yang10分別代表結(jié)構(gòu)型和常規(guī)圖像型人臉超分算法，實驗中隨機選取了40幅人臉圖像，部分超分結(jié)果如表1所示。從整幅圖像的PSNR值來看，Ma10的超分效果最差，平均比最簡單的Bicubic法還要低3.04 dB。以自然圖像為訓(xùn)練集的Yang10總體上與Bicubic處于同一水平，其中，測試圖像0146.png超分結(jié)果差距最大，比Bicubic法提高了0.3 dB。本文算法在四種方法中表現(xiàn)最好，所有圖像的PSNR和SSIM均為最大值，且比Yang10的PSNR平均提升0.85 dB，SSIM平均提升0.013 3。

從圖1中的視覺效果對比上來看，雖然Ma10超分結(jié)果的PSNR值比Bicubic低得多，但看起來更清晰。這是因為它所使用的位置修補法對圖像進行了“涂抹”：將對比度大的高頻部分增強，如眼眶邊緣、眼神，光看起來最自然；將變化較為緩慢的低頻部分，如發(fā)絲、背景文字、皺紋、斑點等細節(jié)虛化。這種操作使其偏離源圖像較遠，PSNR值低，但“美顏”效果較好。Yang10與Ma10在視覺上的處理方向是相反的，整體上圖像更加清晰，皺紋、背景文字等邊緣細節(jié)表現(xiàn)更好，這是因為它增強的圖像高頻范圍比Ma10更大，缺點是圖像噪點增多，眼皮上方、背景文字等圖像邊緣偽影較明顯。本文算法的視覺表現(xiàn)最好，既不過分涂抹，也未過分銳化，最為自然，未產(chǎn)生明顯偽影。

3.2 正則化參數(shù)的影響

采用本文改進算法，將字典大小設(shè)置為設(shè)置不同的正則化參數(shù)對進行超分重建。實驗中隨機選取20幅輸入圖像，正則化參數(shù)從0.02～0.2每隔0.02取值形成正則化參數(shù)對部分結(jié)果如表2所示。從5組圖像的超分結(jié)果可以看出，當(dāng)訓(xùn)練和重建階段的正則化參數(shù)相同時，取（0.2，0.2）時的PSNR值最低，?。?.1，0.1）時PSNR提高 [10]0.64 dB。在字典訓(xùn)練和求解稀疏系數(shù)兩個階段分別設(shè)置不同的正則化參數(shù)并進行獨立地調(diào)整，得到的超分結(jié)果與?。?.1，0.1）時處于同一水平，?。?.1，0.04）時超分效果最好，PSNR比?。?.1，0.1）時提升0.07 dB。因此，3.3節(jié)中的噪聲魯棒性以（0.1，0.04）作為參照，通過調(diào)整噪聲方差進行分析討論。

3.3 噪聲魯棒性

大多數(shù)單圖超分算法均假設(shè)輸入源圖像干凈、無噪聲污染，這種假設(shè)通常與超分算法的實際應(yīng)用條件相背離。為了測試改進算法對于噪聲的魯棒性，實驗中在低分輸入圖像上疊加不同程度的0均值加性高斯噪聲進行超分辨率重建，高斯噪聲的標(biāo)準(zhǔn)差取var={1，2，…，10}。在進行含噪圖像超分時，正則化參數(shù)應(yīng)隨噪聲標(biāo)準(zhǔn)差逐漸增大[10]。根據(jù)實驗人臉圖像大小，實驗參考同類型的Yang10中的稀疏編碼超分算法中的參數(shù)設(shè)置方法，將用于圖像重建的正則化參數(shù)均相應(yīng)設(shè)置為經(jīng)驗值0.03 var。

測試圖像001.png的不同程度加噪圖像超分結(jié)果的PSNR值對比如圖2所示。Yang10法在噪聲水平較低時比Bicubic法好，但噪聲較嚴(yán)重時，較嚴(yán)重的偽影使其噪聲也增強，PSNR值比Bicubic下降得更快。本文算法的PSNR值最大，同時隨噪聲方差增加而下降的趨勢比其他算法更為平緩，不同噪聲水平影響下PSNR值最穩(wěn)定，噪聲魯棒性最好。

4 結(jié) 語

基于在線字典學(xué)習(xí)的人臉超分辨率重建算法以人臉數(shù)據(jù)集作為外部訓(xùn)練圖像，引入在線字典學(xué)習(xí)方法，經(jīng)過圖像訓(xùn)練先后生成準(zhǔn)確的超完備字典對。在字典訓(xùn)練階段和求解重建稀疏系數(shù)階段設(shè)置不同的正則化參數(shù)并進行獨立地調(diào)整，以取得最佳的高分字典和稀疏系數(shù)用于目標(biāo)圖像塊重建。本文算法比經(jīng)典的稀疏編碼人臉超分算法在PSNR和SSIM上都有較大幅度的提升，圖像視覺上噪點和偽影更少、更自然，貼近原始高分圖像。而且，處理含噪圖像時，超分圖像的PSNR值更加穩(wěn)定，噪聲魯棒性更好。但本文算法的不足之處在于，當(dāng)訓(xùn)練樣本增大時，訓(xùn)練和重建階段的計算量呈線性增長，時間消耗和內(nèi)存消耗更大，后續(xù)研究中將進一步優(yōu)化在線字典學(xué)習(xí)中的稀疏編碼和字典更新模型，提高超分速度。

參考文獻

[1] WANG N， TAO D， GAO X， et al. A comprehensive survey to face hallucination [J]. International journal of computer vision， 2014， 106（1）： 9?30.

[2] LEE D D， SEUNG H S. Learning the parts of objects by non?negative matrix factorization [J]. Nature， 1999， 401（6755）： 788?791.

[3] S BAKER， T KANADE. Hallucinating faces [C]// Proceedings of the Fourth IEEE International Conference on Automatic Face and Gesture Recognition. Grenoble， France： IEEE， 2000： 83?88.

[4] LIU C， SHUM H Y， FREEMAN W T. Face hallucination： theory and practice [J]. International journal of computer vision， 2007， 75（1）： 115?134.

[5] LIU Wei， LIN Dahua， TANG Xiaoou. Hallucinating faces： TensorPatch super?resolution and coupled residue compensation [C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego， USA： IEEE， 2005： 478?484.

[6] MA X， ZHANG J， QI C. Hallucinating face by position?patch [J]. Pattern recognition， 2010， 43（6）： 2224?2236.

[7] JEONG?SEON P， SEONG?WHAN L. An example?based face hallucination method for single?frame， low?resolution facial images [J]. IEEE transactions on image processing， 2008， 17（10）： 1806?1816.

[8] YANG C Y， LIU S， YANG M H. Structured face hallucination [C]// Proceedings of the 2013 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Portland， USA： IEEE， 2013： 1099?1106.

[9] CHANG H， YEUNG D， XIONG Y M. Super?resolution through neighbor embedding [C]// Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington DC， USA： IEEE， 2004： 275?282.

[10] YANG J C， WRIGHT J， MA Y. Image super?resolution via sparse representation [J]. IEEE transactions on image processing， 2010， 19（11）： 2861?2873.

[11] 盛帥，曹麗萍，黃增喜，等.基于改進稀疏編碼的圖像超分辨率算法[J].計算機應(yīng)用，2014，34（2）：562?566.

[12] LEE H， BATTLE A， RAINA R， et al. Efficient sparse coding algorithms [C]// Proceedings of the 19th International Confe?rence on Neural Information Processing Systems. Vancouver： [s.n.]. 2007： 801?808.

[13] 張小丹，范九倫，徐健，等.K均值聚類和支持向量數(shù)據(jù)描述的圖像超分辨率算法[J].中國圖象圖形學(xué)報，2016，21（2）：135?144.

[14] ZHANG K， GAO X， TAO D， et al. Multi?scale dictionary for single image super?resolution [C]// Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Rhode Island， USA： IEEE， 2012： 1114?1121.

[15] MAIRAL J， BACH F， PONCE J， et al. Online learning for matrix factorization and sparse coding [J]. Journal of machine learning research， 2010， 11（10）： 19?60.

[16] GROSS R， MATTHEWS I， COHN J， et al. Multi?PIE [J]. Image & vision computing， 2010， 28（5）： 807?813.

現(xiàn)代電子技術(shù)2017年13期

現(xiàn)代電子技術(shù)的其它文章: 基于單片機控制的嵌入式智能無線傳感器設(shè)計; 一種利用數(shù)字全息成像測量粒子周長的方法; 超寬帶實用型介質(zhì)諧振器天線研究與設(shè)計; 基于CAN總線的高精度稱重傳感器節(jié)點設(shè)計; 海量監(jiān)控視頻分級摘要生成系統(tǒng)研究; 基于多終端多平臺高速信息服務(wù)系統(tǒng)的實現(xiàn)