李 欣,崔子冠,朱秀昌
(南京郵電大學(xué) 圖像處理與圖像通信實驗室,江蘇 南京 210003)
?
超分辨率重建算法綜述
李欣,崔子冠,朱秀昌
(南京郵電大學(xué) 圖像處理與圖像通信實驗室,江蘇 南京 210003)
隨著高分辨率移動設(shè)備和超高清電視的發(fā)展,對已有的低分辨率視頻進(jìn)行超分辨率上采樣成為最近的一個研究熱點。對已有的超分辨率重建算法根據(jù)輸入輸出方式的不同,分為多圖像超分辨率重建、單圖像超分辨率重建、視頻超分辨率重建三大類,綜述了其中每類算法的發(fā)展情況及常用算法,并對不同算法的特點分析比較。隨后討論了多圖像超分辨率重建和單圖像超分辨率重建方法對視頻超分辨率重建方法的影響,最后展望了超分辨率重建算法的進(jìn)一步發(fā)展。
超分辨率;超高清電視;配準(zhǔn);稀疏表示
人類獲取信息的主要途徑是視覺,大部分基于視覺的應(yīng)用效果都依賴于圖像的質(zhì)量。高分辨率(High Resolution,HR)圖像有助于在一個監(jiān)控錄像中更好地識別犯罪嫌疑人的臉,在醫(yī)學(xué)X射線照片中更準(zhǔn)確定位腫瘤,在高清晰度電視中產(chǎn)生更優(yōu)質(zhì)的視頻,在工業(yè)檢查時產(chǎn)生更清晰的圖像,獲得一個更好的遙感圖像等。超分辨率(Super Resolution,SR)技術(shù)是一種圖像處理程序。將退化的圖像或圖像序列作為輸入,生成更高質(zhì)量的圖像或圖像序列。退化圖像的定義是主觀的,取決于應(yīng)用程序。低分辨率(Low Resolution,LR)退化圖像可能是監(jiān)控視頻,或者在很低輻射量下獲得的醫(yī)學(xué)X射線照片,或者壓縮比很高的壓縮圖像。圖像質(zhì)量的概念也可以通過不同的方式定義,例如,在攝影照片中,圖像質(zhì)量取決于人類觀察者的鑒賞感知力,而在目標(biāo)檢測任務(wù)中圖像質(zhì)量可能是指良好的邊緣定位。
超分辨率技術(shù)已經(jīng)被應(yīng)用于各種領(lǐng)域,如視頻監(jiān)控、醫(yī)學(xué)成像、高清晰度電視、遙感、手機(jī)與數(shù)碼相機(jī)等。在視頻監(jiān)控系統(tǒng)中,攝像頭監(jiān)控的興趣點的位置用于檢測異常,視頻通常保存到視頻片段中,系統(tǒng)可以觸發(fā)各種警報,如發(fā)送電子郵件、引發(fā)警報,甚至讓用戶通過網(wǎng)絡(luò)來觀看視頻。由于數(shù)據(jù)量的龐大和帶寬的限制,視頻幀通常是在非常低的比特率下捕獲的。相機(jī)通常設(shè)置為廣角模式以期能捕捉盡可能多的場景,故而感興趣的對象分辨率往往都比較低。為了安全目的如個人身份識別和身份驗證,不論是時間上(速度)還是空間上(圖像分辨率)都需要超分辨率重建技術(shù)。
單圖像輸入和多圖像輸入是超分辨率重建面臨的兩種不同情況。多圖像輸入意味著輸入的是一系列圖像(或視頻的一部分),這些圖像間有著不同的亞像素平移,每幅圖像都包含著高度相關(guān)信息的信息(即相對場景運(yùn)動)可以用于超分辨率重建一幅圖像[1]。實際中,很多情況下沒有足夠的相關(guān)輸入圖像來源,這就需要開發(fā)基于單圖像輸入的算法,即輸入源僅是一幅圖像。根據(jù)輸入圖像的多少可以將超分辨率重建問題分為三類:多圖像、單圖像和視頻。它們具有相同的核心任務(wù)即產(chǎn)生更多的圖像像素,但它們的定義各有不同:多圖像超分辨率(Multiple-Image Super-Resolution)重建指的是根據(jù)同一場景得到的多幅低分辨率圖像重建出一幅高分辨率圖像;而視頻超分辨率(Video Super-Resolution)除了在空域?qū)ふ抑亟ǚ椒ㄍ?,還可以在時域通過增加圖像幀的方法提高整個視頻的質(zhì)量;單圖像超分辨率(Single-Image Super-Resolution,SISR)重建可以看作為前兩種情況中的基本情況,如單圖像超分辨率可以直接用于視頻超分辨率的每一幀中來增加空間細(xì)節(jié),此外,單圖像超分辨率也可以用于多種其他問題,如視頻監(jiān)控中的檢測、分類和識別問題,超分辨率重建可以幫助其獲得更好的性能,醫(yī)學(xué)影像系統(tǒng)中超分辨率重建可以提高醫(yī)學(xué)檢查的準(zhǔn)確度等。以下章節(jié)將分別對這三類超分辨率重建算法的發(fā)展情況分類討論。
超分辨率重建從重建的角度通常分為頻域的方法和空域的方法[2]。第一種超分辨率重建的方法就是頻域方法[3],其主要是消除LR圖像中的混疊來重建HR圖像,這類技術(shù)主要是基于連續(xù)和離散傅里葉變換間的平移和混疊特性。這種方法的主要優(yōu)點是理論簡單及并行實現(xiàn)的能力,但觀測模型僅局限于全局平移運(yùn)動和線性空間不變(Linear Space Invariant,LSI)模糊,由于在頻域缺少數(shù)據(jù)相關(guān)性,目前該類方法已經(jīng)不是研究熱點??沼虻姆椒ɡ糜^測模型中的全局和局部運(yùn)動、空間可變點擴(kuò)散函數(shù)、光學(xué)模糊、運(yùn)動模糊等內(nèi)容,空域的方法可以將空域的先驗約束用于正則化病態(tài)的超分辨率重建問題。本論文綜述的超分辨率重建方法主要是基于空域的方法。
多圖像超分辨率重建方法旨在整合多個LR圖像到一個HR圖像,其圖像觀測模型為
Yi=DBiWiX+ni,i=1,2,…,I
(1)
式中:X為待重建的高分辨率圖像;Yi為第i個觀察到的低分辨率圖像;D為下采樣算子;Bi為模糊算子;Wi為變形算子;ni為處理過程中的加性噪聲。
這類方法用了一個假設(shè),即多個類似的圖像可以從一個成像設(shè)備中反復(fù)得到。該類方法一般包含3個步驟:圖像配準(zhǔn)、插值和圖像恢復(fù)??紤]輸入的多個LR圖像間存在運(yùn)動位移,對這種位移關(guān)系進(jìn)行精確估計,將多個LR圖像配準(zhǔn)到一個公共坐標(biāo)下,通過非均勻插值(Non-uniformInterpolation)得到估計的高分辨率圖像,再根據(jù)式(1)的觀測模型對圖像超分辨率問題轉(zhuǎn)化為最優(yōu)化問題求解。多圖像與單圖像超分辨率重建方法最主要的區(qū)別就在于運(yùn)動估計和圖像配準(zhǔn)過程,后續(xù)的最優(yōu)化方法也常常用在單圖像超分辨率重建中。本節(jié)主要討論圖像配準(zhǔn)及非均勻插值。
為了保證輸入的多個LR圖像中包含增加空間分辨率的足夠信息,通常要求各個LR圖像間存在亞像素平移。如圖1所示,LR圖像的像素首先根據(jù)其運(yùn)動信息投影到HR圖像平面,然后通過插值對齊到統(tǒng)一的HR圖像網(wǎng)格上。這種方法的優(yōu)點是其相對較低的計算量,可實時實現(xiàn),然而,在這個方法受限于退化模型,即模糊和噪聲特征被假定為所有LR圖像是相同的。Zhou等[4]提出一種coarse-to-fine的框架通過估計變形參數(shù)用獨(dú)立視角運(yùn)動來準(zhǔn)確配準(zhǔn)圖像的局部感興趣區(qū)域(RegionsofInterest,ROI)。Milchevski等[5]給出基于機(jī)器學(xué)習(xí)的SR算法,對配準(zhǔn)誤差具有魯棒性。Vrigkas等[6]提出了一種最大后驗概率(MaximumaPosteriori,MAP)模型下的圖像超分辨率方法,其中圖像配準(zhǔn)的部分由兩個步驟完成:首先,低分辨率圖像通過對應(yīng)SIFT特征來配準(zhǔn);其次,在迭代過程中通過最大化互信息準(zhǔn)則估計配準(zhǔn)參數(shù)來精確地估計高分辨率圖像。
單圖像超分辨率重建(SISR)是架起輸入低分辨率圖像和輸出高分辨率圖像之間橋梁的重要技術(shù),近年來獲得了更多的關(guān)注,由于僅僅只有一幅輸入圖像,式(1)的圖像觀測模型變?yōu)?/p>
Y=DBX+n
(2)
式中:X為待重建的高分辨率圖像;Y為輸入低分辨率圖像;D為下采樣算子;B為模糊算子;n為加性噪聲。
因此,單圖像超分辨率重建是欠定問題而不是多圖像超分辨率重建的超定問題。因為問題是不適定的,可用的圖像數(shù)量有限,在重建過程中往往需要利用圖像的先驗信息。單圖像超分辨率重建就是要利用一幅圖像中包含的豐富信息以及從樣本圖像中得到的視覺先驗,因此,單圖像超分辨率重建的挑戰(zhàn)主要包括:識別重要的視覺線索,填充細(xì)節(jié),并盡可能忠實和美觀地呈現(xiàn)。目前單圖像的超分辨率重建一般可分為兩類:基于重建的方法(Reconstruction-Based)和基于樣本學(xué)習(xí)的方法(ExampleLearning-Based)。
3.1基于重建的方法
基于重建的方法旨在重建降質(zhì)過程中丟失的高頻信號。Irani和Peleg[7]觀察到插值得到的HR圖像通過式(2)的下采樣過程生成的LR圖像與輸入的LR圖像是不同的。為了保證式(2)成立,用2范數(shù)約束表示超分辨率重建問題的解為
(3)
用反向投影在LR上的差值來完善HR圖像的方法求解式(3),由于這個問題是病態(tài)的,有無窮多個解,因而采用迭代的方法,稱為迭代反向投影(Iterative Back-Projection, IBP)算法。因此,IBP重建出的HR圖像,若再次通過下采樣得到的LR圖像會隨著迭代次數(shù)的增加與輸入LR圖像更相似。IBP重建增強(qiáng)了HR圖像中的高頻分量,如邊緣兩邊的對比度,但該方法只是簡單地反向投影任何差值,HR圖像中的梯度可能會被過度放大而導(dǎo)致振鈴效應(yīng)。由于該方法簡單有效,IBP算法在很多圖像超分辨率重建算法中作為一個后處理過程。
IBP算法求出的解仍不唯一,為了找到式(3)更優(yōu)的解,通常需要考慮圖像的先驗信息來正則化SR問題,式(3)則可改寫為
(4)
Dai等[8]利用圖像邊緣處兩邊的對比度大而邊緣的一邊具有連續(xù)性的先驗知識,設(shè)計了中心像素和相鄰像素的差值加權(quán)和的正則化項。即求解式(4)的最優(yōu)化問題得到高分辨率圖像能產(chǎn)生尖銳和光滑的邊緣,但該方法對于紋理區(qū)域總是生成模糊的結(jié)果,由于紋理處的圖像特征并不滿足先驗假設(shè)。另外,生成的高分辨率圖像質(zhì)量與其中的參數(shù)設(shè)置有關(guān),但又很難找到一個可用于大多數(shù)圖像的共同設(shè)置,必須手動調(diào)整,故實用性不強(qiáng)。
Zhang等[9]提出一種兩步超分辨率方法:首先,雙立方插值得到初始化高分辨率圖像,用非局部核回歸來減少圖像中的鋸狀效應(yīng),重建出的高分辨率圖像中邊緣是直且光滑的,但不尖銳;第二步再用反卷積,應(yīng)用全變差(Total Variation ,TV)作為正則化先驗?zāi)P蛠碓鰪?qiáng)邊緣的對比度。這種方法能夠重建尖銳和清晰的邊緣,但它對于細(xì)線和紋理仍然無法得到好的效果,這是因為細(xì)線在雙立方插值處理后變寬,但余下的流程卻無法再收窄,紋理經(jīng)非局部核回歸處理后變得平滑,雖然在第二步中對比度有所增強(qiáng),但結(jié)果與原始真實圖像還是會有很大不同。
Singh等[10]利用圖像邊緣處像素值通常滿足坡道(ramp)先驗,即是由一組強(qiáng)度不斷增加或減少的相鄰像素組成,該算法在邊緣方向上外推得到高分辨率圖像,較前兩種方法相比的優(yōu)勢在于坡道除了在邊緣還可以在拐角(corner)和交叉(fork)處找到。但坡道需要多個像素才能確定,對于窄邊緣或復(fù)雜的紋理坡道仍然不能確定。
基于重建的超分辨率方法只是用了一些先驗知識來正則化重建過程,而沒有使用樣本圖像通過訓(xùn)練得到訓(xùn)練先驗。這類方法的優(yōu)點是簡單、計算量低,但無法處理自然圖像中的復(fù)雜圖像結(jié)構(gòu)。
3.2基于樣本學(xué)習(xí)的方法
與基于重建的超分辨率重建方法相比,由于加入了外部樣本圖像,基于樣本學(xué)習(xí)的方法有兩個優(yōu)點:首先,通過對樣本圖像中多種圖像塊訓(xùn)練學(xué)習(xí)可以得到各種復(fù)雜圖像結(jié)構(gòu)而不僅僅是邊緣的先驗知識;其次,利用包含在樣本中的高頻分量在重建過程中可以生成高頻信息豐富的高分辨率圖像。因而,基于樣本學(xué)習(xí)的方法目前成為單圖像超分辨率重建的主流研究方向,前兩種算法一般作為基于樣本學(xué)習(xí)方法的輔助處理過程。
自然圖像內(nèi)容千變?nèi)f化,基于樣本學(xué)習(xí)的方法都是針對圖像塊學(xué)習(xí)先驗知識,因此,重建約束變?yōu)?/p>
(5)
根據(jù)如何使用樣本圖像塊,基于樣本學(xué)習(xí)的方法可分為基于樣本(Example-Based)的方法和字典學(xué)習(xí)(Dictionary Learning)方法,前者直接從樣本圖像塊中尋找類似的實例(Instance),而后者則是對樣本圖像中的大量實例通過學(xué)習(xí)的方法得到圖像的先驗信息。
3.2.1基于樣本的方法
由于樣本圖像中含有豐富的高頻信息,這些信息可用于重建超分辨率圖像中的高頻分量?;跇颖镜姆椒]有訓(xùn)練階段,在重建過程中對樣本集搜索足夠的實例來完成重建,因此需要較高的計算量。
1)基于樣本
Freedman[11]觀察發(fā)現(xiàn),兩個圖像塊如果在LR中相似,則它們對應(yīng)的HR塊更可能是相似的,另外,兩個相鄰的HR塊中的重疊像素的值應(yīng)該是相似的,基于這兩個觀察,選用馬爾科夫隨機(jī)場(Markov Random Field,MRF)來確定樣本圖像集中的最優(yōu)候選。低分辨率圖像的降質(zhì)過程是一個多對一的映射過程,對于輸入的LR圖像塊,在樣本集中找到多個與其最相近的樣本LR塊,將與之對應(yīng)的HR樣本塊作為候選,應(yīng)用馬爾科夫網(wǎng)絡(luò)在選擇最佳候選的同時最小化輸入LR塊與樣本LR塊的差值,并重疊HR像素的差值。與插值得到的高分辨率圖像相比,F(xiàn)reedman的結(jié)果含有豐富的高頻細(xì)節(jié),但馬爾可夫網(wǎng)絡(luò)不能防止異常的候選存在,而人眼的視覺特性對異常高頻信號會很敏感,因此重建的圖像主觀感覺常常是含有噪聲的。Wang等[12]通過用條件隨機(jī)場(Conditional Random Field,CRF)取代MRF來改進(jìn)Freedman的方法,MRF只計算了局部塊間的關(guān)系,CRF則計算任何塊對,缺點是模型會更加復(fù)雜、計算量更高。
2)鄰域嵌入
Chang等[13]提出一種鄰域嵌入(Neighbor Embedding,NE)算法,通過加權(quán)平均多個高分辨率候選塊而不是只選擇其中之一對Freedman的方法作改進(jìn)。用局部線性嵌入計算一組最近鄰的樣本塊的權(quán)重來表示輸入LR塊,再用這些權(quán)值來平均相應(yīng)的HR樣本塊生成輸出的HR塊。這種方法生成的圖像不會有明顯的噪聲存在,因為加權(quán)平均的方法就能抑制異常樣本的效果。針對Chang的方法中權(quán)重?zé)o限制導(dǎo)致的重建失真,Bevilacqua[14]等基于非負(fù)鄰域嵌入和最小二乘(Least Square,LS)近似LR塊,證明了非負(fù)權(quán)重選取的有效性。Yang等[15]提出雙幾何鄰域嵌入方法,利用多視角特征和圖像塊局部空間鄰域來找到特征-空間流型嵌入。
3)基于自相似塊
Glasner等[16]觀察到在超分辨率重建圖像中利用外部樣本圖像不容易出現(xiàn)重建銳利的邊緣,因為相似的圖像塊在不相關(guān)的圖片中并不多,相比之下,由于邊緣方向和對比度在下采樣過程中保持不變,類似的邊緣塊在輸入圖像的圖像金字塔中很容易找到。因而提出利用多尺度LR/HR塊對來重建圖像,重建的圖像邊緣銳利清晰,但由于多尺度圖像遍歷搜索,計算時間較長。給定LR塊在圖像金字塔的邊緣上找到最相似的塊,由于邊緣方向和對比度不變,因此在大多數(shù)情況下最相似的塊都是位于同一位置上。Freedman等[17]利用這個性質(zhì)來加速Glasner的方法,用局部搜索代替全局塊搜索,并在GPU上實現(xiàn)搜索算法。為了找到有效的多尺度自相似塊,這兩種方法都使用一個小尺度因子生成圖像金字塔,并用小尺度因子迭代地放大輸入圖像直到生成圖像的大小達(dá)到所需高分辨率圖像的大小,因此LR輸入圖像中的小梯度塊可能被放大為輸出HR圖像中的短邊緣,如果輸入圖像包含不規(guī)則梯度紋理,將可能產(chǎn)生一些與高分辨率圖像內(nèi)容不相關(guān)的局部塊。在Glasner方法基礎(chǔ)上,Cui等[18]利用深度學(xué)習(xí)的方法,提出一種深度網(wǎng)絡(luò)級聯(lián)來逐層上采樣LR圖像,由于在每一層級聯(lián)的自相似搜索過程的優(yōu)化和自動編碼器是獨(dú)立的,因此該方法無法得到一個端到端的解決。
4)紋理重建
Tai[19]提出一種用統(tǒng)計先驗來重建邊緣而從樣本圖像中合成紋理的方法,首先需要高度相似的樣本圖像,并要創(chuàng)建一個模板來分段樣本圖像中的有效區(qū)域。雖然這種方法可以產(chǎn)生高質(zhì)量的紋理,但高度相似的樣本圖像卻并不是總能找到的。HaCohen等[20]通過自動匹配測試和樣本段來弱化Tai的假設(shè),并用多個段代替單一段,首先準(zhǔn)備一個涵蓋多種紋理類的小圖像集,每個類中包含一些樣本紋理圖像,重建時與樣本圖像完全一致的紋理就不需要模板,其次通過訓(xùn)練的每個紋理類的典型來對測試圖像分段,并從樣本圖像合成重建圖像中的紋理。該方法也能產(chǎn)生高質(zhì)量的紋理,但仍然需要人工準(zhǔn)備有效的樣本紋理圖像,因而適用面還是不廣。Sun等[21]提出一種全自動重建圖像中紋理的方法,先收集包含各種紋理類的大量自然圖像,通過Berkeley分段機(jī)制自動生成分段,再提取多尺度多方向梯度分布作為分段特征,并廣泛應(yīng)用紋理描述符。對于給定的輸入LR圖像,將其分段與具有最近特征的LR樣本分段匹配,并用對應(yīng)的HR樣本塊分段作為正則化項來產(chǎn)生HR圖像中豐富的高頻細(xì)節(jié)。如果分段和匹配步驟都工作正常,該方法能產(chǎn)生豐富的高質(zhì)量紋理,然而,自然圖像的紋理是難以分段和匹配的,如果出現(xiàn)無效分割或匹配的,生成的結(jié)果將會包含不一致或不正確的紋理。
3.2.2字典學(xué)習(xí)的方法
由圖像降質(zhì)模型可以看到,這是一個多對一的映射過程,也就是說很多不同的HR圖像會產(chǎn)生一幅相同的LR圖像,在基于樣本學(xué)習(xí)的方法中,由于圖像都是被劃為許多小的圖像塊,那這種映射關(guān)系就完全可能出現(xiàn)在樣本圖像塊集中,為了更有效地整合樣本圖像塊集中包含的信息,字典學(xué)習(xí)的方法通過對大量的樣本塊訓(xùn)練來學(xué)習(xí)最可能的HR特征映射到LR圖像塊上。一旦學(xué)到先驗知識,則不再需要樣本圖像,這樣在重建階段也就不需要大的內(nèi)存空間及搜索時間,與基于樣本的方法相比,字典學(xué)習(xí)的方法計算效率更高。
1)邊緣優(yōu)先
相比較學(xué)習(xí)全局特性的先驗,F(xiàn)attal[22]和Sun等[23]分別提出兩個類似的方法學(xué)習(xí)局部邊緣統(tǒng)計先驗,兩種方法都是在邊緣處重建梯度,不同主要在于特征提取部分和從LR到HR特性訓(xùn)練映射函數(shù)部分。Fattal提取邊緣銳度作為3個力矩,Sun則將邊緣輪廓建模為廣義高斯分布模型;Fattal學(xué)習(xí)一個查找表來預(yù)測HR梯度,Sun為廣義高斯分布的銳度和形狀學(xué)習(xí)分段映射函數(shù)。由于使用的圖像結(jié)構(gòu)和方法基本相同,因此兩種方法產(chǎn)生的圖像是相似的,邊緣清晰但紋理是模糊的。這兩種方法所使用的先驗對紋理都不起作用,因為紋理的高頻細(xì)節(jié)不能由邊緣輪廓建模。
2)基于稀疏表示
Yang等[24]為了覆蓋各種圖像結(jié)構(gòu)提出從圖像塊而不是邊緣學(xué)習(xí)先驗。首先利用樣本圖像產(chǎn)生LR/HR訓(xùn)練圖像對,提取一階、二階梯度作為LR塊特征,因為大梯度代表重要的視覺信息,提取訓(xùn)練HR圖像和LR圖像雙立方插值圖像的差值作為HR塊特征。從大量的LR/HR特性塊對訓(xùn)練集中,優(yōu)化出一對共享相同系數(shù)并能產(chǎn)生最小重建誤差的稀疏字典,因此訓(xùn)練字典對的過程實際上就是找到從LR特征到HR特征的復(fù)雜的非線性映射函數(shù)。重建時,為每LR塊用LR字典計算稀疏系數(shù),再通過相同的系數(shù)在HR字典上生成HR特征,將估計的HR特征疊加到輸入圖像的雙立方插值圖像上就能得到最終的輸出圖像。因為字典訓(xùn)練用于代表任何塊,故邊緣和紋理的高頻細(xì)節(jié)都可以重建。Zeyde等[25]改進(jìn)了Yang的方法,引入投影矩陣訓(xùn)練,通過主成分分析(Principle Component Analysis,PCA)選定特征,LR字典可以更準(zhǔn)確地表示圖像塊。另外,經(jīng)過PCA處理后特征維數(shù)降低,稀疏系數(shù)的計算量也隨之降低。Wang等[26]弱化了Yang的方法中對LR和HR字典稀疏系數(shù)相同的假設(shè)條件,引入稀疏域變換增加LR和HR字典系數(shù)之間的靈活性。與邊緣優(yōu)先的方法相比,直接對樣本塊學(xué)習(xí)先驗對于重建HR圖像更通用且更有效。
3)基于回歸模型
基于字典學(xué)習(xí)的方法雖然在重建圖像的質(zhì)量上有著優(yōu)勢,但計算量仍然較高。為了解決這個問題,Kim和Kwon[27]通過訓(xùn)練回歸函數(shù)來預(yù)測HR特征,Timofte等[28]和Yang[29]提出使用多個線性回歸函數(shù)代替一對字典對表示的單一映射函數(shù),這3種方法的區(qū)別在于回歸函數(shù)的數(shù)量和類型。Kim和Kwon只訓(xùn)練一個回歸函數(shù),主要關(guān)注強(qiáng)邊緣周圍塊的重建,通過復(fù)雜的核脊回歸函數(shù)來生成準(zhǔn)確的結(jié)果,通過使用一些回歸參考來減少計算復(fù)雜度,為了抑制不準(zhǔn)確回歸引起的噪聲,他們用自然圖像的先驗來改善邊緣的對比度和連續(xù)性。相比之下,Timofte等和Yang的方法則是采取了各個擊破的策略,在劃分步驟中,把LR特征空間分割成許多子空間,為單獨(dú)的子空間收集實例,對每個子空間訓(xùn)練特定的線性回歸函數(shù),給定測試圖像塊時,找到覆蓋其特征的子空間,用子空間訓(xùn)練的回歸函數(shù)估計HR的特征;在綜合步驟中,只需平均重疊像素值生成輸出圖像而無需任何后處理。由于每個子空間小且緊,通過線性回歸函數(shù)的準(zhǔn)確預(yù)測類似于非線性回歸函數(shù)如支持向量回歸,但計算量會大大降低。Timofte[30]又合并了Yang的使用原始塊特征的方式進(jìn)一步提出一種改進(jìn)的方法,增加了回歸函數(shù)的有效性和重建圖像的質(zhì)量。Dai等[31]又通過優(yōu)化塊與回歸函數(shù)間的關(guān)聯(lián)改進(jìn)了Timofte[30]的方法,提出直接訓(xùn)練LR/HR塊對來優(yōu)化整個回歸函數(shù)集,通過反復(fù)訓(xùn)練回歸函數(shù)并重組訓(xùn)練樣本進(jìn)一步減少重建誤差;訓(xùn)練回歸函數(shù)后,記錄每個塊對于每個回歸函數(shù)的重建誤差,重建是根據(jù)給定的LR塊,首先檢索類似的訓(xùn)練塊,根據(jù)重建誤差記錄,他們確定最可能的回歸函數(shù)以產(chǎn)生最小的重建誤差。Zhang[32]等考慮到這些算法中錨點數(shù)量過高的問題,提出一種混合專家(Mixture of Experts,MoE)模型方法,可以通過期望最大(Expectation-Maximization,EM)算法求解空間部分和局部回歸的聯(lián)合學(xué)習(xí)。
4)基于深度學(xué)習(xí)
Dong等[33]提出在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的框架下訓(xùn)練LR和HR映射函數(shù),同時優(yōu)化映射函數(shù)和卷積核來減少重建錯差,該方法在訓(xùn)練階段計算量非常大,但在重建階段計算量很小,由于懲罰項是為了優(yōu)化減小亮度差值而不是梯度,其生成的圖像在尖銳的邊緣可能包含鬼影。相較于訓(xùn)練階段有高計算量的Dong方法,Schulter[34]提出利用隨機(jī)簇來減少訓(xùn)練成本。隨機(jī)選擇的訓(xùn)練塊用于產(chǎn)生多個二叉樹,基于塊相似性遞歸地將訓(xùn)練樣本集分割成兩個子集,包含在每一個葉子節(jié)點的LR/HR塊對是用來訓(xùn)練線性回歸函數(shù),且Schulter方法中由不同的樹分割的子空間是重疊的,因此密集的和重疊的回歸函數(shù)可以產(chǎn)生高質(zhì)量的圖像而且訓(xùn)練階段的計算量低。Huang等[35]也是運(yùn)用判決樹和分層判決樹進(jìn)一步加速了Schulter的方法。
視頻超分辨率重建不是多圖像超分辨率重建的直接擴(kuò)展,多圖像超分辨率假設(shè)輸入圖像為同一場景,是統(tǒng)一的輸入,而視頻可以使用異構(gòu)輸入,如視頻中通常包括I,B,P幀,也就是輸入的圖像可能是高分辨率圖像,也可能是降質(zhì)的圖像,因而LR視頻可以有HR靜態(tài)圖像用于增加圖像大小[36-37]或減少量化噪聲[38]。另外,視頻超分辨率重建處理的移動對象,因此除了空域的重建方法,還可以在時域增加圖像幀的方法實現(xiàn)超分辨率重建,多圖像超分辨率重建則僅是空域的重建。空域的視頻超分辨率重建算法如果忽略幀間相關(guān)性[39],則可看成是單圖像超分辨率重建的直接擴(kuò)展,但這類方法的重建質(zhì)量一般會比利用時間相關(guān)性如計算目標(biāo)的運(yùn)動信息的算法效果差[40-41]。根據(jù)目前視頻超分辨率的應(yīng)用,可大致分為兩類:
取滿足上面等式的a0、b0作為回歸函數(shù)的參數(shù)估計,以作為回歸函數(shù)的估計,稱為Y關(guān)于x的一元經(jīng)驗線性回歸方程,簡稱為一元線性回歸方程,其圖象稱為回歸直線.
1)基于傳統(tǒng)視頻超分辨率
近年來,電視技術(shù)以指數(shù)級的速度在快速發(fā)展,同時也面臨著顯示上的前所未有的挑戰(zhàn),高清晰度電視(High Definition Television,HDTV)和超高清電視[42](Ultra-High-Definition Television,UHDTV)都對視頻分辨率提出了越來越高的要求,傳統(tǒng)視頻處理領(lǐng)域,SR通常是在一個混合分辨率視頻框架下,即視頻中包含LR或HR幀,如視頻編碼的相關(guān)應(yīng)用。由于在視頻場景中的LR和HR幀間的相似是固有的特性,基于樣本的SR展示了良好的效果。在這種背景下,Song等[43]提出了使用低分辨率序列中已有的稀疏的高分辨率關(guān)鍵幀做重疊塊運(yùn)動估計(Overlapped-Block Motion Compensation,OBMC)和字典訓(xùn)練來完成重建。同時,Hung等[44]提出了通過使用碼本(codebook)來完成SR,同樣也是源于關(guān)鍵幀和OBMC,得到比Song更好的效果。Jeong等[45]提出一種多幀基于樣本塊選擇算法,結(jié)合基于低分辨率圖像退化模型的自相似性,提出的SR算法可顯著提高LR圖像的視覺質(zhì)量,保留高頻圖像細(xì)節(jié)。Ruangsang[46]通過奇異值分解結(jié)合K均值聚類分析算法(分析K-SVD)和自適應(yīng)追蹤彈性網(wǎng)(Elastic-Net)算法,分析K-SVD算法提高了學(xué)習(xí)過程,得到更好的字典生成系數(shù),低分辨率和高分辨率塊之間的最優(yōu)路徑的數(shù)據(jù)集;自適應(yīng)彈性網(wǎng)算法用于解決稀疏表示問題估計高分辨率塊。
2)基于3D視頻的深度視頻超分辨率
三維電視(3DTV)和自由視點電視(Free-viewpoint,F(xiàn)TV)已經(jīng)吸引了很多的關(guān)注。3DTV從不同的觀點用多個視角為觀眾提供真實場景的感知,F(xiàn)TV在一定范圍內(nèi)可以由觀眾自由選擇場景中的任何視角。通過3D視頻提供的現(xiàn)實場景的互動和生動體驗依賴于大量的紋理和深度圖數(shù)據(jù),因此,其在采集、存儲和傳輸過程提出新的要求,尤其是對有限的帶寬應(yīng)用。對于這樣問題的一個有效的解決方案是使用混合分辨率(Mixed Resolution,MR)視頻,其中至少一個視圖捕捉的低分辨率,而其他視圖則捕獲全分辨率(Full Resolution,F(xiàn)R)。MR視頻與FR視頻相比顯著減少了捕獲的數(shù)量、數(shù)據(jù)傳輸、存儲和處理時間這些實時應(yīng)用程序的瓶頸,然而,為了滿足高清晰度的要求,減少視覺不適感,使視頻格式更適合于FTV,在解碼器端LR視頻通常需要使用超分辨率技術(shù)恢復(fù)到FR尺度。
Garcia等[47]提出用鄰近FR的視點的高頻信息和相應(yīng)的深度信息恢復(fù)LR視點中的高頻信息。Zhang等[48]融合了從FR視圖到LR視圖的映射,利用非局部塊加權(quán)和完成3D視頻SR。不同于以前只關(guān)注利用空間信息的方法,Jain等[49]提出一種3D MRF模型,在空域和時域從HR圖像庫中優(yōu)化塊來重建LR幀。Jin等[50]提出一個新的虛擬視圖輔助SR的增強(qiáng)算法,開發(fā)虛擬視圖信息和內(nèi)插幀有兩個好處:首先,F(xiàn)R視圖中包含的高頻信息可以正確用于重建LR視圖;其次,視圖間冗余將用于在超分辨率視圖中提高原始LR像素,并補(bǔ)償視圖間亮度都差異。Ismaeil等[51]提出一種動態(tài)多幀深度SR,但這個算法受限于橫向運(yùn)動,在徑向變形情況下會失敗,另外在內(nèi)存中緩存一定數(shù)量幀來累積運(yùn)動估計過程也是不太現(xiàn)實的。之后,又提出一種用多個卡爾曼濾波器遞歸深度SR算法[52],該算法把視頻看作一組一維信號,當(dāng)達(dá)到一個近似的流量范圍,考慮徑向變形估計,由于充分保護(hù)了深度表面的平滑特性,并去除噪聲,使用一個多層次的迭代雙邊全變差正則化,取得了很好的深度預(yù)測。
目前,超分辨率重建技術(shù)廣泛用于多個場合,稀疏表示思想的提出對單圖像超分辨率重建算法的飛速發(fā)展起到了重要作用,隨著單圖像超分辨率重建技術(shù)的快速進(jìn)步,以及高分辨率移動設(shè)備和超高清電視的發(fā)展,視頻超分辨率重建技術(shù)也逐步成為研究的熱點。結(jié)合目前的發(fā)展情況,未來的超分辨率還可以在以下方面進(jìn)一步提高:
2)基于字典學(xué)習(xí)的快速超分辨率重建也是近期的研究重點,該類算法的最主要缺點是運(yùn)行速度慢,很難直接使用,近年來隨著計算機(jī)性能的提升,有一些算法中使用GPUs實現(xiàn),可以在很短的時間完成超分辨率重建,但快速算法通常需要弱化重建約束中的部分條件,因此重建質(zhì)量又可能下降。技術(shù)研究的目的最終是實用,快速算法必然是后續(xù)研究的重點。
3)視頻幀間運(yùn)動信息的利用,是視頻超分辨率重建與單圖像超分辨率重建間最大的差別,在視頻超分辨率重建的后續(xù)發(fā)展中,利用亞像素運(yùn)動估計可以明顯提高運(yùn)動估計的準(zhǔn)確性,但是隨之而來增加的運(yùn)算量也是需要解決的問題。
[1]PARK S C,PARK M K,KANG M G. Super-resolution image reconstruction:a technical overview[J]. IEEE signal processing magazine,special issue of super-resolution image reconstruction,2003,20(3):21-36.
[2]蘇衡,周杰,張志浩.超分辨率圖像重建方法綜述[J]. 自動化學(xué)報,2013,39(8):1202-1213.
[3]TSAI R Y,HUANG T S,TSAI R Y,et al. Multiframe image restoration and registration[C]// Advances in Computer Vision and Image Processing.[S.l.]:IEEE,1984:317-339.
[4]ZHOU F,YANG W,LIAO Q. A coarse-to-fine subpixel registration method to recover local perspective deformation in the application of image super-resolution[J]. IEEE transactions on image processing, 2012, 21(1):53-66.
[5]MILCHEVSKI A, IVANOVSKI Z, MUSTAFA B. Machine learning based supper-resolution algorithm robust to registration errors[C]// Digital Signal Processing Workshop and IEEE Signal Processing Education Workshop (DSP/SPE).[S.l.]:IEEE,2011:326-331.
[6]VRIGKAS M, NIKOU C, KONDI L P. On the improvement of image registration for high accuracy super-resolution[C]//IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP) .[S.l.]:IEEE,2011:981-984.
[7]IRANI M,PELEG S. Improving resolution by image registration[J]. CVGIP:graphical models & image processing, 1991, 53(3):231-239.
[8]DAI S,HAN M,XU W,et al. Soft edge smoothness prior for alpha channel super resolution[C]//IEEE Conference on Computer Vision & Pattern Recognition.[S.l.]:IEEE,2007:1-8.
[9]ZHANG H,YANG J,ZHANG Y,et al. Non-local kernel regression for image and video restoration[J]. Lecture notes in computer science,2010(3):566-579.
[10]SINGHA,AHUJAN.Singleimagesuper-resolutionusingadaptivedomaintransformation[C]//IEEEInternationalConferenceonImageProcessing.[S.l.]:IEEE,2013:356-364.
[11]FREEMANWT,JONESTR,PASZTOREC.Example-basedsuper-resolution[J].IEEEcomputergraphics&applications,2002,22(2):56-65.
[12]WANGQ,TANGX,SHUMH.Patchbasedblindimagesuperresolution[C]//IEEEInternationalConferenceonComputerVision.[S.l.]:IEEE,2005:709-716.
[13]CHANGH,YEUNGDY,XIONGY.Super-resolutionthroughneighborembedding[C]//IEEEConferenceonComputerVisionandPatternRecognition.[S.l.]:IEEE,2004:275-282.
[14]BEVILACQUAM,ROUMYA,GUILLEMOTC,etal.Low-complexitysingle-imagesuper-resolutionbasedonnonnegativeneighborembedding[J].BMVC,2012(2):13-18.
[15]YANGS,WANGZ,ZONGL,etal.Dual-geometricneighborembeddingforimagesuperresolutionwithsparsetensor[J].IEEEtransactionsonimageprocessing,2014, 23(7):2793-2803.
[16]GLASNERD,BAGONS,IRANIM.Super-resolutionfromasingleimage[C]//IEEEInternationalConferenceonComputerVision.[S.l.]:IEEE,2009:349-356.
[17]FREEDMANG,F(xiàn)ATTALR.Imageandvideoupscalingfromlocalself-examples[J].ACMtransactionsongraphics,2011,30(2):474-484.
[18]CUIZ,CHANGH,SHANS,etal.Deepnetworkcascadeforimagesuper-resolution[C]//ComputerVision-ECCV2014.[S.l.]:IEEE,2014:49-64.
[19]TAIYW,LIUS,BROWNMS,etal.Superresolutionusingedgepriorandsingleimagedetailsynthesis[C]//IEEEConferenceonComputerVisionandPatternRecognition.[S.l.]:IEEE,2010:2400-2407.
[20]HACOHENY,F(xiàn)ATTALR,LISCHINSKID.Imageupsamplingviatexturehallucination[C]//IEEEInternationalConferenceonComputationalPhotography(ICCP).[S.l.]:IEEE,2010:1-8.
[21]SUNJ,ZHUJ,TAPPENMF.Context-constrainedhallucinationforimagesuper-resolution[C]//IEEEConferenceonComputerVisionandPatternRecognition(CVPR).[S.l.]:IEEE,2010:231-238.
[22]FATTALR.Imageupsamplingviaimposededgestatistics[J].ACMtransactionsongraphics,2007,26(3):95.
[23]SUNJ,SUNJ,XUZ,etal.Gradientprofileprioranditsapplicationsinimagesuper-resolutionandenhancement[J].IEEEtransactionsonimageprocessing,2010,20(6):1529-1542.
[24]YANGJC,WRIGHTJ,HUANGT,etal.Imagesuper-resolutionviasparserepresentation[J].IEEEtransactionsonimageprocessing,2010,19(11):2861-2873.
[25]ZEYDER,ELADM,PROTTERM.Onsingleimagescale-upusingsparse-representations[M].Berlin:Springer,2010.
[26]WANGS,ZHANGL,LIANGY,etal.Semi-coupleddictionarylearningwithapplicationstoimagesuper-resolutionandphoto-sketchsynthesis[C]//IEEEConferenceonComputerVisionandPatternRecognition(CVPR) .[S.l.]:IEEE,2012:2216-2223.
[27]WANGK,YOUNGHEEK.Single-imagesuper-resolutionusingsparseregressionandnaturalimageprior[J].IEEEtransactionsonpatternanalysis&machineintelligence, 2010, 32(6):1127-1133.
[28]TIMOFTER,DEV,GOOLLV.Anchoredneighborhoodregressionforfastexample-basedsuper-resolution[C]//IEEEInternationalConferenceonComputerVision(ICCV).[S.l.]:IEEE,2013:1920-1927.
[29]YANGCY,YANGMH.FastDirectsuper-resolutionbysimplefunctions[C]//IEEEInternationalConferenceonComputerVision(ICCV) .[S.l.]:IEEE,2013:561-568.
[30]TIMOFTER,SMETVD,GOOLLV.A+:adjustedanchoredneighborhoodregressionforfastsuper-resolution[M]. [S.l.]:SpringerInternationalPublishing,2014.
[31]DAID,TIMOFTER,GOOLLV.Jointlyoptimizedregressorsforimagesuper-resolution[C]//ComputerGraphicsForum.[S.l.]:IEEE,2015:95-104.
[32]ZHANGK,WANGB,ZUOW,etal.Jointlearningofmultipleregressorsforsingleimagesuper-resolution[J].IEEEsignalprocessingletters, 2016, 23(1):102-106.
[33]DONGC,CHENCL,HEK,etal.Learningadeepconvolutionalnetworkforimagesuper-resolution[C]//ComputerVision-ECCV.[S.l.]:SpringerInternationalPublishing,2014:184-199.
[34]SCHULTERS,LEISTNERC,BISCHOFH.Fastandaccurateimageupscalingwithsuper-resolutionforests[C]//IEEEConferenceonComputerVisionandPatternRecognition.[S.l.]:IEEE,2015:3791-3799.
[35]HUANGJJ,SIUWC.Learninghierarchicaldecisiontreesforsingleimagesuper-resolution[J].IEEEtransactionsoncircuits&systemsforvideotechnology, 2015(7):1-14.
[36]BHATP,ZITNICKCL,SNAVELYN,etal.Usingphotographstoenhancevideosofastaticscene[J].Eurographicssymposiumonrenderingjankautz&sumantapattanaik,2007(6):327-338.
[37]WATANABEK,IWAIY,HAGAT,etal.Afastalgorithmofvideosuper-resolutionusingdimensionalityreductionbydctandexampleselection[C]//19thInternationalConferenceonPatternRecognition.[S.l.]:IEEE,2008:1-5.
[38]LIUF,WANGJ,ZHUS,etal.Noisyvideosuper-resolution[C]//ACMInternationalConferenceonMultimedia.[S.l.]:IEEE,2008:713-716.
[39]SHANQ,LIZ,JIAJ,etal.Fastimage/videoupsampling[J].ACMtransactionsongraphics,2008,27(5):32-39.
[40]SHIMANOM,OKABET,SATOI,etal.Videotemporalsuper-resolutionbasedonself-similarity[J].Ieicetransactionsoninformation&systems,2010,94(8):93-106.
[41]LIUC,SUND.Abayesianapproachtoadaptivevideosuperresolution[C]//IEEEConferenceonComputerVisionandPatternRecognition.[S.l.]:IEEE,2011:209-216.
[42]吳蔚華,阮衛(wèi)泓,謝于迪. 超高清晰度電視技術(shù)概述[J]. 電視技術(shù),2014,38(8):69-71.
[43]SONGB,JEONGSC,CHOIY.Videosuper-resolutionalgorithmusingbi-directionaloverlappedblockmotioncompensationandon-the-flydictionarytraining[J].IEEEtransactionsoncircuitssystemvideotechnology,2011,21(3):274-285.
[44]HUNGE,QUEIROZR,BRANDIF,etal.Videosuper-resolutionusingcodebooksderivedfromkeyframes[J].IEEEtransactionsoncircuitssystemvideotechnology,2012,22(9):1321-1331.
[45]JEONGS,YOONI,PAIKJ.Multi-frameexample-basedsuper-resolutionusinglocallydirectionalself-similarity[J].IEEEtransactionsonconsumerelectronics,2015,61(3):353-358.
[46]RUANGSANGW,ARAMVITHS.Super-resolutionforHDto4KusingAnalysisK-SVDdictionaryandadaptiveelastic-net[C]//IEEEInternationalConferenceonDigitalSignalProcessing(DSP).[S.l.]:IEEE,2015,1076-1080.
[47]GARCIADC,DOREAC,QUEIROZRL.Superresolutionformultiviewimagesusingdepthinformation[J].IEEEtransactionsoncircuitssystemvideotechnology,2012,22(9):1249-1256.
[48]ZHANGJ,CAOY,WANGZ.Asimultaneousmethodfor3dvideosuper-resolutionandhigh-qualitydepthestimation[C]//20thIEEEInternationalConferenceonImageProcessing(ICIP).[S.l.]:IEEE,2013:1346-1350.
[49]JAINAK,NGUYENTQ.Videosuper-resolutionformixedresolutionstereo[C]//20thIEEEInternationalConferenceonImageProcessing(ICIP).[S.l.]:IEEE,2013:962-966.
[50]JINZ,TILLOT,YAOC,etal.Virtualviewassistedvideosuper-resolutionandenhancement[J].IEEEtransactionsoncircuits&systemsforvideotechnology, 2015, 25(2):1-12.
[51]ISMAEILKA,AOUADAD,MIRBACHB,etal.Dynamicsuperresolutionofdepthsequenceswithnon-rigidmotions[C]//20thIEEEInternationalConferenceonImageProcessing(ICIP) .[S.l.]:IEEE,2013:660-664.
[52]ISMAEILKA,AOUADAD,SOLIGNACT,etal.Real-timenon-rigidmulti-framedepthvideosuper-resolution[C]//IEEEConferenceonComputerVisionandPatternRecognitionWorkshops(CVPRW).[S.l.]:IEEE,2015:8-16.
李欣(1981— ),女,講師,主要研究圖像處理與多媒體通信、數(shù)字電視處理與傳輸?shù)龋?/p>
崔子冠(1982— ),副教授,主要研究方向為視頻編碼與傳輸、圖像處理等;
朱秀昌(1947— ),教授,博士生導(dǎo)師,主要研究方向包括多媒體信息、圖像和視頻的采集、處理、傳輸和顯示。
責(zé)任編輯:時雯
Survey of super-resolution algorithms
LI Xin,CUI Ziguan,ZHU Xiuchang
(ImageProcessingandImageCommunicationLab.,NanjingUniversityofPostsandTelecommunications,Nanjing210003,China)
With the development of high-resolution mobile devices and ultra-high-definition televisions, applying super-resolution up-sampling to the existing low-resolution video has become a hot research topic recently. In this paper, according to the different way of input and output, the existing super-resolution reconstruction algorithms are divided into three categories:multiple-image super-resolution reconstruction, single-image super-resolution reconstruction, and video super-resolution reconstruction. The development and common usage of each category are reviewed, and the characteristics of different algorithms are compared. In the following, the impact of multi-image super-resolution reconstruction and single-image super-resolution reconstruction on video super-resolution reconstruction is discussed. Finally, the development prospect of super-resolution reconstruction algorithm is analyzed.
super-resolution; ultra-high-definition televisions; registration; sparse representation
TN911.73; TP391.4
A
10.16280/j.videoe.2016.09.001
國家自然科學(xué)基金青年基金項目(61501260);江蘇省自然科學(xué)基金項目(BK20130867;BK20140891);江蘇省普通高校研究生科研創(chuàng)新計劃項目(CXLX12_0474)
2016-01-25
文獻(xiàn)引用格式:李欣,崔子冠,朱秀昌.超分辨率重建算法綜述[J].電視技術(shù),2016,40(9):1-9.
LI X,CUI Z G,ZHU X C.Survey of super-resolution algorithms[J].Video engineering,2016,40(9):1-9.