艾 達,白巖松,于可欣,元 輝,劉 穎
1.西安郵電大學(xué) 通信與信息工程學(xué)院,西安 710121
2.山東大學(xué) 控制科學(xué)與工程學(xué)院,濟南 250100
通過佩戴虛擬現(xiàn)實(virtual reality,VR)設(shè)備,人們可以享受全景視頻圖像沉浸交互式的體驗。全景圖像作為VR媒體內(nèi)容最主要的形式之一,由同一位置面向不同方向的場景圖像拼接而成。全景圖像的顯示效果會極大影響VR使用者的視覺感受,因此有效評價全景圖像的質(zhì)量,對VR技術(shù)的發(fā)展至關(guān)重要。
數(shù)字圖像在采集、存儲、處理與傳輸過程中,受拍攝設(shè)備、壓縮程度與傳輸帶寬等因素影響,不可避免地造成各種失真,導(dǎo)致圖像質(zhì)量降低受損不能達到令人滿意的效果。因此準(zhǔn)確預(yù)測圖像的感知質(zhì)量對于生成高質(zhì)量圖像與圖像處理極為重要。獲取圖像感知質(zhì)量的方法被稱作圖像質(zhì)量評價,依據(jù)其評價主體可分為主觀質(zhì)量評價與客觀質(zhì)量評價[1]。主觀質(zhì)量評價需要測試人員對圖像進行人工打分,評價結(jié)果符合人類感知但人力時間成本過高,通常用于構(gòu)建數(shù)據(jù)集,現(xiàn)實應(yīng)用較少??陀^質(zhì)量評價通過計算機設(shè)計模型來模擬人類的主觀質(zhì)量評價,在實際中應(yīng)用廣泛,其相關(guān)技術(shù)也在不斷發(fā)展。傳統(tǒng)二維圖像質(zhì)量評價方法可根據(jù)通用性程度的不同分為針對特定失真類型[2]和通用型[3]。針對特定失真類型包括對比度失真[4]、失焦模糊[5]、噪聲模糊[6]和平移銳化[7]等。深度學(xué)習(xí)方法的應(yīng)用也極為廣泛[8]。全景圖像在存儲傳輸中會引入與傳統(tǒng)圖像相同的失真類型,例如壓縮編碼失真、噪聲模糊和幾何失真等,因此傳統(tǒng)圖像質(zhì)量評價方法一定程度上可以應(yīng)用于全景圖像。但是,全景圖像由于自身拼接生成特性與內(nèi)容球面呈現(xiàn)特性產(chǎn)生了傳統(tǒng)圖像不具備的特殊失真類型,例如縫合失真和投影失真,使得傳統(tǒng)圖像質(zhì)量評價方法直接應(yīng)用于全景圖像評價效果不佳。全景圖像的圖像分辨率較高、數(shù)據(jù)集量級較小使得基于深度學(xué)習(xí)的評價方法效果受限。此外,全景圖像質(zhì)量評價數(shù)據(jù)集大多為研究者自建自用,缺乏權(quán)威的公共數(shù)據(jù)集來對不同評價方法進行性能對比。
隨著VR技術(shù)的發(fā)展和元宇宙時代的到來,全景圖像成為一種重要的視覺媒體。全景圖像的質(zhì)量評價也成為近年來的研究熱點。有必要梳理總結(jié)全景圖像質(zhì)量評價的最新成果與進展。本文旨在對近年來全景圖像質(zhì)量評價方法最新進展進行綜述。
VR用戶的觀察視角是從球體的中心向外看向球體的內(nèi)表面,圖像內(nèi)容由360°全球面視圖呈現(xiàn)[9]。這一特點使傳統(tǒng)二維圖像的客觀質(zhì)量評價指標(biāo)應(yīng)用于全景圖像上很難達到令人滿意的效果,因此提出了基于峰值信噪比(peak signal-to-noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity,SSIM)的改進方法。
Yu等[10]提出一種基于球形的峰值信噪比(spherical PSNR,S-PSNR),該方法放棄在全景圖像的等矩形投影上采樣,而是選擇均勻分布在球面上的采樣點來計算PSNR。對于球上一采樣點,通過三維到二維的投影分別在參考圖像與失真圖像上找到對應(yīng)的點,計算兩點之間的均方誤差,然后計算所有采樣點(采樣點數(shù)量有限)的誤差并累加。Sun等[11]提出了加權(quán)球形峰值信噪比(weighted-to-spherically-uniform PSNR,WS-PSNR),根據(jù)投影平面與觀察空間(球面)之間的畸變非線性關(guān)系,對平面全景圖像每個像素位置的誤差進行加權(quán)再計算PSNR。該方法可以在二維平面直接計算,其中權(quán)重與投影格式有關(guān)。Zakharchenko等[12]提出了克拉斯特拋物線投影峰值信噪比(Craster’s parabolic projection PSNR,CPP-PSNR),將失真圖像和參考圖像投影到?jīng)]有空間分辨率變化的克拉斯特拋物線投影(CPP)格式下計算PSNR。
全景圖像改進PSNR的方法總結(jié)如表1所示。
表1 PSNR改進方法分析Table 1 Analysis of PSNR improvement methods
Chen等[13]提出了球面結(jié)構(gòu)相似度(spherical SSIM,S-SSIM),將二維平面中的像素投影到球體,根據(jù)球體與投影平面的結(jié)構(gòu)相似性關(guān)系和投影平面內(nèi)的畸變程度,處理投影帶來的干擾。S-SSIM基于亮度、對比度和結(jié)構(gòu)比較來量化參考圖像和失真圖像之間的感知相似度。Zhou等[14]提出了球面加權(quán)結(jié)構(gòu)相似度(weightedto-spherically-uniform SSIM,WS-SSIM),根據(jù)投影平面與觀察空間(球面)之間的畸變非線性關(guān)系,對平面全景圖像局部塊的SSIM評價值加上適當(dāng)?shù)臋?quán)重。
全景圖像改進SSIM的方法總結(jié)如表2所示。
表2 SSIM改進方法分析Table 2 Analysis of SSIM improvement methods
全景圖像的客觀評價指標(biāo)主要基于傳統(tǒng)客觀評價指標(biāo)PSNR和SSIM改進獲得。球域與平面的差異是改進方法的重要切入點,例如直接選擇在球域上采樣進行計算,在平面上進行加權(quán)計算,其中權(quán)重由采樣區(qū)域的被拉伸程度確定。將傳統(tǒng)指標(biāo)進行改進并應(yīng)用至全景圖像,計算簡單且易于理解,并緩解了部分投影拉伸。但由于全景圖像的分辨率較大且失真類型多樣,客觀評價指標(biāo)的效果遠不能令人滿意。
近年來,全景圖像質(zhì)量評價大多采用了深度學(xué)習(xí)的方法,使用的數(shù)據(jù)集包含了全景圖像可能出現(xiàn)的多種失真,例如JPEG壓縮、HEVC壓縮、高斯模糊和高斯噪聲等。
此類方法將完整的ERP圖像作為輸入或?qū)RP圖像均分成圖像塊再輸入到網(wǎng)絡(luò),數(shù)據(jù)預(yù)處理簡單且計算復(fù)雜度低。
Lim等[15]提出了VR-IQA-NET(virtual reality image quality assessment NET)方法,其網(wǎng)絡(luò)架構(gòu)由質(zhì)量分數(shù)預(yù)測器和人類感知引導(dǎo)器組成。質(zhì)量分數(shù)預(yù)測器將失真圖像分成256×256大小的圖像塊進行特征提取,利用潛在的空間和位置特征預(yù)測畸變圖像的質(zhì)量分數(shù)。人類感知引導(dǎo)器使用對抗性學(xué)習(xí)優(yōu)化預(yù)測質(zhì)量得分。
Truong等[16]設(shè)計了側(cè)重于學(xué)習(xí)輸入圖像中間區(qū)域特征的模型Omni-IQA(omnidirectional image quality assessment)。該模型首先預(yù)測了從輸入圖像中采樣獲得的64×64大小圖像塊的質(zhì)量分數(shù),然后依據(jù)圖像塊所處位置來分配權(quán)重,給赤道區(qū)域圖像塊賦予高于頂部和底部區(qū)域的權(quán)重再來計算整體圖像的質(zhì)量分數(shù)。
Hou等[17]認為圖像塊式訓(xùn)練無法緩解全景圖像局部區(qū)域內(nèi)的失真問題,提出了一種多任務(wù)學(xué)習(xí)策略
SPIQA(stitched panoramic image quality assessment),該策略鼓勵學(xué)習(xí)者減少對圖像內(nèi)容的依賴。訓(xùn)練一個具有兩個權(quán)重共享的CNN分支的暹羅網(wǎng)絡(luò),將同一場景中的兩幅完整圖像一起輸入網(wǎng)絡(luò),同時比較兩幅圖像的質(zhì)量,并預(yù)測每幅圖像的質(zhì)量分數(shù)。由于同一個CNN處理同一場景的兩幅圖像,CNN在質(zhì)量排名目標(biāo)的約束下傾向于發(fā)現(xiàn)它們的質(zhì)量差異,而不是內(nèi)容差異。
Yang等[18]提出了基于空間注意的感知質(zhì)量預(yù)測網(wǎng)絡(luò)(spatial attention-based perceptual quality prediction network,SAP-net)。其網(wǎng)絡(luò)架構(gòu)由基于小波的殘差增強模塊、感知質(zhì)量估計模塊和質(zhì)量回歸模塊組成,受損圖像被分成256×256大小的圖像塊輸入網(wǎng)絡(luò),在殘差增強模塊中實現(xiàn)客觀的質(zhì)量增強,然后將其作為誤差圖與失真圖像本身合并送入感知質(zhì)量估計模塊進行質(zhì)量預(yù)測并通過質(zhì)量回歸模塊得到預(yù)測分數(shù)。該網(wǎng)絡(luò)可以在沒有人類顯著性標(biāo)簽的情況下,通過自我注意的方式自適應(yīng)地估計失真全景圖像上的人類感知質(zhì)量,在大大降低計算復(fù)雜度的同時顯著提高了質(zhì)量分數(shù)的預(yù)測性能。
Zhou等[19]提出了基于深度學(xué)習(xí)的PFAHQP(pyra‐mid feature aggregation for hierarchical quality prediction)。其網(wǎng)絡(luò)架構(gòu)由虛擬參考生成(imaginary reference gen‐eration,IRG)模塊和層次質(zhì)量預(yù)測(hierarchical quality prediction,HQP)模塊組成,IRG模塊通過遷移學(xué)習(xí)模擬人類視覺系統(tǒng)(human visual system,HVS)在面對失真圖像時想象參考圖像的能力。HQP模塊通過金字塔特征聚合適應(yīng)圖像失真的特殊性和復(fù)雜性。
人們在VR設(shè)備中查看全景圖像時,其視覺內(nèi)容首先由3D球坐標(biāo)中的球體表示,然后被渲染為與球體相切的平面段,該平面段稱為視口(viewport),其大小由VR設(shè)備的視角和視場角FoV(field of view)決定。簡單來說是部分球體在2D平面上的投影。視口圖像的優(yōu)點是與VR設(shè)備中看到的360°圖像的視覺內(nèi)容保持一致。圖1表示了從VR球面中獲得視口圖像。
圖1 從VR球面內(nèi)容獲得視口圖像示意圖Fig.1 Schematic diagram of obtaining viewport image from VR spherical content
Sun等[20]提出了MC360IQA(multi-channel convolu‐tional neural network(CNN)for blind 360-degree image quality assessment),網(wǎng)絡(luò)模型采用視口圖像作為輸入,將每個全景圖像投影到六個視口圖像中,覆蓋了全方位的視覺內(nèi)容。網(wǎng)絡(luò)由多通道CNN和圖像質(zhì)量回歸器兩部分組成。多通道CNN包括六個并行ResNet34網(wǎng)絡(luò),用于提取相應(yīng)六個視口圖像的特征。圖像質(zhì)量回歸器融合特征并將其回歸到最終分數(shù)。
Xu等[21]提出了面向視口的圖卷積網(wǎng)絡(luò)(viewport oriented graph convolutional network,VGCN),建立了一個全景圖像中視口之間的相互依賴關(guān)系模型。圖形節(jié)點首先由被看到概率較高的選定視口定義,然后通過空間關(guān)系將這些節(jié)點連接起來,捕獲它們之間的交互。最后通過圖卷積網(wǎng)絡(luò)對獲得的圖像進行推理。
Tian等[22]提出了一種基于視口的全景圖像質(zhì)量評價器(viewport-based stitched omnidirectional image quality evaluator,VSOIQE)。其網(wǎng)絡(luò)架構(gòu)由視口選擇、特征提取和質(zhì)量回歸組成,視口選擇方面,選擇了全景圖像縫合區(qū)域的視口和顯著性較高區(qū)域的視口。特征提取方面,通過提取多方向邊緣一致性、高寬比相似度和顏色相似度特征度量圖像的幾何失真、形變和色差,并使用基于局部置信度和結(jié)構(gòu)復(fù)雜度的自適應(yīng)池化(self-adaptive pooling,SAP)。最后采用多元線性回歸得到質(zhì)量分數(shù)。
Zhou等[23]提出了失真鑒別輔助多流網(wǎng)絡(luò)(distortion discrimination assisted multi-stream network,DDAMSN)。其網(wǎng)絡(luò)架構(gòu)由視口生成模塊、共享網(wǎng)絡(luò)模塊和兩個獨立的任務(wù)學(xué)習(xí)模塊組成。視口生成模塊模擬用戶在VR中感知的內(nèi)容,共享網(wǎng)絡(luò)模塊學(xué)習(xí)兩個任務(wù)之間的互信息,兩個學(xué)習(xí)模塊分別用于質(zhì)量評價任務(wù)和失真識別任務(wù)。通過失真識別輔助網(wǎng)絡(luò)優(yōu)化共享網(wǎng)絡(luò),以提高質(zhì)量評價網(wǎng)絡(luò)的預(yù)測性能。
基于深度學(xué)習(xí)的圖像質(zhì)量評價方法根據(jù)模型輸入的類型可以分為基于完整ERP圖像與基于視口圖像。表3分析和歸納了近年來基于深度學(xué)習(xí)的全景圖像質(zhì)量評價方法?;贓RP圖像的方法思路類似于傳統(tǒng)IQA方法,將整張圖像直接輸入網(wǎng)絡(luò)進行相應(yīng)特征提取,操作相對簡單快捷,但忽略了ERP圖像所含有的投影拉伸失真。而視口圖像的生成就是模擬人類在VR中查看全景圖像的行為,將視口投影至平面很大程度上緩解了全景圖像的投影拉伸。視口圖像相較于ERP圖像也更為符合人的感知過程,符合人眼視覺特性。此外,同一張全景圖像可以依據(jù)不同的方法生成多組視口圖像,實現(xiàn)了數(shù)據(jù)集的數(shù)據(jù)增強,一定程度上解決了深度學(xué)習(xí)所需數(shù)據(jù)量不足的問題。因此在最新提出的評價方法中,基于視口圖像的方法較多且評價性能總體來說優(yōu)于基于ERP圖像的方法。
表3 基于深度學(xué)習(xí)的全景圖像質(zhì)量評價方法分析Table 3 Analysis of panoramic image quality assessment methods based on deep learning
全景圖像是由全景相機拍攝后通過拼接算法得到的球體信號。將球體信號投影至二維平面以便壓縮、存儲與傳輸。這造成了全景圖像不同于傳統(tǒng)二維圖像的特殊失真:邊緣縫合失真和投影拉伸失真?;谌皥D像兩種特殊失真的質(zhì)量評價方法如下。
全景圖像是由多個方位的視口圖像縫合拼接而成,因此存在縫合失真,主要表現(xiàn)形式為重影和結(jié)構(gòu)不一致的視覺偽影,如圖2紅色框內(nèi)所示。
圖2 拼接圖像常見失真Fig.2 Common distortions on stitched image
Ling等[24]使用卷積稀疏編碼(convolutional sparse coding,CSC)和一組卷積濾波器來定位目標(biāo)圖像中特定的縫合失真,提出了用于準(zhǔn)確評估特定縫合偽影的度量NR-CSC-SIQA(no reference CSC stitched IQA),并使用一種新的序列特征選擇算法來量化上述復(fù)合失真效應(yīng)。
考慮到人類視覺系統(tǒng)(HVS)的特點,Zhu等[25]提出了差分信息感知模型(difference information sensing model,DISM)。該方法首先利用Gabor濾波檢測圖像的邊緣,然后構(gòu)造差分圖像,最后結(jié)合just noticeable difference(JND)差異閾值形成評價模型。
為了關(guān)注局部和全局兩個層面的特征,Li等[26]提出注意力驅(qū)動的全景圖像質(zhì)量評估方法(attentive quality assessment,AQA),其全局度量主要考慮環(huán)境差異,如色差和盲區(qū)現(xiàn)象;局部度量主要關(guān)注影響平均意見分數(shù)的顯著性區(qū)域和拼接區(qū)域。Liu等[27]提出了結(jié)合局部和全局特征的評價方法(combining local and global features for quality assessment,CLGFQA)。將全景圖像分為失真區(qū)域和非失真區(qū)域,分別提取失真和非失真區(qū)域的質(zhì)量特征,然后計算特征之間的距離作為局部質(zhì)量度量。全局質(zhì)量使用一般的圖像質(zhì)量評價特征。Cui等[28]提出了基于局部視覺和全局深度特征的盲縫合全景圖像質(zhì)量評價方法(local visual and global deep features based blind stitched panoramic image quality evaluation,LVGD_BSPIQE),局部視覺特征方面,通過稀疏特征提取獲得圖像的結(jié)構(gòu)、紋理和顏色畸變,通過加權(quán)局部二值模式特征度量各種弱畸變。全局特征方面,通過預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型提取深度特征表示高級語義。并采用集成學(xué)習(xí)提高泛化性能。
基于全景圖像縫合失真的質(zhì)量評價方法分析對比如表4所示。
表4 基于全景圖像縫合失真的質(zhì)量評價方法Table 4 Panoramic image quality assessment methods based on stitching distortion
動態(tài)圖像專家組(moving picture experts group,MPEG)開發(fā)了全向媒體應(yīng)用格式[9](omnidirectional media format,OMAF)。在此格式中,使用等矩形投影(equirectangular projection,ERP)作為全向媒體的默認投影,將原始球形信號投影到二維(2D)平面上,以便使用現(xiàn)有編碼標(biāo)準(zhǔn)進行壓縮和傳輸。圖3表示了ERP投影過程。
圖3 等矩形投影格式Fig.3 Equirectangular projection format
從球體投影向二維平面的過程中,不可避免地會產(chǎn)生投影拉伸的失真,如圖4框線內(nèi)所示。圖4中(a)為全景圖像球面頂部投影的視口圖像,(b)為全景圖像的ERP格式投影。其中紅色框線內(nèi)為該全景圖像的相同區(qū)域,可見相同區(qū)域在ERP投影格式下產(chǎn)生了明顯的拉伸失真,越接近雙極區(qū)域,投影拉伸就越嚴重。
圖4 全景圖像投影拉伸失真Fig.4 Projection stretch distortion on panoramic image
針對這一特點,研究者們開始使用不同的投影格式來進行全景圖像的質(zhì)量評價。Zheng等[29]提出了一種基于分段球面投影(segmented spherical projection,SSP)的盲全景圖像質(zhì)量評價(SSP based blind omnidirectional image quality assessment,SSP-BOIQA)方法,首先將ERP格式的圖像轉(zhuǎn)換為SSP格式的圖像,以解決ERP格式圖像雙極區(qū)的拉伸變形問題,但保留了ERP格式圖像的赤道區(qū)域。并提出一種扇形窗口的局部/全局感知特征提取方案來估計全景圖像雙極區(qū)域的失真。并以熱圖為權(quán)重因子提取赤道區(qū)域的感知特征。最后將從全景圖像的雙極區(qū)和赤道區(qū)提取的特征集合起來,預(yù)測失真全景圖像的質(zhì)量。Jiang等[30]提出了基于立方體貼圖的感知驅(qū)動盲質(zhì)量評估(cubemap-based perceptiondriven blind quality assessment,CPBQA)框架,通過六個相互關(guān)聯(lián)的立方體映射投影(cubemap projection,CMP)方法來實現(xiàn)全景圖像的全方位觀看?;贑MP的六個立方體映射面,提出了感知驅(qū)動的全景圖像質(zhì)量評價框架,該框架考慮了人類的注意行為,提高了框架的有效性。Jiang等[31]提出了基于多角度投影的盲全景圖像質(zhì)量評價(multi-angle projection based blind omnidirectional image quality assessment,MP-BOIQA)方法。將全景圖像以不同視角生成的多組彩色立方體映射投影圖像組成彩色全向失真(COD)單元,并用等角區(qū)間投影表示同一圖像的不同失真水平。通過張量分解降維,再從降維數(shù)據(jù)中提取特征預(yù)測質(zhì)量分數(shù)。
基于全景圖像投影失真的質(zhì)量評價方法分析對比如表5所示。
表5 基于全景圖像投影失真的質(zhì)量評價方法Table 5 Panoramic image quality assessment methods based on projection distortion
全景圖像的視口圖像由VR設(shè)備的視角和視場角FoV決定。Jabar等[32]評估了廣義透視投影對全景圖像視口渲染的感知影響,經(jīng)過一系列主觀評價實驗與總結(jié)后得到了圖像內(nèi)容和FoV在決定哪種投影在感知上最適合全景圖像和視頻的視口渲染方面起著核心作用。其后Jabar等[33]又進行了主觀測試實驗,旨在評估FoV對感知質(zhì)量的影響,并找到在用戶沉浸式體驗和感知幾何失真之間進行最佳權(quán)衡的FoV。最終在參與測試的觀察者中,對接近110°的FoV偏好最佳。
縫合失真和投影失真是全景圖像所特有的兩種特殊失真類型。縫合失真由全景圖像的生成機制不可避免地產(chǎn)生,出現(xiàn)在圖像的拼接縫合區(qū)域,包括結(jié)構(gòu)、紋理和顏色等失真?,F(xiàn)有方法主要定位失真區(qū)域并綜合考慮多種失真特性提取相應(yīng)特征進行質(zhì)量評價。投影失真則是全景圖像由球域投影至默認ERP格式不可避免引入的失真,越靠近雙極區(qū)域投影失真越嚴重。現(xiàn)有評價方法多為使用不同的投影方法對ERP圖像進行投影來緩解投影拉伸,其中立方體映射投影(CMP)常用于獲取視口圖像。針對兩種特殊失真的質(zhì)量評價方法能有效評價對應(yīng)失真類型的全景圖像,但無法有效應(yīng)對日常存儲傳輸中的常見失真類型,通用性不足。
圖像質(zhì)量評價數(shù)據(jù)集一般包含失真圖像與相應(yīng)的主觀質(zhì)量評分。主觀質(zhì)量評分需要測試人員根據(jù)一定的評價準(zhǔn)則或自身經(jīng)驗對單幅圖像的視覺效果進行主觀質(zhì)量評判。由于個人的主觀差異性,需要多位觀測者進行打分,最終在去除異常值的情況下進行加權(quán)平均,得到平均主觀得分(mean opinion score,MOS)。另一種評分標(biāo)準(zhǔn)為平均主觀得分差異(differentiation mean opinion score,DMOS),描述的是人眼對參考圖像和失真圖像評價得分的差異。MOS值越大代表圖像質(zhì)量越好,DMOS值則相反,數(shù)值越小代表質(zhì)量越好。
傳統(tǒng)二維圖像已擁有LIVE、TID、CSIQ等較為權(quán)威通用的圖像質(zhì)量評價數(shù)據(jù)集,但全景圖像質(zhì)量評價尚未存在公認權(quán)威的公共數(shù)據(jù)集。現(xiàn)存的全景圖像質(zhì)量評價數(shù)據(jù)集大多為研究者自建自用。
4.1.1 數(shù)據(jù)集介紹
(1)SIQA
SIQA數(shù)據(jù)集[34]由Cheung等于2017年建立。該數(shù)據(jù)集中共有34張參考圖像和1 224張失真圖像。包含多種拼接算法導(dǎo)致的縫合失真。分辨率為3 000×2 000。MOS的主觀評分范圍為[0,100]。
(2)SUN360
SUN360數(shù)據(jù)集[35]是Xiao等2012年建立的全景圖像數(shù)據(jù)集,其中包含80個類別和67 583張全景圖像,分辨率為9 104×4 552。但該數(shù)據(jù)集并沒有進行主觀質(zhì)量評價。文獻[15-16]從SUN360中隨機選擇部分圖像進行失真處理與主觀評價來構(gòu)建用于自身實驗的數(shù)據(jù)集。文獻[15]數(shù)據(jù)集包含60張參考圖像和720張失真圖像,包含JPEG[36]、JPEG2000[37]和HEVC壓縮[38]三種失真類型,分辨率為2 048×1 024。文獻[16]數(shù)據(jù)集包含10張參考圖像和120張失真圖像,失真類型為JPEG壓縮,分辨率為4 096×2 160。本文將文獻[15]使用的數(shù)據(jù)集記作SUN360(a),文獻[16]使用的數(shù)據(jù)集記作SUN360(b)。
(3)OIQA
OIQA數(shù)據(jù)集[39]由Duan等 于2018年建立。該數(shù)據(jù)集中共有336張圖像,其中16張參考圖像和320張同源的失真圖像。包括四種失真類型:JPEG壓縮、JPEG2000壓縮、高斯模糊和高斯噪聲。所有圖像均為等距矩形格式,分辨率范圍從11 332×5 666到13 320×6 660。MOS值的主觀評分范圍為[1,10]。
1.1一般資料2014年10月至2015年6月我院對100例精神分裂癥患者開展了分析研究,將患者分成對照組和觀察組,均有50例。對照組有24例女性和26例男性,最小23歲,最大75歲,平均(42.73±10.76)歲;體重最低42 kg,最高82 kg,平均體重(63.89±6.04)kg。觀察組共有25例男性和25例女性,最小25歲,最大74歲,平均(42.58±10.47)歲;體重最低41 kg,最高82 kg,平均體重(63.21±6.26)kg。兩組的普通資料對比不存在統(tǒng)計學(xué)差異性,可以開展比較分析。
(4)CVIQ
CVIQ數(shù)據(jù)集[40]由Sun等于2018年建立。該數(shù)據(jù)集中共有544張圖像,其中16張參考圖像和528張同源的失真圖像。包括三種失真類型:JPEG壓縮、H.264/AVC壓縮和H.265/HEVC壓縮。參考圖像包含各種場景,如城鎮(zhèn)、風(fēng)景、人物和物體,分辨率為4 096×2 048。MOS值被歸一化并重新調(diào)整到范圍[0,100]。
(5)MVAQD
MVAQD數(shù)據(jù)集[41]由Jiang等于2019年建立。該數(shù)據(jù)集中共有315張圖像,其中15張參考圖像和300張同源的失真圖像。包括五種失真類型:JPEG壓縮、JPEG2000壓縮、H.265/HEVC壓縮、高斯模糊和高斯白噪聲。分辨率為5 780×2 890。MOS的主觀評分范圍為[1,5]。
(6)ISIQA
ISIQA數(shù)據(jù)集[42]由Madhusudana等于2019年建立。該數(shù)據(jù)集中共有26張參考圖像和264張失真圖像。包含多種拼接算法導(dǎo)致的縫合失真。分辨率為9 270×1 680。MOS的主觀評分范圍為[0,100]。
(7)CROSS
(8)IQA-ODA
IQA-ODA數(shù)據(jù)集[21]由Xu等于2021年建立。該數(shù)據(jù)集中共有120張參考圖像和960張失真圖像。包含JPEG壓縮以及多種投影模式。分辨率為7 680×3 840。DMOS的主觀評分范圍為[0,100]。
4.1.2 小結(jié)
全景圖像質(zhì)量評價數(shù)據(jù)集可以依據(jù)包含的失真類型大致分為兩類:一類是以ISIQA數(shù)據(jù)集為代表的,主要包含使用不同圖像拼接方法生成全景圖像時所引入的縫合失真;另一類是以O(shè)IQA、CVIQ數(shù)據(jù)集為代表的,主要包含全景圖像日常壓縮存儲傳輸過程中引入的失真,例如壓縮失真、高斯模糊等。數(shù)據(jù)集的不同導(dǎo)致評價算法的側(cè)重點不同,同時包含兩類的數(shù)據(jù)集尚不存在,因此能同時應(yīng)對拼接算法導(dǎo)致的縫合失真和日常使用引入的失真的評價算法也不存在。全景圖像數(shù)據(jù)集還具有分辨率高、數(shù)量級小的特點,這限制了深度學(xué)習(xí)方法的發(fā)揮。此外,還缺乏權(quán)威的公共數(shù)據(jù)集進行評價方法性能對比。表6將近年全景圖像質(zhì)量評價的公共數(shù)據(jù)集進行總結(jié)對比。
表6 公共全景圖像質(zhì)量評價數(shù)據(jù)集Table 6 Public panoramic image quality assessment datasets
4.2.1 評價指標(biāo)
國際通用圖像質(zhì)量評價性能指標(biāo)主要有:皮爾森線性相關(guān)系數(shù)(Pearson linear correlation coefficient,PLCC)、斯皮爾曼秩相關(guān)系數(shù)(Spearman rank order correlation coefficient,SRCC)和均方根誤差(root mean squarederror,RMSE)[44]。PLCC、SRCC和RMSE分別衡量客觀質(zhì)量評價方法得到的預(yù)測分數(shù)與圖像的MOS值之間的準(zhǔn)確性、單調(diào)性和誤差。PLCC、SRCC的取值范圍為[0,1],絕對值越接近1越好,RMSE則越小越表明客觀質(zhì)量評價方法的性能越好。
4.2.2 性能對比
表7對比了采用公開數(shù)據(jù)集OIQA、CVIQ和MVAQD進行實驗的全景圖像質(zhì)量評價方法性能,其中包含客觀評價指標(biāo)CPP-PSNR、WS-SSIM,基于全景圖像投影失真的SSP-BOIQA、MP-BOIQA以及基于深度學(xué)習(xí)的MC360IQA、VGCN和DDAMSN。表8對比了采用SIQA、ISIQA和CROSS數(shù)據(jù)集進行實驗的方法性能,其中包含針對全景圖像縫合失真的NR-CSC-SIQA、AQA、CLGFQA和LVGD_BSPIQE以及基于深度學(xué)習(xí)的SPIQA、PFAHQP和VSOIQE。表9列舉了VR-IQA-NET、Omni-IQA和SAP-net在各自數(shù)據(jù)集上實驗的方法性能。
表7 公共數(shù)據(jù)集評價性能比較(OIQA,CVIQ,MVAQD)Table 7 Performance comparison on public datasets(OIQA,CVIQ,MVAQD)
表8 公共數(shù)據(jù)集評價性能比較(SIQA,ISIQA,CROSS)Table 8 Performance comparison on public datasets(SIQA,ISIQA,CROSS)
表9 公共數(shù)據(jù)集評價性能比較(SUN360,IQA-ODI)Table 9 Performance comparison on self-built datasets(SUN360,IQA-ODI)
4.2.3 小結(jié)
全景圖像質(zhì)量評價目前缺乏公認權(quán)威的公共數(shù)據(jù)集,不同評價算法之間的性能對比比較困難,目前只能在較為常用的數(shù)據(jù)集上分別對比分析。OIQA、CVIQ和MVAQD數(shù)據(jù)集主要面向存儲傳輸中引入失真的評價,基于投影失真和基于深度學(xué)習(xí)的方法使用較多。由表7中實驗結(jié)果表明,全景圖像客觀評價指標(biāo)的效果較差,例如CPP-PSNR、WS-SSIM的PLCC和SRCC性能與人的主觀感知匹配度較低?;谌皥D像投影失真的方法性能比之客觀評價指標(biāo)有了部分提升,但提升幅度有限;基于深度學(xué)習(xí)的全景圖像質(zhì)量評價方法則實現(xiàn)了顯著的性能提升,PLCC與SRCC已經(jīng)突破0.9,其中VGCN達到了最好的評價效果,與人眼主觀感受較為一致。并且深度學(xué)習(xí)方法中以視口圖像為網(wǎng)絡(luò)輸入的性能要整體優(yōu)于以ERP圖像為輸入的方法。SIQA、ISIQA和CROSS數(shù)據(jù)集主要面向拼接算法導(dǎo)致縫合失真的評價,其中ISIQA數(shù)據(jù)集使用頻次較高,由表8顯示,實驗結(jié)果最優(yōu)的PLCC和SRCC性能超過0.85但尚未突破0.9,仍有一定提升空間。表9中評價方法使用數(shù)據(jù)集難以找到其他方法與之對比,所以參考價值較低。
近年來隨著VR技術(shù)的發(fā)展和元宇宙時代來臨,全景圖像質(zhì)量評價成為研究熱點。相關(guān)圖像質(zhì)量評價數(shù)據(jù)集和先進評價方法被相繼提出。
(1)目前全景圖像的客觀評價指標(biāo)主要是基于傳統(tǒng)客觀評價指標(biāo)峰值信噪比PSNR與結(jié)構(gòu)相似性SSIM改進而來,但評價效果與人眼主觀感知匹配度較低。
(2)基于深度學(xué)習(xí)的評價方法進一步提升了評價的效果與精度,其中部分方法的評價結(jié)果已經(jīng)較為符合人類感知。但現(xiàn)常用全景圖像質(zhì)量評價數(shù)據(jù)集失真圖像數(shù)量僅為300到500,尚未存在量級較大且包含各類失真的數(shù)據(jù)集。這限制了深度學(xué)習(xí)方法的性能。并且全景圖像質(zhì)量評價研究使用的數(shù)據(jù)集多為自建自用,尚未存在公共權(quán)威的數(shù)據(jù)集能夠滿足不同評價方法橫向?qū)Ρ鹊男枨蟆?/p>
(3)全景圖像由于自身的拼接生成特性與內(nèi)容球形展示,具備不同于傳統(tǒng)二維圖像的特有失真:縫合失真和投影失真?;谔厥馐д嫣岢龅姆椒ú糠中Ч锌?,但仍需進一步提高。
(4)圖像質(zhì)量評價是利用計算機模擬人眼對圖像的視覺感受進行評價,人眼視覺系統(tǒng)特性是影響評價效果的重要因素,評價效果要符合人眼主觀感受。
(1)全景圖像的客觀評價指標(biāo)以及全參考質(zhì)量評價方法的性能較低,遠不能達到較為令人滿意的效果。因此探尋新的客觀評價指標(biāo)或?qū)鹘y(tǒng)二維圖像全參考質(zhì)量評價方法改進適配至全景圖像領(lǐng)域值得進一步研究。
(2)基于深度學(xué)習(xí)的IQA方法性能受限于數(shù)據(jù)集數(shù)據(jù)不足的情況,這在全景圖像數(shù)據(jù)集中尤為顯著。因此在方法中進行數(shù)據(jù)擴充并建立一個能夠滿足多方實驗需求且數(shù)據(jù)量足夠的公共權(quán)威數(shù)據(jù)集是未來的研究方向之一。
(3)針對全景圖像自身特殊失真的質(zhì)量評價方法具有一定的現(xiàn)實應(yīng)用性,但應(yīng)用面嚴重受限。因此探索能夠同時應(yīng)對各類失真的通用型全景圖像質(zhì)量評價方法在近些年逐漸興起,但仍需進一步研究。
(4)有些方法的評價效果與人眼的主觀感受相悖,這是由于未考慮到人眼視覺系統(tǒng)特性。不同評價方法效果對比也可以看出蘊含人眼觀察特點的方法效果往往較好。因此探索符合人眼視覺系統(tǒng)特性和人類視覺感知特點的全景圖像質(zhì)量評價方法值得深入研究。