安平,劉欣,丁文欣,孟春麗
(上海大學(xué)通信與信息工程學(xué)院,上海 200444)
虛擬現(xiàn)實(shí)(Virtual Reality, VR)作為新興的媒體,融合了新型顯示、計(jì)算機(jī)仿真、人機(jī)交互、圖像處理、人工智能等多個(gè)領(lǐng)域技術(shù),可以創(chuàng)建一個(gè)符合現(xiàn)實(shí)世界規(guī)則的虛擬環(huán)境,也可以構(gòu)建一個(gè)與現(xiàn)實(shí)相悖的完整假設(shè)環(huán)境,給人們帶來沉浸式體驗(yàn)。虛擬現(xiàn)實(shí)在教育、游戲、房地產(chǎn)、汽車、軍事等眾多領(lǐng)域都發(fā)揮著重要作用,應(yīng)用前景巨大。
頭戴式設(shè)備(Head Mount Display,HMD)用來顯示全景和立體圖像或視頻,為用戶提供模擬的沉浸式環(huán)境。全景圖像作為VR媒體內(nèi)容最主要的形式之一,可以為觀看者提供360度自由觀看的效果。自然場(chǎng)景的全景圖像通常有兩種拍攝方式:一種是利用全自動(dòng)的全景相機(jī)拍攝得到,這種全景相機(jī)內(nèi)部安裝有多個(gè)不同方向的鏡頭,拍攝后利用相機(jī)自帶的圖像拼接算法得到全景圖像;另一種是使用單反相機(jī)配合魚眼鏡頭和云臺(tái),將相機(jī)固定在云臺(tái)上,拍攝多張四周以及上下有部分重疊的圖像,再使用拼接算法進(jìn)行拼接。
全景圖像在拼接時(shí)可能會(huì)因?yàn)橐暡町a(chǎn)生重影或者模糊;在編碼時(shí)會(huì)降低圖像的質(zhì)量;在進(jìn)行播放時(shí),可能會(huì)因?yàn)轭^戴式設(shè)備的硬件條件不足,使得呈現(xiàn)的畫質(zhì)差或者畫面卡頓,也可能因?yàn)橛^看者對(duì)于畫面或者設(shè)備不適應(yīng),產(chǎn)生眩暈感。采集、拼接、壓縮、傳輸和播放等環(huán)節(jié)都可能對(duì)全景圖像質(zhì)量造成損害,嚴(yán)重影響觀看者的體驗(yàn)。準(zhǔn)確地評(píng)價(jià)全景圖像的質(zhì)量可以有效幫助拼接、壓縮算法以及播放設(shè)備的改進(jìn)。
與普通圖像的質(zhì)量評(píng)價(jià)類似,全景圖像質(zhì)量評(píng)價(jià)也包括主觀評(píng)價(jià)和客觀評(píng)價(jià)兩個(gè)分支。主觀評(píng)價(jià)結(jié)果相對(duì)可靠,可以作為客觀評(píng)價(jià)模型的真值;而客觀評(píng)價(jià)模型具有批處理和結(jié)果可再現(xiàn)的優(yōu)點(diǎn)。大多數(shù)客觀評(píng)估模型都基于自然場(chǎng)景統(tǒng)計(jì)和模擬人類視覺系統(tǒng)的數(shù)學(xué)模型。根據(jù)其對(duì)參考圖像的依賴性,客觀評(píng)價(jià)包括三類:完全參考(full reference,FR)、半?yún)⒖?reduced reference,RR)、無參考(no reference,NR)[1]。FR評(píng)價(jià)方法充分利用參考圖像的完整信息,通常更可靠和準(zhǔn)確;RR評(píng)估方法通過提取參考圖像的部分統(tǒng)計(jì)特征來計(jì)算圖像質(zhì)量;NR評(píng)價(jià)模型只使用測(cè)試圖像,具有很高的靈活性,最具實(shí)用價(jià)值。由于全景圖像是從球面投影到平面格式進(jìn)行編碼傳輸?shù)?,傳統(tǒng)的圖像質(zhì)量評(píng)價(jià)模型并不適用于全景圖像。因此,建立一個(gè)有效的客觀質(zhì)量評(píng)價(jià)模型對(duì)全景圖像的發(fā)展具有重要意義。
現(xiàn)有的全參考全景圖像質(zhì)量評(píng)價(jià)方法大多是基于峰值信噪比(Peak Signal to Noise Ratio,PSNR)或者結(jié)構(gòu)相似性(Structural Similarity,SSIM),通過反投影、增加權(quán)重策略的方式來擴(kuò)展到全景圖像質(zhì)量評(píng)價(jià)。如S-PSNR(Spherical PSNR)[2]、WS-PSNR(Weighted-to-Sphericallyuniform PSNR)[3]、CPP-PSNR(Craster Parabolic Projection PSNR)[4]、S-SSIM(Spherical SSIM)[5]、WS-SSIM(Weightedto -Spherically-uniform PSNR)[6]、USS-PSNR(Uniformly Sampled Spherical PSNR)[7]。這些方法在計(jì)算上較為方便,但未能考慮到受試者在觀看全景圖像時(shí),對(duì)不同區(qū)域的感興趣程度和觀看時(shí)長(zhǎng)不同,甚至有超過1/3的區(qū)域沒有被觀看[8]。無參考方法多為基于深度學(xué)習(xí)的方法,Kim等[9]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的模型,Li等[10]提出了基于視口的卷積神經(jīng)網(wǎng)絡(luò)方法,Xu等人提出了一種面向視口的圖卷積網(wǎng)絡(luò)方法[11]。深度學(xué)習(xí)的方法需要對(duì)圖像進(jìn)行分塊操作,利用網(wǎng)絡(luò)對(duì)每個(gè)分塊單獨(dú)進(jìn)行打分,然后使用權(quán)重分配策略對(duì)分塊的質(zhì)量進(jìn)行融合。因此,這種方式十分依賴分塊的質(zhì)量分?jǐn)?shù),并且無法大范圍地感知全景圖像的質(zhì)量。
由于360°圖像的觀看范圍以及觀看方式與2D圖像完全不同,因此,在人類視覺感知方面,2D圖像和360°圖像最大的區(qū)別在于視覺注意力[12]。針對(duì)當(dāng)前全景圖像質(zhì)量評(píng)價(jià)研究存在的問題,在設(shè)計(jì)客觀質(zhì)量評(píng)價(jià)方法時(shí)應(yīng)考慮受試者在觀看全景圖像的注意力分布,同時(shí)從全局的角度感知全景圖像的質(zhì)量。本文重點(diǎn)討論兩種無參考的全景圖像質(zhì)量評(píng)價(jià)方法:(1)針對(duì)全景圖像中不同區(qū)域分塊受到編碼失真的影響不同以及受試者對(duì)不同區(qū)域分塊關(guān)注度不同的特點(diǎn),提出基于顯著性檢測(cè)的無參考全景圖像質(zhì)量評(píng)價(jià)方法;(2)兼顧受試者對(duì)全景圖像的全局感知質(zhì)量和局部注意力,提出基于多特征融合的全景圖像質(zhì)量評(píng)價(jià)方法。
一個(gè)完整的全景圖像處理過程包括圖像采集、拼接、投影變換、壓縮編碼傳輸、圖像解碼、反投影,如圖1所示。其中常用的投影格式有:等矩形投影(Equi-Rectangular Projection,ERP)、立方體投影(Cubmap Projection,CMP)、等面積投影(Equal-area Projection, EAP)、八面體投影(Octahedron Projection, OHP)、正二十面體投影(Icosahedron Projection,ISP)[13]。由于不同投影格式在壓縮比和畫質(zhì)重現(xiàn)上,有各自的優(yōu)缺點(diǎn),因此面對(duì)不同的使用場(chǎng)景,便出現(xiàn)了不同的選擇方案。全景視頻技術(shù)發(fā)展迅速,至今仍未有統(tǒng)一的標(biāo)準(zhǔn)。
圖1 全景圖像處理過程
在已有的投影類型中,從球面到平面的采樣密度在每個(gè)像素位置是不均勻的。因此,直接應(yīng)用傳統(tǒng)圖像質(zhì)量評(píng)價(jià)方法會(huì)使得不同像素位置對(duì)質(zhì)量分?jǐn)?shù)的貢獻(xiàn)存在偏差。
Sitzmann 等[14]對(duì)受試者觀看全景視頻時(shí)的注視點(diǎn)區(qū)域做了定量分析,發(fā)現(xiàn)平均顯著圖在緯度上有一種“赤道偏差(Equator Bias, EB)”的現(xiàn)象。如圖2 所示,平均顯著圖的分布情況可以很好地用拉普拉斯分布來描述。拉普拉斯分布的概率密度函數(shù)為:
圖2 全景圖像的平均顯著圖及其分布規(guī)律
其中,μ 和λ 為常數(shù),分別表示位置參數(shù)和尺度參數(shù)。平均顯著圖在緯度方向上的分布具體為位置參數(shù)μ=91.3°、尺度參數(shù)λ=18.58°。
EB 現(xiàn)象說明,受試者在赤道區(qū)域的觀測(cè)頻率遠(yuǎn)高于其他區(qū)域,因此對(duì)赤道區(qū)域的圖像質(zhì)量也更為敏感。受試者的觀看方向從統(tǒng)計(jì)上來說更偏向赤道前方區(qū)域,但對(duì)于特定圖像內(nèi)容,觀看方向又會(huì)有所不同[15],比如強(qiáng)紋理的區(qū)域。
人們?cè)谟^看圖像時(shí)會(huì)注意到圖像的顯著區(qū)域,尤其當(dāng)觀看全景圖像時(shí)這一現(xiàn)象更加突出。此外,大尺寸的全景圖像中往往存在許多受失真影響很小的弱紋理平坦區(qū)域??紤]這些特性,我們提出一種利用全景圖像顯著性信息的質(zhì)量評(píng)價(jià)模型。
圖3為方法框圖,包括顯著性預(yù)測(cè)網(wǎng)絡(luò)、顯著信息篩選模塊和質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)三個(gè)部分。
圖3 基于顯著性檢測(cè)的全景圖像質(zhì)量評(píng)價(jià)框架
(1)全景圖像的顯著性預(yù)測(cè)網(wǎng)絡(luò)
首先,將全景圖像輸入顯著性檢測(cè)網(wǎng)絡(luò),得到全景圖像的顯著圖。由于受試者在觀看全景圖像時(shí)會(huì)重點(diǎn)觀看顯著目標(biāo)及其附近區(qū)域,因此,全景圖像的主觀質(zhì)量受到顯著目標(biāo)及其附近區(qū)域的影響較大。本文采用多級(jí)網(wǎng)絡(luò)結(jié)構(gòu)ML-Net[16]提取全景圖像的顯著圖,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。其中,特征提取網(wǎng)絡(luò)是在VGG-16[17]的基礎(chǔ)上改進(jìn)的,將不同卷積層的特征抽取出來并疊加得到多級(jí)特征圖,這種多級(jí)特征圖可以更好地表達(dá)圖像的顯著性特征;編碼網(wǎng)絡(luò)負(fù)責(zé)對(duì)多級(jí)特征圖進(jìn)行編碼,得到顯著圖;先驗(yàn)學(xué)習(xí)網(wǎng)絡(luò)結(jié)合了前述的全景圖像拉普拉斯分布平均顯著圖特性,在編碼網(wǎng)絡(luò)輸出的顯著圖的基礎(chǔ)上,進(jìn)一步提高了整體網(wǎng)絡(luò)的性能,使得網(wǎng)絡(luò)最終的輸出與人類注視點(diǎn)圖更加接近。
圖4 全景圖像顯著性預(yù)測(cè)網(wǎng)絡(luò)
(2)全景圖像的顯著信息篩選模塊
在圖像輸入到分?jǐn)?shù)預(yù)測(cè)網(wǎng)絡(luò)之前,需要將圖像均勻分割成小塊,每個(gè)小塊單獨(dú)輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。小塊的質(zhì)量分?jǐn)?shù)與完整全景圖像的質(zhì)量分?jǐn)?shù)相同。為了滿足所有小塊質(zhì)量一致且能代表整個(gè)圖像質(zhì)量的要求,鑒于顯著區(qū)域是受試者重點(diǎn)關(guān)注的區(qū)域,我們以顯著性檢測(cè)網(wǎng)絡(luò)生成的顯著圖為依據(jù),將每個(gè)小塊按照顯著性從大到小排序,選取顯著性較高的部分小塊輸入到質(zhì)量評(píng)價(jià)預(yù)測(cè)網(wǎng)絡(luò)中。
(3)全景圖像的質(zhì)量評(píng)價(jià)分?jǐn)?shù)預(yù)測(cè)網(wǎng)絡(luò)
考慮到ResNet-50[18]在質(zhì)量評(píng)價(jià)任務(wù)上的良好性能[19],本方法用其作為質(zhì)量評(píng)估主干網(wǎng)絡(luò)。將上述篩選模塊輸出的高顯著性全景圖像小塊輸入到質(zhì)量評(píng)估網(wǎng)絡(luò)中進(jìn)行訓(xùn)練和質(zhì)量預(yù)測(cè),得到小塊的質(zhì)量分?jǐn)?shù)。最后計(jì)算這些小塊的平均得分作為整個(gè)全景圖像的質(zhì)量分?jǐn)?shù)。
實(shí)驗(yàn)在ERP格式的全景視頻上進(jìn)行。對(duì)于顯著性檢測(cè)任務(wù),使用SALION數(shù)據(jù)庫(kù)[20]訓(xùn)練和測(cè)試多級(jí)特征網(wǎng)絡(luò)。兼顧可訓(xùn)練圖像的數(shù)量和利于表達(dá)圖像質(zhì)量,篩選模塊中的圖像小塊尺寸為128*128,篩選出前40%的高顯著小塊。對(duì)于質(zhì)量評(píng)價(jià)預(yù)測(cè)網(wǎng)絡(luò),采用VQA-ODV數(shù)據(jù)庫(kù)[8]進(jìn)行訓(xùn)練和預(yù)測(cè);學(xué)習(xí)率設(shè)置為0.0005。質(zhì)量評(píng)價(jià)指標(biāo)采用常用的斯皮爾曼秩序相關(guān)系數(shù)(Spearman Rank-order Correlation Coefficient,SROCC)、皮爾遜線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC)和根均方誤差(Root Mean Squared Error,RMSE)。其中,SROCC、PLCC的值越接近1表示算法的效果越好,RMSE的值越接近0表示算法的效果越好。
本方法與平面圖像評(píng)價(jià)算法SSIM 以及全景圖像質(zhì)量評(píng)價(jià)算法S-PSNR[2]、WS-PSNR[3]、CPP-PSNR[4]、WS-SSIM[6]、BP-QAVR[21]、Li[8]的比較結(jié)果如表1所示,對(duì)應(yīng)的散點(diǎn)圖和擬合曲線如圖5所示??梢姳痉椒ň哂懈玫男阅埽A(yù)測(cè)分?jǐn)?shù)的散點(diǎn)圖更加集中地分布在擬合曲線附近,證明了本方法對(duì)于全景圖像質(zhì)量分?jǐn)?shù)的預(yù)測(cè)更加準(zhǔn)確。
表1 基于顯著性檢測(cè)評(píng)價(jià)方法對(duì)比實(shí)驗(yàn)結(jié)果
圖5 MOS與客觀質(zhì)量評(píng)價(jià)算法預(yù)測(cè)分?jǐn)?shù)的散點(diǎn)圖及擬合曲線
人們?cè)谟^看全景圖像時(shí),一方面,注意力往往分布在赤道區(qū)域;另一方面,紋理明顯的區(qū)域也更容易獲得受試者的關(guān)注。此外,失真也會(huì)對(duì)顏色造成一定的影響,而顏色也是我們主觀感知全景圖像質(zhì)量的重要因素。為此,我們提出一種基于多特征融合的全景圖像質(zhì)量評(píng)價(jià)方法。
多特征融合的全景圖像質(zhì)量評(píng)價(jià)方法框圖如圖6。主要步驟包括全景圖像預(yù)處理、特征提取、模型訓(xùn)練與測(cè)試等。
圖6 多特征融合的全景圖像質(zhì)量評(píng)價(jià)方法框圖
(1)圖像預(yù)處理
圖像預(yù)處理主要有兩項(xiàng)內(nèi)容,一項(xiàng)是根據(jù)平均顯著區(qū)域的范圍,對(duì)輸入圖像進(jìn)行裁剪,獲取平均顯著性區(qū)域的圖像,用于后續(xù)提取紋理特征??紤]到人眼的單眼舒適區(qū)域?yàn)?0°,以及ERP投影的變換方式,本文未嚴(yán)格按照?qǐng)D2的平均顯著圖來截取顯著區(qū)域,而是截取南緯30°至北緯30°這一范圍作為平均顯著區(qū)域。另一項(xiàng)是對(duì)圖像進(jìn)行多次下采樣,得到不同尺度圖像,用于后續(xù)提取自然場(chǎng)景統(tǒng)計(jì)(Natural Scene Statistics,NSS)特征。
(2)特征提取
為了從全局角度感知全景圖像的質(zhì)量,并考慮觀看者的注意力分布,本文同時(shí)提取全局特征和局部特征。
a)全局特征提取
我們提取顏色和多尺度NSS兩種全局特征。
通過頭戴式設(shè)備觀看全景圖像時(shí),2D ERP 圖像被解碼成3D 球形圖像,這是一個(gè)從低分辨率轉(zhuǎn)為高分辨率的過程,大量的插值使得顏色仿佛被“稀釋”了一樣。所以受試者在佩戴HMD 觀看全景圖像時(shí),往往會(huì)發(fā)現(xiàn)圖像的色彩觀感不如直接在顯示屏上看到的ERP圖像。因此,我們把顏色特征作為一個(gè)基礎(chǔ)視覺特征。具體地,將圖像的RGB 顏色通道轉(zhuǎn)換成更接近于人眼視覺系統(tǒng)的HSV(Hue:色調(diào);Saturation:飽和度;Value:明度)空間,并分別計(jì)算這三個(gè)分量的平均值,作為圖像的色彩特征。
NSS特征提取步驟參見文獻(xiàn)[22]。不同于原方法對(duì)輸入圖像僅做一次下采樣、最后得到一個(gè)維度為36的特征向量,本文考慮到全景圖像具有高分辨率的特性,對(duì)全景圖像進(jìn)行了四次下采樣。算上原圖像,共有5 個(gè)尺度圖像,得到一個(gè)90 維的特征向量,作為最終的多尺度NSS 特征。同一全景圖像在不同的頭戴式設(shè)備上播放時(shí),受試者主觀感知的清晰度會(huì)有所不同。不同的尺度可以用于表征不同的清晰度,大的尺度對(duì)應(yīng)著較高的清晰度,小的尺度對(duì)應(yīng)著較低的清晰度。因此,提取多尺度NSS特征不僅擴(kuò)充了特征的維度,使得特征包含更多的信息,還能更好地表征圖像的清晰度。
b)局部特征提取
紋理特征通過刻畫圖像中反復(fù)出現(xiàn)的局部模式及其排列規(guī)則來反映物體表面的特性,具備旋轉(zhuǎn)不變性以及良好的抗噪聲性能。對(duì)于全景圖像,無論是從投影對(duì)紋理造成拉伸的角度,還是從受試者觀看全景圖像的注意力分布特點(diǎn),在赤道附近提取全景圖像的紋理特征都比全局的紋理特征更為合理。如圖6 所示,我們?cè)诔嗟绤^(qū)域進(jìn)行紋理特征提取。
提取紋理特征有多種方法,本文選取基于統(tǒng)計(jì)的灰度共生矩陣(Gray Level Co-occurrence Matrix,GLCM)方法[23],得到80 維紋理特征。該方法易于實(shí)現(xiàn),并且能夠體現(xiàn)一幅圖像中灰度的有關(guān)方向、相鄰間隔和幅度變化的綜合信息。
(3)模型訓(xùn)練及測(cè)試
將上面計(jì)算得到的三類特征拼接在一起,作為輸入圖像的整體特征。本文使用OIQA數(shù)據(jù)庫(kù)[24]進(jìn)行模型的支持向量回歸(Support Vector Regression, SVR)訓(xùn)練與測(cè)試。由于SVR 訓(xùn)練和測(cè)試的結(jié)果具有隨機(jī)性,為了保證結(jié)果的可靠性,每次訓(xùn)練時(shí)隨機(jī)選擇12個(gè)場(chǎng)景中對(duì)應(yīng)的原始圖像及失真圖像,測(cè)試時(shí)選擇剩下的4個(gè)場(chǎng)景對(duì)應(yīng)的原始圖像及失真圖像。這樣重復(fù)1000 次交叉驗(yàn)證,取所有實(shí)驗(yàn)中SROCC 的中位數(shù)及其對(duì)應(yīng)的其他指標(biāo)作為最終的實(shí)驗(yàn)結(jié)果。
本文提出的方法在OIQA數(shù)據(jù)庫(kù)上得到的散點(diǎn)圖如圖7所示,觀察擬合曲線可以發(fā)現(xiàn),模型預(yù)測(cè)的分?jǐn)?shù)和主觀分?jǐn)?shù)擬合的較為完好。本方法與其他方法的對(duì)比實(shí)驗(yàn)結(jié)果如表2 所示,可見本方法在SROCC、PLCC 和RMSE三個(gè)指標(biāo)上均優(yōu)于現(xiàn)有的一些全景圖像質(zhì)量評(píng)價(jià)方法。
圖7 多特征融合質(zhì)量評(píng)價(jià)方法的散點(diǎn)圖
表2 多特征融合方法對(duì)比實(shí)驗(yàn)結(jié)果
全景圖像在采集、拼接、編碼、傳輸、播放等過程中都可能引起圖像失真,破壞觀看者的體驗(yàn)。本文利用受試者注意力分布特點(diǎn),提出了基于顯著性檢測(cè)的全景圖像質(zhì)量評(píng)價(jià)方法:首先將全景圖像輸入顯著性檢測(cè)網(wǎng)絡(luò),得到全景圖像的注視點(diǎn)預(yù)測(cè)圖;接著通過顯著信息篩選模塊,將全景圖像均勻分割為小塊,選擇顯著性高的小塊輸入到質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練和預(yù)測(cè),提高了質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)的性能。同時(shí)結(jié)合受試者全局質(zhì)量感知特性,提出了基于多特征融合的無參考全景圖像質(zhì)量評(píng)價(jià)方法:首先,從全局的角度,提取顏色特征和多尺度NSS特征;其次,從注意力機(jī)制的角度,提取平均顯著區(qū)域的紋理特征;最后,將多特征融合輸入到SVR中訓(xùn)練并得到回歸模型,獲得了較好的質(zhì)量預(yù)測(cè)性能。