王 斌,蔣圣超,卓浩澤,李泰霖,王飛風(fēng)
(廣西電網(wǎng)有限責(zé)任公司電力科學(xué)研究院 廣西電力裝備智能控制與運(yùn)維重點(diǎn)實(shí)驗室,廣西 南寧 530023)
近年來,隨著多媒體技術(shù)的發(fā)展,作為傳遞信息主要方式之一的數(shù)字圖像在人們的日常生活中被大量采集。然而,圖像在采集、壓縮、處理、傳輸和顯示等生命周期中會不可避免地產(chǎn)生各種各樣的失真,從而降低圖像的質(zhì)量[1]。因此,對一張圖像進(jìn)行質(zhì)量評估的算法研究成為當(dāng)前計算機(jī)視覺領(lǐng)域內(nèi)的重要研究方向。
圖像質(zhì)量評價(Image Quality Assessment,IQA)算法的研究可以應(yīng)用于許多場合,如圖像壓縮、圖像恢復(fù)、照片增強(qiáng)、圖像重建、圖像合成和圖像篩選等[2]。根據(jù)對參考圖像的依賴程度,IQA還可以進(jìn)一步分為全參考(Full-Reference)、半?yún)⒖迹≧educed-Reference)和無參考(No-Reference)這3種類型[3]。其中,無參考圖像質(zhì)量評價(No-Reference Image Quality Assessment,NR-IQA)由于不需要任何原始參考圖像的信息,僅僅使用待測失真圖像自身的特征進(jìn)行相應(yīng)質(zhì)量分?jǐn)?shù)的預(yù)測[4],相較于全參考和半?yún)⒖几鼮殪`活。
傳統(tǒng)的Transformer模型最早應(yīng)用在自然語言處理(Natural Language Processing,NLP)領(lǐng)域,雖然在計算機(jī)視覺領(lǐng)域也能使用,但是效果不夠顯著。這是因為Transformer的輸入與輸出維度相同,無法做到類似卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)一樣提取層級特征,導(dǎo)致該模型在視覺任務(wù)上達(dá)不到CNN的效果[5]。由微軟亞洲研究院于2021年提出的Swin Transformer(以下簡稱Swin-T)模型是Transformer模型的變體[6]。Swin-T模型利用Patch Merging操作,實(shí)現(xiàn)了類似CNN的層級操作,同時利用基于窗口的自注意力機(jī)制來減少計算的復(fù)雜度,從而使得Swin-T模型能夠在各類視覺任務(wù)中大放異彩?;谏鲜龇治?,利用Swin-T模型作為特征提取網(wǎng)絡(luò),提出一種結(jié)合全局-局部特征的雙通道NR-IQA算法。
為了能夠利用雙通道網(wǎng)絡(luò)同時提取圖像的全局特征和局部特征,使得算法能夠應(yīng)用于任意尺寸的輸入圖像,需要對輸入圖像進(jìn)行圖像預(yù)處理操作。首先,對任意尺寸輸入圖像進(jìn)行Resize操作,得到尺寸為224×224×3的全局通道輸入圖像,以便全局通道在訓(xùn)練時能夠關(guān)注圖像的全局信息。其次,局部通道圖像預(yù)處理需要將任意尺寸的輸入圖像均勻劃分為7×7個圖像塊,然后從每一個圖像塊中心取出尺寸為32×32的圖像補(bǔ)丁。最后,將這些圖像補(bǔ)丁按照原本處于圖像中的位置進(jìn)行重組,獲得一個尺寸為224×224×3的重組圖。
文章考慮了真實(shí)圖像失真的非均勻性,利用兩個通道同時提取全局特征和局部特征。由于局部特征能夠反映圖片中失真的非均勻情況,利用雙通道網(wǎng)絡(luò)學(xué)習(xí)的全局-局部特征更能反映真實(shí)圖像質(zhì)量的情況,通過回歸預(yù)測后得到的分?jǐn)?shù)更能貼合人們的視覺感知。
Swin-T模型由Swin Transformer Block組成,而Block總是成對出現(xiàn),如圖1所示。Block1中采用基于窗口的自注意力機(jī)制(Windows Multihead Self Attention,W-MSA),Block2中采用基于移位窗口的自注意力機(jī)制(Shift Windows Multihead Self Attention,SW-MSA)。
圖1 成對出現(xiàn)的Swin Transformer Block
2個連續(xù)的Swin Transformer Block的具體計算過程為
式中:為第l個Block中的W-MSA模塊的輸出特征,MW-SA為W-MSA模塊,PLN為層歸一化(Layer Norm,LN)處理,zl-1為第l-1個Block中的多層感知器(Multilayer Perceptron,MLP)模塊的輸出特征。
式中:zl為第1個Block中的MLP模塊的輸出特征,LMP為MLP模塊。
式中:為第l+1個Block中的SW-MSA模塊的輸出特征,MSW-SA為SW-MSA模塊。
式中:zl+1為第l+1個Block中的MLP模塊的輸出特征。
由式(1)~式(4)可知,輸入經(jīng)過LN和W-MSA后得到,經(jīng)過LN和MLP后得到zl,再經(jīng)過LN和SW-MSA得到,最后通過LN和MLP得到輸出zl+1。
在Swin-T模型中,可調(diào)參數(shù)有Swin Transformer Block的個數(shù)、特征圖的深度,即通道數(shù)、多頭注意力中的頭數(shù)以及窗口大小。文章使用Swin-T網(wǎng)絡(luò)作為特征提取模塊,輸入圖片尺寸為224×224×3,具體網(wǎng)絡(luò)參數(shù)如表1所示。
表1 Swin-T特征提取網(wǎng)絡(luò)結(jié)構(gòu)信息
回歸預(yù)測網(wǎng)絡(luò)用于完成特征到質(zhì)量分?jǐn)?shù)的映射。雙通道各自提取的全局-局部特征均是長度為768的特征向量,將兩者連接起來形成一個1×1×1 536的特征向量,然后經(jīng)過回歸預(yù)測網(wǎng)絡(luò)得到最終的圖像質(zhì)量預(yù)測分?jǐn)?shù)。這個回歸預(yù)測網(wǎng)絡(luò)由1 536×384和384×1這兩個全連接層組成。
雙通道網(wǎng)絡(luò)設(shè)計如圖2所示。首先,針對原圖像分別進(jìn)行Resize操作和局部重組操作,將所得的兩個尺寸均為224×224×3的新圖像作為兩個通道的輸入圖像。其次,經(jīng)全局網(wǎng)絡(luò)通道和局部網(wǎng)絡(luò)通道獲得長度為768的圖像全局特征向量和圖像局部特征向量。再次,通過Cat操作將兩個特征向量拼接成長度為1 536的圖像質(zhì)量特征向量。最后,通過兩層全連接層組成的回歸預(yù)測網(wǎng)絡(luò)完成圖像質(zhì)量特征到分?jǐn)?shù)的映射。
圖2 結(jié)合全局-局部特征的雙通道網(wǎng)絡(luò)
雙通道網(wǎng)絡(luò)進(jìn)行圖像質(zhì)量分?jǐn)?shù)預(yù)測的整體過程為
式中:I為輸入圖像,G(*)為Resize操作,L(*)為圖像局部分割重組操作,E(*)為特征提取,F(xiàn)(*)為Cat操作,ff為圖像的全局與局部相結(jié)合的特征,R(*)為回歸預(yù)測的全連接層,Q為最后所得的圖像質(zhì)量分?jǐn)?shù)。
LIVEC數(shù)據(jù)集于2016年由美國得克薩斯大學(xué)實(shí)驗室建立。該實(shí)驗組利用市面上常見的移動設(shè)備進(jìn)行圖像的拍攝采集,從而建立共計1 162張含有豐富的真實(shí)失真信息的圖像。平均意見得分(Mean Opinion Score,MOS)是一種常用的主觀質(zhì)量評價方法,常用于視頻、圖像等的質(zhì)量評價。不同MOS下的LIVEC數(shù)據(jù)集圖像如圖3所示。
圖3 LIVEC數(shù)據(jù)集圖像
SPAQ數(shù)據(jù)集由江西財經(jīng)大學(xué)提出,制作者利用66種不同的智能手機(jī)進(jìn)行圖像的拍攝采集工作,從而建立共含有11 125張圖像的真實(shí)失真圖像數(shù)據(jù)集,如圖4所示。這兩個數(shù)據(jù)集中圖像的質(zhì)量分?jǐn)?shù)標(biāo)簽均采用MOS值,取值范圍為[0,100],值越小表示圖像失真越嚴(yán)重,圖像質(zhì)量也就越差。
圖4 SPAQ數(shù)據(jù)集圖像
評價指標(biāo)采用斯皮爾曼秩相關(guān)系數(shù)(Spearman Rank Order Coefficient,SROCC)、皮爾森線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC)、肯德爾秩次相關(guān)系數(shù)(Kendall Rank-Order Correlation Coefficient,KROCC)與均方根誤差(Root Mean Squared Error,RMSE),分別用于評價模型預(yù)測的準(zhǔn)確性、單調(diào)性、相關(guān)一致性與偏差程度。其中,SROCC是用來評估圖像標(biāo)簽值與預(yù)測值之間單調(diào)關(guān)系的指標(biāo),PLCC是用來評估圖像標(biāo)簽值與預(yù)測值之間線性相關(guān)性的指標(biāo),兩者取值范圍均為[0,1],數(shù)值越接近1表示算法的圖像質(zhì)量評估準(zhǔn)確性越高。
實(shí)驗平臺的配置如表2所示。根據(jù)平臺硬件設(shè)備性能,本實(shí)驗將訓(xùn)練集與測試集比例設(shè)為8∶2,網(wǎng)絡(luò)輸入圖像大小設(shè)為224×224,網(wǎng)絡(luò)訓(xùn)練的批尺寸設(shè)為32,迭代次數(shù)設(shè)為150,初始學(xué)習(xí)率設(shè)為0.000 1,更新學(xué)習(xí)率的乘法因子設(shè)為0.9。
表2 實(shí)驗平臺相關(guān)配置
為了驗證所提出的全局-局部雙通道算法的有效性,根據(jù)全局-局部通道的有無設(shè)計3組算法進(jìn)行消融實(shí)驗。其中,G_IQA算法是針對全局特征的基于Swin-T模塊的單通道圖像質(zhì)量評價算法,L_IQA算法是針對局部特征的基于Swin-T模塊的單通道圖像質(zhì)量評價算法,GL_IQA算法是無特征融合模塊的雙通道圖像質(zhì)量評價算法。實(shí)驗數(shù)據(jù)如表3所示。
表3 在真實(shí)失真數(shù)據(jù)集上的消融實(shí)驗
從表3實(shí)驗結(jié)果可知,在兩個數(shù)據(jù)集上采用GL_IQA算法,SROCC和PLCC指標(biāo)均獲得消融實(shí)驗中的最佳數(shù)值。
選擇具有代表性且使用深度學(xué)習(xí)的算法,分析其在LIVEC數(shù)據(jù)集和SPAQ數(shù)據(jù)集上的性能表現(xiàn)進(jìn)行對比實(shí)驗,如TS-CNN、HOSA、DIQaM-NR、CORNIA 、CaHDC和NSSADNN算法。實(shí)驗結(jié)果如表4所示。
表4 在LIVEC與SPAQ數(shù)據(jù)集上的性能對比
根據(jù)表4的結(jié)果可知,在LIVEC數(shù)據(jù)集和SPAQ數(shù)據(jù)集上,所提算法無論是SROCC指標(biāo)還是PLCC指標(biāo)均取得最佳指標(biāo)值,說明所提出的結(jié)合全局-局部特征的雙通道算法對真實(shí)圖像進(jìn)行質(zhì)量評估效果顯著。
針對目前大多數(shù)IQA算法在面對真實(shí)失真數(shù)據(jù)集時效果不佳的原因進(jìn)行分析,并基于分析結(jié)果提出結(jié)合全局-局部特征的雙通道NR-IQA算法。相關(guān)實(shí)驗表明,所提算法在對具有失真非均勻性的真實(shí)圖像進(jìn)行質(zhì)量評估時效果顯著,并且與人的主觀視覺有著較高的一致性。同時,該算法在獲取局部失真特征時對原圖進(jìn)行均勻的分塊和截取,但是真實(shí)圖像的內(nèi)容分布并不均勻,因此未來工作可以考慮在進(jìn)行局部失真重組時引入顯著性檢測算法,從而獲取更具有代表性的局部失真重組圖。