融合全局-局部特征的雙通道無參考圖像質(zhì)量評價算法研究

2024-04-28 12:27:58蔣圣超卓浩澤李泰霖王飛風(fēng)

電視技術(shù) 2024年3期

王斌，蔣圣超，卓浩澤，李泰霖，王飛風(fēng)

（廣西電網(wǎng)有限責(zé)任公司電力科學(xué)研究院廣西電力裝備智能控制與運(yùn)維重點(diǎn)實(shí)驗室，廣西南寧 530023）

0 引言

近年來，隨著多媒體技術(shù)的發(fā)展，作為傳遞信息主要方式之一的數(shù)字圖像在人們的日常生活中被大量采集。然而，圖像在采集、壓縮、處理、傳輸和顯示等生命周期中會不可避免地產(chǎn)生各種各樣的失真，從而降低圖像的質(zhì)量[1]。因此，對一張圖像進(jìn)行質(zhì)量評估的算法研究成為當(dāng)前計算機(jī)視覺領(lǐng)域內(nèi)的重要研究方向。

圖像質(zhì)量評價（Image Quality Assessment，IQA）算法的研究可以應(yīng)用于許多場合，如圖像壓縮、圖像恢復(fù)、照片增強(qiáng)、圖像重建、圖像合成和圖像篩選等[2]。根據(jù)對參考圖像的依賴程度，IQA還可以進(jìn)一步分為全參考（Full-Reference）、半?yún)⒖迹≧educed-Reference）和無參考（No-Reference）這3種類型[3]。其中，無參考圖像質(zhì)量評價（No-Reference Image Quality Assessment，NR-IQA）由于不需要任何原始參考圖像的信息，僅僅使用待測失真圖像自身的特征進(jìn)行相應(yīng)質(zhì)量分?jǐn)?shù)的預(yù)測[4]，相較于全參考和半?yún)⒖几鼮殪`活。

傳統(tǒng)的Transformer模型最早應(yīng)用在自然語言處理（Natural Language Processing，NLP）領(lǐng)域，雖然在計算機(jī)視覺領(lǐng)域也能使用，但是效果不夠顯著。這是因為Transformer的輸入與輸出維度相同，無法做到類似卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）一樣提取層級特征，導(dǎo)致該模型在視覺任務(wù)上達(dá)不到CNN的效果[5]。由微軟亞洲研究院于2021年提出的Swin Transformer（以下簡稱Swin-T）模型是Transformer模型的變體[6]。Swin-T模型利用Patch Merging操作，實(shí)現(xiàn)了類似CNN的層級操作，同時利用基于窗口的自注意力機(jī)制來減少計算的復(fù)雜度，從而使得Swin-T模型能夠在各類視覺任務(wù)中大放異彩?；谏鲜龇治?，利用Swin-T模型作為特征提取網(wǎng)絡(luò)，提出一種結(jié)合全局-局部特征的雙通道NR-IQA算法。

1 圖像預(yù)處理

為了能夠利用雙通道網(wǎng)絡(luò)同時提取圖像的全局特征和局部特征，使得算法能夠應(yīng)用于任意尺寸的輸入圖像，需要對輸入圖像進(jìn)行圖像預(yù)處理操作。首先，對任意尺寸輸入圖像進(jìn)行Resize操作，得到尺寸為224×224×3的全局通道輸入圖像，以便全局通道在訓(xùn)練時能夠關(guān)注圖像的全局信息。其次，局部通道圖像預(yù)處理需要將任意尺寸的輸入圖像均勻劃分為7×7個圖像塊，然后從每一個圖像塊中心取出尺寸為32×32的圖像補(bǔ)丁。最后，將這些圖像補(bǔ)丁按照原本處于圖像中的位置進(jìn)行重組，獲得一個尺寸為224×224×3的重組圖。

2 雙通道網(wǎng)絡(luò)

文章考慮了真實(shí)圖像失真的非均勻性，利用兩個通道同時提取全局特征和局部特征。由于局部特征能夠反映圖片中失真的非均勻情況，利用雙通道網(wǎng)絡(luò)學(xué)習(xí)的全局-局部特征更能反映真實(shí)圖像質(zhì)量的情況，通過回歸預(yù)測后得到的分?jǐn)?shù)更能貼合人們的視覺感知。

2.1 特征提取網(wǎng)絡(luò)

Swin-T模型由Swin Transformer Block組成，而Block總是成對出現(xiàn)，如圖1所示。Block1中采用基于窗口的自注意力機(jī)制（Windows Multihead Self Attention，W-MSA），Block2中采用基于移位窗口的自注意力機(jī)制（Shift Windows Multihead Self Attention，SW-MSA）。

圖1 成對出現(xiàn)的Swin Transformer Block

2個連續(xù)的Swin Transformer Block的具體計算過程為

式中：為第l個Block中的W-MSA模塊的輸出特征，MW-SA為W-MSA模塊，PLN為層歸一化（Layer Norm，LN）處理，zl-1為第l-1個Block中的多層感知器（Multilayer Perceptron，MLP）模塊的輸出特征。

式中：zl為第1個Block中的MLP模塊的輸出特征，LMP為MLP模塊。

式中：為第l+1個Block中的SW-MSA模塊的輸出特征，MSW-SA為SW-MSA模塊。

式中：zl+1為第l+1個Block中的MLP模塊的輸出特征。

由式（1）～式（4）可知，輸入經(jīng)過LN和W-MSA后得到，經(jīng)過LN和MLP后得到zl,再經(jīng)過LN和SW-MSA得到，最后通過LN和MLP得到輸出zl+1。

在Swin-T模型中，可調(diào)參數(shù)有Swin Transformer Block的個數(shù)、特征圖的深度，即通道數(shù)、多頭注意力中的頭數(shù)以及窗口大小。文章使用Swin-T網(wǎng)絡(luò)作為特征提取模塊，輸入圖片尺寸為224×224×3，具體網(wǎng)絡(luò)參數(shù)如表1所示。

表1 Swin-T特征提取網(wǎng)絡(luò)結(jié)構(gòu)信息

2.2 回歸預(yù)測網(wǎng)絡(luò)

回歸預(yù)測網(wǎng)絡(luò)用于完成特征到質(zhì)量分?jǐn)?shù)的映射。雙通道各自提取的全局-局部特征均是長度為768的特征向量，將兩者連接起來形成一個1×1×1 536的特征向量，然后經(jīng)過回歸預(yù)測網(wǎng)絡(luò)得到最終的圖像質(zhì)量預(yù)測分?jǐn)?shù)。這個回歸預(yù)測網(wǎng)絡(luò)由1 536×384和384×1這兩個全連接層組成。

2.3 雙通道網(wǎng)絡(luò)架構(gòu)

雙通道網(wǎng)絡(luò)設(shè)計如圖2所示。首先，針對原圖像分別進(jìn)行Resize操作和局部重組操作，將所得的兩個尺寸均為224×224×3的新圖像作為兩個通道的輸入圖像。其次，經(jīng)全局網(wǎng)絡(luò)通道和局部網(wǎng)絡(luò)通道獲得長度為768的圖像全局特征向量和圖像局部特征向量。再次，通過Cat操作將兩個特征向量拼接成長度為1 536的圖像質(zhì)量特征向量。最后，通過兩層全連接層組成的回歸預(yù)測網(wǎng)絡(luò)完成圖像質(zhì)量特征到分?jǐn)?shù)的映射。

圖2 結(jié)合全局-局部特征的雙通道網(wǎng)絡(luò)

雙通道網(wǎng)絡(luò)進(jìn)行圖像質(zhì)量分?jǐn)?shù)預(yù)測的整體過程為

式中：I為輸入圖像，G(*)為Resize操作，L(*)為圖像局部分割重組操作，E(*)為特征提取，F(xiàn)(*)為Cat操作，ff為圖像的全局與局部相結(jié)合的特征，R(*)為回歸預(yù)測的全連接層，Q為最后所得的圖像質(zhì)量分?jǐn)?shù)。

3 實(shí)驗結(jié)果與數(shù)據(jù)分析

3.1 數(shù)據(jù)集與評估指標(biāo)

LIVEC數(shù)據(jù)集于2016年由美國得克薩斯大學(xué)實(shí)驗室建立。該實(shí)驗組利用市面上常見的移動設(shè)備進(jìn)行圖像的拍攝采集，從而建立共計1 162張含有豐富的真實(shí)失真信息的圖像。平均意見得分（Mean Opinion Score，MOS）是一種常用的主觀質(zhì)量評價方法，常用于視頻、圖像等的質(zhì)量評價。不同MOS下的LIVEC數(shù)據(jù)集圖像如圖3所示。

圖3 LIVEC數(shù)據(jù)集圖像

SPAQ數(shù)據(jù)集由江西財經(jīng)大學(xué)提出，制作者利用66種不同的智能手機(jī)進(jìn)行圖像的拍攝采集工作，從而建立共含有11 125張圖像的真實(shí)失真圖像數(shù)據(jù)集，如圖4所示。這兩個數(shù)據(jù)集中圖像的質(zhì)量分?jǐn)?shù)標(biāo)簽均采用MOS值，取值范圍為[0,100]，值越小表示圖像失真越嚴(yán)重，圖像質(zhì)量也就越差。

圖4 SPAQ數(shù)據(jù)集圖像

評價指標(biāo)采用斯皮爾曼秩相關(guān)系數(shù)（Spearman Rank Order Coefficient，SROCC）、皮爾森線性相關(guān)系數(shù)（Pearson Linear Correlation Coefficient，PLCC）、肯德爾秩次相關(guān)系數(shù)（Kendall Rank-Order Correlation Coefficient，KROCC）與均方根誤差（Root Mean Squared Error，RMSE），分別用于評價模型預(yù)測的準(zhǔn)確性、單調(diào)性、相關(guān)一致性與偏差程度。其中，SROCC是用來評估圖像標(biāo)簽值與預(yù)測值之間單調(diào)關(guān)系的指標(biāo)，PLCC是用來評估圖像標(biāo)簽值與預(yù)測值之間線性相關(guān)性的指標(biāo)，兩者取值范圍均為[0，1]，數(shù)值越接近1表示算法的圖像質(zhì)量評估準(zhǔn)確性越高。

3.2 實(shí)驗配置

實(shí)驗平臺的配置如表2所示。根據(jù)平臺硬件設(shè)備性能，本實(shí)驗將訓(xùn)練集與測試集比例設(shè)為8∶2，網(wǎng)絡(luò)輸入圖像大小設(shè)為224×224，網(wǎng)絡(luò)訓(xùn)練的批尺寸設(shè)為32，迭代次數(shù)設(shè)為150，初始學(xué)習(xí)率設(shè)為0.000 1，更新學(xué)習(xí)率的乘法因子設(shè)為0.9。

表2 實(shí)驗平臺相關(guān)配置

3.3 消融實(shí)驗

為了驗證所提出的全局-局部雙通道算法的有效性，根據(jù)全局-局部通道的有無設(shè)計3組算法進(jìn)行消融實(shí)驗。其中，G_IQA算法是針對全局特征的基于Swin-T模塊的單通道圖像質(zhì)量評價算法，L_IQA算法是針對局部特征的基于Swin-T模塊的單通道圖像質(zhì)量評價算法，GL_IQA算法是無特征融合模塊的雙通道圖像質(zhì)量評價算法。實(shí)驗數(shù)據(jù)如表3所示。

表3 在真實(shí)失真數(shù)據(jù)集上的消融實(shí)驗

從表3實(shí)驗結(jié)果可知，在兩個數(shù)據(jù)集上采用GL_IQA算法，SROCC和PLCC指標(biāo)均獲得消融實(shí)驗中的最佳數(shù)值。

3.4 對比實(shí)驗

選擇具有代表性且使用深度學(xué)習(xí)的算法，分析其在LIVEC數(shù)據(jù)集和SPAQ數(shù)據(jù)集上的性能表現(xiàn)進(jìn)行對比實(shí)驗，如TS-CNN、HOSA、DIQaM-NR、CORNIA 、CaHDC和NSSADNN算法。實(shí)驗結(jié)果如表4所示。

表4 在LIVEC與SPAQ數(shù)據(jù)集上的性能對比

根據(jù)表4的結(jié)果可知，在LIVEC數(shù)據(jù)集和SPAQ數(shù)據(jù)集上，所提算法無論是SROCC指標(biāo)還是PLCC指標(biāo)均取得最佳指標(biāo)值，說明所提出的結(jié)合全局-局部特征的雙通道算法對真實(shí)圖像進(jìn)行質(zhì)量評估效果顯著。

4 結(jié)語

針對目前大多數(shù)IQA算法在面對真實(shí)失真數(shù)據(jù)集時效果不佳的原因進(jìn)行分析，并基于分析結(jié)果提出結(jié)合全局-局部特征的雙通道NR-IQA算法。相關(guān)實(shí)驗表明,所提算法在對具有失真非均勻性的真實(shí)圖像進(jìn)行質(zhì)量評估時效果顯著，并且與人的主觀視覺有著較高的一致性。同時，該算法在獲取局部失真特征時對原圖進(jìn)行均勻的分塊和截取，但是真實(shí)圖像的內(nèi)容分布并不均勻，因此未來工作可以考慮在進(jìn)行局部失真重組時引入顯著性檢測算法，從而獲取更具有代表性的局部失真重組圖。