胡衛(wèi)強,周浩,汪祥
(南昌大學數學系,江西 南昌 330031)
近些年來,圖像特征提取在圖像分類和識別方面有著越來越廣泛的應用,引起了越來越多的研究人員的關注。而其中基于向量的特征提取方法尤其受到學者們的青睞,包括主成分分析法(principal component analysis,PCA)[1]、線性判別分析法(linear discriminant analysis)[2]、局部保持投影法(locality preserving projection)[3],以及稀疏保持投影法(sparsity preserving projection)[4]等。盡管基于向量的特征提取方法如PCA已經成功應用于許多實際圖像分類和識別等領域。但是,它的前提是需要將圖像矩陣拉伸成一維長向量,由此導致一些圖像的空間結構信息會丟失。
因此,為了充分利用圖像的空間結構信息,許多基于矩陣的特征提取方法被提出,例如最早期的二維主成分分析法[5]、二維線性判別分析法[6],以及二維局部保持投影法[7]等。這些方法與基于向量的特征提取方法不同之處在于它們的思想是直接針對二維圖像矩陣處理,而無需將其拉伸為一維向量。上述算法中大多是基于L2范數或Frobenius范數,其中二維主成分分析方法是基于L2范數。
近幾年來,Schatten-P范數在機器學習和模式識別領域引起了廣泛的關注。例如Nie等[8]提出了一種基于Schatten-P范數最小化的低秩矩陣恢復方法來恢復低秩矩陣,并誘導出了一種有效解決基于Schatten-P范數的優(yōu)化問題的算法。緊接著又提出了一類用于圖像分類的Schatten-P范數基矩陣回歸模型[9]。而Du等[10]提出了基于Schatten-P范數標準對圖像的特征進行提取和分類。此外,Nuclear范數在圖像恢復領域也得到了極大關注,因此利用Nuclear范數作為標準的二維主成分分析方法相繼被提出[11]。
以上研究利用不同范數標準提取圖像特征,但并未考慮范數加權來提取圖像特征。因此,本文提出一種基于Nuclear范數和Frobenius范數加權的二維主成分分析方法(記為NF-2DPCA)來解決圖像特征提取問題。另外還給出一類快速的迭代算法來求解NF-2DPCA中優(yōu)化問題,并利用數值例子來驗證新方法的有效性。
Frobenius范數2DPCA的目標函數為使得圖像重構誤差最小化,即
(1)
恒成立。因此式(1)可重寫為
(2)
L=tr(VTStV)+λ(Ik-VTV)
(3)
式(3)對V求偏導可得
(4)
令式(4)為0,可得到StV=λV,代入式(2),最后目標函數求解問題則轉變?yōu)榍蠼鈭D像協方差矩陣前k個最大特征值對應的特征向量問題。
Nuclear范數2DPCA的目標函數度量準則如下
(5)
其中‖·‖*代表Nuclear范數,Nuclear范數定義為矩陣所有奇異值的和。并且對于任意矩陣A∈Rp×q,Nuclear范數與Frobenius范數之間轉換有如下等式成立[11]
(6)
利用式(6)將目標函數(5)改寫為
(7)
(8)
令V=Vk+1,更新Wi
那么關鍵的步驟即解決優(yōu)化問題式(8)。式(8)的目標函數可重寫為如下形式
(9)
(10)
實際上式(10)等價于式(8),它的求解與式(2)方法一樣,即求解矩陣D前k個最大特征值對應的特征向量。
Frobenius和Nuclear均為Du等[10]提出的基于Schatten-P范數二維主成分分析(2DPCA-Sp)方法的特殊情形,其中矩陣A∈Rn×m的Schatten-P范數p∈(0,+∞)定義如下:
式中:σi代表矩陣A的第i個奇異值。容易看出,Nuclear范數和Frobenius范數分別是p=1和p=2的Schatten-P范數的特例。2DPCA-Sp目標函數為如下形式
(11)
本文受到Schatten-P范數2DPCA的啟發(fā)而提出NF-2DPCA。令Xi∈Rm×n(i=1,2,3,…,N)為N張訓練圖像矩陣,不失一般性,假設圖像矩陣均已中心化。提出的范數加權二維主成分分析算法旨在尋找最優(yōu)投影矩陣V=[v1,v2,…,vk]∈Rn×k使得特征空間中特征總散射最大化,即目標函數為如下形式
(12)
式中:α為加權系數。由上節(jié)內容可知,式(12)為Frobenius范數與Nuclear范數的加權目標函數。接下來對式(12)進行求解。
為了求解優(yōu)化問題式(12),首先構造式(12)的拉格朗日函數
其中S∈Rk×k,是對稱拉格朗日數乘矩陣。由微分性質有
(13)
由式(13)可得
MV=VS
可以驗證M是一個對稱矩陣??赏ㄟ^對M進行特征分解或者譜分解找到滿足方程的列正交矩陣V。現求解最大化式(12),即求解M的前k個最大特征值對應的特征向量V。
基于上述分析與觀察,本文提出一個快速迭代算法求解優(yōu)化問題(12),完整的算法在算法1中給出。
算法1
輸入:N張訓練圖像矩陣Xi∈Rm×n(i=1,2,3,…,N)且中心化,加權系數α,主成分k
(2)While‖Vt+1-Vt‖>ε或t<100
(4)對Mt+1執(zhí)行特征分解,并獲得Vt+1為Mt+1的前k個最大特征值對應的特征向量
(5)檢查收斂條件‖Vt+1-Vt‖<ε或t>100
(6)t←t+1
(7)end while
輸出:投影矩陣V
t
在3個流行的圖像數據庫上進行實驗,包括ORL數據庫、Yalefaces數據庫和AR數據庫,以評估提出的范數加權2DPCA在圖像特征提取方面的性能。在實驗之前,將所有人臉圖像調整到64×64像素。并且所有實驗中k的最大值設定為50。此外,由于提出的范數加權2DPCA是一種無監(jiān)督方法,本文僅將其與幾種最先進的無監(jiān)督方法進行比較,包括2DPCA[5],OMF-2DPCA[12],l2,p-2DPCA[13]使用最近鄰分類器進行分類,之后通過識別精度來評估這些方法的性能。在本次實驗中設置算法終止條件為最大迭代次數100或‖Vt+1-Vt‖F<10-4。實驗代碼在Python 3.7.9上編寫。運行環(huán)境為PC 2.30 GHz CPU處理器、12.0 GB內存和Windows 10操作系統(tǒng)。
實驗一采用來自于耶魯人臉數據庫的素材,該數據庫包含15個人在不同面部表情和光照條件下的165張圖像(每個人有11張不同的圖像)。隨機將165張圖像分成4:1的訓練圖像和測試圖像,并隨機選取一張照片進行人臉重構,重構人臉如圖2所示。此外選取主成分k,從5開始,每次遞增5,直至50,加權系數α為0.1對圖像利用最近鄰識別分類,所有的實驗均重復做10次,結果取10次的平均值,識別率(準確率)η如表1所示。
從圖2中可以發(fā)現,隨著主成分k遞增,重構圖像逐漸清晰,可反映出計算的投影矩陣V有效,因此進行下一步人臉識別。從表1可知當主成分k取到15,25,40,45,50時提出的算法識別率η是高于其他三種方法,尤其在k=15時算法識別準確率超過80%,而其他方法均未超過80%,進一步說明模型優(yōu)于其余方法。
圖2 k=5,10,…,50時重構人臉
表1 Yalefaces識別準確率
實驗二采用來自于ORL人臉數據庫的素材,ORL人臉數據庫包含40個不同對象的400幅圖像。每人均有10幅不同種類的圖像,如面部表情、不同的照明和面部細節(jié)(戴眼鏡與否)。實驗隨機將400張圖像分成4:1的訓練圖像和測試圖像,并隨機選取一張照片進行人臉重構,重構人臉如圖3所示。接著利用最近鄰算法對圖像進行分類,所得到的識別率如表2所示。
圖3 k=5,10,…,50時重構人臉
從圖3中可以看出,重構圖像逐漸清晰,可反映出投影矩陣V的有效性,因此進行下一步人臉識別。觀察表2發(fā)現基本所有算法準確率η都大于90%,主要原因取決于圖像性質好,比如圖像的色調、飽和度、明度、對比度、白平衡以及噪聲等[14]。但提出的算法最終識別準確率在k取5,10,15,25,40,45,50時均優(yōu)于其他算法,進一步說明算法的優(yōu)越性。
表2 ORL識別準確率
實驗三采用AR人臉數據庫的素材,AR人臉數據庫包含4 000多幅彩色圖像,這些圖像分別從126人(70名男性和56名女性)的正面視角下采集。另外這些照片是在兩個時段拍攝的,并且每個人間隔兩周。每個時段包含13張圖像,其中7張圖像具有不同的面部表情和照明條件,6張圖像被眼鏡和圍巾遮擋。在實驗中,選擇了100人(男性50名和女性50名)的2 600張照片作為實驗圖像,每張圖片被裁剪成120×120像素大小。隨機選擇80%圖像用于訓練,其余20%圖像用于測試。另外隨機選取一張照片進行人臉重構,重構人臉如圖4所示。其中主成分k和加權系數α與前兩個實驗選擇方式一樣,所得到的結果如表3所示。
圖4 k=5,10,…,50時重構人臉
表3 AR識別準確率
從圖4中可以發(fā)現,隨著主成分k遞增,重構圖像逐漸清晰,從這反映投影矩陣V有效,因此進行下一步人臉識別。從表3可知,基本所有算法識別準確率都比前兩個數據庫中實驗準確率低,原因在于實驗圖像數量遠多于前兩個人臉數據庫。但所提出的算法在大部分情況下還是優(yōu)于其他3種方法,進一步說明模型優(yōu)于其余模型。
(1) 所提出的NF-2DPCA方法對于圖像識別最佳識別準確率能達到94.25%,顯示所提出的模型加權思想有意義且效果更優(yōu)越。
(2) 算法加權系數α可以取不同的值,當取值為多少時能使實驗結果達到最優(yōu)有待進一步去研究。