武繼剛, 李妙君, 趙淑平
(廣東工業(yè)大學 計算機學院,廣東 廣州 510006)
最小二乘回歸(least squares regression,LSR)是統計學理論中一種典型的數據分析工具,通過最小化實際值和預測值的差值平方和來學習投影矩陣。基于LSR已經研究出了許多經典模型,但是,傳統的LSR模型存在3個主要問題。
第2個問題是基于LSR的方法對噪聲的敏感性。在實際應用中,由于圖像在獲取、發(fā)布或傳輸過程中受到噪聲的干擾[7],導致同一個類別的訓練樣本和測試樣本之間的差異可能很大。對于噪聲數據的分類問題,適當地降低類邊距通??梢杂懈玫姆诸惥?。Peng等[8]使用negative ε-dragging技術來確定不同類別之間的適當邊距。趙雯等[9]提出的判別低秩表示(discriminative low-rank representation,DLRR)算法可以在遮擋的訓練樣本中分離出相對干凈的圖像。Bao等[10]提出了基于松弛局部保持回歸(relaxed local preserving regression,RLPR),使用了L2,1范數替代損失函數的LF范數。Fang等[11]將原始數據分解為一個“干凈”的分量加上稀疏的噪聲分量,使用了一個稀疏項來補償回歸誤差,這有助于在回歸過程中抑制噪聲的干擾。楊章靜等[12]提出一種基于潛在子空間去噪的學習圖像分類方法(denoising latent subspace based subspace learning,DLSSL),在原始空間和標簽空間中間引進一個潛在子空間,將學習分成了2個過程,對樣本先進行降噪處理,然后使用潛在子空間中的“干凈”數據進行回歸分類。
第3個問題是傳統的LSR沒有過多關注樣本之間的相關性和標簽的類內緊湊性,這會破壞數據的基礎結構并導致過擬合問題。ICS_DLSR[3]在最小二乘回歸模型中引入了類間稀疏性約束,使轉換后的樣本在每個類別中具有共同的稀疏結構,有效地利用樣本之間的相關性。基于低秩表示(low-rank representation,LRR)的模型很容易捕獲數據的全局結構。鐘堃琰等[13]提出對通過ε-dragging技術所得的松弛矩陣施加低秩約束,可以提高其類內緊湊性,保證了回歸標簽的類內相似性。Chen等[14]將Fisher判別準則和ε-dragging技術集成到一個模型中提出了Fisher判別最小二乘回歸模型(fisher discriminative least squares regression,FDLSR),Fisher準則可以提高松弛學習過程中松弛標簽的類內緊湊性和相似性。在FDLSR中還證明了DLSR的本質是基于L2范式的支持向量機的松弛版本。
因此,本文提出一種基于低秩稀疏表達的彈性最小二乘回歸學習(low-rank sparse representation based elastic least squares regression,LRSR-eLSR)模型。引入半靈活性的回歸目標矩陣,將0-1目標松弛為更可行的變量矩陣,為不同類別的樣本提供合適的邊距,并且不會輕易破壞回歸目標的結構。同時,為了避免結構信息的丟失,引入低秩約束來學習具有判別性的投影矩陣,捕獲數據不同類別的底層結構。除此之外,引入了具有行稀疏性的誤差項,可以從噪聲或損壞的數據中穩(wěn)健地提取特征。模型的流程如圖1所示。
圖1 模型框架圖
X為來自c個類別的n個訓練樣本的訓練集,X=[x1,x2,…,xn]∈Rd×n,其中d為每個樣本的特征維數。LF范數、L2,1范數和核范數的計算分別為
(1)
(2)
‖X‖*=∑i|σi|。
(3)
式中:XT為矩陣X的轉置;σ為矩陣的奇異值。
最小二乘回歸的目標是學習一個將訓練數據轉換為二進制標簽空間的最優(yōu)投影矩陣,常見函數表示為
(4)
式中:W∈Rc×d為投影矩陣;β>0為正則化參數。Y為對應于數據集X的0-1標簽矩陣,定義如下:如果訓練樣本xi來自第k個類別,則列向量yi的第k個元素為1,其余元素為0,Y=[y1,y2,…,yn]∈Rc×n。
將式(4)中的第1項看作損失函數,第2項表示廣泛使用的L2正則化,用來避免過擬合。
ReLSR的核心思想是通過關注相對值,直接從數據中學習回歸目標矩陣,能夠提高多分類的性能。模型在學習過程中對目標矩陣進行直接優(yōu)化,約束每個樣本其真類和假類目標之間的差值應大于1,將其表達為一個優(yōu)化問題,如式(5)所示:
(5)
式中:H為目標矩陣;en為全為1的行向量;b為偏差向量。
ReLSR在學習的過程中會對H重復更新,初始化H可以令H=Y。ReLSR的目標矩陣是通過只關注不同類別對應的相對值來學習的,以保證大多數數據點的正確分類。
LIS_StLSR與ReLSR一樣,都是在學習中更新目標矩陣,但是,LIS_StLSR采用半靈活性的回歸目標矩陣與低秩類間稀疏約束相結合,學習到目標矩陣可以保證對每個數據點的正確分類的要求有很大的限制并且不會破壞回歸目標原有的結構,不會影響到下一次迭代訓練中的回歸性能。LIS_StLSR的目標函數如(6)式所示:
(6)
式中:Z為低秩表示矩陣;‖WXZi‖2,1為低秩類間約束項。
LIS_StLSR通過訓練樣本的“干凈”表示來實現類間關系,使得共享同一標簽的投影樣本保持共同的稀疏結構,同時,利用訓練樣本的低秩表示進行類間稀疏學習。
傳統的最小二乘回歸模型使用了嚴格的二元標簽矩陣作為目標矩陣。從幾何學的角度,不同類別樣本的距離應該要盡可能大,而同一個類別的樣本之間的距離盡可能小,學習到的回歸目標更具有判別力,可以增加回歸模型的靈活性。不同于DLSR使用ε-dragging技術放松標簽矩陣,模型通過對真假類別之間的學習目標實施約束直接從數據中學得回歸目標,并引入一個稀疏誤差項E以放松標簽矩陣。將上述表達為一個優(yōu)化問題,如式(7)所示:
(7)
式中:λ1和λ2均為正則化參數。
與0-1矩陣Y相比,目標矩陣H可以直接從數據中學習,可以更準確地測量回歸誤差。為了在學習過程中捕捉數據相關的底層結構,根據低秩最小化的性質,對式(7)中轉換矩陣W使用LF范數,同時添加低秩約束。構建的目標函數為
(8)
式中:λ3為正則化參數;rank(·)表示矩陣的秩。
由于秩函數的離散性,式(8)是一個非凸非光滑問題,所以很難求解,根據文獻[15],將秩函數替換為核范數正則化可以得到上述優(yōu)化問題的凸松弛形式,對式(8)重新構造:
(9)
考慮求解問題,對式(9)中的核范數利用公式轉化為LF范數進行統一求解,根據文獻[5]中的Theorem 1,對于任意的矩陣W,可以得到:
(10)
由式(9)和式(10),可以得到最終的目標函數,如式(11)所示:
(11)
對目標函數(式(11))使用ADMM算法[16]進行優(yōu)化求解,其增廣拉格朗日函數為
(12)
式中:C為拉格朗日乘子;μ>0為罰參數。
對于式(12),在其他參數固定的情況下交替求解W、E、H、A和B。具體解決步驟如下。
步驟1 更新W。固定E、H、A和B,可以通過最小化以下目標來獲得W。
(13)
式(13)中,通過將L(W)相對于W的導數設置為零,可以獲得最佳W。即
(14)
由式(14)可以得到W的最優(yōu)解為
(15)
式中:Id表示維數為d的單位向量。
步驟2 更新E。固定其他參數,令U=WX-H,可以通過最小化以下基于L2,1范數的目標函數來獲得E。
(16)
式中:Ej,:和Uj,:分別表示E和U的第j行向量。
步驟3 更新A。固定其他參數,通過對A進行求導,令導數為0,可以得到A的閉式解為
(17)
步驟4 更新B。固定其他參數,通過對B進行求導,令導數為0,可以得到B的閉式解為
(18)
步驟5 更新H。令S=WX-E,公式如下所示:
(19)
將式(19)分解為n個獨立的子問題求解得到H的最優(yōu)解,每個子問題都對應H這一行的學習,則每個子優(yōu)化問題可以表示為
(20)
式中:k表示行的真類索引;i表示在h中最大值的索引。
更新式(20)為
(21)
步驟6 更新C和μ為
(22)
式中:ρ和μmax均為數值很小的正參數。
根據上述求解過程可以得到學習的投影矩陣W,對任何測試樣本y,其投影樣本為Wy,使用最近鄰分類器對其進行分類。
LRSR-eLSR模型的主要耗時是在逆矩陣的運算上,式(13)中的時間復雜度為O(d3);式(14)的時間復雜度為O(r3);式(15)的時間復雜度為O(r3)。對于矩陣的加、減、乘,計算成本可以忽略不計。因此,本文所提出的方法的主要計算成本是O(t(d3+2r3)),其中t表示迭代次數。
將本文模型與其他算法進行比較,包括LRDLSR[17]、FDLSR[14]、SALPL[15]、CDPL[18]、DLSR[1]、ReLSR[4]和SN-TSL[19]。所有實驗均在MATLAB R2018b中進行,操作系統為Windows 10。
Extended Yale B數據集:由38人提供的2 414幅圖像,每個類別有59~64個正面圖像,具有不同的照明。實驗中使用的所有圖像都提前調整為32×32像素。然后從每個類隨機抽取10、15、20、25張圖像作為訓練集,其余樣本作為測試集。
LFW數據集:包含了1 680個在無約束條件下拍攝對象的13 000多張人臉圖像。在這個實驗中,使用了一個包含86個人共1 251張圖像的子集,每個受試者只有10~20張圖像。在實驗中,將圖像尺寸調整為32×32像素,隨機選擇每個受試者的5、6、7、8張圖像作為訓練樣本。
COIL-20數據集:包含了20個物體,每個物體有72個灰色圖像,這些圖像是從不同方向拍攝的。在實驗中,對每個圖像進行下采樣,使其具有32×32像素,從每個類隨機抽取10、15、20、25張圖像作為訓練集。
MNIST數據集:一個包含0~9的手寫數字數據集,該數據集包含60 000個用于訓練和10 000個用于測試的圖像,圖像尺寸為28×28像素。在實驗中,從每個類隨機抽取40、60、80和100張圖像作為訓練集。
實驗重復執(zhí)行10次并記錄平均準確率。對于二分類問題,樣本將根據真實類別與學習器預測類別組合為4種情況,如表1所示。
表1 二分類混淆矩陣表
準確率Acc是一個分類性能的檢測指標,表示在所有的樣本中被分類模型預測為正確的樣本數量所占的比例,如式(23)所示[20]:
(23)
式中:TP表示待檢測樣本屬于正類并且分類模型也將待檢測樣本預測為正類;TN表示待檢測樣本屬于反類并且分類模型也將待檢測樣本預測為反類;FP表示待檢測樣屬于反類但是分類模型將待檢測樣本預測為正類;FN表示待檢測樣本屬于正類但是分類模型將待檢測樣本預測為反類。其中FP和FN都是分類模型預測不正確的情況。
表2為Extended Yale B人臉數據集上不同方法對比的結果。顯然,在人臉數據集上,當樣本數量為15、20、25時,本文算法取得了最佳的分類結果。
表2 Extended Yale B上不同方法的平均分類準確率
表3為LFW人臉數據集上不同方法的對比結果。由于LFW數據集是一個很難進行圖像分類的數據集,使用不同分類方法獲得的平均準確率都相對不高,當樣本數量為6、7、8時,LRSR-eLSR的性能較好。
表3 LFW數據集上不同方法的平均分類準確率
表4為在COIL-20物體數據集上不同方法對比的結果。由結果可以分析,提出的模型獲得了比其他方法好的分類結果。因此,LRSR-eLSR在解決客觀識別任務方面有很大的潛力,這證明了模型對于對象分類任務的有效性。
表4 COIL-20上不同方法的平均分類準確率
表5為在MNIST手寫數字數據集上不同方法對比的結果??梢园l(fā)現,與其他方法相比,LRSR-eLSR可以提供更好的結果。
表5 MNIST上不同方法的平均分類準確率
在Extended Yale B、LFW和COIL-20這3個數據集上,對比基于松弛標簽方法的DLSR和ReLSR,LRSR-eLSR可以學習更具判別力的變換。因為DLSR和ReLSR只關注于擴大類間距,而不關心縮小類內距離。與DLSR和ReLSR不同,本文方法通過引入半靈活性的回歸目標H,使得模型在數據中直接學習矩陣。
在本文方法中,參數λ1、λ2和λ3需要進行靈敏度分析,用于平衡相應約束項。λ1用于避免投影W的平凡解;λ2用于松弛標簽矩陣,以自適應地擬合變換后的數據;λ3保證了數據底層結構。首先,定義一個候選集{10-5,10-4,10-3,10-2,10-1,100,101,102};其次,在Extended Yale B數據集上,分析LRSR-eLSR算法的λ1、λ2、λ3對Acc的影響。
實驗采用控制變量法確定λ1、λ2、λ3的最佳參數組合。例如,為了確定λ1的敏感度,先令λ2=1,λ3=1,得出不同λ1的值對Acc的影響。為了確定不同參數組合的最優(yōu)值,將其中一個參數固定為之前單個參數選擇階段的最優(yōu)值,并使用網格搜索算法觀察另外2個參數在候選集范圍內變化時Acc的變化。
圖2為在Extended Yale B數據集上調整單個參數時LRSR-eLSR的Acc曲線。圖3為在Extended Yale B數據集上不同參數組合時LRSR-eLSR的Acc曲線。由圖2、3可知,λ1穩(wěn)定性差,其最大值為1,說明不需要對模型過多施加避免平凡解的項。λ3比較穩(wěn)健,其值對模型的Acc影響較小。因此,首先固定參數λ3的值,通過選擇λ1和λ2的不同組合計算LRSR-eLSR模型的Acc,可以獲得這2個參數的最佳組合;其次,采用相同的方法從參數λ3的候選參數集中找到最佳值;最后,應用λ1、λ2、λ3的最佳參數組合運算10次,得到平均分類準確率Acc。實驗發(fā)現,當參數λ1∈[10-1,101]、λ2∈[100,102]時,LRSR-eLSR模型性能較好。
圖2 調整單個參數時LRSR-eLSR的Acc
圖3 不同參數組合時LRSR-eLSR的Acc
為了評估所提出模型中每一項的有效性,從Extended Yale B、LFW、COIL-20和MNIST數據集中分別選取25、8、25、100個樣本作為訓練樣本,其余的樣本作為測試樣本進行消融實驗。將所有實驗重復10次,取平均值,結果如圖4所示。其中,LRSR-eLSR(λ1)表示設置模型中的λ1=0,即模型沒有矩陣W的LF范數項;LRSR-eLSR(λ2)表示設置模型中的λ2=0,即模型中少了系數誤差項E;LRSR-eLSR(λ3)表示設置模型中的λ3=0,即模型少了低秩約束項。
圖4 LRSR-eLSR在4個數據集上的消融實驗結果對比
由圖4可知,LRSR-eLSR(λ1)和LRSR-eLSR(λ3)的性能比LRSR-eLSR差得多。這表明所提出的LRSR-eLSR極大地受益于矩陣W的LF范數項和低秩約束項。LF范數具有防止過擬合的作用,追求低秩回歸標簽有助于學習更多的判別投影,從而顯著提高最終分類性能。
本文提出了一種基于低秩稀疏表達的彈性最小二乘回歸學習模型(LRSR-eLSR)。該模型通過對回歸矩陣增加彈性約束擴大不同類別之間的差值,以構建放松的標簽矩陣。此外,對轉換矩陣添加了稀疏性約束和低秩約束,使回歸目標具有稀疏性和低秩性,在保持數據的低秩結構的同時防止過擬合。在不同任務的公共數據集上的實驗結果表明,相對于現有的最小二乘回歸變體的方法,本文方法具有優(yōu)異的性能。