薄純娟,宋 鵬,林 怡
(大連民族大學 機電工程學院,遼寧 大連 116605)
判決性字典學習方法綜述
薄純娟,宋 鵬,林 怡
(大連民族大學 機電工程學院,遼寧 大連 116605)
為了解決在基于稀疏表示的分類算法中,傳統(tǒng)字典學習框架下學習得到的字典僅可用于信號重構(gòu)而并不針對分類的問題,分析和總結(jié)了具有代表性的面向分類的字典學習算法,也稱判決性字典學習。判決性字典學習算法總體上分為兩類:直接使得字典具有判決性和使得表示系數(shù)具有判決性。對兩類方法進行分析和總結(jié)可為本領(lǐng)域算法的發(fā)展提供參考,并引起更多研究。
字典學習;判決性字典;稀疏表示;分類
Abstract:Dictionaries learned from the traditional dictionary learning framework can only be used for signal reconstruction, but not for classification problems. In order to solve this problem in the classification algorithms based on sparse representation, we summarize and analyze typical dictionary learning algorithms for classification, also called discriminative dictionary learning. To be specific, we can roughly divide the discriminative dictionary learning methods into two categories: directly making the dictionary be discriminative and making the representation coefficients be discriminative. The analysis and summary in this paper will provide references for the development of algorithms in this field, and lead to further researches.
Keywords:dictionary learning; discriminative dictionary; sparse representation; classification
近年來,隨著稀疏表示的興起和廣泛應(yīng)用,字典學習(Dictionary Learning,DL)已成為當前熱點研究問題之一。一般來說,字典學習旨在建立稀疏表示模型求解所需的字典,使得字典能夠更好地表示測試樣本。字典學習方法來源于壓縮感知理論,最初用來在稀疏約束條件下學習一個自適應(yīng)的字典來更好地表示信號。,諸多學者將字典學習框架應(yīng)用于圖像去噪、圖像修復[1]、模式聚類[2]、樣本分類等領(lǐng)域,并取得了較好的效果。
傳統(tǒng)字典學習框架下學習得到的字典僅可用于信號重構(gòu)而并不針對分類問題,因此一些學者嘗試從監(jiān)督學習和類別信息挖掘等方面出發(fā),研究面向分類的字典學習方法,也稱為判決性字典學習方法。本文分析了兩類代表性的判決性字典學習方法:(1)直接使得字典具有判決性:從不同類別字典間信息差異的角度出發(fā)直接設(shè)計判決性字典學習方法,并利用重構(gòu)誤差準則實現(xiàn)分類。典型代表算法包括:中間臉學習[3](Meta-face Learning)和結(jié)構(gòu)不相關(guān)字典學習[4](Dictionary Learning with Structured Incoherence)等;(2)使得表示系數(shù)具有判決性:通過同時學習字典和分類器的方式來使得表示稀疏具有判決性,從而增強字典的判決能力。與第一種方法不同,該類方法利用稀疏表示系數(shù)作為新的特征進行分類,包括監(jiān)督字典學習(Supervised Dictionary Learning)、標簽一致K-SVD算法[5](Label consistence K-SVD)、判決性K-SVD算法[6](Discriminative K-SVD)、Fisher判決字典學習[7](Fisher discrimination Dictionary Learning)等。
2009年,Wright等人[8]提出了基于稀疏表示的分類方法用于人臉識別,取得了魯棒的識別效果。假設(shè)有C類人臉,令D=[X1,…,Xc,…,XC]∈Rd×N為初始訓練樣本集,其中Xc∈Rd×Nc為子集(包含來自第c類的所有Nc個訓練樣本)。該稀疏表示分類算法將原始數(shù)據(jù)集作為整個字典,用x∈Rd表示一個待分類的人臉圖像,則基于稀疏表示的分類方法識別x需要以下兩個步驟:
1.通過求解L1范數(shù)最小化問題來獲得關(guān)于向量x的稀疏編碼,
(1)
式中,λ為標量常數(shù)。
2.利用類特征重構(gòu)誤差原則推理人臉x的類別歸屬,
(2)
式中,δi(·)是一個矢量指示函數(shù),提取對應(yīng)的第i類原子。
該方法在人臉識別上取得了很好的效果,尤其對于噪聲(如遮擋、光照等)非常魯棒,雖然該方法在分類中沒有學習字典,但它開創(chuàng)了利用稀疏編碼進行分類的先河。從字典學習角度,傳統(tǒng)基于稀疏表示的分類方法僅僅使用所有訓練樣本作為字典,用特定類別的訓練集作為子字典以保持判決性。
字典學習的目標是自適應(yīng)地建立一個向量庫,使得新的信號可以由其中幾個向量線性組合表示。假設(shè)有一組信號X=[x1,…,xi,…,XN],其中xi是第i個信號。傳統(tǒng)的字典學習框架下學習字典的目標函數(shù)為:
(3)
雖然經(jīng)典的字典學習框架在一些研究中實現(xiàn)了很好的分類效果,但該框架最初被設(shè)計用來重構(gòu)而不是分類,因此有針對性地學習更適合分類的字典,能夠進一步提升分類性能。
該類方法利用重構(gòu)誤差來做最后的分類,因此學習的字典應(yīng)具有判決性。受到基于稀疏表示的分類方法的啟發(fā),楊等人提出了中間臉學習方法,該方法對每類學習一個自適應(yīng)的字典,受到該方法的啟發(fā),Ramirez等在目標函數(shù)中添加了一個復雜項使得面向分類的字典更具體。
2.1.1 中間臉學習
傳統(tǒng)基于稀疏表示的分類方法直接采用原始的人臉圖像作為字典,然而使用預先定義的字典將產(chǎn)生與累積冗余噪音和瑣碎信息,從而降低人臉的識別率。此外,隨著訓練樣本的增加,稀疏表示的計算量也不斷增大,成為主要瓶頸。針對這一問題,楊等提出了一種中間臉學習方法對每一類學習特定的字典:
(4)
2.1.2 利用結(jié)構(gòu)相關(guān)性的字典學習
Ramirez等發(fā)現(xiàn)學習的子字典可能具有一些共性,例如某些來自不同子字典的原子可能非常相關(guān)。原子之間的相關(guān)性使得在重構(gòu)測試樣本的過程中存在不穩(wěn)定性,進而導致基于類特定重構(gòu)誤差的分類機制出錯。針對該問題,增加一個相關(guān)項來約束字典,使得不同類的字典盡可能不相關(guān)。
(5)
第二類方法與第一類方法的區(qū)別在于判別方法。與第一類方法相比,第二類強制稀疏系數(shù)也具有判決性,間接增強整個字典的判決能力。第一類方法需要對每類分別學習字典,而第二類方法只需要學習整個字典。
2.2.1 監(jiān)督字典學習
Mairal等提出監(jiān)督字典學習方法,將邏輯斯蒂回歸與傳統(tǒng)的字典學習框架相結(jié)合的工作如下:
(6)
式中,L(·)是邏輯損失函數(shù)(C(x)=log(1+e-x)),它與支持向量機中的嶺損失函數(shù)具有相似的屬性,不同的是L(·)可微,λ2是正則化參數(shù)[9],用于防止過度擬合。若f是一個線性分類函數(shù),則f(x,a,θ)=θTa+b,其中θ∈RK;若a和x雙線性,則f(x,a,θ)=xTWa+b,其中θ={W∈Rd×K,b∈R}。
2.2.2 判決性K-SVD字典學習方法
張和李提出判決性K-SVD方法,實現(xiàn)了理想字典同時具有好的表示能力并支持最優(yōu)判決分類。D-KSVD在傳統(tǒng)的DL框架下增加了一個簡單的線性回歸項作為懲罰項:
(7)
式中,H=[h1,…,hN]∈RC×N是訓練圖像的標簽,hn=[0,…,0,1,0,…,0]是每類中非零元素的位置。W是分類器的參數(shù),λ1、λ2和λ3是控制對應(yīng)項的相對貢獻常數(shù)。
2.2.3 標簽一致性K- SVD
Jiang等提出了標簽一致性K-SVD方法來學習一個判決性字典進行稀疏編碼。該方法引入一個“判決性稀疏編碼誤差”的標簽一致性約束,并與重構(gòu)誤差和分類誤差組合形成統(tǒng)一的目標函數(shù):
(8)
2.2.4 Fisher判決字典學習
Yang等基于Fisher判決準則提出了Fisher判決字典學習方法,學習一個結(jié)構(gòu)字典,其原子對應(yīng)于該類別的標簽。該結(jié)構(gòu)化的字典表示為D=[D1,…,DC],其中DC是特定第C類的子字典。數(shù)據(jù)集表示為X=[X1,…,XC],其中Xc是子集,第c類的訓練樣本。通過求解以下方程,獲得字典和系數(shù)得到理想的判決性字典:
(9)
(10)
判決性系數(shù)項:要使字典D對數(shù)據(jù)集X具有判決性,可以使X對D的編碼系數(shù)A具有判決性?;贔isher準則,可以通過最小化A的類內(nèi)散布矩陣SW和最大化A的類間散布矩陣SB來實現(xiàn)。 SW和SB被定義為:
(11)
合并所有項,得到以下Fisher判決性字典學習模型:
(12)
該方法用作分類時,仍然利用第一類方法中的重構(gòu)誤差實現(xiàn)。
本文分析了兩類具有代表性的判決性字典學習方法。判決性字典學習算法在基于稀疏表示的分類框架中非常重要和實用,能夠較為顯著地提升分類算法的效果。一種從字典本身角度出發(fā),使得字典具有判決能力;另一種從表示系數(shù)角度出發(fā),使得表示系數(shù)具有判決能力,間接使得字典具有判決能力。相比而言,后者更加直觀有效。在綜述和總結(jié)前人工作的基礎(chǔ)上,我們認為判決性字典學習算法未來的研究方向會集中在以下幾方面。一方面,研究人員可以尋求一個統(tǒng)一的框架來將兩類字典學習算法進行統(tǒng)一,深入分析各方法對所學字典以及分類結(jié)果的影響,并在此基礎(chǔ)上針對特定問題設(shè)計更加有效的字典學習算法。另一方面,可以將字典學習和度量學習相結(jié)合,考慮如何在統(tǒng)一的模型框架下討論如何同時學習字典和度量矩陣的問題。此外,字典學習算法在處理大數(shù)據(jù)時的時間和空間復雜度都比較高,如何在線學習判決性字典也是未來值得研究的課題之一。
[1] ELADM, FIGUEIREDOM, MAY. On the role of sparse and redundant representations inimage processing[J]. Proceedings of IEEE, 2010, 98(6):972-982.
[2] CHENGB, YANGJ, YANS , et al.Learning with1-graph for image analysis[J].IEEE Trans Img Proc, 2010, 19(4):858-866.
[3] YANGM, ZHANGL, YANGJ, et al.Metaface learning for sparse representation basedface recognition[C].Proceedings - International Conference on Image Processing(ICIP), 2010: 1601-1604.
[4] RAMIREZI, SPRECHMANNP, SAPIROG. Classification and clustering via dictionary learningwith structured incoherence and shared features[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2010: 3501-3508.
[5] JIANGZ, LINZ,DAVIS L S. Learning a discriminative dictionary for sparse coding vialabel consistent k-svd[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR), 2011: 1697-1704.
[6] ZHANGQ,LIB. Discriminative k-svd for dictionary learning in face recognition[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2010: 2691-2698.
[7]YANGM,ZHANGL,FENGX,et al. Fisher discrimination dictionary learning for sparserepresentation[C]. Proceedings of the IEEE International Conference on Computer Vision(ICCV), 2011: 543-550.
[8] RAINAR, BATTLEA, LEEH, et al. Self-taught learning: transfer learningfrom unlabeled data[C]. ACM International Conference Proceeding Series (ICML), 2007,227: 759-766.
[9] WRIGHTJ, YANGA, GANESHA,et al. Robust face recognition via sparserepresentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227 .
(責任編輯 趙環(huán)宇)
ReviewonDiscriminativeDictionaryLearningAlgorithms
BOChun-juan,SONGPeng,LINYi
(School of Electromechanical Engineering, Dalian Minzu University, Dalian Liaoning 116605, China)
TP391
A
2017-03-20;
2017-04-14
中央高校基本科研業(yè)務(wù)費專項資金資助項目(DC201501010401)。
薄純娟(1986-),女,山東東營人,工程師,主要從事圖像處理和模式識別研究。
2096-1383(2017)05-0466-04