• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種半監(jiān)督人臉數(shù)據(jù)可分性特征提取方法?

      2020-10-09 02:47:44劉鑫磊
      計算機與數(shù)字工程 2020年7期
      關(guān)鍵詞:訓練樣本識別率人臉

      劉 敬 劉鑫磊 劉 逸

      (1.西安郵電大學電子工程學院 西安 710121)(2.西安電子科技大學電子工程學院 西安 710071)

      1 引言

      近年來,人臉識別[1~2]技術(shù)是一個研究熱點。人臉數(shù)據(jù)與普通數(shù)據(jù)相比,具有超高維小樣本的特點。由于人臉數(shù)據(jù)維數(shù)過高,常達幾千上萬維;而樣本個數(shù)常為幾十個,與維數(shù)相比過低,使得人臉數(shù)據(jù)處理起來比較困難。

      通常在采用人臉數(shù)據(jù)進行分類之前需要對原始數(shù)據(jù)進行特征提取,以降低維數(shù)并提高人臉識別效率,因此人臉數(shù)據(jù)的特征提取技術(shù)也越來越多。矩陣分解[3]是一種非監(jiān)督學習技術(shù),從數(shù)據(jù)中提取一組特征基向量,并從中獲取高級語義。從最近的機器學習和稀疏編碼[4]的發(fā)展中,稀疏概念編碼(Sparse Concept Coding,SCC)[5]是近年興起的一種矩陣分解方法,SCC 首先學習一組能夠捕捉數(shù)據(jù)內(nèi)在流形結(jié)構(gòu)的基向量;然后以這組基向量為字典[6]進行稀疏表示學習。因此,SCC 所得稀疏表示既保留了數(shù)據(jù)的幾何結(jié)構(gòu),又具有稀疏表示的優(yōu)點,即具有更好的可分性和稀疏性。SCC 屬于非監(jiān)督學習,在語義結(jié)構(gòu)上有較好的代表性,常用于聚類。由于學習過程中沒有考慮類標,因此數(shù)據(jù)在SCC子空間的可分性不是很強,直接在SCC子空間進行分類并不能顯著提高識別率。

      數(shù)據(jù)的可分性特征提取技術(shù),是指通過某種變換將原始數(shù)據(jù)映射到低維特征子空間,使得數(shù)據(jù)在該低維子空間獲得較好的可分性??煞中蕴卣魈崛》椒ǔS糜谌四樧R別領(lǐng)域,可降低維數(shù),提高分類識別率和分類速度?;贔isher[7]準則的線性判別分析(Linear Discriminant Analysis,LDA)[8]是經(jīng)典的可分性特征提取方法,LDA將高維的原始樣本投影到低維LDA 特征子空間,使得在子空間中數(shù)據(jù)的類間散布與類內(nèi)散布之比最大。LDA 屬于監(jiān)督學習,故LDA 不能利用無類標的樣本,即LDA 不能提取出包含在無類標的測試樣本中的可分性信息。人臉識別屬于超高維小樣本問題,采用LDA直接對人臉數(shù)據(jù)訓練樣本進行特征提取,存在以下問題:1)訓練樣本過少,造成類內(nèi)散布矩陣奇異,無法求解;2)無法利用無類標樣本,即不能提取出無類標樣本中的可分性信息;3)原始數(shù)據(jù)維數(shù)過高,使得特征提取速度慢;4)單一的可分性特征提取方法,導致效果不理想,數(shù)據(jù)在LDA 特征子空間識別率較低。

      為提高人臉數(shù)據(jù)的識別率和識別速度,本文提出一種結(jié)合SCC 和LDA 的人臉數(shù)據(jù)半監(jiān)督可分性特征提取方法——SCC-LDA。SCC-LDA 先采用SCC 獲取保留人臉數(shù)據(jù)固有空間幾何結(jié)構(gòu)的低維稀疏表達;然后采用LDA 在SCC 子空間進行有監(jiān)督特征提取,進一步提取數(shù)據(jù)的可分性特征并降維。SCC-LDA 相當于對數(shù)據(jù)進行了兩次特征提取,運算時間較LDA 有明顯縮短,且特征子空間中數(shù)據(jù)的可分性更強。SCC-LDA 將非監(jiān)督學習與監(jiān)督學習相結(jié)合,相比LDA:1)可由SCC 的字典學習過程捕獲人臉圖像的固有流形結(jié)構(gòu),故相比LDA子空間,SCC-LDA 子空間包含了更多分類信息;2)相比LDA 對原始高維數(shù)據(jù)進行特征提取,SCC-LDA 采用LDA 對保留人臉數(shù)據(jù)固有空間幾何結(jié)構(gòu)的SCC低維稀疏表達進行特征提取,不僅進一步提取了可分性信息,還可提高人臉特征提取速度,進而提高人臉識別速度。本文采用K 近鄰(K-Nearest Neighbor,KNN)[9]分類器和最小距離(Minimum Distance,MD)[10]分類器驗證特征提取的有效性?;贠RL 和Yale 數(shù)據(jù)的實驗結(jié)果表明,相比SCC 子空間法和LDA 子空間法,本文所提SCC-LDA 子空間法可顯著提高識別率,并可加快人臉識別速度。

      2 稀疏概念編碼

      SCC 首先通過捕捉數(shù)據(jù)的內(nèi)在流形結(jié)構(gòu),學習一組保留數(shù)據(jù)流形結(jié)構(gòu)的基向量;然后以這組基向量為字典進行稀疏表示學習。所得低維稀疏表示既保留了數(shù)據(jù)的幾何結(jié)構(gòu),又有更好的可分性且為稀疏的。

      2.1 稀疏表示基向量學習

      SCC 首先學習稀疏表示的基向量,即字典學習。SCC 為獲取能保留數(shù)據(jù)潛在流形結(jié)構(gòu)的基向量,先用流形學習[11]進行圖譜分析[12],用圖譜逼近流形,得到隱藏在高維空間中樣本的低維流形嵌入,然后學習保留此流形嵌入的SCC基向量。

      具體先用K 近鄰法構(gòu)建鄰接圖G,圖中的N個頂點與每個樣本一一對應(yīng),邊為每個樣本與其K近鄰之間的相似度,為局部幾何模型定義權(quán)重矩陣W,且

      其中NK(xi)表示xi的K 近鄰集合。則圖拉普拉斯矩 陣 L=D-W,其 中 D 為 對 角 矩 陣 且。為捕獲嵌入在高維空間中的低維數(shù)據(jù)流形,求解下面的廣義特征值問題[13]:

      其中Y=[y1y2…yk],yi是上述廣義特征值問題特征值由小到大排序?qū)?yīng)的特征向量,Y 的每行是各樣本在k 維子空間中的流形嵌入。為保留數(shù)據(jù)流形結(jié)構(gòu),SCC 學習保留低維流形嵌入Y 的字典U,U 的各列為SCC 的基向量,可通過求解下式的最優(yōu)化問題完成:

      其中,X 為樣本矩陣,原空間各樣本存儲在X 各列,α 是正則化參數(shù),α||U||2調(diào)整模型以避免過學習。通過上式對U 的求導,令導數(shù)為零,可求得最優(yōu)解:

      I 為單位矩陣。也可以通過LSQR[14]方法直接算出U*。

      由式(3)可知,SCC 的基向量保留了數(shù)據(jù)的流形結(jié)構(gòu),原始數(shù)據(jù)投影到SCC 基向量后,與數(shù)據(jù)的流形嵌入最接近。

      2.2 稀疏表示學習

      在獲得SCC 基向量矩陣U 后,稀疏表示A 的各列可通過求解下面的最小化問題計算:

      xi和ai分別是X 和A 的各列,A 的各列為X列中對應(yīng)樣本的稀疏表示,| ai|表示ai的L1范數(shù),L1范數(shù)正則化項可以確保ai的稀疏性。上式有以下等效公式:

      通過式(6)將SCC 子空間中U 的系數(shù)稀疏化,所得稀疏表示A 是稀疏的。最小角回歸(Least Angle Regress,LARs)[15]算法可以解決這類最優(yōu)化問題,LARs 算法通過設(shè)定ai的非零分量個數(shù)來控制ai的稀疏性,無需設(shè)置參數(shù)γ。

      SCC 可將數(shù)據(jù)降維,并在通過SCC 的基向量獲取數(shù)據(jù)稀疏表示的同時,保留了數(shù)據(jù)固有的空間幾何結(jié)構(gòu)。

      3 線性判別分析

      LDA 尋找一個最佳判別投影矩陣V,使樣本投影到LDA 特征子空間中后Fisher 準則最大,即LDA 子空間中類間散布與類內(nèi)散布之比最大。Fisher準則函數(shù):

      其中,Sb和Sw分別為原始數(shù)據(jù)的類間散布矩陣和類內(nèi)散布矩陣。采用LDA 對訓練樣本進行特征提取,首先計算訓練樣本數(shù)據(jù)的類間散布矩陣Sb和類內(nèi)散布矩陣Sw:

      其中,C 表示樣本的類別數(shù),Pi表示第i 類的先驗概率,可通過該類訓練樣本個數(shù)除以訓練樣本總數(shù)估計得到,即Pi=Ni/N,N 表示訓練樣本總數(shù);Ni表示第i 類訓練樣本數(shù);mi表示第i 類訓練樣本的均值,表示第i 類的第j 個訓練樣本;m 表示訓練樣本的整體均值向量,

      通過Fisher準則函數(shù)求解最佳投影矩陣:

      若LDA 子空間的維數(shù)為m,則LDA 的解V*各列為前m 個最大特征值對應(yīng)的特征向量。將原空間樣本映射到LDA 特征子空間,得到映射后的樣本集Z :

      4 SCC-LDA人臉特征提取

      針對人臉數(shù)據(jù)維數(shù)高,可分性差的問題,本文提出一種新的半監(jiān)督人臉數(shù)據(jù)可分性特征提取方法——SCC-LDA,可提高人臉識別效率。SCC-LDA 首先對所有樣本,包括有類標的訓練樣本和無類標的測試樣本,采用SCC進行無監(jiān)督的稀疏學習,稀疏學習包括基向量的學習和稀疏表示的學習,在降低數(shù)據(jù)維數(shù)的同時獲取數(shù)據(jù)的保留流形結(jié)構(gòu)的稀疏表示,且所得稀疏表示包含了來自所有樣本的分類信息;然后采用LDA 在SCC 稀疏表示子空間進行有監(jiān)督的可分性特征提取,分類識別在所得SCC-LDA子空間進行。

      SCC-LDA 的人臉特征提取算法具體步驟如下。

      1)將原始n 維空間的人臉數(shù)據(jù)集X 劃分為訓練樣本集Xtr和測試樣本集Xte,各樣本xi∈?n×1均按列存放;

      2)將所有樣本X,包括訓練樣本集Xtr和測試樣本集Xte,采用SCC進行稀疏表示學習和降維:

      (1)采用式(1)構(gòu)造權(quán)重矩陣W,根據(jù)流形學習求解式(2)得到所有樣本的低維流形嵌入Y,再通過學習一組保留人臉圖像流形結(jié)構(gòu)的基向量,并以列存放在基向量矩陣U∈?n×p中,p 為SCC子空間的維數(shù),且p<n;

      3)采用LDA 對SCC 子空間中訓練樣本的稀疏表示集Atr進行特征提取和降維,將求得的特征向量 以 列 存 放 在 投 影 矩 陣V∈?p×m中,m 為SCC-LDA子空間的維數(shù),且m<p<n;

      4)將訓練樣本的稀疏表示集Atr和測試樣本的稀疏表示集Ate,分別采用Ztr=VTAtr和Zte=VTAte投影到SCC-LDA 子空間,Ztr和Zte分別為SCC-LDA 子空間的訓練樣本集和測試樣本集。最終,分類識別在SCC-LDA子空間進行。

      本文在SCC-LDA 子空間采用KNN 和MD 分類器進行分類識別,以評估所提特征提取方法的有效性。KNN 分類器決策規(guī)則為,對于SCC-LDA 子空間的任一測試樣本zte,判決zte屬于所決定的類,其中ki表示zte的K 近鄰中屬于第i 類的訓練樣本數(shù)。MD分類器以各類均值為模板建立模板庫, 判 決屬 于所決定的類,其中表示zte和第i 類均值模板的歐式距離。

      本文提出的SCC-LDA 方法對人臉數(shù)據(jù)進行了兩次特征提取,首先采用SCC 進行非監(jiān)督特征提取,然后在SCC 稀疏表示子空間采用LDA 進行監(jiān)督特征提取。SCC-LDA 將非監(jiān)督學習與監(jiān)督學習相結(jié)合,可由SCC的字典學習過程保留人臉圖像的固有流形結(jié)構(gòu)。故SCC-LDA 子空間,相比SCC 子空間有更強的可分性;相比LDA 子空間包含了無類標樣本的分類信息,人臉識別速度也有顯著提高。

      5 實驗結(jié)果

      為驗證本文所提SCC-LDA 算法的有效性,分別采用KNN、MD 分類器對ORL_32×32、ORL_64×64、Yale_32×32、和Yale_64×64 四組人臉數(shù)據(jù)[16]進行分類,并分析比較SCC 子空間法[17]、LDA 子空間法、所提SCC-LDA 子空間法的平均識別率、Kappa[18]系數(shù)和運行所用時間。Kappa 系數(shù)為計算分類精度的方法,可分為五組來表示不同級別的一致性:0~0.20 極低的一致性(slight)、0.21~0.40 一般的一致性(fair)、0.41~0.60 中等的一致性(moderate)、0.61~0.80高度的一致性(substantial)和0.81~1幾乎完全一致(almost perfect)。四組人臉數(shù)據(jù)的實驗結(jié)果均表明,本文所提SCC-LDA 子空間法,相比SCC子空間法和LDA 子空間法,可顯著提高人臉識別率;相比LDA子空間法可顯著提高人臉識別速度。

      仿真環(huán)境:操作系統(tǒng)為Windows 7,CPU 為2.50GHz,內(nèi)存為6.0GB,編程平臺為Matlab R2014a。

      5.1 人臉數(shù)據(jù)介紹

      本文采用ORL 和Yale 人臉數(shù)據(jù)庫,ORL 人臉庫由40 人組成,每人10 幅,Yale 人臉庫由15 人組成,每人11 幅。ORL_32×32 和Yale_32×32 中為32×32 像素的圖像,ORL_64×64 和Yale_64×64 中為64×64 像素的圖像,對這四個人臉數(shù)據(jù)庫[16]均分別隨機選取每人的5、6、7 張圖像作為訓練樣本,其余作為測試樣本。

      5.2 實驗結(jié)果分析

      表1 為分別用MD 分類器和KNN 分類器對ORL_32×32 人臉數(shù)據(jù),在各類訓練樣本數(shù)為5、6、7的情況下進行20 次分類,統(tǒng)計出的平均識別率、平均Kappa系數(shù)、和運行時間。

      從表1 中可以看出,兩種分類器在各類訓練樣本數(shù)為5、6、7 時,本文所提SCC-LDA 方法的平均識別率,相比SCC 法和LDA 法,均有顯著提高,同時識別率標準差最小,Kappa 系數(shù)最大;SCC-LDA法的運行時間較LDA 有顯著縮短。以各類訓練樣本數(shù)為5 為例,MD 分類器SCC-LDA 平均識別率比LDA 高出7.65 個百分點,比SCC 高出5.70 個百分點;KNN 分類器SCC-LDA 的平均識別率比LDA 高出8.58個百分點,比SCC高出6.85個百分點。各類訓練樣本數(shù)為6和7時,效果也同樣明顯。

      表1 ORL_32×32數(shù)據(jù)MD、KNN分類器的識別率Kappa系數(shù)和運行時間

      表2 ORL_64×64數(shù)據(jù)MD、KNN分類器的識別率Kappa系數(shù)和運行時間

      表2 為分別用MD 分類器和KNN 分類器對ORL_64×64 人臉數(shù)據(jù),在各類訓練樣本數(shù)為5、6、7的情況下進行20 次分類,統(tǒng)計出的平均識別率、平均Kappa系數(shù)和運行時間。

      從表2 中可以看出,兩種分類器在各類訓練樣本數(shù)為5、6、7 時,本文所提SCC-LDA 方法的平均識別率,相比SCC 法和LDA 法,均有顯著提高,同時識別率標準差最小,Kappa 系數(shù)最大;SCC-LDA法的運行時間較LDA 有顯著縮短。以各類訓練樣本數(shù)為5 為例,MD 分類器SCC-LDA 平均識別率比LDA 高出8.3%,比SCC 高出7.6%;KNN 分類器SCC-LDA的平均識別率比LDA高出9.15%,比SCC高出6.45%。各類訓練樣本數(shù)為6 和7 時,效果也同樣明顯。

      表3 為分別用MD 分類器和KNN 分類器對Yale_32×32 人臉數(shù)據(jù),在各類訓練樣本數(shù)為5、6、7的情況下進行20 次分類,統(tǒng)計出的平均識別率、平均Kappa系數(shù)和運行時間。

      從表3 中可以看出,兩種分類器在各類訓練樣本數(shù)為5、6、7 時,本文所提SCC-LDA 方法的平均識別率,相比SCC 法和LDA 法,均有顯著提高,同時識別率標準差最小,Kappa 系數(shù)最大;SCC-LDA法的運行時間較LDA 有顯著縮短。以各類訓練樣本數(shù)為5 為例,MD 分類器SCC-LDA 平均識別率比LDA 高出9.6%,比SCC 高出16.2%;KNN 分類器SCC-LDA 的平均識別率比LDA 高出15.07%,比SCC 高出19.67%。各類訓練樣本數(shù)為6 和7 時,效果也同樣明顯。

      表4 為分別用MD 分類器和KNN 分類器對Yale_64×64 人臉數(shù)據(jù),在各類訓練樣本數(shù)為5、6、7的情況下進行20 次分類,統(tǒng)計出的平均識別率、平均Kappa系數(shù)和運行時間。

      表3 Yale_32×32數(shù)據(jù)MD、KNN分類器的識別率Kappa系數(shù)和運行時間

      表4 Yale_64×64數(shù)據(jù)MD、KNN分類器的識別率Kappa系數(shù)和運行時間

      從表4 中可以看出,兩種分類器在各類訓練樣本數(shù)為5、6、7 時,本文所提SCC-LDA 方法的平均識別率,相比SCC 法和LDA 法,均有顯著提高,同時識別率標準差最小,Kappa 系數(shù)最大;SCC-LDA法的運行時間較LDA 有顯著縮短。以各類訓練樣本數(shù)為5 為例,MD 分類器SCC-LDA 平均識別率比LDA 高出8.4%,比SCC 高出18.27%;KNN 分類器SCC-LDA 的平均識別率比LDA 高出10.47%,比SCC 高出22%。各類訓練樣本數(shù)為6 和7 時,效果也同樣明顯。

      5.3 SCC基向量個數(shù)對SCC-LDA影響分析

      SCC-LDA 中第一步SCC 非監(jiān)督特征提取所得SCC 基向量的個數(shù),會影響最終SCC-LDA 特征提取的效果。圖1 為ORL_32×32 數(shù)據(jù)采用MD 分類器分別在SCC-LDA 子空間、SCC 子空間、LDA 子空間,20 次分類的平均識別率隨SCC 基向量個數(shù)變化的對比。LDA法沒有用到SCC,所以LDA法的識別率在圖中為一條直線,為更好地進行識別率對比將其放入圖中。

      圖1 SCC基向量個數(shù)對識別率影響曲線圖

      從圖1 可以看出,隨著SCC 基向量數(shù)的增加,SCC-LDA 識別率存在波動。ORL 數(shù)據(jù)為40 類,SCC-LDA 在SCC 基向量個數(shù)為68 時識別率最高,隨著SCC 基向量個數(shù)的增加,識別率先快速下降,然后緩慢上升,最終趨于平穩(wěn)。這是由于,SCC 的基向量是從原始數(shù)據(jù)中提取出的概念(Concept),概念的個數(shù)至少應(yīng)等于類別數(shù),即每一類至少由一個概念來表達;另一方面,概念并非越多越好,概念過多,反而不利于捕獲數(shù)據(jù)的流形,且不利于稀疏表達。

      6 結(jié)語

      本文提出了一種新的半監(jiān)督人臉數(shù)據(jù)特征提取方法——SCC-LDA。SCC-LDA 結(jié)合了SCC 和LDA 的優(yōu)點,采用LDA 對最接近數(shù)據(jù)流形嵌入的稀疏表達進行特征提取,解決了LDA 不能提取出包含在無類標樣本中的可分性信息的問題。ORL和Yale 人臉數(shù)據(jù)的實驗結(jié)果表明,相比SCC 和LDA,SCC-LDA 可顯著提高人臉識別率,并可加快人臉識別速度。

      猜你喜歡
      訓練樣本識別率人臉
      有特點的人臉
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      計算機工程(2020年3期)2020-03-19 12:24:50
      人工智能
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
      三國漫——人臉解鎖
      動漫星空(2018年9期)2018-10-26 01:17:14
      提升高速公路MTC二次抓拍車牌識別率方案研究
      寬帶光譜成像系統(tǒng)最優(yōu)訓練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識別算法
      基于稀疏重構(gòu)的機載雷達訓練樣本挑選方法
      高速公路機電日常維護中車牌識別率分析系統(tǒng)的應(yīng)用
      江达县| 马鞍山市| 临海市| 德江县| 长海县| 罗源县| 昌邑市| 芜湖县| 会东县| 奎屯市| 舟山市| 嘉善县| 巴青县| 新泰市| 壶关县| 福建省| 赣榆县| 邵阳市| 湖南省| 电白县| 融水| 宜良县| 苍梧县| 昭苏县| 堆龙德庆县| 盐源县| 岑溪市| 柳州市| 历史| 秦皇岛市| 西华县| 承德市| 宝鸡市| 镇坪县| 札达县| 宜丰县| 综艺| 凤台县| 大冶市| 内黄县| 孙吴县|