• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于全局不相關(guān)的多流形學(xué)習(xí)

      2020-02-08 06:58:56彭永康
      關(guān)鍵詞:流形訓(xùn)練樣本識(shí)別率

      彭永康,李 波

      (1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;2.武漢科技大學(xué)智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430065)

      0 引 言

      在人臉識(shí)別[1]任務(wù)中,特征提取是其中非常關(guān)鍵的一環(huán),主要的目的是為了降維,提取出關(guān)鍵的特征信息。在過(guò)去幾十年中,很多針對(duì)高維數(shù)據(jù)降維的算法被相繼提出,維數(shù)約減算法可分為線性方法和非線性方法兩類[2]。典型的線性方法有無(wú)監(jiān)督的主成分分析(principal component analysis,PCA)和有監(jiān)督的線性判別分析(linear discriminant analytics,LDA)[3]。代表性的非線性算法如流形學(xué)習(xí),有拉普拉斯特征映射[4](laplacian eigenmaps,LE)算法,但是LE算法在泛化能力上表現(xiàn)不是很好,換句話說(shuō),測(cè)試數(shù)據(jù)使用訓(xùn)練數(shù)據(jù)得到的投影矩陣計(jì)算其低維空間映射時(shí)是不容易得到的,這個(gè)問(wèn)題也叫作out-of-sample問(wèn)題。針對(duì)這個(gè)問(wèn)題,張量化[5]、核化[6]、線性化[7]等技術(shù)相繼出現(xiàn)來(lái)處理這個(gè)問(wèn)題。相對(duì)于LE算法,局部保持投影[8](locally preserving projections,LPP)算法計(jì)算成本低并且在聚類能力上表現(xiàn)良好。但是以上的LPP算法和LE算法都是基于樣本的局部結(jié)構(gòu)而沒(méi)有考慮樣本的非局部結(jié)構(gòu)信息,之后Yang等提出了一個(gè)非監(jiān)督判別投影算法[9](unsupervised discriminant projection,UDP),不僅注意了樣本的局部結(jié)構(gòu)信息,還將樣本的非局部結(jié)構(gòu)信息考慮進(jìn)去。

      以上的流形學(xué)習(xí)算法是基于點(diǎn)到點(diǎn)之間的距離,有以下缺陷,其一,使用點(diǎn)到點(diǎn)之間的距離學(xué)習(xí)樣本點(diǎn)的幾何結(jié)構(gòu)信息有限,其二,抗干擾能力不強(qiáng),容易受到噪聲的干擾。針對(duì)以上問(wèn)題,近鄰線性組合的方法包括近鄰特征線[10](nearest feature line,NFL)和近鄰特征場(chǎng)[11](nearest feature plane,NFP)相繼被提出。點(diǎn)到特征線的距離和點(diǎn)到特征空間的距離相較于點(diǎn)到點(diǎn)之間的距離,可以挖掘出更多的判別信息,加強(qiáng)算法的判別能力。但是基于點(diǎn)到特征空間的距離依然容易受到噪聲的干擾,無(wú)法充分學(xué)習(xí)樣本點(diǎn)的局部判別信息。為了解決以上算法的缺陷,提出特征空間到特征空間距離,可以更好學(xué)習(xí)樣本之間的結(jié)構(gòu)信息,同時(shí)提升算法的魯棒性,減少噪聲對(duì)算法判別能力的干擾。

      通過(guò)特征抽取得到的判別信息很大程度上會(huì)存在一定的信息冗余,即判別特征向量是統(tǒng)計(jì)相關(guān)的。為了減少其冗余度,使判別特征是全局不相關(guān)的,將不相干約束應(yīng)用于特征空間到特征空間距離度量學(xué)習(xí),可以減少判別信息的相關(guān)性,提高算法的判別能力。

      本文提出一個(gè)基于全局不相關(guān)的多流形學(xué)習(xí)算法(UFDML)。①使用特征空間到特征空間的距離,并使異類特征空間距離最大。②提出一個(gè)不相關(guān)約束應(yīng)用于該算法之上,使得抽取的特征是全局不相關(guān)的。通過(guò)對(duì)LDA,LPP,UDP等算法的比較,本文提出的方法在ORL,Yale,AR人臉庫(kù)中的識(shí)別率是優(yōu)于其它算法的。

      1 點(diǎn)到特征空間距離

      根據(jù)參考文獻(xiàn)[12,13],點(diǎn)到特征空間的距離則可以由如下定義為

      (1)

      (2)

      (3)

      2 基于不相關(guān)的多流形學(xué)習(xí)算法

      2.1 特征空間距離

      (4)

      同樣的方式,樣本點(diǎn)xj在它的近鄰特征空間的投影點(diǎn)可以表示為

      (5)

      所以,空間到空間的距離(S2S distance)可以定義為如下所示

      (6)

      用矩陣的形式表達(dá),則S2S距離矩陣可以表示為

      (7)

      這里T是一個(gè)索引矩陣,并且矩陣的元素滿足以下的公式

      (8)

      2.2 特征空間多流形度量

      (9)

      這里

      (10)

      這里Pij的取值為:當(dāng)xi,xj屬于異類最近鄰樣本點(diǎn),則記作1,否則記作0。

      本算法的目的是為了找到一個(gè)最優(yōu)的線性轉(zhuǎn)化,Y=WTX,通過(guò)該線性轉(zhuǎn)化可以使得異類之間的距離最大,所以尋求的投影點(diǎn)應(yīng)是樣本點(diǎn)在異類特征空間的投影點(diǎn),即上式可以變化成如下所示

      (11)

      M=TTT

      (12)

      結(jié)合式(11)、式(12),上式可以改寫成以下的形式

      (13)

      WXT(Dii-MI)XWT=WXTLXWT

      (14)

      這里L(fēng)是一個(gè)拉普拉斯矩陣L=D-M。

      2.3 不相關(guān)分析

      特征抽取算法在人臉識(shí)別中扮演著非常重要的角色,但是,通過(guò)特征抽取所得到的特征往往含有重疊的判別信息,而在特征抽取算法中加入統(tǒng)計(jì)不相關(guān)的這個(gè)特性可以很好消除判別信息的冗余。但是很多算法往往忽視了這個(gè)性質(zhì),本文提出的算法在基于特征空間距離進(jìn)行特征抽取的同時(shí),加入了不相關(guān)約束,使得抽取的判別特征信息是統(tǒng)計(jì)不相關(guān)的。

      由前文可得到,對(duì)于訓(xùn)練樣本,判別分析可以由如下的變化得到

      (15)

      但是由該式得到的特征分量是統(tǒng)計(jì)相關(guān)的,即

      (16)

      只有該等式等于0時(shí),特征分量yi和yj是統(tǒng)計(jì)不相關(guān)的,但是式(15)并不能保證得到的特征分量是統(tǒng)計(jì)不相關(guān),當(dāng)提取出的特征分量是統(tǒng)計(jì)相關(guān)的,存在著冗余信息,不利于信息的提取和最終的分類。

      2.4 基于全局不相關(guān)的多流形學(xué)習(xí)框架

      基于以上的問(wèn)題,本文提出了一個(gè)基于全局不相關(guān)的多流形學(xué)習(xí)的框架,使得異類樣本之間距離盡可能的大,樣本點(diǎn)經(jīng)過(guò)線性轉(zhuǎn)化后得到的投影向量是全局不相關(guān)的。在式(15)的基礎(chǔ)上,添加一個(gè)不相關(guān)約束,使得到的判別特征是全局不相關(guān)的,并且異類樣本之間的距離盡可能的大。

      提出的不相關(guān)約束要滿足抽取的特征Y=WTX,其中任意兩個(gè)特征向量yi,yj(i≠j),是全局不相關(guān)的,這樣可以得到

      (17)

      這里Wi,Wj是代表矩陣W中不同的倆列,St則是代表訓(xùn)練樣本的全局散度矩陣,可以表示為

      (18)

      (19)

      等式(17)和等式(19)整理得以下式子

      WTStW=I

      (20)

      這里的N指訓(xùn)練樣本點(diǎn)個(gè)數(shù)。

      將該不相關(guān)約束添加到等式中,則我們最終得到的優(yōu)化函數(shù)如下所示

      (21)

      對(duì)這個(gè)優(yōu)化函數(shù)進(jìn)行求解,通過(guò)拉格朗日乘子法,即

      (22)

      對(duì)其求偏導(dǎo)數(shù),則得到以下的形式

      (23)

      令其等于0,則得到

      XLXTW=λStW

      (24)

      這樣,等式(24)求解可以等價(jià)于求解其廣義特征分解問(wèn)題,則得到的特征向量組成的矩陣是所要求的最優(yōu)化的特征轉(zhuǎn)換矩陣W。

      2.5 算法流程

      在上述的理論基礎(chǔ)上,本文提出的UFDML算法步驟見(jiàn)表1。

      表1 基于全局不相關(guān)的多流形學(xué)習(xí)算法步驟

      3 實(shí)驗(yàn)和分析

      為了對(duì)本文提出的方法進(jìn)行驗(yàn)證,將本文提出的UFDML算法與相關(guān)的經(jīng)典算法進(jìn)行實(shí)驗(yàn)結(jié)果比較,比較的方法包括UDP,LPP,LDA算法。實(shí)驗(yàn)的數(shù)據(jù)庫(kù)則選用AR,ORL,Yale這3個(gè)廣泛使用的標(biāo)準(zhǔn)人臉數(shù)據(jù)庫(kù),以此對(duì)本文所提出算法的有效性和實(shí)用性進(jìn)行評(píng)估。

      3.1 數(shù)據(jù)集描述

      Yale數(shù)據(jù)集中共計(jì)165張人臉圖片,分別為15個(gè)人在相似背景下的不同光照條件和表情的人臉圖片。實(shí)驗(yàn)中,圖像樣本被處理成64×64的大小。

      ORL數(shù)據(jù)集共計(jì)400幅灰度圖像,分別為40個(gè)人在不同時(shí)間下拍攝完成的,每個(gè)人的人臉圖像的表情變化豐富。實(shí)驗(yàn)中,圖像樣本被處理成64×64的大小[14]。

      AR數(shù)據(jù)集共計(jì)4000多幅圖像,分別為70名男性人臉圖像樣本和56名女性人臉圖像樣本。其中圖像的拍攝都是在不同的光照環(huán)境下拍攝完成的,表情也各不相同。

      表2列出AR,ORL,Yale數(shù)據(jù)集的詳細(xì)信息。

      表2 AR,ORL,Yale數(shù)據(jù)集信息

      3.2 AR,ORL,Yale數(shù)據(jù)集上不同方法的效果比對(duì)

      在AR,ORL,Yale數(shù)據(jù)集對(duì)比實(shí)驗(yàn)中,我們用本文提出的UFDML算法跟其它算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的有效性。實(shí)驗(yàn)過(guò)程中,先通過(guò)各算法對(duì)原始高維數(shù)據(jù)進(jìn)行降維,最后使用KNN分類器得到識(shí)別結(jié)果。

      對(duì)于每個(gè)數(shù)據(jù)集,選取每個(gè)算法10次中的最高識(shí)別準(zhǔn)確率作為最終識(shí)別結(jié)果。識(shí)別結(jié)果如下。

      如表3所示,在這個(gè)實(shí)驗(yàn)中,訓(xùn)練樣本n隨機(jī)的選中為每類6,7,8個(gè),并且每種算法重復(fù)訓(xùn)練10次,得到每個(gè)算法最大識(shí)別率和與之對(duì)應(yīng)的最佳維度。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的算法在訓(xùn)練樣本選中6,7,8個(gè)時(shí),得到的識(shí)別率都是優(yōu)于其它3種算法的。

      表3 UDP,LPP,UFDML,LDA在AR數(shù)據(jù)集上的識(shí)別結(jié)果

      如表4所示,每一類圖像中隨機(jī)選中4,5,6個(gè)作為訓(xùn)練樣本,其余的作為測(cè)試樣本,重復(fù)10次得到每個(gè)算法最大識(shí)別率和最佳維度。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的算法在訓(xùn)練樣本選中4,5,6個(gè)時(shí),本文提出的算法的識(shí)別能力優(yōu)于其它算法。

      表4 UDP,LPP,UFDML,LDA在ORL數(shù)據(jù)集上的識(shí)別結(jié)果

      如表5所示,訓(xùn)練樣本n隨機(jī)的選中為每類6,7,8個(gè)并重復(fù)訓(xùn)練10次,得到每個(gè)算法最大識(shí)別率和對(duì)應(yīng)維度。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的算法在訓(xùn)練樣本選中6,7,8個(gè)時(shí),得到的識(shí)別率都是優(yōu)于其它3種算法的,并且實(shí)驗(yàn)得到的識(shí)別率在分別劃分為6,7,8個(gè)訓(xùn)練樣本時(shí),算法的識(shí)別率是相對(duì)穩(wěn)定的。

      4 結(jié)束語(yǔ)

      為了解決傳統(tǒng)流形學(xué)習(xí)算法中判別特征信息不夠充足,易受到噪聲影響和判別特征冗余的問(wèn)題,本文提出了一種基于全局不相關(guān)的多流形學(xué)習(xí)算法(UFDML)。該算法首先通過(guò)特征空間到特征空間距離來(lái)代替?zhèn)鹘y(tǒng)的點(diǎn)到點(diǎn)之間的距離,學(xué)習(xí)一個(gè)基于特征空間距離的判別矩陣,使得異類樣本點(diǎn)之間的距離盡可能的大,同時(shí),加入了一個(gè)不相關(guān)的約束條件使判別特征統(tǒng)計(jì)不相關(guān),最終得到最優(yōu)的投影矩陣。UFDML算法有以下優(yōu)點(diǎn),其一,能夠更好地學(xué)習(xí)樣本點(diǎn)局部結(jié)構(gòu)信息和抗噪聲干擾能力強(qiáng),二是經(jīng)過(guò)該算法抽取的特征向量是統(tǒng)計(jì)不相關(guān)的,這樣可以降低其冗余度,樣本點(diǎn)在低維空間的分類能力得到提高。在ORL,AR,Yale人臉數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果驗(yàn)證了UFSDML算法的有效性和魯棒性。不足的是,與其它流形學(xué)習(xí)算法相比,本文提出的算法在計(jì)算時(shí)間上不如其它算法,因?yàn)橛?jì)算投影點(diǎn)所造成的迭代花費(fèi)時(shí)間過(guò)多,下一步的研究方向?qū)⒖紤]如何有效降低算法的時(shí)間復(fù)雜度。

      表5 UDP,LPP,UFDML,LDA在Yale數(shù)據(jù)集上的識(shí)別結(jié)果

      猜你喜歡
      流形訓(xùn)練樣本識(shí)別率
      緊流形上的Schr?dinger算子的譜間隙估計(jì)
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      人工智能
      迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識(shí)別算法
      基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
      景谷| 拜城县| 洛扎县| 正阳县| 平和县| 察哈| 阿拉善右旗| 民丰县| 栖霞市| 清丰县| 荣昌县| 通道| 无为县| 邓州市| 青铜峡市| 万宁市| 彭州市| 手游| 德化县| 青岛市| 百色市| 永新县| 儋州市| 横峰县| 六枝特区| 新巴尔虎右旗| 湄潭县| 荣昌县| 玉门市| 黑水县| 那坡县| 北海市| 霍城县| 永安市| 浮山县| 潜江市| 关岭| 桐城市| 甘南县| 缙云县| 梁山县|