• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于混合高斯分布的廣義零樣本識別

      2021-11-05 02:48:00李曉瑞
      上海電力大學(xué)學(xué)報 2021年5期
      關(guān)鍵詞:高斯分布類別語義

      邵 潔, 李曉瑞

      (上海電力大學(xué) 電子與信息工程學(xué)院, 上海 200090)

      由于數(shù)據(jù)信息的爆炸式增長和信息標(biāo)注的速度緩慢,所以零樣本識別成為一項(xiàng)重要而富有挑戰(zhàn)的研究[1]。傳統(tǒng)的圖像識別只能識別訓(xùn)練集中的類別[2],然而在實(shí)際應(yīng)用中,期望識別的樣本包括訓(xùn)練的類別和不存在訓(xùn)練集的類別,傳統(tǒng)的零樣本識別只能識別不存在訓(xùn)練集的類別。為了更好地應(yīng)用于實(shí)際生產(chǎn)生活,廣義零樣本識別應(yīng)運(yùn)而生[3]。從定義可以看出,廣義零樣本識別不僅要求學(xué)習(xí)訓(xùn)練集中存在的類別,同時還要將學(xué)習(xí)到的知識轉(zhuǎn)化到訓(xùn)練集中不存在的類別中去。

      廣義零樣本識別的方法是通過建立視覺特征和語義特征的聯(lián)系來達(dá)到識別的目的。文獻(xiàn)[4-7]通過將視覺特征映射到語義特征來實(shí)現(xiàn)零樣本識別。由于視覺特征是高緯度的特征,而語義特征是低緯度的特征,所以將高緯度的特征映射到低緯度,不可避免地會造成信息丟失。為了解決這一問題,文獻(xiàn)[8-9]提出將語義特征映射到視覺特征。由于同一個語義特征可能對應(yīng)多個視覺特征,有可能直接造成映射錯誤,因此該方法仍存在爭議。

      視覺特征和語義特征交叉映射是近年來常用的且效果很好的一種方法,如文獻(xiàn)[10-13]就是采用了這類方法。其中,文獻(xiàn)[10]提出了利用變分自編碼器(Variational Auto Encoding,VAE)創(chuàng)建一個共享隱藏空間的模型,通過該模型可以將視覺特征和語義特征聯(lián)系起來。但是文中VAE運(yùn)用了標(biāo)準(zhǔn)的高斯分布,相較于標(biāo)準(zhǔn)高斯分布,混合高斯分布可以更好地擬合樣本的實(shí)際分布。

      此外,注意力機(jī)制對圖像處理的發(fā)展起到了巨大的推動作用。注意力機(jī)制分為硬注意力機(jī)制和軟注意力機(jī)制兩類[14]。目前很多方法都是應(yīng)用軟注意力機(jī)制,其特點(diǎn)是利用各個特征的關(guān)系,更新注意力層的權(quán)重,如文獻(xiàn)[15]。文獻(xiàn)[16]提出了硬注意力機(jī)制的概念,其特點(diǎn)是注意力機(jī)制層的權(quán)重往往是固定的,或者在提取特征時只提取高緯度特征的某一部分特征。文獻(xiàn)[17]將硬注意力機(jī)制應(yīng)用于圖片的注釋,受到注意力機(jī)制的啟發(fā),對不同的高斯分布給予不同的權(quán)重,構(gòu)成了混合高斯分布,進(jìn)而提升了模型的識別能力。

      本文提出了一種基于混合高斯分布的廣義零樣本識別的方法(Multi-channel Gaussian Mixture-VAE,MGM-VAE)。通過引用混合高斯分布,建立了一個更好的視覺特征和語義特征聯(lián)系。同時,結(jié)合多通道以及對應(yīng)的權(quán)重層,擴(kuò)大了算法的解空間,使算法在更廣泛的解領(lǐng)域?qū)で笞顑?yōu)解。

      1 算法介紹

      1.1 廣義零樣本模型

      假設(shè)數(shù)據(jù)庫D={(v,y,a(y))|v∈V,y∈Y}是由訓(xùn)練數(shù)據(jù)庫和測試數(shù)據(jù)庫構(gòu)成,v表示由卷積層提取的視覺特征,y表示v所屬的類別,a(y)表示語義特征,V為視覺特征的集合,Y為類別的集合。用VS和AS表示訓(xùn)練類別的視覺特征集合和語義特征集合,對應(yīng)的標(biāo)簽集合為YS,即已知的類別。用VU和AU表示識別類別的視覺特征集合和語義特征集合,對應(yīng)的標(biāo)簽集合為YU,即未知的類別。由此得出YU∩YS=?,YU∪YS=Y。零樣本識別的目的是為了找到一個函數(shù)fZ:v→YU,廣義零樣本識別的目的是為了尋找函數(shù)fGZ:v→Y。

      1.2 混合高斯廣義零樣本識別算法

      MGM-VAE算法流程如圖1所示。其中,淺灰色的線條和方框代表視覺特征訓(xùn)練過程,深灰色代表語義特征的訓(xùn)練過程,黑色代表識別過程。白色方框的CW代表通道權(quán)重層,視覺特征和語義特征在訓(xùn)練過程中分別更新各自的CW網(wǎng)絡(luò);Softmax分類層屬于測試階段。

      圖1 MGMVAE算法流程

      不同于傳統(tǒng)的編碼器,本文采用了多通道編碼器算法。以4層為例,編碼器結(jié)構(gòu)如圖2所示。

      圖2 多通道編碼器結(jié)構(gòu)示意

      整個算法可分為訓(xùn)練和識別兩個過程。首先對模型進(jìn)行訓(xùn)練,利用訓(xùn)練模型分別將視覺特征和語義特征映射到各自的VAE模型的隱藏空間中,再利用隱藏空間的變量恢復(fù)到對應(yīng)的視覺特征和語義特征。識別過程就是將待分類樣本的視覺特征和語義特征放入網(wǎng)絡(luò)得到對應(yīng)的隱藏空間,再根據(jù)隱藏空間進(jìn)行樣本的識別和分類。本算法的主要特點(diǎn)包括:一是選用了與文獻(xiàn)[10]相同的結(jié)構(gòu)建立視覺特征和語義特征的映射;二是引入了適應(yīng)能力更強(qiáng)的混合高斯模型,以便于更好地建立兩種特征的聯(lián)系。同時,為了顯示不同的通道在識別任務(wù)中的影響力,引入了通道權(quán)重層,加強(qiáng)識別率較好通道的權(quán)重,并降低識別率較低通道的權(quán)重。

      1.3 loss函數(shù)

      模型的loss函數(shù)可以簡單地寫為

      L=λ1LCA+λ2LDA+LVAE

      (1)

      式中:λ1,λ2——參數(shù);

      LCA——交叉loss函數(shù),表示同一個類別、不同特征恢復(fù)到另一種特征的能力;

      LDA——距離loss函數(shù),表示同一個類別、不同特征的隱藏空間的距離;

      LVAE——VAE模型loss函數(shù),表示同一個類別、同一個特征理論概率分布和實(shí)際概率分布的差距。

      1.3.1 交叉loss函數(shù)

      交叉重構(gòu)能力是指在同一個類別條件下,從一種特征的VAE模型的隱藏空間提取特征,然后經(jīng)過另外一種特征的VAE模型的解碼器還原到本來特征的能力。LCA就是用于描述交叉重構(gòu)后還原的特征與原特征之間的差異,具體公式為

      (2)

      式中:v,a——視覺特征和語義特征;

      xa,xv——a種屬性和v種屬性對應(yīng)的樣本,屬于同一個類別;

      Ev——v種屬性VAE模型的編碼器;

      Da——a種屬性VAE模型的解碼器。

      1.3.2 距離loss函數(shù)

      視覺特征和語義特征經(jīng)過編碼后映射到各自的隱藏空間,LDA的作用就是計(jì)算兩個隱藏空間的EM(Earth-Mover)距離,其近似計(jì)算公式為

      (3)

      式中:μv,μa,σv,σa——對應(yīng)屬性的μ層和σ層。

      1.3.3 VAE模型loss函數(shù)

      LVAE的公式為

      (4)

      式中:k——樣本特征的類型,k=v,a;

      E——期望;

      q,p——先驗(yàn)分布和后驗(yàn)分布;

      zk——隱藏空間;

      DKL,β——KL(Kullback Leibler)散度及其影響程度。

      1.3.4 通道權(quán)重層的更新

      通道權(quán)重層不同于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),同一通道的每一個權(quán)重值都相同,同一通道的值可能不同。針對這種網(wǎng)絡(luò)采用了更新策略,具體如下

      (5)

      βo——學(xué)習(xí)率,取為0.001;

      Q——通道數(shù)目。

      2 實(shí)驗(yàn)分析

      本文利用由Imagenet預(yù)訓(xùn)練的RES-101網(wǎng)絡(luò)提取視覺特征,對語義特征進(jìn)行編碼,最后將兩種特征放入各自對應(yīng)的VAE模型中訓(xùn)練。通過訓(xùn)練可以得到能提取隱藏特征的兩個VAE模型,識別時將待識別的視覺特征和語義特征放入MGM-VAE編碼器中得到對應(yīng)的隱藏特征,最后用一個Softmax分類器,即可達(dá)到廣義的零樣本識別。

      2.1 數(shù)據(jù)庫介紹

      本實(shí)驗(yàn)調(diào)用了3種常見的零樣本識別數(shù)據(jù)庫,分別為CUB[19],AWA2[20],SUN[21],其具體信息如表1所示。

      表1 數(shù)據(jù)庫具體信息

      2.2 實(shí)驗(yàn)結(jié)果及分析

      參照其他實(shí)驗(yàn)分析,用S表示訓(xùn)練類別的準(zhǔn)確率,U表示不存在訓(xùn)練類別但存在于測試類別的類別準(zhǔn)確率,H=2SU/(S+U) 表示S和U的綜合表現(xiàn)。為了驗(yàn)證算法的有效性和穩(wěn)定性,本文將實(shí)驗(yàn)復(fù)現(xiàn)了15次,將15次關(guān)于H參數(shù)實(shí)驗(yàn)結(jié)果的平均值HAV用于分析算法的穩(wěn)定性,最大值Hmax用于分析算法的有效性。

      近年來較為先進(jìn)的廣義零樣本學(xué)習(xí)算法的性能比較如表2所示。其中,DGAN,ReViSE,CADA-VAE都是應(yīng)用了交叉映射的思路。DGAN采用一個條件VAE、一個回歸網(wǎng)絡(luò)和一個分類器實(shí)現(xiàn)了視覺特征和語義特征的交叉映射。ReViSE利用自編碼網(wǎng)絡(luò)實(shí)現(xiàn)了視覺特征和語義特征的聯(lián)系。CADA-VAE改用VAE代替了自編碼網(wǎng)絡(luò),實(shí)現(xiàn)了視覺特征和語義特征的聯(lián)系。

      表2 不同廣義零樣本學(xué)習(xí)算法的性能比較

      由表2可以看出,對于體現(xiàn)模型的綜合性能參數(shù)H來說,本文算法幾乎領(lǐng)先所有的先進(jìn)算法。與CADA-VAE相比,在數(shù)據(jù)庫CUB中本文算法的Hmax提升了1.2,在數(shù)據(jù)庫AWA2中提升了0.6,在數(shù)據(jù)庫SUN中提升了0.3。

      接下來將分別討論幾個主要參數(shù)對實(shí)驗(yàn)結(jié)果HAV的影響。為了便于分析,本文以數(shù)據(jù)庫CUB為例。

      2.2.1 隱藏空間維度

      隱藏空間維度對性能參數(shù)HAV的影響如圖3所示。由圖3可以看出,當(dāng)隱藏空間的維度小于100時,隨著維度的增加,HAV的值越來越大,即算法的表現(xiàn)越來越好;當(dāng)隱藏空間的維度超過180時,隨著維度的增加,算法的表現(xiàn)越來越差。

      2.2.2 通道權(quán)重層最大值

      在編碼器中有多個通道,不同通道的權(quán)重可能不同,同一個通道的權(quán)重值均相同。為了便于尋找一個最優(yōu)解,需要賦予通道權(quán)重層一個合適的初值,將多個通道中的一個值設(shè)定在0.2~5.0,定義為通道權(quán)重層最大值;其他通道設(shè)為0.1。通道權(quán)重層最大值對HAV的影響如圖4所示。由圖4可以看出:當(dāng)通道權(quán)重層最大值小于1時,隨著通道權(quán)重層最大值的增大,算法的表現(xiàn)越來越好;當(dāng)最大值大于1時,模型的表現(xiàn)隨著最大值的增大而越來越差。

      圖4 通道權(quán)重層最大值對性能參數(shù)HAV的影響

      2.2.3 通道層數(shù)

      根據(jù)前文的分析,將隱藏空間的維度設(shè)定為100,權(quán)重層最大值為1.0。通道層數(shù)對HAV的影響如圖5所示。由圖5可以看出:當(dāng)通道層數(shù)小于6時,隨著通道層數(shù)的增加,算法的表現(xiàn)越來越好;層數(shù)超過6時,算法的性能開始下降。

      圖5 通道層數(shù)對性能參數(shù)HAV的影響

      3 結(jié) 語

      本文提出了一種基于混合高斯模型的廣義零樣本識別的方法,通過在VAE模型的編碼器中引入多個通道,可以更好地將視覺特征和語義特征映射到隱藏空間。同時,為了區(qū)分不同的通道對識別結(jié)果的影響,加入了通道權(quán)重層。最后,通過實(shí)驗(yàn)分析驗(yàn)證了算法的特性和有效性。

      猜你喜歡
      高斯分布類別語義
      利用Box-Cox變換對移動通信中小區(qū)級業(yè)務(wù)流量分布的研究
      2種非對稱廣義高斯分布模型的構(gòu)造
      語言與語義
      一種基于改進(jìn)混合高斯模型的前景檢測
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      認(rèn)知范疇模糊與語義模糊
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見肉類別
      兴化市| 定襄县| 富锦市| 铜山县| 台北市| 万源市| 廉江市| 郁南县| 隆子县| 富民县| 临清市| 锦屏县| 新泰市| 和静县| 孝昌县| 西藏| 拜泉县| 天水市| 周口市| 密云县| 株洲县| 罗源县| 乐山市| 曲麻莱县| 吉首市| 久治县| 德钦县| 华亭县| 永福县| 广元市| 荆门市| 鄂伦春自治旗| 清镇市| 甘谷县| 青阳县| 扶风县| 汉中市| 施甸县| 平陆县| 广西| 南平市|