• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      關聯(lián)語義和對比語義指導注意力的小樣本學習

      2023-06-25 14:40:38謝少軍袁鑫攀曾志高
      現(xiàn)代信息科技 2023年10期
      關鍵詞:注意力機制多模態(tài)

      謝少軍 袁鑫攀 曾志高

      摘? 要:小樣本學習的核心問題是將學習過程中不可靠的經(jīng)驗風險最小化,優(yōu)化這一問題的關鍵是在學習過程中如何獲取蘊含在少量樣本中更多的先驗知識,以使得模型最終獲取的特征更加準確和穩(wěn)定。為了充分挖掘先驗知識,文章提出了關聯(lián)語義和對比語義聯(lián)合的注意力機制,來指導模型在視覺特征中更好地學習和區(qū)分共性與個性。對比實驗和消融實驗證明,文中這種注意力指導機制提升了模型的性能,尤其在5way-1shot的情況下,模型達到了最優(yōu)。

      關鍵詞:小樣本學習;注意力機制;多模態(tài);關聯(lián)語義;對比語義

      中圖分類號:TP18;TP391? 文獻標識碼:A? 文章編號:2096-4706(2023)10-0088-04

      Abstract: The core problem of small sample learning is to minimize the unreliable empirical risk in the learning process. The key to optimizing this problem is how to obtain more prior knowledge contained in a small number of samples during the learning process, in order to make the final features obtained by the model more accurate and stable. In order to fully explore prior knowledge, this paper proposes an attention mechanism that combines associative semantics and contrastive semantics to guide the model in better learning and distinguishing commonalities and personalities in visual features. Comparative experiments and ablation experiments have shown that this attention guidance mechanism proposed in this paper improves the performance of the model, especially in the case of 5way-1shot, the model reaches its optimal performance.

      Keywords: small sample learning; attention mechanism; multi-modal; associative semantic; contrastive semantic

      0? 引? 言

      目前的深度學習模型從大量帶標簽的基類數(shù)據(jù)集中學習后,在面對屬于基類樣本的分類測試中,其性能已經(jīng)非常優(yōu)秀了,甚至在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比賽中超過了人類平均水平(例如:ResNet[1])。然而,當模型在面對從未見過的類別(新類)樣本時,特別是在這類樣本數(shù)量非常少,不足以提供豐富的信息支持模型訓練時,此時模型表現(xiàn)的分類能力就顯得不盡人意。

      但對比于人類學習,以一個學齡小孩為例,他只需要在原有知識儲備基礎上,通過幾個樣本就能學會一個知識點。例如:當小孩在學會加法運算之后,通過幾個簡單的乘法例

      子,就能領悟乘法運算(如:2×3=2+2+2,1×3=1+1+1)。還如:當給小孩一張陌生人照片,小孩可以很容易從一些人像照片中快速識別出這個陌生人是否包含其中。

      上述兩個例子體現(xiàn)了目前深度學習與人類學習在學習過程中樣本數(shù)量這個因素上之間的差距,為了縮小這種學習能力的差距,計算機視覺領域提出了小樣本學習(Few-ShotLearning, FSL)來研究和模擬這種行為。小樣本學習旨在預訓練模型的基礎上,通過對新類的少量樣本進行學習后,獲得這些新類的豐富特征,以便進行下游任務,例如分類任務。這種研究是非常具有應用價值的,并且也非常符合現(xiàn)實生活場景,因為有些類別樣本存在倫理、安全、法律、隱私等各種因素難以獲取。

      為了縮小模型與人類的學習能力差距,計算機視覺領域提出了小樣本學習(Few-ShotLearning, FSL)來研究和模擬這種行為?,F(xiàn)在的小樣本學習大都是將預訓練模型學到提取特征的能力轉(zhuǎn)移到?jīng)]見過的新類別上來,即都是考慮如何將先驗知識從基類轉(zhuǎn)移到新類上,Wang[2]指出這種轉(zhuǎn)移在小樣本情景下是不可靠的經(jīng)驗風險最小化過程。為了縮小這種不可靠性,Yang提出了SEGA[3]機制,認為語義先驗知識在人類學習中也起著關鍵作用,于是提出了基于類標簽的語義注意力指導模塊,來指導視覺特征,以便獲得更加準確的特征。

      但家長在教孩子認識新類別的過程中,除了對樣本和樣本標簽做一對一的語義解釋之外,在不同樣本間,還有聯(lián)系和比較等學習總結(jié)過程,例如在對動物進行學習時,會比較和聯(lián)系身體、眼睛等同類屬性,在對動物與植物類別學習時,會比較動物與植物的區(qū)別,使得小孩對物體是否有生命狀態(tài)進行思考。因此,我們不應該忽略在學習過程中對不同物體的聯(lián)系與比較過程。所以,在SEGA機制的基礎上,我們提出了關聯(lián)語義和對比語義指導注意力(Associative and Contrastive Semantics Guided Attention, AC-SEGA)的小樣本學習。SEGA與AC-SEGA的區(qū)別如圖1所示,可以看出,SEGA是單點的,離散的,沒有關系的,而AC-SEGA通過豐富樣本標簽,形成了關聯(lián)的,有聯(lián)系的語義。

      綜上所述,我們的貢獻主要有以下幾點:1)提出了關聯(lián)語義和對比語義聯(lián)合的注意力機制來指導小樣本學習;2)設計了關聯(lián)語義和對比語義的語義特征提取器;3)模型在兩個著名的小樣本學習訓練集上性能表現(xiàn)突出。

      1? 近期相關工作

      從如何優(yōu)化模型訓練時不可靠的經(jīng)驗風險最小化過程,以及利用先驗知識的不同方式,近期工作可以分為三類,分別是對模型進行改進,對算法進行優(yōu)化以及引入多模態(tài)信息。

      在模型改進方面,目前關于嵌入/度量學習研究比較熱門,在嵌入/度量學習中,通過將樣本嵌入到低維空間中,使得相似的距離近,不相似的距離遠。比較典型的三種網(wǎng)絡結(jié)構(gòu)為MatchNetwork及其變種[4,5]、Prototype Network及其變種[6,7]和RelationNetwork[8]。在此基礎之上,有的還通過注入各種注意力機制或以任務為導向來改進模型[9,10]。我們的方法在學習視覺特征層面屬于這一類型。

      在優(yōu)化算法方面,大都是基于隨機梯度下降算法(Stochastic gradient descent, SGD)演化而來。目前比較熱門的是基于模型未知的元學習(Model-Agnostic Meta-Learning, MAML)及其變種[11,12]。不像經(jīng)典的學習范式,在計算損失后通過求梯度對模型直接更新,MAML有兩次更新,可以把第一次認為是臨時模型參數(shù)更新,第二次則是對模型的參數(shù)更新。我們方法中的元學習屬于這一類型。

      近年來,隨著多模態(tài)融合和自然語言處理的發(fā)展,將語義這一模態(tài)融入小樣本學習也非?;馃帷M3[13]使用標簽嵌入生成語義原型,用于與視覺原型進行融合,形成最終的類表示。此除了來自語言的語義知識外,還可以從知識圖(如NEIL[14]、WordNet[15]等)中獲得的先驗知識。我們的方法因為融入了標簽語義性這一模態(tài),所以也屬于這一類別。

      2? 方? 法

      2.1? 符號描述與小樣本問題定義

      Dbase表示預訓練模型的數(shù)據(jù)集,它的每個類包含了大量樣本;Dnovel表示元學習階段的數(shù)據(jù)集;Dtest表示測試數(shù)據(jù)集;這些數(shù)據(jù)集分別對應的標簽集合為C base、C novel和C test,其約束條件為C base ∩ C novel ∩ C test=?。在小樣本學習過程中,模型的輸入是以任務(Task)為單位的,用T={T base, T novel, Ttest}中的元素分別表示從訓練集,驗證集和測試集中抽樣得到的任務集合,其中任務Ti ={S, Q},S表示這個任務的訓練集或支持集(supportset),Q表示這個任務的測試集或查詢集(query set)。,n表示從對應數(shù)據(jù)集中任取n個類別,k表示在對應類別中任取k個樣本,通常在小樣本學習的任務配置中,n與k的取值都非常小,例如n=5、k=1or5,這種配置被稱為n-way k-shot。Q表示在S對應的n個類別中隨機抽取的一些樣本。

      小樣本學習過程為首先在Dbase數(shù)據(jù)集上進行主干模型進行預訓練,公式為:

      其中,Θ0表示預訓練模型參數(shù),?表示交叉熵損失函數(shù)。然后再在Dnovel數(shù)據(jù)集上進行元學習,公式為:

      其中,Θ表示元學習階段學到的參數(shù)。最后小樣本學習問題可以定義為元學習者在對從未見過的新類別的分類映射能力,即:fΘ:{S, Q}∈T test?C test。

      2.2? 語義聯(lián)系與語義對比的標簽構(gòu)建

      對于S中的樣本,在SEGA基礎上分別找標簽的一個上義詞和一個隨機噪聲詞進行樣本標簽擴充。上義詞指的是標簽所從屬的類別詞,例如老虎屬于動物,則老虎的上義詞即為動物。這樣,,其中ylabel、yassociative和ycontrastive分別屬于樣本x的原類別標簽,上義詞標簽和噪聲標簽,這樣(ylabel, yassociative)就形成了語義聯(lián)系標簽對,(ylabel, yassociative)就形成了語義對比標簽對。我們使用WordNet這個工具來對標簽進行構(gòu)建,然后使用Glove[16]語義嵌入模型將一個標簽對轉(zhuǎn)換為對應語義向量Slabel、Sassociative、Scontrastive。

      2.3? 語義聯(lián)系與語義對比的特征提取

      對于一個樣本語義信息,我們分別設計兩個多層感知機(MLP)來分別對(ylabel, yassociative)與(ylabel, ycontrastive)提取語義特征。MLP是由全連接層,Leak ReLU激活函數(shù)層,Dropout層,全連接層和Sigmoid層組成,最后Sigmoid層使得輸出的每個維度都在[0, 1]之間。S1=MLP([Slabel, Sassociative])∈Rs,S2=MLP([Slabel, Scontrastive])∈Rs,最終的語義向量通過對這兩個向量取均值得到,即:S=(S1+S2) / 2 ∈ Rs。

      2.4? 語義特征與視覺特征融合

      對于一個樣本圖像信息,我們使用卷積神經(jīng)網(wǎng)絡來對x提取視覺特征V,即。V=Conv(x) ∈ Rv=Rs。這樣當語義特征S與視覺特征V都獲取到后,將兩者通過Hadamard積運算,得到該樣本的最終特征Feat=S?V。模型框架圖如圖2所示,在關聯(lián)語義和特征語義特征提取器中(Associative and Contrastive Semantic feature extractor),左邊從上到下分別是關聯(lián)語義詞向量和對比語義詞向量?!?”表示向量相加,“?”表示向量做Hadamard積,“cos”代表余弦分類器。

      3? 實驗分析

      3.1? 數(shù)據(jù)集描述

      miniImageNet數(shù)據(jù)集是ImageNet數(shù)據(jù)集子集,從中隨機抽取100個類別,每個類包含600張圖像,按照64、16、20的類別數(shù)量分為訓練集、驗證集和測試集。tieredImageNet數(shù)據(jù)集也是ImageNet的子集,但它比miniImagenet更大,tieredImageNet將類別與ImageNet層次結(jié)構(gòu)中的節(jié)點相對應,它共有34個大類別,其中20個用于訓練(351個子類),6個用于驗證(97個子類)和8個用于測試(160個子類)。它共計608個子類,而miniImageNet則為100個類。

      3.2? 實驗過程

      模型的所有實現(xiàn)都是在PyTorch深度學習框架下實現(xiàn)的,模型的所有訓練和測試都是在一張NVIDIA 3060 GPU上運行的。訓練分為兩個階段。第一階段是訓練主網(wǎng)絡中提取不同特征的卷積核參數(shù),與SEGA一樣,這階段模型訓練周期是60個epoch(tieredImageNet為90個),其中每個epoch由1 000個episode組成。在第二階段訓練與標準的元學習過程一樣,訓練周期是20個epoch,每個epoch中包含1 000個episode。注意,在第二階段開始訓練我們提出的語義對比和語義關聯(lián)注意力模塊。同時,我們在訓練過程中與大多數(shù)現(xiàn)有工作一樣,采用了隨機裁剪等方式來避免過擬合,期間還采用了經(jīng)驗學習率調(diào)度器。模型在miniImagenet數(shù)據(jù)集上兩個階段訓練的損失與準確率折線圖如圖3所示。

      4? 實驗結(jié)果

      表1和表2數(shù)據(jù)都是在5 000 episodes的測試階段中,對新類的分類平均準確率(%)?!癝emantic列”代表模型是否加入了語義,“base”代表基模型。

      4.1? 對比實驗

      我們分別在miniImagenet數(shù)據(jù)集和tieredImageNet數(shù)據(jù)集上進行了大量的實驗,實驗表明我們的結(jié)果都優(yōu)于我們的基模型SEGA,尤其在5way-1shot情景下,我們的模型性能達到了最優(yōu)。實驗數(shù)據(jù)如表1所示。

      4.2? 消融實驗

      我們也在miniImagenet數(shù)據(jù)集上進行了消融實驗,通過控制變量法,分別在只有語義關聯(lián)、只有語義對比和兩者都有的情況下進行了從5way-1shot到5way-5shot的實驗,實驗數(shù)據(jù)如表2所示。

      4.3? 實驗總結(jié)

      通過對比實驗數(shù)據(jù)可以發(fā)現(xiàn),加入關聯(lián)語義和對比語義的注意力指導小樣本學習模型在性能上提升比較大。而通過消融實驗數(shù)據(jù)可以看到,在僅只有關聯(lián)語義或僅只有對比語義的注意力指導情況下,模型性能表現(xiàn)效果不如基模型。這說明我們加入的這兩種語義是在一起疊加相互后,使得模型最終性能提升。另外,從消融實驗結(jié)果來看,隨著shot值增加,即同一類樣本數(shù)增加,準確率的增長率越來越慢,這說明隨著視覺樣本數(shù)增加,模型在視覺層面獲取的可分類特征越來越準確,語義指導作用慢慢減弱,但在1shot或2shot情況下,語義指導是非常有用的。

      5? 結(jié)? 論

      在本文中,我們通過分析認為人類在學習新概念時,關聯(lián)和對比能力非常重要,因此提出了關聯(lián)語義和對比語義聯(lián)合的注意力機制來指導視覺特征學習。與基模型僅引入樣本標簽這種單點語義不同,我們對樣本的標簽做了擴充,構(gòu)造了關聯(lián)語義和對比語義標簽,設計了對應的語義特征提取器,然后將語義特征與視覺特征融合來進行分類任務,通過對比和消融實驗可以得出,我們加入的關聯(lián)語義與對比語義在聯(lián)合作用下,使得模型的性能得到了提升,從而證明了我們提出的機制有效性。

      參考文獻:

      [1] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770-778.

      [2] WANG Y Q,YAO Q M,KWOK J T,et al. Generalizing from a Few Examples: A Survey on Few-Shot Learning [J].ACM Computing SurveysVolume,2021,53(3):1-34.

      [3] YANG F Y,WANG R P,CHEN X L. SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot Learning [J/OL].arXiv:2111.04316 [cs.CV].[2022-11-28].https://arxiv.org/abs/2111.04316.

      [4] VINYALS O,BLUNDELL C,LILLICRAP T,et al. Matching Networks for One Shot Learning [J/OL].arXiv:1606.04080 [cs.LG].[2022-11-29].https://arxiv.org/abs/1606.04080v1.

      [5] CHOI J,KRISHNAMURTHY J,KEMBHAVI A,et al. Structured Set Matching Networks for One-Shot Part Labeling [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:3627-3636.

      [6] SNELL J,SWERSKY K,ZEMEL R. Prototypical Networks for Few-shot Learning [J/OL].arXiv:1703.05175 [cs.LG].[2022-11-28].https://arxiv.org/abs/1703.05175.

      [7] LAENEN S,BERTINETTO L. On Episodes,Prototypical Networks,and Few-Shot Learning [J/OL].arXiv:2012.09831 [cs.LG].[2022-11-29].https://arxiv.org/abs/2012.09831.

      [8] SUNG F,YANG Y X,ZHANG L,et al. Learning to Compare: Relation Network for Few-Shot Learning [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake:IEEE,2018:1199-1208.

      [9] HOU R B,CHANG H,MA B P,et al. Cross Attention Network for Few-shot Classification [J/OL].arXiv:1910.07677[cs.CV].[2021-12-17].https://arxiv.org/abs/1910.07677v1.

      [10] HONG J,F(xiàn)ANG P F,LI W H,et al. Reinforced Attention for Few-Shot Learning and Beyond [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:913-923.

      [11] FINN C,ABBEEL P,LEVINE S. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks [J/OL].arXiv:1703.03400[cs.LG].[2022-11-29].https://arxiv.org/abs/1703.03400v1.

      [12] YE H J,CHAO W L. How to Train Your MAML to Excel in Few-Shot Classification [J/OL].arXiv:2106.16245[cs.LG].[2022-11-30].https://arxiv.org/abs/2106.16245v3.

      [13] XING C,ROSTAMZADEH N,ORESHKIN B N,et al. Adaptive Cross-Modal Few-Shot Learning [J/OL].arXiv:1902.07104 [cs.LG].[2023-02-08].https://arxiv.org/abs/1902.07104.

      [14] MITCHELL T,COHEN W,HRUSCHKA E,et al. Never-Ending Learning [C]//Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Austin:AAAI Press.2015:2302–2310.

      [15] MILLER A G. WordNet: A Lexical Database for English [J].Communications of the ACM,1995,38(11):39-41.

      [16] PENNINGTON J,SOCHER R,MANNING C. Glove: Global Vectors for Word Representation [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha:Association for Computational Linguistics,2014:1532-1543.

      作者簡介:謝少軍(1995—),男,漢族,湖南衡陽人,碩士研究生在讀,研究方向:計算機視覺、小樣本學習。

      猜你喜歡
      注意力機制多模態(tài)
      面向短文本的網(wǎng)絡輿情話題
      基于自注意力與動態(tài)路由的文本建模方法
      軟件導刊(2019年1期)2019-06-07 15:08:13
      基于深度學習的問題回答技術研究
      基于LSTM?Attention神經(jīng)網(wǎng)絡的文本特征提取方法
      基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
      軟件工程(2017年11期)2018-01-05 08:06:09
      InsunKBQA:一個基于知識庫的問答系統(tǒng)
      多模態(tài)話語中的詹姆斯·卡梅隆電影
      電影文學(2016年19期)2016-12-07 19:57:57
      英語閱讀教學中多模態(tài)識讀能力的培養(yǎng)
      網(wǎng)絡環(huán)境下大學英語多模態(tài)交互式閱讀教學模式研究
      戲劇之家(2016年22期)2016-11-30 18:20:43
      多模態(tài)理論視角下大學英語課堂的構(gòu)建
      科教導刊(2016年26期)2016-11-15 19:54:13
      大关县| 汾阳市| 古蔺县| 绥宁县| 长岛县| 固始县| 临夏市| 崇州市| 富源县| 韶山市| 晋江市| 夹江县| 榆社县| 搜索| 庐江县| 靖西县| 刚察县| 福贡县| 曲水县| 灵川县| 牟定县| 阜新市| 霍林郭勒市| 谷城县| 肇庆市| 怀化市| 常宁市| 东宁县| 花莲县| 沾益县| 潜山县| 孙吴县| 嘉峪关市| 莱西市| 和顺县| 广河县| 康保县| 惠水县| 永清县| 宝兴县| 内乡县|