• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      外部信息引導和殘差置亂的場景圖生成方法

      2021-10-12 08:50:18高海燕劉純平
      計算機與生活 2021年10期
      關鍵詞:知識庫殘差實體

      田 鑫,季 怡,高海燕,林 欣,劉純平,2+

      1.蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006

      2.符號計算與知識工程教育部重點實驗室(吉林大學),長春 130012

      場景圖[1]是圖像中所包含信息的結構化表示,不僅可以表示圖像中所有的實體,并且還可以表達不同實體之間存在的關系信息。對在圖像中檢測到的實體以及關系通常使用<主語-謂語-賓語>三元組的形式表示。廣泛應用于圖像識別與檢測[2-3]圖像理解[4-5]等任務中。因此圖像的場景圖生成任務近年引起了越來越多的關注。

      現(xiàn)存的場景圖生成方法通常依賴實體檢測模型,根據(jù)檢測得到的結果進行進一步的推理[6-7]。但由于場景圖的三元組表示由實體和關系構成,假設有N個實體和M個關系,三元組所有可能組合數(shù)量為O(N2M),因此要生成一個高性能的場景圖,這些方法需要在大量實體關系數(shù)據(jù)集上進行訓練。然而現(xiàn)存的場景圖生成數(shù)據(jù)集關系數(shù)量分布十分不均衡,影響了模型最終的表現(xiàn)。

      為了解決數(shù)據(jù)集偏置問題,已經開展了使用實體的位置、頻率分布等VG(visual genome)數(shù)據(jù)集內部信息的研究。Chen 等人[8]挖掘數(shù)據(jù)集內部信息,構建了實體與關系之間的結構化表示,使用圖神經網(wǎng)絡學習實體與關系之間的相互作用以生成場景圖。Zhan 等人[9]基于檢測視覺、空間和語義三種不同的信息提出多模型特征學習網(wǎng)絡,比較實體對與標注,自動生成未確定的關系。林欣等人[10]通過結合全局上下文、目標解碼和位置嵌入的信息,減少數(shù)據(jù)集偏差影響。這些方法通過更好地利用圖像中的信息來改進數(shù)據(jù)集中實體頻率較低的場景圖的生成,其整體方法的場景圖生成精度超過了現(xiàn)存?zhèn)鹘y(tǒng)的場景圖生成模型[6,11-12]。

      鑒于人腦對圖像內容場景圖的構建往往不僅僅依賴于圖像所展示的特征,還依賴于圖像中的某些實體之間的強烈的相關性,根據(jù)常識知識推理規(guī)范語義預測空間,建立圖像中實體間的關系,如人與馬,根據(jù)常識知識推理,它們可能的關系是人騎馬而不是人站在馬上,有助于校準現(xiàn)存數(shù)據(jù)集中的噪聲,緩解數(shù)據(jù)集不平衡的問題。模擬人腦的場景圖構建過程,融合提取的數(shù)據(jù)集中隱含信息以及數(shù)據(jù)集外部信息中的常識性知識,成為當前場景圖生成方法研究的主流趨勢,并已有少量方法進行了不同常識性知識的引入研究,如Zellers 等人[12]提取實體共同出現(xiàn)的頻率作為關系分類器的常識偏置,Chen 等人[8]將該頻率作為常識初始化圖神經網(wǎng)絡,而Gu 等人[13]將外部知識庫作為常識彌補數(shù)據(jù)集的錯漏,并將其應用于解決場景圖生成因數(shù)據(jù)集標注失衡導致的偏置問題,通過圖像重建方法正則化場景圖生成網(wǎng)絡,規(guī)范模型的學習。

      本文針對數(shù)據(jù)集偏置問題,提出外部信息引導和殘差置亂的場景圖生成方法(scene graph generation method based on the combination of external information guidance and residual scrambling,EGRES)。該方法引入外部知識庫模擬人的常識性知識,明確場景圖生成任務中不同實體之間的語義聯(lián)系,規(guī)范預測關系的語義空間;同時結合殘差置亂網(wǎng)絡,將得到的語義特征與現(xiàn)有的視覺語義特征相結合,以亂序輸入進行正則化,避免了模型在場景圖生成中過擬合高頻標簽的問題。在目前最廣泛使用的VG 數(shù)據(jù)集[14]上的實驗證明,提出方法在不影響高頻標簽表達能力的前提下,有效改善了對于低頻標簽的理解,提高了場景圖生成的表現(xiàn)。

      1 相關工作

      1.1 外部信息的融合

      知識庫的構建和應用成為人工智能領域研究的一個熱點?,F(xiàn)有不少人工構造的自然語言方面的知識庫,如DBpedia[15]根據(jù)維基百科構造結構化的數(shù)據(jù)。WordNet[16]根據(jù)單詞的詞義創(chuàng)建英語單詞之間的結構化網(wǎng)絡。ConceptNet[17]以自然語言單詞或短語作為節(jié)點,通過帶有標簽和權重的邊相互連接形成語義網(wǎng)絡。過去數(shù)年有許多工作致力于將外部知識庫融入計算機視覺領域,如Marino 等人[2]將外部知識庫(WordNet[16])構建為知識圖譜,并應用于視覺分類任務中。Lee 等人[18]將外部知識庫作為模型訓練的額外約束,進一步將其推廣到了Zero-Shot 多標簽學習之中。Deng 等人[19]引入互斥、重疊和包含三種語義關系作為損失函數(shù)的約束條件訓練分類器。此外使用深度神經網(wǎng)絡從外部知識庫中提取信息也成為熱點,如Wu 等人[20]使用深度神經網(wǎng)絡將從DBpedia[16]中發(fā)掘的信息編碼為向量,并與視覺特征相結合解決圖像描述和VQA(visual question answering)方向的問題。

      1.2 場景圖生成

      場景圖是由節(jié)點與連線構成的數(shù)據(jù)結構化表示。絕大多數(shù)場景圖生成方法基于對象檢測模型,檢測實體所在的區(qū)域并進行分類,由實體作為節(jié)點,關系作為邊構造場景圖。Lu 等人[6]首先提出場景圖生成任務,結合視覺信息和語義信息檢測實體對的關系。近年來一些方法利用信息傳遞并結合上下文信息生成場景圖,如Xu 等人[11]首先提出了基于RNN(recurrent neural network)[21]傳遞消息微調特征的端到端模型。Yang 等人[22]設計了Graph R-CNN 框架去除無關實體對,通過注意力圖卷積網(wǎng)絡捕捉上下文信息,進一步增強相關實體對之間的信息傳遞。Li等人[23]使用Bottom-up 的方式將整個圖分解為多個子圖,隔絕無關實體對之間的聯(lián)系,通過全連接子圖的拓撲結構簡化了推理的復雜度,極大地提高了場景圖生成效率。針對消息傳遞機制一視同仁地對待圖像中的節(jié)點的問題,Tang 等人[24]提出了動態(tài)樹結構,通過動態(tài)樹結構傳遞消息,為每個實體提供了更相關的上下文信息,極大地提高了小樣本的學習能力。Lin 等人[25]提出GPS-Net(graph property sensing network),利用不同實體對應的上下文增強特征,并通過節(jié)點優(yōu)先損失反映不同實體的有限度,促進場景圖的生成。一些方法發(fā)掘數(shù)據(jù)集內部關聯(lián)信息,如Dai等人[7]設計了深度網(wǎng)絡模型,借助統(tǒng)計信息,多次迭代條件隨機場(conditional random field,CRF)網(wǎng)絡解決關系分類的歧義問題。Zellers 等人[12]統(tǒng)計實體對共同出現(xiàn)的頻率作為先驗知識,使用LSTM(long short term memory)作為編碼器,并傳遞上下文信息,改善了關系的特征表示。Chen 等人[8]統(tǒng)計數(shù)據(jù)集內實體對和關系共同出現(xiàn)的頻率,使用圖神經網(wǎng)絡取代LSTM 作為消息傳遞機制,傳遞先驗統(tǒng)計信息。

      近年來一些方法也開始使用外部知識庫解決對應的問題。由于外部知識庫對相同類不同實體有著相同的編碼,這類外部知識也被視作常識。Yu等人[26]從Wikipedia 中提取語義信息,利用語義信息規(guī)范網(wǎng)絡的學習,借助教師學生框架,過濾掉數(shù)據(jù)中的噪聲,通過最小化KL-divergence(Kullback-Leibler divergence)得到外部知識庫的語義表示。不同于直接使用深度神經網(wǎng)絡進行編碼,Gu 等人[13]通過檢索外部知識庫查詢與實體最相關的知識,并借助圖像重建規(guī)范場景圖生成網(wǎng)絡。上述這些方法大多是借助外部知識,通過改進圖像中的語義信息的描述來提升場景圖生成性能。Zareian 等人[27]將場景圖視為常識知識圖的圖像條件實例化,將圖像中的實體直接連接到外部知識庫對應的實體,結合常識推理實體間的關系。

      2 方法

      給定一幅圖像I,場景圖通過拓撲結構表示圖像中的信息。這種拓撲結構表示的關系圖G可定義為:

      其中,實體O對應節(jié)點,實體之間的關系R對應連線,B={b1,b2,…,bi,…,bn},bi∈R4表示第i個區(qū)域的邊界框,實體集合O={o1,o2,…,oi,…,on}表示bi區(qū)域對應的實體oi,實體間關系的集合R={r1→2,r1→3,…,ri→j,…,rn→n-1},ri→j∈R表示(bi,oi)與(bj,oj)之間的關系。

      因此根據(jù)式(1)可以將結合外部信息引導和殘差置亂的場景圖生成方法表示為一個概率模型P(G|I),具體描述為:

      其中,候選區(qū)域的集合概率P(B|I)定位輸入圖像中實體的位置,預測實體的概率分布P(O|B,I)依賴檢測到的候選區(qū)域,預測實體關系的概率分布P(R|B,O,I)依賴實體部分預測得到的實體標簽。

      為了引導模型能夠學習到中低頻數(shù)據(jù)的特征,以P(O|B,I)預測的標簽在外部知識庫中檢索,提取符合人腦認知的合理的語義信息。由于數(shù)據(jù)集中高頻標簽僅僅表達了少量的實體間關系種類,而不能較好地表達中低頻標簽所代表的大量關系種類,為此提出殘差置亂方式,通過亂序輸入數(shù)據(jù),有效地避免模型過擬合于特定的數(shù)據(jù)順序,并且每一層殘差都用相同的外部信息引導,保障了模型在保證高頻數(shù)據(jù)的表達能力的情況下強化了對中低頻數(shù)據(jù)的學習,得到融合特征以更新式(2)中的P(R|B,O,I),從而得到最終場景圖概率P(G|I),圖1 給出了提出場景圖生成模型的整體結構圖。

      因此,從概率模型的表示可以看出,外部信息引入與殘差置亂相結合的場景圖生成方法的核心在于P(R|B,O,I)概率生成,其生成方式如下所示:

      其中,Wr、Ws、Wo與bi,j是待學習的參數(shù),f′i是外部信息引導和殘差置亂融合后的實體i的視覺特征,fi,j表示Faster RCNN 提取的實體i與實體j并集區(qū)域的視覺特征。符號°表示矩陣中對應元素相乘。

      2.1 候選框的生成

      對于給定的圖像I,為了獲得邊界框生成模塊的候選框集合概率P(B|I),模型使用Faster RCNN[28]作為基本的檢測器生成候選框?;贔aster RCNN 模型獲取候選框的坐標集合B={b1,b2,…,bi,…,bn},并提取候選框的特征向量。將Faster RCNN 提取的特征向量構造為線性序列,通過BiLSTM[29]模型得到經過上下文微調后的視覺特征表示F={f1,f2,…,fi,…,fn}。

      2.2 外部信息的引入

      外部知識庫中的語義關系可以提供常識性知識,讓場景圖生成在一個規(guī)范的語義空間進行推理,從而有效地緩解數(shù)據(jù)集標注帶來的視覺關系標簽分布不平衡的長尾效應問題,改善場景圖生成質量。因此借助多語言外部知識庫ConceptNet[17]中豐富的實體和關系的語義標簽,獲得場景圖生成中關系表達的規(guī)范語義空間,并通過雙向GRU(gated recurrent unit)[30]獲得常識知識推理下視覺關系表示。

      根據(jù)實體向量fi,在對象檢測模塊P(O|B,I)可以預測得到實體標簽li。語義空間規(guī)范是將預測標簽li,在外部知識庫ConceptNet 進行的檢索和匹配,提取實體的標簽集合達成,具體表示為:

      其中,li表示圖像中檢索到的實體oi;lj表示外部知識庫中檢索到實體j的標簽;表示匹配的關系標簽;wi,j,d表示檢索到的三元組的相關度;D表示檢索和匹配的語義對個數(shù)。

      基于相關度wi,j,d可以檢索得到相關度最高的D個三元組。將每一個三元組視作含有三個單詞的短句。通過詞向量表示將每一個單詞li映射到相同的語義空間中得到xn。由于外部知識庫ConceptNet 中得到的相關系數(shù)wi,j,d不存在方向,為了使提取的信息更加適合場景圖生成模型的學習,在此使用雙向GRU[30]提取句子的信息,其表示為:

      根據(jù)外部信息集的檢索結果,每個實體都檢索到了D個三元組,每個實體最終對應D個句子特征。因此最終的外部信息引入后的特征表示是通過融合D個全連接特征,作為圖像中實體oi的外部信息增強的語義特征描述:

      其中,[;]表示拼接操作,We和be是待學習的參數(shù)。圖像I中實體的外部信息增強特征EI為:

      2.3 殘差置亂融合

      由于數(shù)據(jù)集的長尾問題,單純使用LSTM 進行融合很容易導致模型過擬合高頻類別。因此本文使用殘差網(wǎng)絡的結構,避免深層網(wǎng)絡難以訓練的問題,使外部信息可以在更深的網(wǎng)絡上進行引導。使用亂序輸入的方法,極大地緩解了模型對特定順序輸入的過擬合問題。殘差置亂融合是將圖像實體的外部信息EI與視覺特征F進行融合,得到一個由外部信息規(guī)范語義空間后的語義視覺特征F′。

      其中,C為殘差層數(shù)。在殘差網(wǎng)絡中的特征提取則是將實體的外部信息ei與視覺特征fi進行逐層融合,每層融合后的特征表示如下:

      每一層殘差使用相同的外部信息增強的語義特征描述ei引導模型的學習。為了避免過擬合固定的序列順序特征,在輸入殘差網(wǎng)絡之前會隨機打亂輸入的序列順序。

      3 實驗結果與分析

      為了證明提出方法可以有效改善數(shù)據(jù)集中關系標簽分布不平衡下的場景圖生成性能,在Visual Genome 數(shù)據(jù)集[14](簡稱VG 數(shù)據(jù)集)上進行了與現(xiàn)有方法的對比實驗和消融實驗,并分別從PredCls、SGCls 和SGGen 三個子任務的R@K(recall@K)指標下進行了結果分析。最后可視化了提出方法在關系標簽分布不平衡數(shù)據(jù)集上的改善情況對比。

      3.1 數(shù)據(jù)集與評價指標

      實驗采用場景圖生成方法最廣泛使用的VG 基準數(shù)據(jù)集[14],該數(shù)據(jù)集是目前最大的場景圖生成實驗數(shù)據(jù)集,包含108 077 張圖像,平均每張圖有38 個物體和22 個關系的標注,包含150 個實體標簽和50 個關系標簽(不包含背景標簽)。其中出現(xiàn)頻率最高的10 類關系幾乎占據(jù)所有數(shù)據(jù)的90%,剩余40 類關系僅占10%,分布極為不平衡,如圖2 所示。

      Fig.2 Proportion of each label on VG data set圖2 各標簽在VG 數(shù)據(jù)集中的占比

      場景圖生成任務最終的目的是預測<主語-謂語-賓語>三元組,因此分別從已知實體位置與標簽標注預測分類(PredCls)、已知實體位置預測實體標簽和實體對關系的場景圖分類(SGCls)以及已知檢測器檢測到的實體和實體標簽預測實體對關系的場景圖生成(SGGen)三個子任務進行實驗。并采用在場景圖生成任務中普遍采用的R@K作為以上三個任務中模型的評價指標。實驗中使用R@20、R@50和R@100作為評價指標。

      3.2 實驗相關設置

      鑒于提出方法需要相同大小的圖像作為輸入,因此將VG 數(shù)據(jù)集中的圖像通過縮放和填充0 的方式進行圖像尺寸歸一化,統(tǒng)一大小為592×592。

      實體檢測器采用Fast RCNN 模型,并將其設置為與YOLO-9000[31]相同的錨定比和尺寸比例,用SGD算法訓練檢測器,其中參數(shù)設置如下:批次大小為18,對每個批次,每張圖采樣256 個RoIs(region of interest),其中75%為背景圖。動量為0.9,權重衰減為0.000 1。初始學習率為0.001,每經過一個批次學習率修改為原學習率的1/10。

      外部信息引入部分的相關參數(shù),實驗中設置D=10,并用GloVe 模型將檢索到的詞映射為向量。在殘差置亂模塊中,使用了層C=8 的殘差網(wǎng)絡融合視覺特征和檢索到的常識特征。

      在視覺特征提取方面,采用與Zellers 等人[12]類似的方式提取細節(jié),以Faster RCNN 檢測器檢測的實體區(qū)域RoIs 的中心點坐標由左至右、由上到下的Leftright 排序方式進行排序。將兩個實體的RoIs 的并集區(qū)域作為這兩個實體的謂語視覺區(qū)域,將通過檢測器提取的該區(qū)域特征作為謂語視覺特征,其特征維度為7×7×256。最終使用在ImageNet[32]上預訓練的VGG16[33]模型的全連接層4 096 維特征作為該區(qū)域的最終視覺特征表示。

      3.3 對比實驗結果

      從圖2 中可以看出,VG 數(shù)據(jù)集中存在不同關系標簽及其對應分布極度不平衡的嚴重長尾效應,本文將占比高于1%的關系標簽視為高頻標簽,高于0.1%低于1%的關系標簽視為中頻標簽,而低于0.1%的關系標簽視為低頻標簽。

      實驗從場景圖生成的整體性能對比出發(fā),對比了現(xiàn)存的六種方法VRD[6]、IMP[11]、IMP+[11-12]、AE[34]、Mem[9]、SMN[12],三個子任務在R@20、R@50 和R@100三個評價指標下的實驗結果如表1 所示。

      為了有效區(qū)分語義相近對場景圖生成的性能影響,采用文獻[11-12]的方式,根據(jù)生成場景圖關系是否是一對實體對對應一個關系,將實驗結果劃分為constraint(要求一對一)和unconstraint(不做要求)兩類。

      在一對實體對只獲得一個關系的constraint 中,對比了六種模型。從表1 中可以看出,SMN 模型由于提取全局上下文信息,在SGGen、SGCls、PredCls三個子任務取得了顯著的進步,但本文方法由于利用外部信息和殘差置亂緩解數(shù)據(jù)集偏置問題,在三個子任務的各個評價指標均高于現(xiàn)有的方法,其結果相較于SMN 模型平均提高了1%。

      因為關系標簽中存在一些語義相近的標簽,如wears 和wearing,在constraint 條件下因要求每個三元組只能生成一個關系,所以一些數(shù)據(jù)量差距懸殊但是語義相近的標簽的結果提高則會被constraint 的要求所掩蓋。為了充分展示提出方法可以較好地區(qū)分這些語義相近標簽,在unconstraint 下,對比了三個子任務下的四種模型。從表1 中可以發(fā)現(xiàn),本文方法在三個子任務的三種評價指標下,場景圖生成任務的提高更加明顯。尤其是在場景分類SGCls 子任務中的R@50 和R@100 兩個評價指標上,相較SMN 模型均提高了1.6%。在預測關系PredCls 子任務中也提升了1.1%。

      從constraint 和unconstraint 兩方面的實驗結果分析可以發(fā)現(xiàn),由于提出方法利用外部知識庫中的常識性知識進行語義空間的規(guī)范,以及采用殘差置亂策略引入更充分的信息表示,在場景圖生成的整體性能上有著較為顯著的提升。

      Table 1 Experimental results of methods on VG data set表1 幾種方法在VG 數(shù)據(jù)集上的對比實驗結果 %

      此外,鑒于場景圖生成任務常用R@K指標進行方法性能評價,但這個指標只關注圖像中的關系是否被完全預測,不能關注不同關系標簽的預測情況,本文還進行了不同關系標簽的R@K指標比較實驗,實驗結果如圖3 所示。

      從圖3 可以看出,SMN 模型在高頻標簽,如on、has、wearing 等,取得了良好的結果,而對于中低頻標簽,如painted on、growing on、playing 的結果則不盡如人意,R@K數(shù)值較低,模型幾乎不可避免地偏向了出現(xiàn)頻率更高的標簽。與現(xiàn)有的方法不同,本文方法引入外部信息,引導模型更好地學習樣本數(shù)低的關系標簽。從圖3(b)中可以看出,提出方法在高頻關系標簽的預測結果基本與對比模型SMN 持平,僅在on、has、wearing 略微下降。但對于一些出現(xiàn)頻率較低而語義明確的標簽的預測上取得了顯著的進步,如中頻標簽eating 和using 的結果提高了近20%。對于一些極度低頻標簽,如mount on、from 和made of,由于這三個關系類在VG 數(shù)據(jù)集中出現(xiàn)次數(shù)均小于100 次,并且語義模糊,本文方法對于這種情況改善不明顯??傊疚姆椒▽τ谥械皖l關系標簽取得了良好的結果,一定程度上緩解了數(shù)據(jù)關系分布不平衡的問題。

      3.4 消融實驗結果

      為了更深入分析提出方法中改進模塊對解決數(shù)據(jù)集偏置的具體貢獻,分別針對語義規(guī)范的外部知識庫信息引入和殘差置亂的語義增強設計了constraint和unconstraint條件下的詞向量消融(w/o e)和殘差消融(w/o r)實驗,消融實驗結果如表2 所示。

      為了驗證外部知識庫的常識性知識引入對語義空間規(guī)范的作用,將殘差置亂替換為單層LSTM 網(wǎng)絡進行殘差消融(w/o r)實驗,分析外部信息引入對場景圖生成的性能改進,實驗結果見表2。在constraint條件下,相對基模型SMN,殘差消融模型在三個子任務上的性能均有所提升,其中在SGGen 子任務上平均提升了0.5%,在SGCls 子任務上平均提升1.0%,在PredCls 子任務上平均提升0.8%。在unconstraint 條件下,殘差消融模型在三個子任務上的性能相對于基模型SMN 也均有不同程度的提升,其中在SGGen子任務上平均提升了0.5%,在SGCls 子任務上平均提升了約1.0%,在PredCls 子任務上平均提升了約0.8%。實驗證明了外部信息引導確實有效地規(guī)范了語義空間,可以更好地引導模型學習恰當?shù)奶卣?,提高模型的表達能力。在unconstraint條件下SGGen 子任務中,由于沒有外部信息的引導,模型過擬合高頻關系類別,反而導致詞向量消融(w/o e)較完整的方法提高了0.2%,但是總體而言引入外部信息有利于場景圖的生成。

      Table 2 Ablation result表2 消融結果 %

      Fig.3 Comparison of results under different labels圖3 不同標簽下的結果比較

      由于規(guī)范語義空間,對場景圖生成任務的性能改進還受到外部信息量引入情況的影響,為此本文還進行了不同檢索數(shù)量D對提出場景圖生成方法的性能比較分析實驗,實驗結果如表3 所示。從檢索數(shù)量D取5、10 和20 在場景圖生成的實驗結果可知,檢索數(shù)量D為10 時,提出模型的場景圖生成性能最好。

      對于殘差置亂策略融合外部信息并傳遞上下文信息以減輕場景圖生成受數(shù)據(jù)集偏置的影響,本文將外部信息的embedding 替換為實體預測得到的詞向量,進行詞向量消融(w/o e)實驗。從表2 可以看到,在constraint 條件下,詞向量消融模型在三個子任務上的性能相對于基模型SMN 均有不同程度的提升,其中在SGGen 子任務上平均提升了0.5%,在SGCls 子任務上平均提升0.8%,在PredCls 子任務上平均提升0.5%。在unconstraint 條件下,詞向量消融模型在三個子任務上的性能相對于基模型SMN 也均有不同程度的提升,其中在SGGen 子任務上平均提升了0.9%,在SGCls 子任務上平均提升了約1.3%,在PredCls 子任務上平均提升了約0.8%。實驗證明了殘差置亂策略可以有效增強語義信息,緩解了數(shù)據(jù)偏置問題。

      Table 3 Influences of D on results表3 D 值對結果的影響 %

      總之,消融實驗證明,簡單引入外部信息或者殘差置亂可以一定程度改善場景圖生成性能,但并不能得到理想的效果。基于外部信息和殘差置亂結合的場景圖生成方法可以根據(jù)外部信息引導模型學習,避免模型過擬合,有效改善了場景圖生成。

      4 總結

      數(shù)據(jù)集偏置嚴重影響場景圖在關系標簽較少下的生成質量,而外部知識庫提取的常識性知識可以有效地規(guī)范場景圖語義空間,殘差置亂可以增強關系標簽的信息量,因此基于外部知識和殘差置亂結合的場景圖生成可以通過殘差置亂引導模型借助常識性知識進行推理學習,避免模型過擬合,從而有效地解決不同關系數(shù)據(jù)分布不平衡的問題。在VG 數(shù)據(jù)集上的實驗證明了使用外部信息引導和殘差置亂的方法代替人類的常識規(guī)范場景圖生成網(wǎng)絡的有效性,尤其有效地提高了數(shù)據(jù)集中低頻關系的場景圖生成的精度,緩解了數(shù)據(jù)長尾問題的影響。

      猜你喜歡
      知識庫殘差實體
      基于雙向GRU與殘差擬合的車輛跟馳建模
      基于殘差學習的自適應無人機目標跟蹤算法
      前海自貿區(qū):金融服務實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
      自動化學報(2019年6期)2019-07-23 01:18:32
      基于TRIZ與知識庫的創(chuàng)新模型構建及在注塑機設計中的應用
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      哲學評論(2017年1期)2017-07-31 18:04:00
      兩會進行時:緊扣實體經濟“釘釘子”
      振興實體經濟地方如何“釘釘子”
      高速公路信息系統(tǒng)維護知識庫的建立和應用
      基于Drupal發(fā)布學者知識庫關聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      托克逊县| 延长县| 仁布县| 郧西县| 尉犁县| 马关县| 南城县| 巴马| 抚远县| 安西县| 浦县| 江源县| 柯坪县| 永顺县| 濮阳县| 清远市| 河东区| 麻阳| 德安县| 扶风县| 康保县| 册亨县| 衡阳县| 化隆| 弋阳县| 财经| 盘锦市| 洪湖市| 广汉市| 精河县| 芒康县| 沭阳县| 丰台区| 靖江市| 密云县| 左云县| 集贤县| 潜山县| 德清县| 法库县| 深州市|