• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)視覺表征技術(shù)研究

      2022-08-18 07:08:34
      關(guān)鍵詞:多任務(wù)視覺藝術(shù)特征向量

      張 晨

      (合肥城市學(xué)院 機(jī)械與電氣學(xué)院,合肥 238076)

      隨著多媒體及相關(guān)技術(shù)的發(fā)展,圖像分析(尤其是畫作分析)成為了當(dāng)前熱門的研究領(lǐng)域.畫作分析主要任務(wù)包括從藝術(shù)風(fēng)格分類、創(chuàng)作周期估計(jì)、風(fēng)格轉(zhuǎn)移、物體檢測(cè)和檢索以識(shí)別畫作之間的語(yǔ)義關(guān)系[1-4].但是,大多數(shù)現(xiàn)有的研究幾乎完全集中在視覺內(nèi)容分析,而本文則專注于捕捉和建模作者與畫作之間復(fù)雜的視覺和語(yǔ)義關(guān)系,以更深入、更全面地了解畫作.雖然視覺內(nèi)容是圖像的主要特征,但是藝術(shù)領(lǐng)域中的基礎(chǔ)理論以及與畫作相關(guān)的豐富語(yǔ)義信息也是畫作分析的關(guān)鍵因素.畫家之間的聯(lián)系、畫作的風(fēng)格等屬性是構(gòu)成關(guān)系網(wǎng)絡(luò)的重要元素,通過連接代表這種網(wǎng)絡(luò)關(guān)系的視覺內(nèi)容和語(yǔ)義信息,可以更好地理解畫作創(chuàng)新和影響的過程.圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)的出現(xiàn)使我們能夠?qū)τ腥さ膶傩院完P(guān)系進(jìn)行建模[5].然而,大多數(shù)早期的 GNN 無法擴(kuò)展到由具有數(shù)千個(gè)節(jié)點(diǎn)和邊的大型圖組成的域.本文采用了高效的GNN方法,以擴(kuò)展到具有數(shù)千個(gè)節(jié)點(diǎn)和數(shù)百萬(wàn)條邊的大型圖,并優(yōu)于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)性能和計(jì)算效率.提出了GNNMMVisRe,這是一種擴(kuò)展GNN 和卷積神經(jīng)網(wǎng)絡(luò)的新方法,可使用圖像的視覺內(nèi)容及其各自的語(yǔ)義關(guān)系來共同學(xué)習(xí)視覺和語(yǔ)義表征.GNNMMVisRe采用多任務(wù)學(xué)習(xí)方法來學(xué)習(xí)畫作的視覺表征,多任務(wù)學(xué)習(xí)除了在計(jì)算效率方面具有優(yōu)勢(shì)之外,模型還可以從各個(gè)學(xué)習(xí)任務(wù)之間的相互依賴的表征中獲益.

      1 GNNMMVisRe模型設(shè)計(jì)

      采用多模態(tài)機(jī)器學(xué)習(xí)技術(shù)來改善基于視覺內(nèi)容CNN的性能,聯(lián)合CNN和GNN模型來學(xué)習(xí)圖像的視覺表征.所提出模型的流程如圖1所示.

      圖1 GNNMMVisRe模型流程

      1.1 視覺表征和圖表征學(xué)習(xí)

      對(duì)于給定的圖像,可以獲得如下所示的視覺表示vi:

      vi=FGAP(fCNN(P;θCNN))

      (1)

      提出了一種按照節(jié)點(diǎn)分類范式對(duì)圖像屬性進(jìn)行分類的新方法,即將每個(gè)圖像視為一個(gè)節(jié)點(diǎn),并根據(jù)圖像的語(yǔ)義屬性發(fā)掘其與其他節(jié)點(diǎn)的關(guān)系.傳統(tǒng)的GNN模型采用鄰接矩陣A對(duì)節(jié)點(diǎn)之間的關(guān)系進(jìn)行編碼.這樣一來,隨著圖規(guī)模的增加,模型的計(jì)算復(fù)雜性也將大大增大.因此,使用采用的方法來提高模型的擴(kuò)展性.

      在訓(xùn)練GNN之前,需要構(gòu)建一個(gè)預(yù)定義鄰接矩陣A.構(gòu)建的規(guī)則如下所示:

      (2)

      提出的GNNMMVisRe使用藝術(shù)流派來鏈接畫作節(jié)點(diǎn),對(duì)原始圖中的邊進(jìn)行下采樣,以確保節(jié)點(diǎn)的度數(shù)不超過128.本文使用GraphSAGE來獲得上下文感知的節(jié)點(diǎn)表征[6].給定一個(gè)節(jié)點(diǎn),從其h跳鄰居中采樣k個(gè)鄰居節(jié)點(diǎn),并聚合鄰居的節(jié)點(diǎn)特征向量以獲得節(jié)點(diǎn)表征.使用均值聚合器并獲得節(jié)點(diǎn)表征ni如下:

      ni=W1xi+W2fAGGxj

      (3)

      其中xi是節(jié)點(diǎn)特征向量,xj是鄰居j的節(jié)點(diǎn)特征向量,fAGG是鄰居特征向量聚合器,而W1和W2是權(quán)重.將h的值設(shè)置為2,鄰居采樣大小k1的值是25,k2的值是10.

      提出的GNNMMVisRe采用了下述的視覺特征表示技術(shù)和詞袋標(biāo)簽特征向量技術(shù)這兩種方法來獲得節(jié)點(diǎn)特征向量:

      (1)視覺特征表示技術(shù).GNNMMVisRe以多模態(tài)融合方式利用視覺表征作為所提出模型的節(jié)點(diǎn)特征.在訓(xùn)練 GNN之前,利用預(yù)訓(xùn)練的ImageNet和凍結(jié)的ResNet-34架構(gòu)作為主干來提取512維繪畫視覺特征向量,提取了最后一個(gè)卷積層的特征.隨后,使用圖像級(jí)別的視覺特征向量vi訓(xùn)練GNN模型.

      (2)詞袋標(biāo)簽特征向量技術(shù).對(duì)于稀疏的特征,使用詞袋技術(shù)將圖像標(biāo)簽作為節(jié)點(diǎn)特征向量,即將每個(gè)節(jié)點(diǎn)表示為基于其屬性標(biāo)簽的one-hot編碼向量.從WikiArt在線收藏中收集了與畫作相關(guān)的標(biāo)簽,本文僅考慮了WikiArt集合中出現(xiàn)10次以上的標(biāo)簽,并為沒有可用標(biāo)簽的繪畫引入了一個(gè)特殊的未知標(biāo)簽.

      (4)臨時(shí)工程。高速公路及地方道路都會(huì)受到施工過程的影響,這是為了保證通常的交通,需要設(shè)置臨時(shí)便橋和便道。另外,在交通組織方案實(shí)施過程中,為了保證行車安全,可設(shè)置必要的臨時(shí)交通工程設(shè)置。

      1.2 嵌入生成

      嵌入生成算法利用節(jié)點(diǎn)特征信息有效地生成節(jié)點(diǎn)嵌入,如算法1所示.假設(shè)已經(jīng)學(xué)習(xí)了K個(gè)采樣函數(shù)的參數(shù)(表示為SAMPLEk),它采樣來自節(jié)點(diǎn)鄰居的信息,以及一組權(quán)重矩陣Wk,用于在模型的不同層或“搜索深度”之間傳播信息.算法1在每次迭代時(shí),節(jié)點(diǎn)對(duì)來自其本地鄰居的信息進(jìn)行采樣,隨著迭代的進(jìn)行,節(jié)點(diǎn)能從遠(yuǎn)處的節(jié)點(diǎn)獲得越來越多的信息.

      算法1 嵌入生成算法

      輸入:圖G(V,E),輸入的特征xv,?v∈V,搜索深度K,權(quán)重矩陣Wk,激活函數(shù)σ,SAMPLEk,?k∈K,

      輸出:節(jié)點(diǎn)表示zv,?v∈V

      2: For each k in K do

      3: For eachv in V do

      1.3 多模態(tài)嵌入和多任務(wù)學(xué)習(xí)

      給予學(xué)習(xí)到的視覺和上下文感知嵌入,使用合并操作來獲得視覺表征.使用視覺和語(yǔ)義嵌入的串聯(lián)來形成視覺表征,即:

      xi=vi⊕ni

      (4)

      使用多任務(wù)學(xué)習(xí)來學(xué)習(xí)藝術(shù)作品的風(fēng)格運(yùn)動(dòng)、藝術(shù)家和創(chuàng)作時(shí)期.這三個(gè)特定任務(wù)是高度協(xié)作的任務(wù).因此,多任務(wù)學(xué)習(xí)可以提高本模型的性能.訓(xùn)練的損失函數(shù)具有以下的形式:

      (5)

      其中wt表示任務(wù)t的權(quán)重,Lt表示任務(wù)t的損失函數(shù),LT是總損失函數(shù).對(duì)于多類別分類,使用分類交叉熵作為損失函數(shù):

      (6)

      2 實(shí)驗(yàn)評(píng)估

      實(shí)驗(yàn)評(píng)估部分將所提出的模型與常用的CNN模型和GNN模型進(jìn)行對(duì)比,使用風(fēng)格分類、藝術(shù)家歸因、創(chuàng)作時(shí)期估計(jì)和標(biāo)簽預(yù)測(cè)這四個(gè)下游任務(wù)來評(píng)估提出的方法.實(shí)驗(yàn)使用了完整視覺藝術(shù)數(shù)據(jù)集和藝術(shù)家視覺藝術(shù)數(shù)據(jù)集,其中,完整視覺藝術(shù)數(shù)據(jù)集包含超過七萬(wàn)幅畫作,藝術(shù)家視覺藝術(shù)數(shù)據(jù)集包含23位最具代表性藝術(shù)家作品.此外,對(duì)于創(chuàng)作時(shí)期估計(jì)任務(wù),實(shí)驗(yàn)部分還使用了包含從 1850 年到 1999 年藝術(shù)作品的現(xiàn)代視覺藝術(shù)數(shù)據(jù)集.對(duì)于這個(gè)回歸問題,采用平均絕對(duì)誤差作為指標(biāo)(MAE)進(jìn)行訓(xùn)練,并使用累積分?jǐn)?shù)(CS)作為評(píng)估指標(biāo),其定義如下:

      (7)

      其中,N是測(cè)試集中畫作的總數(shù),Nθ是絕對(duì)誤差小于θ年的繪畫數(shù)量.對(duì)于CNN模型,將AlexNet和 ResNet模型作為基準(zhǔn),使用PyTorch 庫(kù)進(jìn)行模型實(shí)現(xiàn)、訓(xùn)練和評(píng)估.另外,對(duì)于GNN模型,采用了GraphSAGE[6]、GraphSAINT[5]和 SIGN[7]作為基準(zhǔn)算法.對(duì)于GNN架構(gòu)的實(shí)現(xiàn),使用了PyTorch幾何庫(kù).為每個(gè) GNN 試驗(yàn)了幾種配置,并選擇性能最佳的配置.

      傳統(tǒng)的CNN 模型在視覺藝術(shù)分析方面的性能非常強(qiáng)大,尤其是在風(fēng)格分類和藝術(shù)家歸屬任務(wù).如表1所示,CNN模型的準(zhǔn)確率都很高,最好的CNN模型是 ResNet-152,其次是ResNet-34,而AlexNet的表現(xiàn)卻是不盡如人意.

      表1 各個(gè)模型的準(zhǔn)確度對(duì)比

      此外,發(fā)現(xiàn)多任務(wù)學(xué)習(xí)可以提高CNN模型的性能.例如,如表1所示,在完整視覺藝術(shù)數(shù)據(jù)集上進(jìn)行樣式分類的工作,多任務(wù)的ResNet-152比單任務(wù)ResNet-152的性能提高了6%.多任務(wù)學(xué)習(xí)方法提高了CNN模型在大部分任務(wù)中的性能.

      對(duì)于GNN模型,觀察到在某些情況下多任務(wù)學(xué)習(xí)會(huì)降低 GNN模型的性能,因此僅展示單任務(wù)GNN模型的結(jié)果.各個(gè)GNN模型的性能與單任務(wù)CNN模型較為接近.而GNN模型能夠在較小的數(shù)據(jù)集藝術(shù)家視覺藝術(shù)數(shù)據(jù)集上獲得了最好的性能.

      注意到GNN模型在藝術(shù)家視覺藝術(shù)數(shù)據(jù)集的藝術(shù)家歸因任務(wù)上取得了出色的表現(xiàn).假設(shè)這種行為是由于使用繼承的藝術(shù)學(xué)校屬性的任務(wù)的簡(jiǎn)單性.

      提出的GNNMMVisRe能夠在三個(gè)數(shù)據(jù)集上的大部分任務(wù)獲得最好的性能.如表1所示,GNNMMVisRe在風(fēng)格分類和創(chuàng)作時(shí)期估計(jì)方面始終優(yōu)于所有其他模型.此外,GNNMMVisRe在 完整視覺藝術(shù)數(shù)據(jù)集和現(xiàn)代視覺藝術(shù)數(shù)據(jù)集數(shù)據(jù)集上的藝術(shù)家歸因任務(wù)表現(xiàn)優(yōu)于所有模型.還必須注意,使用密集節(jié)點(diǎn)視覺特征向量比依賴標(biāo)簽的稀疏對(duì)應(yīng)物產(chǎn)生更好的性能.接下來,使用標(biāo)簽預(yù)測(cè)任務(wù)來評(píng)估本模型的性能.展示了每一種標(biāo)簽類別的F1分?jǐn)?shù)、總體F1分?jǐn)?shù)和平均精度,結(jié)果如表2所示.GNNMMVisRe的表現(xiàn)仍然是最好的.另外,CNN模型比GNN模型的表現(xiàn)更好.

      表2 標(biāo)簽預(yù)測(cè)任務(wù)性能對(duì)比

      表3展示了各個(gè)模型訓(xùn)練和推理所需的時(shí)間.由于GNN的計(jì)算運(yùn)行時(shí)間處于相同的數(shù)量級(jí),因此此處僅展示GraphSAGE的時(shí)間.最后,觀察到 GNNMMVisRe只需要比它依賴的 ResNet-152 多一點(diǎn)時(shí)間.

      表3 模型計(jì)算效率

      3 結(jié)論

      本文提出的GNNMMVisRe是用來圖像視覺表征的多模態(tài)模型,GNNMMVisRe整合視覺和語(yǔ)義內(nèi)容.實(shí)驗(yàn)結(jié)果表明,與目前主流的CNN模型和GNN模型相比,提出的GNNMMVisRe在分類任務(wù)中實(shí)現(xiàn)了最先進(jìn)的性能.未來的研究工作在于采用定性分析對(duì)提出的模型進(jìn)行評(píng)估,更直觀地觀察到本模型的性能.

      猜你喜歡
      多任務(wù)視覺藝術(shù)特征向量
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
      不只是拼貼的視覺藝術(shù)
      克羅內(nèi)克積的特征向量
      李陽(yáng) 讓品茶成為視覺藝術(shù)
      海峽姐妹(2020年11期)2021-01-18 06:16:06
      手機(jī)UI界面設(shè)計(jì)中視覺藝術(shù)元素的構(gòu)成
      科技傳播(2019年23期)2020-01-18 07:58:06
      基于中心化自動(dòng)加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
      電視綜藝節(jié)目宣傳中視覺藝術(shù)的創(chuàng)新思考
      一類特殊矩陣特征向量的求法
      EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
      基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
      河北省| 廉江市| 娱乐| 合作市| 陇西县| 岑巩县| 安远县| 延津县| 横山县| 洱源县| 镇赉县| 柳河县| 江北区| 杭锦旗| 仁化县| 北辰区| 赫章县| 香港 | 龙泉市| 贵港市| 景洪市| 临澧县| 登封市| 湛江市| 华安县| 晋江市| 博湖县| 阜平县| 郧西县| 正阳县| 盐城市| 革吉县| 措勤县| 滨海县| 康乐县| 循化| 扎囊县| 固原市| 霍山县| 普兰县| 米脂县|