丁文博 許玥
摘? ?要:視覺(jué)關(guān)系檢測(cè)或視覺(jué)關(guān)系識(shí)別,不僅需要識(shí)別出圖像中的目標(biāo)以及他們的位置,還要識(shí)別目標(biāo)之間的相互關(guān)系,是計(jì)算機(jī)視覺(jué)領(lǐng)域非常具有挑戰(zhàn)性的任務(wù),也是深度理解圖像的基礎(chǔ)。得益于近年深度學(xué)習(xí)的蓬勃發(fā)展,視覺(jué)關(guān)系檢測(cè)技術(shù)取得了顯著進(jìn)步。本文介紹了近年來(lái)基于深度學(xué)習(xí)的視覺(jué)關(guān)系檢測(cè)的研究進(jìn)展,從主要挑戰(zhàn)、應(yīng)用領(lǐng)域、公開(kāi)數(shù)據(jù)集、算法模型、模型評(píng)估標(biāo)準(zhǔn)、模型效果這幾方面進(jìn)行對(duì)比分析,并展望了視覺(jué)關(guān)系檢測(cè)未來(lái)的發(fā)展方向和前景。
關(guān)鍵詞:視覺(jué)關(guān)系? 深度學(xué)習(xí)? 語(yǔ)義模塊? 視覺(jué)模塊
中圖分類號(hào):TP391.4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2019)09(c)-0145-06
Abstract:Besides identifying the objects and their positions in the images, visual relationship detection/visual relationship recognition also requires the identification of the interactions between the objects. Although visual relationship detection is a challenging task in the field of computer vision, the recent development of deep learning and significant advances in the techniques of visual relationship detection have laid the foundation for deep understanding of the images. This paper mainly reviews the research progress of visual relationship detection based on deep learning in recent years, compares and analyzes the main challenges, application fields, open data sets, algorithm models, model evaluation criteria, and model effects, and investigates the future development for visual relationship detection.
Key Words: Visual relationships; Deep learning; Semantic module; Visual module
計(jì)算機(jī)視覺(jué)(Computer Vision,CV)是使用機(jī)器來(lái)理解和分析圖像的過(guò)程。近年來(lái),基于深度學(xué)習(xí)(特別是卷積神經(jīng)網(wǎng)絡(luò))計(jì)算機(jī)視覺(jué)技術(shù)的進(jìn)步,機(jī)器理解圖像的水平大大提高,視覺(jué)技術(shù),如圖像分類、定位和分割等技術(shù)也取得了顯著進(jìn)步。然而,為理解一張圖像,只對(duì)其中的目標(biāo)進(jìn)行分類或定位是遠(yuǎn)遠(yuǎn)不夠的,還需要對(duì)于圖像中目標(biāo)與目標(biāo)之間關(guān)系進(jìn)行識(shí)別,即視覺(jué)關(guān)系檢測(cè)。
視覺(jué)關(guān)系檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域非常具有挑戰(zhàn)性的任務(wù),也是深度理解圖像的基礎(chǔ)。
1? 主要研究?jī)?nèi)容及挑戰(zhàn)
視覺(jué)關(guān)系檢測(cè)的重點(diǎn)是目標(biāo)識(shí)別與分類、目標(biāo)之間關(guān)系的配對(duì)、以及關(guān)聯(lián)目標(biāo)的關(guān)系預(yù)測(cè)。但隨著研究的深入,目標(biāo)檢測(cè)的準(zhǔn)確性問(wèn)題日益突出。
1.1 研究?jī)?nèi)容
視覺(jué)關(guān)系檢測(cè)與圖像目標(biāo)檢測(cè)有差異。圖像目標(biāo)檢測(cè)輸出的是所檢測(cè)目標(biāo)在圖像中的位置與目標(biāo)的類別,通常不與其他檢測(cè)目標(biāo)關(guān)聯(lián);而視覺(jué)關(guān)系檢測(cè)是在圖像目標(biāo)檢測(cè)的基礎(chǔ)上,預(yù)測(cè)物品之間的關(guān)聯(lián),關(guān)聯(lián)關(guān)系通常以“主語(yǔ)-謂語(yǔ)-賓語(yǔ)”這樣的三元組的形式來(lái)表達(dá)。并且圖像通常包含多組三元組,例如在圖1中男孩、自行車、帽子和輪子分別組成三組關(guān)系。
1.2 挑戰(zhàn)
雖然近幾年出現(xiàn)的一大批目標(biāo)識(shí)別和目標(biāo)檢測(cè)算法大大提高了目標(biāo)檢測(cè)的精度和速度,視覺(jué)關(guān)系檢測(cè)技術(shù)仍面臨著諸多挑戰(zhàn):
在判定目標(biāo)的類別與位置時(shí),預(yù)測(cè)的些許偏差便可能會(huì)導(dǎo)致關(guān)系檢測(cè)失誤;
視覺(jué)關(guān)系理解的類別數(shù)遠(yuǎn)超目標(biāo)檢測(cè)任務(wù)中的目標(biāo)類別數(shù),這對(duì)視覺(jué)關(guān)系檢測(cè)方法的遷移拓展能力提出了要求;
數(shù)據(jù)集的標(biāo)注數(shù)據(jù)不完全,如在多目標(biāo)圖像中,只有小部分目標(biāo)被標(biāo)注,或只有部分目標(biāo)之間的關(guān)系被標(biāo)注,或被標(biāo)注的目標(biāo)對(duì)只與一個(gè)謂詞關(guān)聯(lián)[1];
同一個(gè)關(guān)系視覺(jué)外觀差別很大,例如“人-開(kāi)-門”與“人-開(kāi)-箱子”,以及“人-騎-馬”與“人-和……一起走-馬”。
2? 基準(zhǔn)數(shù)據(jù)集
過(guò)去幾年,出現(xiàn)了一些適用于大規(guī)模視覺(jué)關(guān)系檢測(cè)的數(shù)據(jù)集,如:視覺(jué)關(guān)系檢測(cè)數(shù)據(jù)集(VRD,Visual Relationships Detection dataset)[2],視覺(jué)基因組數(shù)據(jù)集(VG,Visual Genome dataset)[3-4],以及開(kāi)放式圖像數(shù)據(jù)集(OIDv5,Open Images Dataset v5)[5]。這些數(shù)據(jù)集是視覺(jué)關(guān)系檢測(cè)技術(shù)取得重大進(jìn)展的最重要因素之一。表1為這些數(shù)據(jù)集的比較。
為了能夠具體分析各數(shù)據(jù)集的表現(xiàn),會(huì)從以下三個(gè)角度計(jì)算評(píng)價(jià)指標(biāo):
謂詞檢測(cè):輸入為圖片及圖片中所含目標(biāo)的位置,輸出為預(yù)測(cè)目標(biāo)之間有可能的關(guān)聯(lián)。以這種方式驗(yàn)證數(shù)據(jù)集在不受目標(biāo)檢測(cè)性能限制的情況下預(yù)測(cè)視覺(jué)關(guān)系的難度。
短語(yǔ)檢測(cè):輸入為圖片,輸出為“主語(yǔ)-謂語(yǔ)-賓語(yǔ)”的關(guān)系三元組及包含整個(gè)關(guān)系三元組的邊界框,且預(yù)期得到的邊界框與事實(shí)框的重合度高于0.5。
關(guān)系檢測(cè):輸入為圖片,輸出為“主語(yǔ)-謂語(yǔ)-賓語(yǔ)”的三元組,并且主語(yǔ)和賓語(yǔ)的邊界框與真實(shí)的標(biāo)注框重合度高于0.5。
評(píng)價(jià)指標(biāo)包括召回率(Recall@K)和平均精度(mAP)。通常人們選擇采用Recall@50(R@50)及Recall@100(R@100)作為指標(biāo)并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行考量,R@K表示K個(gè)最自信的預(yù)測(cè)結(jié)果中正確結(jié)果所占的比例。同時(shí),由于數(shù)據(jù)集標(biāo)注的不完全的特性,一張圖像中,并不是所有存在的關(guān)系都會(huì)被標(biāo)注出來(lái),mAP會(huì)懲罰那些被模型正確預(yù)測(cè)但數(shù)據(jù)并未標(biāo)注出的關(guān)系。因此,在大多研究者的實(shí)驗(yàn)中mAP不作為評(píng)價(jià)指標(biāo)使用。在2019年的OpenImage挑戰(zhàn)賽中,就采用了對(duì)不同評(píng)價(jià)指標(biāo)——如關(guān)系檢測(cè)mAP、關(guān)系檢測(cè)Recall@K和短語(yǔ)檢測(cè)mAP——加權(quán)平均以進(jìn)行視覺(jué)關(guān)系檢測(cè)[6]。
這些數(shù)據(jù)集和評(píng)估指標(biāo)是衡量和比較不同視覺(jué)關(guān)系檢測(cè)方法性能的基礎(chǔ)。更多更具挑戰(zhàn)性和實(shí)用性的數(shù)據(jù)集不斷出現(xiàn),揭示了現(xiàn)實(shí)世界中的實(shí)際需求,并可在更真實(shí)的環(huán)境中激發(fā)對(duì)視覺(jué)關(guān)系檢測(cè)的研究。
3? 基于深度學(xué)習(xí)的方法
盡管在計(jì)算機(jī)視覺(jué)領(lǐng)域不斷涌現(xiàn)出新的數(shù)據(jù)集和研究成果,視覺(jué)關(guān)系檢測(cè)仍然是視覺(jué)領(lǐng)域中非常復(fù)雜的問(wèn)題,為了應(yīng)對(duì)本文第二部分提到的挑戰(zhàn),研究者設(shè)計(jì)了不同模型以進(jìn)一步提升視覺(jué)關(guān)系檢測(cè)的召回率Recall和平均準(zhǔn)確率mAP。近年來(lái)所有工作都采用了基于深度神經(jīng)網(wǎng)絡(luò)的框架,圖2展示了一個(gè)從多項(xiàng)研究工作中抽象出的視覺(jué)關(guān)系檢測(cè)模型。
為實(shí)現(xiàn)視覺(jué)關(guān)系檢測(cè),首先要定位并識(shí)別出圖像中的各類目標(biāo),通過(guò)目標(biāo)檢測(cè)模塊(主要是卷積神經(jīng)網(wǎng)絡(luò))提取包括整體圖像特征、目標(biāo)區(qū)域圖像特征、目標(biāo)位置信息特征、目標(biāo)類別語(yǔ)義特征等作為關(guān)系檢測(cè)模塊的基礎(chǔ)特征信息。關(guān)系檢測(cè)模塊使用這些特征作為輸入,經(jīng)過(guò)視覺(jué)和語(yǔ)義特征融合,輸出預(yù)測(cè)的三元組標(biāo)簽以及位置。在輸出模塊通過(guò)有針對(duì)性的定義模型的損失函數(shù),達(dá)到更優(yōu)的訓(xùn)練效果。表2和表3給出了近幾年使用深度神經(jīng)網(wǎng)絡(luò)框架完成視覺(jué)關(guān)系檢測(cè)的方法在VRD和VG數(shù)據(jù)集上的性能表現(xiàn)(由于OIDv5數(shù)據(jù)集較新,暫無(wú)對(duì)比結(jié)果)。這些公開(kāi)的視覺(jué)關(guān)系檢測(cè)方法大都在關(guān)系檢測(cè)模塊上探索了不同的網(wǎng)絡(luò)結(jié)構(gòu),小部分嘗試對(duì)目標(biāo)檢測(cè)模塊和輸出模塊的目標(biāo)函數(shù)進(jìn)行了設(shè)計(jì)。
3.1 目標(biāo)檢測(cè)模塊
準(zhǔn)確檢測(cè)出圖像中的目標(biāo),是正確識(shí)別 “主語(yǔ)-謂語(yǔ)-賓語(yǔ)”三元組關(guān)系的前提。大多數(shù)研究都采用FasterRCNN[19]作為檢測(cè)模型。FasterRCNN引入了區(qū)域候選網(wǎng)絡(luò),檢測(cè)速度更快,精度更高。 在參考文獻(xiàn)12和17中分別嘗試了采用VRD和FasterRCNN,實(shí)驗(yàn)結(jié)果表明,采用FasterRCNN的模型無(wú)論是在關(guān)系檢測(cè)還是短語(yǔ)檢測(cè)的召回率上均有大幅的提升。可見(jiàn),提升目標(biāo)檢測(cè)模塊的模型性能,是整體提升視覺(jué)關(guān)系檢測(cè)效果最簡(jiǎn)單最直接的方法。
3.2 關(guān)系檢測(cè)模塊
關(guān)系檢測(cè)模塊是目標(biāo)檢測(cè)模塊的下游,負(fù)責(zé)處理視覺(jué)和語(yǔ)義特征,也是整體模型的核心。
VRD[2]利用了R-CNN[20]目標(biāo)檢測(cè)模型的輸出得到所有的目標(biāo)候選框,然后經(jīng)過(guò)視覺(jué)模型和語(yǔ)言模型分別得到每一對(duì)目標(biāo)對(duì)的關(guān)系似然度。關(guān)系似然度相乘即得到每一個(gè)可能的三元組的關(guān)系似然得分,按照關(guān)系似然度的大小排序即可得到最可能的關(guān)系預(yù)測(cè)。視覺(jué)模型即利用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型提取目標(biāo)對(duì)的視覺(jué)特征,語(yǔ)言模型將目標(biāo)對(duì)的兩個(gè)目標(biāo)類別名通過(guò)詞嵌入的方法投影成為嵌入空間的一個(gè)k維向量。VRD驗(yàn)證了語(yǔ)言先驗(yàn)知識(shí)的有效,但由于VRD的視覺(jué)特征是單獨(dú)訓(xùn)練的,與最終的關(guān)系檢測(cè)任務(wù)無(wú)直接關(guān)系,且該模型對(duì)視覺(jué)及語(yǔ)言特征的融合方法較為簡(jiǎn)單,模型性能仍有提升空間。
與VRD不同,VTransE[12]是一種端到端的模型,其將目標(biāo)的視覺(jué)特征映射到低維的關(guān)系空間中,然后使用轉(zhuǎn)移向量來(lái)表示目標(biāo)之間的關(guān)系。參考文獻(xiàn)[10]提出了一種深度變化結(jié)構(gòu)強(qiáng)化學(xué)習(xí)的方法,利用全局上下文線索,順序發(fā)現(xiàn)圖片中的目標(biāo)關(guān)系。通過(guò)強(qiáng)化學(xué)習(xí),提升了語(yǔ)義空間的搜索效率。CAI則使用主語(yǔ)和賓語(yǔ)的語(yǔ)言表示作為上下文信息引入模型[14]。
DR-Net[8]方法將更多的特征納入模型:目標(biāo)對(duì)區(qū)域的視覺(jué)特征、目標(biāo)的空間結(jié)構(gòu)特征(以一種雙空間模板的方式將每個(gè)目標(biāo)對(duì)的空間結(jié)構(gòu)特征表示為一個(gè)64維的向量,而不是簡(jiǎn)單的幾何度量(如候選框的大小、位置等))、統(tǒng)計(jì)關(guān)系特征(主語(yǔ)、賓語(yǔ)和謂詞出現(xiàn)情況的統(tǒng)計(jì)概率)。
在視覺(jué)模塊上提取目標(biāo)之間的視覺(jué)聯(lián)系的特征,能夠讓模型更好的理解目標(biāo)間的關(guān)聯(lián),因此也是模型優(yōu)化的方向,ViP-CNN模型考慮了主語(yǔ)、謂語(yǔ)、賓語(yǔ)在視覺(jué)特征上的聯(lián)系,提出了一個(gè)名為PMPS的信息傳遞機(jī)制,通過(guò)不同模型在同一層間的信息傳遞,建模目標(biāo)之間、目標(biāo)與謂語(yǔ)關(guān)系之間的關(guān)聯(lián)[9]。
Zoom-Net[16]中提出了SCM-A模塊,將多個(gè)SCM-A模塊堆疊組成視覺(jué)模塊主體,對(duì)局部的目標(biāo)特征和全局的謂語(yǔ)關(guān)系特征進(jìn)行深層次的信息傳遞,實(shí)現(xiàn)對(duì)主語(yǔ)、謂語(yǔ)、關(guān)系視覺(jué)特征的深度融合。實(shí)驗(yàn)證明,該SCM-A模塊能夠移植到已有的方法并提升原方法的性能。此外,在語(yǔ)義模塊中,構(gòu)建目標(biāo)和謂詞類別的語(yǔ)義層次樹(shù),度量目標(biāo)類別內(nèi)部和謂詞類別內(nèi)部的關(guān)聯(lián)性。
在視覺(jué)關(guān)系的語(yǔ)義空間非常大而訓(xùn)練數(shù)據(jù)量有限的情況下,提升語(yǔ)言先驗(yàn)?zāi)芰κ翘岣咭曈X(jué)關(guān)系檢測(cè)模型整體效果的重要方法,特別是對(duì)只有極少訓(xùn)練數(shù)據(jù)的處于長(zhǎng)尾分布末端的三元組關(guān)系,提升模型在語(yǔ)義空間的表現(xiàn)能力對(duì)模型泛化有幫助。在參考文獻(xiàn)[15]中,作者除了從VRD或VG的訓(xùn)練數(shù)據(jù)的標(biāo)注中建模語(yǔ)言模型外,還利用公開(kāi)語(yǔ)料數(shù)據(jù)如維基百科語(yǔ)料數(shù)據(jù),計(jì)算在給定“主語(yǔ)”和“賓語(yǔ)”的情形下,不同謂詞出現(xiàn)的概率。在訓(xùn)練視覺(jué)模塊時(shí),上述語(yǔ)言模型以一種知識(shí)蒸餾的方法輔助訓(xùn)練,得到了更好的泛化性能。實(shí)驗(yàn)證明,可通過(guò)引入大量語(yǔ)料數(shù)據(jù)提升語(yǔ)言模型,并使用語(yǔ)言模型輔助視覺(jué)模塊訓(xùn)練,如VRD零樣本測(cè)試數(shù)據(jù)集上的召回率從8.45%提升到19.17%。類似的將語(yǔ)義特征以知識(shí)蒸餾的方式加入整體模型的思路也出現(xiàn)在參考文獻(xiàn)[21]中。
通過(guò)引入語(yǔ)言先驗(yàn),能提高關(guān)系檢測(cè)準(zhǔn)確率,并提升模型泛化能力、零樣本學(xué)習(xí)能力,豐富可預(yù)測(cè)關(guān)系組的多樣性。值得注意的是,雖然語(yǔ)言先驗(yàn)對(duì)于視覺(jué)關(guān)系的判定幫助很大,但同時(shí)可能會(huì)使得關(guān)系預(yù)測(cè)更傾向于頻繁出現(xiàn)或語(yǔ)義上更可能的關(guān)系,而忽略了視覺(jué)方面的信息。因此在這些研究中,設(shè)計(jì)關(guān)系檢測(cè)模塊的結(jié)構(gòu)時(shí),兼顧了語(yǔ)義模塊和視覺(jué)模塊特征的平衡,通過(guò)特征傳遞、知識(shí)蒸餾等方式完成了語(yǔ)義和視覺(jué)特征等的融合??梢灶A(yù)見(jiàn)的是,在融合方法上會(huì)涌現(xiàn)更多的研究成果。
CDDN框架用語(yǔ)義圖構(gòu)建語(yǔ)義模塊,用空間場(chǎng)景圖構(gòu)建視覺(jué)模塊,并設(shè)計(jì)了一個(gè)圖擴(kuò)散網(wǎng)絡(luò)作為語(yǔ)義和視覺(jué)融合的方法[18]。類似的,另一篇研究設(shè)計(jì)了一種損失函數(shù),將視覺(jué)模塊和語(yǔ)義模塊二者提取的特征映射到共同的特征空間中[17]。
弱監(jiān)督視覺(jué)關(guān)系檢測(cè)也通過(guò)上述三大模塊進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),但由于當(dāng)前視覺(jué)關(guān)系檢測(cè)方法強(qiáng)依賴于數(shù)據(jù)集和監(jiān)督學(xué)習(xí),在參考文獻(xiàn)[11]和[13]中雖然提出了一些方法,但在效果上仍遠(yuǎn)差于監(jiān)督學(xué)習(xí)的方法。
3.3 輸出模塊
無(wú)論是VRD還是VG數(shù)據(jù)集,謂詞的種類都是有限的,并非對(duì)應(yīng)現(xiàn)實(shí)生活中完全開(kāi)放的詞匯表。因此,一種比較簡(jiǎn)單但擴(kuò)展性差的做法是設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)分類模型,將目標(biāo)檢測(cè)模塊得到的一對(duì)目標(biāo)的特征(包括圖像特征、檢測(cè)框位置特征、類別名特征等)作為輸入,輸出為該對(duì)目標(biāo)對(duì)應(yīng)的謂詞。由于謂詞數(shù)量有限,關(guān)系檢測(cè)模塊只需作為一個(gè)輸出謂詞的分類器。分類器模型的關(guān)系檢測(cè)模塊,通常使用交叉熵?fù)p失函數(shù)來(lái)優(yōu)化模型。
與關(guān)系檢測(cè)模塊中網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)應(yīng),經(jīng)過(guò)設(shè)計(jì)的損失函數(shù)能夠得到更好的模型訓(xùn)練效果。針對(duì)一張圖片上除了被標(biāo)注的關(guān)系之外還有其他潛在三元組關(guān)系,以及一對(duì)目標(biāo)對(duì)可能同時(shí)對(duì)應(yīng)多種謂詞關(guān)系的問(wèn)題,參考文獻(xiàn)[10]提出了一種結(jié)構(gòu)排序損失方法,迫使被標(biāo)注的關(guān)系比其余潛在的關(guān)系得分更高,其相比于使用交叉熵?fù)p失函數(shù)更加靈活和魯棒。
參考文獻(xiàn)[17]中修改了傳統(tǒng)的三元組損失函數(shù)以更好的學(xué)習(xí)視覺(jué)和語(yǔ)義的交叉特征。三元組損失函數(shù)用于訓(xùn)練差異較小的樣本,如在人臉識(shí)別中的應(yīng)用[22]。傳統(tǒng)的三元組函數(shù)可使相同標(biāo)簽的樣本在嵌入空間中距離盡可能近,不同標(biāo)簽的樣本在嵌入空間中距離盡可能遠(yuǎn),修改后的損失函數(shù)具有更強(qiáng)標(biāo)簽樣本嵌入能力。
4? 應(yīng)用與展望
目前,視覺(jué)關(guān)系檢測(cè)技術(shù)已能運(yùn)用于多種圖像理解任務(wù),如目標(biāo)檢測(cè)、圖像檢索[23]和描述、以及VQA(視覺(jué)問(wèn)答)[24-25]等。未來(lái),還將有更加廣闊的應(yīng)用前景。
在目標(biāo)檢測(cè)中,可以利用目標(biāo)間的關(guān)系、所處場(chǎng)景來(lái)提高目標(biāo)檢測(cè)的準(zhǔn)確率。參考文獻(xiàn)[26]提出了一種新的結(jié)構(gòu)推理網(wǎng)絡(luò),使用經(jīng)典檢測(cè)網(wǎng)絡(luò)提取圖片中目標(biāo)的外觀特征的同時(shí),還利用圖模型結(jié)構(gòu)將圖片中的目標(biāo)作為圖模型中的一個(gè)節(jié)點(diǎn),目標(biāo)之間的關(guān)系作為圖模型的邊,有效利用了圖片中場(chǎng)景信息及目標(biāo)間關(guān)系,在PASCAL VOC和MS COCO數(shù)據(jù)集中的目標(biāo)檢測(cè)任務(wù)準(zhǔn)確率有所提升。參考文獻(xiàn)[27]則提出了將關(guān)系建模為注意力轉(zhuǎn)移,更好的利用目標(biāo)間的關(guān)系來(lái)定位目標(biāo),不僅在 CLEVR、VRD 和 Visual Genome三個(gè)數(shù)據(jù)集上均優(yōu)于現(xiàn)有方法,并且具有可解釋性。
根據(jù)相關(guān)的圖像輸入或自然語(yǔ)言描述輸入,圖像檢索會(huì)在圖像庫(kù)中檢索出符合條件的圖像,圖像描述則會(huì)對(duì)輸入圖像進(jìn)行自然語(yǔ)言的描述。這兩項(xiàng)應(yīng)用都要求能夠提取出圖像目標(biāo)并描述目標(biāo)間的相互關(guān)系。
在VQA應(yīng)用中,所有的問(wèn)答題目首先都依賴于目標(biāo)之間關(guān)系的存在,如果目標(biāo)之間沒(méi)有關(guān)聯(lián),那問(wèn)題也不會(huì)出現(xiàn),例如:“樹(shù)下的人穿著什么顏色的衣服?”這個(gè)問(wèn)題中出現(xiàn)的目標(biāo)有四個(gè):樹(shù),人,衣服和顏色。只有清楚的了解圖像中目標(biāo)間的相互關(guān)系,讀懂題目并找到所提問(wèn)的對(duì)象,才可能根據(jù)圖像正確地回答問(wèn)題。
未來(lái),還可在以下方向進(jìn)一步拓寬視覺(jué)關(guān)系檢測(cè)的應(yīng)用研究:擴(kuò)大識(shí)別關(guān)系集合,提高關(guān)系檢測(cè)準(zhǔn)確度、召回率和零樣本學(xué)習(xí)能力;多目標(biāo)關(guān)系建模(比如男孩-爬-樹(shù)-摘-蘋果);多場(chǎng)景應(yīng)用(如圖像及視頻內(nèi)容檢測(cè)、搜索、視覺(jué)問(wèn)答)。
參考文獻(xiàn)
[1] Liang, Kongming, et al. "Visual relationship detection with deep structural ranking." Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
[2] Lu, Cewu, et al. "Visual relationship detection with language priors." European Conference on Computer Vision. Springer, Cham, 2016.
[3] Krishna, Ranjay, et al. "Visual genome: Connecting language and vision using crowdsourced dense image annotations." International Journal of Computer Vision,2017(1): 32-73.
[4] VisualGenome, visualgenome.org/data_analysis/statistics.
[5] Open Images Dataset Stats V5. Accessed July 29, 2019. https://storage.googleapis.com/openimages/web/factsfigures.html.
[6] Open Images Evaluation Protocols, storage.googleapis.com/openimages/web/evaluation.html#visual_relationships_eval.
[7] Plummer, Bryan A., et al. "Phrase localization and visual relationship detection with comprehensive image-language cues[J]. Proceedings of the IEEE International Conference on Computer Vision,2017.
[8] Dai, Bo, Yuqi Zhang, and Dahua Lin. Detecting visual relationships with deep relational networks[J]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017.
[9] Li, Yikang, et al. Vip-cnn: Visual phrase guided convolutional neural network[J]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[10]Liang, Xiaodan, Lisa Lee, and Eric P. Xing. Deep variation-structured reinforcement learning for visual relationship and attribute detection[J]. Proceedings of the IEEE conference on computer vision and pattern recognition,2017.
[11]Zhang, Hanwang, et al. PPR-FCN: weakly supervised visual relation detection via parallel pairwise R-FCN[J]. Proceedings of the IEEE International Conference on Computer Vision,2017.
[12]Zhang, Hanwang, et al. Visual translation embedding network for visual relation detection[J]. Proceedings of the IEEE conference on computer vision and pattern recognition,2017.
[13]Peyre, Julia, et al. Weakly-supervised learning of visual relations[J]. Proceedings of the IEEE International Conference on Computer Vision. 2017.
[14]Zhuang, Bohan, et al. Towards context-aware interaction recognition for visual relationship detection[J]. Proceedings of the IEEE International Conference on Computer Vision,2017.
[15]Yu, Ruichi, et al. Visual relationship detection with internal and external linguistic knowledge distillation[J]. Proceedings of the IEEE International Conference on Computer Vision,2017.
[16]Yin, Guojun, et al. Zoom-net: Mining deep feature interactions for visual relationship recognition[J]. Proceedings of the European Conference on Computer Vision (ECCV),2018.
[17]Zhang, Ji, et al. Large-scale visual relationship understanding[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019(33):13.
[18]Cui, Zhen, et al. Context-dependent diffusion network for visual relationship detection[J]. 2018 ACM Multimedia Conference on Multimedia Conference. ACM, 2018.
[19]S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks[J].In NIPS,2015:91-99.
[20]Girshick, Ross, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[J]. Proceedings of the IEEE conference on computer vision and pattern recognition,2014.
[21]Plesse, Fran?ois, et al. Visual relationship detection based on guided proposals and semantic knowledge distillation[J]. 2018 IEEE International Conference on Multimedia and Expo (ICME)[J].IEEE, 2018.
[22]Schroff, Florian, Dmitry Kalenichenko, and James Philbin. "Facenet: A unified embedding for face recognition and clustering.[J].Proceedings of the IEEE conference on computer vision and pattern recognition, 2015.
[23]N. Prabhu and R. Venkatesh Babu. Attribute-graph: A graph based approach to image ranking[J]. In ICCV, 2015:1071-1079.
[24]Kulkarni, Girish, et al. Babytalk: Understanding and generating simple image descriptions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2891-2903.
[25]Xu, Kelvin, et al. Show, attend and tell: Neural image caption generation with visual attention[J]. International conference on machine learning,2015.
[26]Liu, Yong, et al. Structure inference net: Object detection using scene-level context and instance-level relationships[J].Proceedings of the IEEE conference on computer vision and pattern recognition,2018.
[27]Krishna, Ranjay, et al. Referring relationships[J]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018.
科技創(chuàng)新導(dǎo)報(bào)2019年27期