基于圖文融合的多模態(tài)輿情分析

2022-06-17 07:10:32朱婷鴿李琳娜劉繼明

計(jì)算機(jī)與生活 2022年6期

關(guān)鍵詞：輿情模態(tài)特征

劉穎，王哲，房杰,2，朱婷鴿,2，李琳娜，劉繼明

1.西安郵電大學(xué)圖像與信息處理研究所，西安 710121

2.西安郵電大學(xué)電子信息現(xiàn)場(chǎng)勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室，西安 710121

3.西安郵電大學(xué)網(wǎng)絡(luò)輿情監(jiān)測(cè)與分析中心，西安 710121

4.西安郵電大學(xué)通信與信息工程學(xué)院，西安 710121

互聯(lián)網(wǎng)時(shí)代具有開放性、多元性以及互動(dòng)性等特點(diǎn)，這促使全民信息交流日趨便利。當(dāng)下網(wǎng)絡(luò)信息傳遞具有如下特點(diǎn)：（1）雙向傳播，信息發(fā)布方和接收方交流更加密切，接收方甚至可以對(duì)真假難辨的信息進(jìn)行二次傳播，從而造成虛假信息爆炸式增長(zhǎng)。（2）發(fā)布門檻走低，對(duì)于信息的發(fā)布方來說，只要注冊(cè)賬號(hào)就可以進(jìn)行信息發(fā)布。一個(gè)突發(fā)的熱點(diǎn)問題就可能對(duì)政府和企業(yè)造成極大的損失，因而企業(yè)和政府只有對(duì)輿情事件做出合適的應(yīng)對(duì)決策，才能有效化解負(fù)面輿情。目前，針對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)研究，主要圍繞網(wǎng)絡(luò)輿情概念、輿情演進(jìn)特征、輿情信息獲取、輿情分析和預(yù)警監(jiān)測(cè)系統(tǒng)建立等方面展開。其中輿情分析是最關(guān)鍵的技術(shù)之一，而網(wǎng)絡(luò)輿情的情感分析尤為重要，其原因在于網(wǎng)絡(luò)輿情分析的主要原則是根據(jù)民眾對(duì)事件的情感態(tài)度來判斷事件的走向。

“情感分析”一詞由文獻(xiàn)[2]提出，但最早提出情感分析任務(wù)的是Pang 等研究者，他們將文本的主觀計(jì)算過程定義為情感分析和觀點(diǎn)挖掘。在線評(píng)論的情感分析需要考慮情感強(qiáng)度和情感極性，其主要任務(wù)是識(shí)別人們所表達(dá)的主觀態(tài)度或觀點(diǎn)。目前大多數(shù)研究者對(duì)單模態(tài)情感進(jìn)行了分析，例如文獻(xiàn)[4]調(diào)查了一些基于情感分析的機(jī)器學(xué)習(xí)方法，文獻(xiàn)[5]考察了句子層面的情緒，文獻(xiàn)[6]總結(jié)了情感分析的主要任務(wù)和應(yīng)用。隨著網(wǎng)絡(luò)的多元化發(fā)展，人們不再滿足于僅僅使用文字在社交媒體上發(fā)布自己的狀態(tài)，而是更青睞于文本與圖像結(jié)合的方式表達(dá)自己的情感。因此，結(jié)合文本和圖像信息進(jìn)行輿情情感分析的研究變得越來越重要。

本文的重點(diǎn)是對(duì)網(wǎng)絡(luò)輿情的情感分析進(jìn)行綜述。具體來講，本文以網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的構(gòu)建流程為主線，對(duì)基于圖文的網(wǎng)絡(luò)輿情情感分析進(jìn)行了總結(jié)，并對(duì)網(wǎng)絡(luò)輿情情感分析面臨的挑戰(zhàn)和未來的發(fā)展方向進(jìn)行了探討。

1 網(wǎng)絡(luò)輿情概述

1.1 網(wǎng)絡(luò)輿情的基本概念

網(wǎng)絡(luò)輿情是社會(huì)輿情在互聯(lián)網(wǎng)上反應(yīng)的一種特殊形式，是網(wǎng)民認(rèn)知、情感、態(tài)度和行為傾向的集合，更多的是民眾情感的體現(xiàn)，涉及時(shí)政、環(huán)境衛(wèi)生、公共安全等廣泛領(lǐng)域。社會(huì)化媒體公眾參與度的提高促進(jìn)了網(wǎng)絡(luò)輿論的發(fā)展，同時(shí)也使其傳播方式和演進(jìn)方式不斷發(fā)生變化。針對(duì)熱點(diǎn)問題的輿情信息混雜著理性和非理性的成分，如果不能對(duì)輿情信息進(jìn)行正確、及時(shí)的處理，可能會(huì)產(chǎn)生嚴(yán)重的社會(huì)后果。網(wǎng)絡(luò)輿情分析可以有效掌握公眾對(duì)熱點(diǎn)事件的看法，及時(shí)預(yù)測(cè)公共事件的發(fā)展趨勢(shì)，從而引導(dǎo)輿論健康發(fā)展。輿情情感分析綜合了計(jì)算機(jī)科學(xué)、社會(huì)學(xué)、數(shù)學(xué)、心理學(xué)等多個(gè)學(xué)科，通過文本、圖片或圖文融合對(duì)情感進(jìn)行分類，進(jìn)而分析情感趨勢(shì)，把握公眾的心理狀態(tài)。因此，通過對(duì)網(wǎng)絡(luò)輿情進(jìn)行情感分析，可以有效掌握網(wǎng)民的態(tài)度、情緒和行為，從而達(dá)到疏導(dǎo)和控制網(wǎng)絡(luò)輿情事件的目的。

1.2 網(wǎng)絡(luò)輿情分析系統(tǒng)概述

網(wǎng)絡(luò)輿情分析系統(tǒng)目的在于對(duì)社交媒體上的輿情進(jìn)行價(jià)值和趨向判斷，在工作流程層面，其系統(tǒng)的構(gòu)成主要包括四個(gè)模塊：輿情數(shù)據(jù)的采集與處理模塊、輿情數(shù)據(jù)分析模塊、分析結(jié)果管理模塊以及輿情報(bào)告導(dǎo)出模塊。輿情數(shù)據(jù)的采集與處理模塊包括輿情數(shù)據(jù)采集和數(shù)據(jù)的預(yù)處理，其作用是記錄管理輿情信息，同時(shí)允許用戶進(jìn)行信息檢索。數(shù)據(jù)分析模塊包括話題熱度計(jì)算和極性判斷，該模塊負(fù)責(zé)對(duì)收集到的輿情信息進(jìn)行情感分析。分析結(jié)果管理模塊包括分析報(bào)告、輿情結(jié)果檢索以及進(jìn)行趨勢(shì)分析，其作用是將輿情分析的結(jié)果量化，同時(shí)分析趨勢(shì)并將結(jié)果展現(xiàn)出來。輿情報(bào)告導(dǎo)出模塊允許用戶將可視化結(jié)果根據(jù)不同的需要格式保存到本地。其工作流程如圖1 所示。

圖1 輿情分析系統(tǒng)流程圖Fig.1 Public opinion analysis system flowchart

2 基于單模態(tài)的網(wǎng)絡(luò)輿情情感分析

網(wǎng)絡(luò)輿情監(jiān)測(cè)研究最早興起于國外，文獻(xiàn)[8]指出早在20 世紀(jì)90 年代Allan 等就將主題檢測(cè)和跟蹤技術(shù)應(yīng)用到網(wǎng)絡(luò)輿情的數(shù)據(jù)分析中。隨著網(wǎng)絡(luò)的不斷普及和Twitter 等社交平臺(tái)不斷興起，Hughes 等人在2009 年通過對(duì)突發(fā)事件中Twitter 用戶的態(tài)度和行為的研究，提出了Twitter 平臺(tái)如何疏導(dǎo)網(wǎng)絡(luò)輿情的方法。國內(nèi)研究相對(duì)較晚，劉英杰最早對(duì)輿情監(jiān)測(cè)系統(tǒng)構(gòu)建進(jìn)行了研究，對(duì)輿情信息的情感維度在空間的特征和演化規(guī)律進(jìn)行了分析。黃微等人對(duì)網(wǎng)絡(luò)輿情信息的語義識(shí)別技術(shù)進(jìn)行了對(duì)比探討。這些早期的研究都對(duì)未來網(wǎng)絡(luò)輿情檢測(cè)研究奠定了基礎(chǔ)。在早期輿情情感分析研究中，主要研究的對(duì)象是文本或圖像，所采用的方法大多數(shù)是傳統(tǒng)的機(jī)器學(xué)習(xí)方法，例如貝葉斯分類、最大鄰近算法等。近年來，隨著深度學(xué)習(xí)的不斷發(fā)展，研究者們逐漸傾向于用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)文本或圖像的特征以實(shí)現(xiàn)情感分析。

2.1 基于文本數(shù)據(jù)輿情情感分析

文本數(shù)據(jù)在新聞、網(wǎng)上評(píng)論、自媒體推文等網(wǎng)絡(luò)信息中較為常見，是目前網(wǎng)絡(luò)信息中的主要數(shù)據(jù)形式。文本數(shù)據(jù)的輿情情感分析又稱為數(shù)據(jù)挖掘，是指對(duì)帶有主觀情感色彩的文本進(jìn)行情感傾向挖掘，并對(duì)其情感態(tài)度進(jìn)行分類的過程。本文情感分析過程大致如圖2 所示。

常用的文本預(yù)處理策略包含分詞和詞性標(biāo)注。分詞即將一個(gè)連續(xù)的句子分割成若干獨(dú)立的詞序列，作為文本信息的特征項(xiàng)。常用的方法有基于詞典的分詞方法和基于統(tǒng)計(jì)的分詞方法?；谠~典的方法是將分割的字符串與情感字典中的已有詞匯進(jìn)行對(duì)比。例如崔彥琛等人利用PMI-IR（point-wise mutual information-information retrieval）、SO-PMI（semantic orientation pointwise mutual information）等算法，建立了消防輿情詞典，其中包括通用詞典、消防領(lǐng)域情感詞典和網(wǎng)絡(luò)語言情感詞典，并證明了其高效性、準(zhǔn)確性以及在消防領(lǐng)域的適用性和專業(yè)性。該方法的優(yōu)點(diǎn)是處理簡(jiǎn)單，效率高，其不足之處則在于太過依賴于詞典的規(guī)模與判別規(guī)則。在網(wǎng)絡(luò)輿情中，詞語的更新速度快，詞典分詞法很難滿足要求。因此，基于統(tǒng)計(jì)分詞的方法得到了較為廣泛的應(yīng)用，其中最經(jīng)典的模型為-gram。該模型的原理是給定一個(gè)句子，gram 就可以計(jì)算出一個(gè)概率值。通過列舉出所有可能的分詞方式，再根據(jù)所有可能的分詞方式分別計(jì)算該句子的概率，選擇使句子概率最大的分詞方式作為最終分詞結(jié)果。詞性標(biāo)注指在分詞的基礎(chǔ)上，根據(jù)上下文條件對(duì)每個(gè)詞進(jìn)行詞性判斷并添加標(biāo)簽的過程。例如文獻(xiàn)[14]通過對(duì)關(guān)鍵詞進(jìn)行情感標(biāo)注實(shí)現(xiàn)對(duì)文本數(shù)據(jù)的預(yù)處理，實(shí)驗(yàn)效果大大提升。

文本表示與特征提取是情感分析中最為關(guān)鍵的一步。輿情信息的情感識(shí)別，最重要的就是提取出文本中的非結(jié)構(gòu)化信息，從而判斷情感傾向。因此，良好的文本表示模型對(duì)于提高情感識(shí)別效果至關(guān)重要。目前文本表示模型以及優(yōu)缺點(diǎn)如表1 所示。

傳統(tǒng)上，BoW（bag-of-words）模型已用于提取自然語言處理（natural language processing，NLP）和文本挖掘中句子和文檔的特征。BoW 模型將文檔轉(zhuǎn)換為具有固定長(zhǎng)度的數(shù)字特征向量，并對(duì)向量中的每個(gè)元素進(jìn)行評(píng)分。盡管BoW 受歡迎，但其仍有一些缺點(diǎn)。首先，該向量的維度等于詞匯表的大小，因此隨著詞匯表大小的增加，文檔的向量表示也增加。其次，由于忽略了單詞順序，BoW 模型幾乎不能對(duì)單詞的語義進(jìn)行編碼。第三，每個(gè)文檔可以在詞匯表中包含非常少量的已知單詞，導(dǎo)致具有大量零分?jǐn)?shù)的向量，稱為稀疏向量或稀疏表示。

圖2 文本情感分析流程Fig.2 Text sentiment analysis process

表1 文本表示模型及其優(yōu)缺點(diǎn)Table 1 Text representation model and its advantages and disadvantages

針對(duì)此問題，引入了一個(gè)更復(fù)雜的模型bag-of-grams 的分組詞匯表，這是BoW 模型的擴(kuò)展，改變了詞匯的范圍，并允許一袋單詞從文檔中獲取更多的意義。該模型可以在短上下文中考慮單詞順序，但它仍然存在數(shù)據(jù)稀疏性和高維度的問題。

為了克服BoW 模型和-grams 模型的缺點(diǎn)，提出了詞嵌入的技術(shù)。單詞嵌入使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)文本的表示，使得具有相同含義的單詞具有相似的表示。單詞嵌入將詞匯表中的單詞轉(zhuǎn)換為連續(xù)實(shí)數(shù)的向量。該技術(shù)通常涉及將高維稀疏向量嵌入到可以編碼單詞的一些語義和句法屬性的低維密集向量中。嵌入向量的每個(gè)維度表示單詞的潛在特征。目前，文本特征提取的最新趨勢(shì)集中在Glove（global vectors）或word2vec等大型語料庫上預(yù)先訓(xùn)練的單詞嵌入。

（1）基于傳統(tǒng)方法

傳統(tǒng)的情感分析方法主要基于情感詞典或機(jī)器學(xué)習(xí)，并使用分類、回歸等方法實(shí)現(xiàn)特征提取和分類?；谠~典的方法依賴于情感詞典，情感詞典是包含情感極性信息的單詞或短語的列表。2016 年，Saif 等人提出了SentiCircles 模型，通過考慮不同語境下單詞的共現(xiàn)模式來捕捉語義，并更新預(yù)先分配的語義情感詞匯強(qiáng)度和極性，從而獲取更合適的情感詞典。該模型在Twitter 文本上的表現(xiàn)比SentiStrength模型更具競(jìng)爭(zhēng)性。然而，在分析實(shí)時(shí)Web 平臺(tái)生成的評(píng)論文本時(shí)，其無法及時(shí)更新情感詞典，從而導(dǎo)致對(duì)新詞情感的識(shí)別難度的增加。因此僅使用基于詞典的方法，冗長(zhǎng)的分析過程和有限的準(zhǔn)確度將限制該技術(shù)在本領(lǐng)域的應(yīng)用。

機(jī)器學(xué)習(xí)方法可分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)，在數(shù)據(jù)量足夠、數(shù)據(jù)類型多樣的情況下，該方法與基于詞典的方法相比，能夠有效避免上述問題。李婷婷等人改進(jìn)了支持向量機(jī)方法和條件隨機(jī)場(chǎng)方法，結(jié)合多種特征組合，彌補(bǔ)了傳統(tǒng)機(jī)器學(xué)習(xí)方法中特征提取的不足。然而基于傳統(tǒng)的情感分析方法存在數(shù)據(jù)稀疏問題和字序問題，且需要大量標(biāo)記的文本。

（2）基于深度學(xué)習(xí)方法

深度學(xué)習(xí)可以避免繁瑣的特征選擇過程，自動(dòng)抽象特征，學(xué)習(xí)相應(yīng)的參數(shù)，并捕獲復(fù)雜的特征?；谏疃葘W(xué)習(xí)的方法在輸入層和輸出層之間嵌入隱藏層，以模擬其他算法無法學(xué)習(xí)的數(shù)據(jù)中間表示。該機(jī)制可以有效地從高維數(shù)據(jù)中學(xué)習(xí)更深層次的信息。

對(duì)于情感分類問題，卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN）由于結(jié)構(gòu)簡(jiǎn)單，訓(xùn)練效率高，廣泛用于文本情感分類。Stojanovski等人使用CNN提取消息文本的特征，并融合不同的分類算法對(duì)新聞相關(guān)的Twitter 消息進(jìn)行情感分析，以提供公眾對(duì)某些事件的反應(yīng)見解。然而單純的CNN 模型在訓(xùn)練過程中放棄了上下文之間的關(guān)系，因此無法很好地解決時(shí)序問題，也無法準(zhǔn)確分析過渡句子等數(shù)據(jù)。Sun等人使用區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（regions with CNN features，RCNN）來保留句子的時(shí)間關(guān)系，從而捕獲單詞之間更多的語義關(guān)系。因此，他們解決了在處理基于方面的情感分析任務(wù)時(shí)，傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型在句子之間的連接較少并且單詞之間的語義信息較少的問題，在基于方面的情感分析中，具有良好的適應(yīng)性。Chen等人提出了一種稱為雙通道卷積神經(jīng)網(wǎng)絡(luò)的字符嵌入情感分析方法（character embedding with dual-channel convolutional neural network，char-DCCNN）。該方法將中文語料庫劃分為單個(gè)中文，然后將它們訓(xùn)練成字符向量，依次將表示文本的向量矩陣輸入到雙通道CNN 中，通過少量標(biāo)記數(shù)據(jù)和少量迭代獲得良好的分類性能。實(shí)驗(yàn)表明，該方法改善了微博中短評(píng)論的情感類別結(jié)果，然而字符嵌入增加了文本的分布式表示的復(fù)雜性和計(jì)算成本。

循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）能夠循環(huán)保持信息（即使用以前的信息連接到當(dāng)前的任務(wù)，并用過去的文本猜測(cè)當(dāng)前的文本）。然而，RNN 有一個(gè)明顯的長(zhǎng)期依賴性問題：當(dāng)歷史文本太長(zhǎng)時(shí)，文本的有效信息無法保存。鑒于此，裴頌文等人提出了一種特殊的RNN 結(jié)構(gòu)LSTM（long shortterm memory），該模型可以充分利用目標(biāo)情緒詞和句子中情緒極性詞之間的關(guān)系。受到該模型的啟發(fā)，Xing 等人提出了一種用于情感分析的方面感知LSTM（aspect-aware LSTM，AALSTM），它在上下文建模階段將方面信息整合到LSTM 單元中。該方法在給定方面保留有效信息，同時(shí)過濾掉給定方面的無用信息，并且其最終的情緒表示更有效。

羅帆等人將RNN 與CNN 相結(jié)合，提出了一種分層神經(jīng)網(wǎng)絡(luò)（hierarchical RNN-CNN，H-RNN-CNN）作為表示情感分析文本的通用模型。為防止信息可能在長(zhǎng)文本中丟失，使用CNN 來捕捉句子之間的關(guān)系。Rehman 等人提出了LSTM 和深層CNN 的混合模型用于情感分析。與基于CNN 的方法或基于LSTM 的方法相比，該模型具有更高的準(zhǔn)確性，然而其更適合具有更多參數(shù)的小數(shù)據(jù)集。Liu 等人提出了一種混合模型，在CNN的基礎(chǔ)上，通過BiLSTM（bidirectional long short-term memory）提取與文本上下文相關(guān)的全局特征，并融合兩個(gè)互補(bǔ)模型提取的特征。

2.2 基于視覺數(shù)據(jù)的情感分析

社交媒體中，人們常常在發(fā)布動(dòng)態(tài)、觀點(diǎn)等信息的同時(shí)會(huì)為其配上圖像。其原因在于圖像不僅可以在情感方面影響其他人，而且也能夠直接或間接地表達(dá)發(fā)布人的態(tài)度和情感?！耙曈X情感分析”的主要目的有兩點(diǎn)：一是模擬并檢測(cè)個(gè)人可觀察表達(dá)的情緒；二是檢測(cè)視覺媒體所發(fā)布的圖像表達(dá)其作者或在觀察者中喚起的情緒。雖然前者從個(gè)人（或群體）中提取面部表情或身體姿態(tài)從而判斷情感的研究較為成熟，然而后者對(duì)于社交媒體中非語言情感表達(dá)的基于視覺的情感分析領(lǐng)域研究還是一個(gè)較新的領(lǐng)域。在視覺情感分析中，“情感”表現(xiàn)為人們與視覺元素互動(dòng)的結(jié)果。鑒于情感總是朝向?qū)ο蠡驅(qū)嶓w，視覺情感同樣被定義為視覺內(nèi)容中存在的對(duì)象、場(chǎng)景或事件。例如，一張展示美味食物的圖像可能表達(dá)了積極情緒；通過體驗(yàn)這些圖像，觀眾可能會(huì)引發(fā)積極情緒。當(dāng)這些情感體驗(yàn)被提煉成一組語義標(biāo)簽時(shí)，可以構(gòu)建計(jì)算機(jī)視覺問題，以從低級(jí)視覺多媒體（即原始像素、運(yùn)動(dòng)等）學(xué)習(xí)功能映射，到分類，本地化和匯總?cè)蝿?wù)中的高級(jí)情感標(biāo)簽。一般情況下，對(duì)于一個(gè)圖片的情感識(shí)別需要由圖像預(yù)處理、特征提取、分類器識(shí)別三部分組成，其流程如圖3 所示。

其中圖像預(yù)處理是為了減小圖像中干擾識(shí)別效果的信息，目前常用的預(yù)處理操作包括對(duì)象檢測(cè)技術(shù)、單圖像超分辨率技術(shù)、圖像增強(qiáng)技術(shù)（如縮放、旋轉(zhuǎn)和平移）。特征提取的目的是提取圖片中與情感相關(guān)且區(qū)分能力強(qiáng)的特征，是情感識(shí)別中最為關(guān)鍵的一步。圖像特征一般分為淺層特征、中層特征和深層特征。分類器的識(shí)別則是按照特征提取的結(jié)果進(jìn)行分類。

計(jì)算機(jī)圖像分析算法的起點(diǎn)在于特征的選取。特征是一個(gè)數(shù)字圖像中“可重復(fù)性”的重要部分，算法的成功通常取決于其所使用和定義的特征的合適性?，F(xiàn)有的圖像特征一般分為淺層特征、中層特征和深層特征。淺層特征主要指顏色、形狀、線條等特征，中層特征一般指圖像中存在的對(duì)象、目標(biāo)等特征，而深層特征則是指行為、場(chǎng)景和情感等語義相關(guān)特征。傳統(tǒng)的關(guān)于視覺內(nèi)容情感語義分析研究大多數(shù)是直接建立低級(jí)視覺特征和情感語義之間的映射關(guān)系，然而，由于社交媒體中的視覺情感語義是由認(rèn)知語義間接驅(qū)動(dòng)的，該方法不適用于社交媒體中視覺內(nèi)容的情感分析。此外，社交媒體中的視覺內(nèi)容也可以自由分享，多樣化的數(shù)據(jù)與其情感取向之間的關(guān)系極其復(fù)雜，語義鴻溝問題十分嚴(yán)重。

圖3 圖像情感識(shí)別流程圖Fig.3 Image sentiment recognition flowchart

為了填補(bǔ)這一語義空白，研究者們努力利用中層表征作為視覺底層特征和情感取向之間的橋梁。近年來，由于深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得了巨大成功，研究者們開始將深度學(xué)習(xí)技術(shù)應(yīng)用于視覺內(nèi)容的情感分析和觀點(diǎn)挖掘。因此，現(xiàn)有的社交媒體視覺內(nèi)容特征提取可以分為基于中層表征的方法和基于深度學(xué)習(xí)的方法。

現(xiàn)有的基于中層表征的方法主要利用視覺底層特征形成中層情感本體進(jìn)行概念檢測(cè)，而忽略了本體概念之間的區(qū)別和聯(lián)系。Yuan 等人定義了一個(gè)通過提取場(chǎng)景描述符的底層特征，并利用四個(gè)特征對(duì)分類器進(jìn)行Liblinear 訓(xùn)練，生成102 個(gè)預(yù)定義的中層屬性，然后利用這些屬性預(yù)測(cè)情感。與直接使用視覺底層特征的方法相比，該方法使得情感預(yù)測(cè)結(jié)果更具解釋性。Borth 等人提出了另一個(gè)具有代表性的中層表示框架，如圖4 所示。

他們使用形容詞-名詞對(duì)（adjective noun pairs，ANP）構(gòu)建了一個(gè)大規(guī)模的視覺情感本體（visual sentiment ontology，VSO），作為視覺情感分析的中層描述符。他們還提出了一套名為SentiBank的ANP概念檢測(cè)器，用于檢測(cè)視覺內(nèi)容中1 200 個(gè)ANP。ANP 的響應(yīng)可以作為視覺情感預(yù)測(cè)的中間層特征。視覺內(nèi)容的情感信息主要由圖像中的對(duì)象來傳達(dá)。因此，Chen 等人提出了一種基于VSO 和SentiBank 的視覺情感概念分析方法。他們首先定位視覺內(nèi)容的對(duì)象，然后用形容詞來描述相關(guān)屬性，將ANP 檢測(cè)問題分解為目標(biāo)定位和概念建模。該方法將情感語義分析與目標(biāo)檢測(cè)相結(jié)合，為視覺情感分析提供了一個(gè)新的視角。然而，結(jié)果表明，該方法在提高情感分類性能的同時(shí)，增加了計(jì)算復(fù)雜度。為了解決基于VSO的模型中ANP 與視覺內(nèi)容的情感取向相關(guān)性的問題，Cao 等人提出了一種用于視覺情感分析的視覺情感主題模型（visual sentiment topic model，VSTM）。VSTM 的主要優(yōu)點(diǎn)是包含了對(duì)視覺內(nèi)容主題的宏觀描述?，F(xiàn)有的基于VSO 和SentiBank 的應(yīng)用程序?qū)NP 概念的響應(yīng)作為中間層特征，忽略了這些ANP概念的情感信息。為解決此問題，Li等人提出了一種充分利用ANP 文本情感信息的方法。他們根據(jù)ANP 的文本情感值和圖像中相應(yīng)的響應(yīng)來計(jì)算圖像的整體情感值，然后將圖像情感值作為一維特征進(jìn)行圖像情感預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明，利用文本情感分析提高圖像情感分析的性能是可行的。

深度學(xué)習(xí)采用多層模型將底層特征轉(zhuǎn)化為抽象的特征空間，與人工特征相比，可以更好地描述輸入數(shù)據(jù)的內(nèi)在信息。更重要的是，社交媒體中大量的視覺數(shù)據(jù)可以為深度學(xué)習(xí)提供足夠的訓(xùn)練樣本?，F(xiàn)有的基于深度學(xué)習(xí)的視覺情感分析方法可以分為兩類：端到端模式和管道模式。

端到端方法嘗試使用諸如卷積神經(jīng)網(wǎng)絡(luò)（CNN）之類的深度模型來建立圖像像素和視覺情感取向之間的映射。在端到端的方法中，文獻(xiàn)[42]提出了兩個(gè)條件概率神經(jīng)網(wǎng)絡(luò)（conditional probability neural network，CPNN），稱為二進(jìn)制CPNN（BCPNN）和增廣CPNN（ACPNN），其目的是預(yù)測(cè)一組已考慮的標(biāo)簽上的概率分布。文獻(xiàn)[43]改變了預(yù)先訓(xùn)練的CNN 對(duì)象分類的最后一層的維數(shù)，以提取所考慮的情緒標(biāo)簽的概率分布，將原有的損失層替換為分類損失和情感分布損失通過加權(quán)組合集成的函數(shù)，然后對(duì)修改后的CNN 進(jìn)行微調(diào)，以預(yù)測(cè)情緒分布。文獻(xiàn)[44]訓(xùn)練了一個(gè)CNN 進(jìn)行情緒分析，然后實(shí)證地研究了每個(gè)層的貢獻(xiàn)，使用每一層的激活來訓(xùn)練不同的線性分類器。同時(shí)，還研究了權(quán)值初始化對(duì)微調(diào)的影響，通過改變輸出域，根據(jù)實(shí)驗(yàn)結(jié)果和觀察結(jié)果提出了一種改進(jìn)的CNN 架構(gòu)。

圖4 中層語義情感分析流程Fig.4 Middle-level semantic sentiment analysis process

基于管道模式的視覺情感分析中，研究者首先利用深度學(xué)習(xí)模型建立視覺內(nèi)容到認(rèn)知語義的映射關(guān)系，然后基于認(rèn)知語義預(yù)測(cè)視覺內(nèi)容的情感取向。一般來說，基于管道模式的深度學(xué)習(xí)方法更易于理解，因?yàn)樗鼈兡M了人類的視覺感知。然而，概念（或事件）檢測(cè)性能是影響這些方法性能的關(guān)鍵因素。例如，Chen 等升級(jí)了文獻(xiàn)[37]中提出的SentiBank。他們使用深度卷積神經(jīng)網(wǎng)絡(luò)來檢測(cè)圖像中存在的本體概念。文獻(xiàn)[40]通過提取一組描述圖像的ANP 來表示圖像的情感。然后，以相應(yīng)的ANP 響應(yīng)作為權(quán)重，計(jì)算提取出的文本情感值的加權(quán)和。利用從圖像中提取的ANP 組成文本的情感，而不是只考慮在SentiBank中定義的ANP 響應(yīng)作為中層表示，最后使用邏輯回歸器來推斷情感傾向。在最先進(jìn)的方法中，與用戶的社交圖像相關(guān)的文本噪聲問題是非常普遍的。Ahsan 等人提出了一種基于管道模式的深度學(xué)習(xí)方案來分析社會(huì)事件圖像的視覺情感。他們首先生成一系列社會(huì)事件概念，并利用CNN 架構(gòu)計(jì)算出相應(yīng)的概念得分，然后根據(jù)這些概念得分預(yù)測(cè)社會(huì)事件圖像的情感取向。

所有這些視覺情感分析方面的工作都表明了更高精度技術(shù)的潛力，然而情緒的多面性表明單獨(dú)的視覺情感分析將無法在多媒體數(shù)據(jù)中充分衡量或描述人們的體驗(yàn)傾向和意見。

3 圖文融合的輿情情感分析

近年來，在情感分析領(lǐng)域出現(xiàn)了許多新的觀點(diǎn)，特別是在視覺情感分析方面。例如，在人工智能領(lǐng)域取得巨大成功的深度學(xué)習(xí)，已經(jīng)開始應(yīng)用于不同類型社交媒體數(shù)據(jù)的情感分析。當(dāng)前，研究者們主要致力于社交媒體文本的情感提取。然而單一模態(tài)的輿情情感分析有很多不足，其信息很容易受到其他因素的干擾，從而造成情感分析效果不理想。圖片包含著太多的個(gè)人主觀性，不利于情感判斷，圖5形象化展示了單模態(tài)的不足。目前，在輿情信息中，圖片是除文本信息以外用戶使用最為廣泛的數(shù)據(jù)，因此圖文融合的輿情情感分析成為當(dāng)前的熱點(diǎn)。

圖5 單模態(tài)情感分析的不足Fig.5 Shortcomings of monomodal sentiment analysis

基于圖文的輿情情感分析是多模態(tài)情感分析的一部分，目前仍處于起步階段。文獻(xiàn)[48]采用了圖文融合的情感分析方法，該算法證明了圖像特征與文本特征的互補(bǔ)關(guān)系。其實(shí)驗(yàn)結(jié)果表明，相較于單模態(tài)的實(shí)驗(yàn)結(jié)果，基于圖文的情感分析具有更好的效果。進(jìn)行圖文融合情感分析，最重要的一步是提取文本特征和圖片特征，隨后根據(jù)圖文的融合策略判斷情感類型。圖文融合輿情情感分析的一般過程如圖6所示。

圖6 圖文融合情感分析過程Fig.6 Image and text fusion sentiment analysis process

圖文融合策略主要是關(guān)于圖文信息的融合和圖文相關(guān)性的融合，包括特征層融合、決策層融合和一致性回歸融合，具體如圖7 所示。

圖7 圖文融合策略分類Fig.7 Image and text fusion strategy classification

3.1 基于特征層融合的輿情情感分析

基于特征層融合的過程是在特征層上對(duì)情感信息進(jìn)行處理，使其融合特征具有兩個(gè)模態(tài)的信息。首先分別提取文本和圖像的情感特征，接著將提取到的特征通過直接或加權(quán)連接的方式結(jié)合在一起而形成融合情感特征，最后輸入到分類器中進(jìn)行輿情情感分類。特征層融合流程如圖8 所示。

圖8 特征層融合過程Fig.8 Feature layer fusion process

（1）基于傳統(tǒng)技術(shù)的情感分析

文獻(xiàn)[50]提出了一種跨媒體詞袋模型。對(duì)于多模態(tài)圖文分析，通過使用詞袋模型賦予文本和圖像統(tǒng)一的表示形式，從而形成消息的特征向量。在此基礎(chǔ)上，應(yīng)用Logistic回歸進(jìn)行情感預(yù)測(cè)。文獻(xiàn)[51]基于NN（-nearest neighbor）和Minkowski距離融合了文本和圖像特征，使用Bi-gram 模型進(jìn)行特征提取，其提取文本特征的同時(shí)提取圖像的顏色和紋理信息，并提出了一種新的基于相似度的鄰域分類器。其主要思想為選擇有價(jià)值的特征，并處理這些消息上的情感極性分類（二分類）。具體過程為：首先計(jì)算一個(gè)測(cè)試集中的帖子和另一個(gè)訓(xùn)練集中的帖子的文本和圖像的余弦相似度。然后構(gòu)建一個(gè)二維空間，其中兩個(gè)軸分別代表文本和圖像，一個(gè)點(diǎn)由文本和圖像的余弦相似度組成。最后將該點(diǎn)與（1，1）之間的距離視為最終的相似度（即距離越小，這兩個(gè)帖子越相似），并基于NN 獲得該帖子的分類結(jié)果。

（2）基于深度學(xué)習(xí)的情感分析

文獻(xiàn)[52]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的多媒體情感分析方法，其主要針對(duì)圖像中文本和視覺信息的情感預(yù)測(cè)問題。該框架的總體架構(gòu)由三個(gè)組件組成：文本CNN、圖像CNN 和多CNN。通過兩個(gè)獨(dú)立的CNN 學(xué)習(xí)文本特征和視覺特征，其特征的聯(lián)合表示作為另一個(gè)CNN 的輸入以獲取兩種表示。以此為基礎(chǔ)使用Logistic 回歸作為分類器進(jìn)行分類。文獻(xiàn)[53]提出了一種多模態(tài)情感分析框架，解決了圖像局部的高維語義信息問題。對(duì)于圖像特征的提取，采用了圖像描述的方法，并在圖像描述模型中采用了目標(biāo)檢測(cè)與多示例學(xué)習(xí)對(duì)作為輔助，提取精細(xì)化的圖像特征。將CNN 編碼的圖像作為雙向網(wǎng)格LSTM 的輸入，采用多示例學(xué)習(xí)（multiple instance learning，MIL）方法和目標(biāo)檢測(cè)方法（single shot multibox detector，SSD）分別提取圖像全局特征和圖像中所有獨(dú)立物體所在的矩形框。通過注意力模型（attention model）綜合了LSTM 的輸出與SSD 提取出的兩方面信息。對(duì)于文本特征，使用多層卷積神經(jīng)網(wǎng)絡(luò)（CNN）進(jìn)行文本特征提取，最后的文本特征經(jīng)過softmax 全連接層輸出。特征融合階段，為了圖像特征與文本特征的統(tǒng)一，首先使用單層的一維卷積對(duì)圖像特征進(jìn)行編碼，然后把編碼后的圖像特征與文本特征融合，并經(jīng)過softmax輸出進(jìn)行情感預(yù)測(cè)。文獻(xiàn)[54]提出了一種圖文融合的微博情感分析方法。該方法首先經(jīng)過參數(shù)遷移和微調(diào)的方法構(gòu)建圖片情感分類模型FCNN（fine-tuned CNN），得到圖片的情感極性概率；然后通過詞嵌入技術(shù)以及雙向網(wǎng)絡(luò)構(gòu)建文字情感分類模型WBLSTM（word-embedding bidirectional LSTM），得到文字的情感極性概率；最后根據(jù)late fusion 融合思想對(duì)圖片情感極性概率和文本情感極性概率進(jìn)行融合，從而對(duì)圖文微博的情感極性進(jìn)行預(yù)測(cè)。文獻(xiàn)[55]提出了一種共記憶網(wǎng)絡(luò)模型進(jìn)行多模態(tài)情感分析，其關(guān)鍵是對(duì)圖像和文本的雙向交互進(jìn)行建模。首先分別使用一個(gè)視覺記憶網(wǎng)絡(luò)和文本記憶網(wǎng)絡(luò)提取特征表示，并引入注意力機(jī)制聚集關(guān)鍵內(nèi)容。然后通過共同記憶網(wǎng)絡(luò)通過迭代將圖像特征輸入到文本記憶網(wǎng)絡(luò)中查詢關(guān)鍵字，將文本特征輸入到視覺記憶網(wǎng)絡(luò)中查詢圖像的關(guān)鍵內(nèi)容，并將圖像和文本的最終特征表示向量結(jié)合起來，最終通過softmax 進(jìn)行情感分類。文獻(xiàn)[56]提出了一種視覺方面注意網(wǎng)絡(luò)（visual aspect attention network，VistaNet），其關(guān)鍵在于將視覺信息建模為注意力，而不是特征。VistaNet 框架是一個(gè)三層體系結(jié)構(gòu)，底層為單詞編碼層，通過軟注意力機(jī)制將每個(gè)詞語賦予一個(gè)在句子表征中的“重要性”相對(duì)應(yīng)的權(quán)重。中間層為句子編碼層，從底層聚合句子級(jí)表示，使用視覺方面注意將其聚合為文檔級(jí)表示，同時(shí)利用視覺信息來增強(qiáng)注意機(jī)制。頂層為文檔指定情感標(biāo)簽的分類層，獲得文檔的高級(jí)表示之后，利用softmax 進(jìn)行情感分析。

3.2 基于決策層融合的輿情情感分析

決策層融合首先分別提取文本和圖像的情感特征，并將提取的每個(gè)模態(tài)特征分別輸入各自的分類器中進(jìn)行情感分類，最后根據(jù)兩個(gè)模態(tài)的分類結(jié)果選擇合適的融合規(guī)則進(jìn)行融合和決策。決策層融合流程如圖9 所示。

圖9 決策層融合過程Fig.9 Decision layer fusion process

（1）基于傳統(tǒng)方法的情感分析

文獻(xiàn)[57]提出了一種基于轉(zhuǎn)移變量的圖文融合微博情感分析方法。首先基于主題情感統(tǒng)一模型構(gòu)建USAMTV（unsupervised sentiment analysis model based on transition variable）模型（基于轉(zhuǎn)移變量的無監(jiān)督情感分析模型），該模型通過添加轉(zhuǎn)發(fā)主題轉(zhuǎn)移變量和連詞情感轉(zhuǎn)移變量分別處理句子主題從屬關(guān)系和情感從屬關(guān)系，從而提取文本特征。對(duì)于圖片特征，根據(jù)文獻(xiàn)[58]中的視覺語義特征提取方法來進(jìn)行圖片情感分析，并且將其特征以情感濃度指標(biāo)的方式來影響微博的整體情感傾向，最后整體進(jìn)行微博的情感分析。

（2）基于深度學(xué)習(xí)的情感分析

文獻(xiàn)[59]提出了一種深度多模態(tài)注意融合（deep multimodal attentive fusion，DMAF）模型，該模型利用了視覺和語義內(nèi)容之間的區(qū)別特征和內(nèi)在關(guān)聯(lián)。首先，提出了兩個(gè)獨(dú)立的單峰注意模型（視覺注意力模型和語義注意力模型），分別學(xué)習(xí)圖像和文本中最具辨別力的特征和情感分類。在此基礎(chǔ)上，提出了一種基于深度中間融合的多模態(tài)注意模型，通過利用不同模式下的互補(bǔ)信息和非冗余信息，將兩個(gè)單獨(dú)的注意模型結(jié)合起來，挖掘不同模式特征之間的相關(guān)性，進(jìn)而進(jìn)行多模態(tài)情感分析。最后，通過后期融合方案對(duì)多模態(tài)情感進(jìn)行分類。

文獻(xiàn)[60]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的微博視覺和文本情感分析，其核心為基于CNN的模型學(xué)習(xí)信息文本和相關(guān)圖像的更高層次的表示。在文本特征提取方面，采用預(yù)先訓(xùn)練的單詞向量訓(xùn)練文本DNN（deep convolutional neural network）模型，提取文本特征。圖像特征提取方面，通過DropConnect來減少過度擬合來訓(xùn)練模型，提取視覺特征。最后，使用后期融合來分析模型的性能，并且使用Logistic回歸進(jìn)行情感預(yù)測(cè)。同樣是基于卷積神經(jīng)網(wǎng)絡(luò)，文獻(xiàn)[48]試圖通過探索圖文情感特征之間的內(nèi)部聯(lián)系和互補(bǔ)作用，增強(qiáng)圖文微博的情感傾向性預(yù)測(cè)的準(zhǔn)確性。詞向量形式的文本和圖像分別經(jīng)過基于CNN的情感分析模型得到對(duì)應(yīng)的文本特征和圖像特征，把兩種特征分別經(jīng)過三個(gè)基于CNN 的模型（wordlevel CNN、phrase-leval CNN 和sentence-level CNN）的訓(xùn)練得到詞語級(jí)、短語級(jí)和句子級(jí)的圖文特征并向量化后輸入分類器WdCla、PhCla 和StCla，得到三種語義級(jí)別的圖文情感分類結(jié)果。在此基礎(chǔ)上構(gòu)造一個(gè)集成分類器EnsCla 進(jìn)行決策融合，得到最終的圖文微博的情感極性。

3.3 基于一致性回歸融合的輿情情感分析

特征層融合和決策層融合的方法都忽視了文本和圖像特征之間的一致性關(guān)系，但是跨模態(tài)一致性回歸模型則很好地解決了這個(gè)問題。其主要思想為同一事物通過不同模態(tài)的表示所表達(dá)的情感是一致的，因此主要是對(duì)兩種模態(tài)之間的相關(guān)性進(jìn)行學(xué)習(xí)融合。首先分別提取文本和圖像的情感特征，然后將提取的兩個(gè)模態(tài)特征輸入回歸模型中，通過相關(guān)性學(xué)習(xí)算法學(xué)習(xí)相關(guān)性權(quán)重并進(jìn)行輿情情感分析。一致性回歸模型流程圖如圖10 所示。

圖10 一致性回歸模型Fig.10 Consistency regression model

文獻(xiàn)[61]提出了一種跨模態(tài)一致性回歸（crossmodality consistent regression，CCR）模型，用于視覺和文本情感分析。其主要思想是對(duì)相關(guān)但不同的模態(tài)特征加以一致性的約束。在視覺特征提取方面，采用類似于文獻(xiàn)[62]的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行視覺情感分析，在文本特征提取方面，采用最新的分布式文檔表示進(jìn)行文本情感分析。最后，通過視覺和文字的特征，訓(xùn)練出一種跨模式一致的回歸模型，模型在相關(guān)但不同的模態(tài)之間施加一致的約束，通過集成不同的模態(tài)特征進(jìn)行情感分析。文獻(xiàn)[64]提出了一個(gè)弱監(jiān)督的多模式深度學(xué)習(xí)（weakly supervised multimodal deep learning，WS-MDL）模型，該模型在統(tǒng)一的框架中解決了目前多模態(tài)融合的兩個(gè)問題，即挖掘跨多個(gè)模態(tài)的相關(guān)性，以實(shí)現(xiàn)模態(tài)獨(dú)立和人工標(biāo)注的負(fù)擔(dān)和主觀性，目前還沒有一個(gè)大規(guī)模的多模態(tài)情感數(shù)據(jù)集具有精確的人工標(biāo)注。特別的是將來自社交媒體用戶貢獻(xiàn)的表情通道的情感作為弱標(biāo)簽來初始化模型學(xué)習(xí)，并使用CNN 和動(dòng)態(tài)CNN 從圖像和文本模態(tài)中獲取傾斜的聯(lián)合特征。同時(shí)，為了訓(xùn)練多模態(tài)情感分類器，提出了一種多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)，它從不同的模式中學(xué)習(xí)有區(qū)別的聯(lián)合特征表示。為了推斷標(biāo)簽噪聲，引入了一種弱監(jiān)督學(xué)習(xí)范式，通過概率圖形模型描述了不同模式下預(yù)測(cè)標(biāo)簽之間的相關(guān)性。實(shí)驗(yàn)結(jié)果顯示，該方案在情感預(yù)測(cè)方面具有較好的效果。

基于超圖的方法除了能夠反映高階信息外，還可以利用大量的未標(biāo)記數(shù)據(jù)集，采用傳遞學(xué)習(xí)的方式。鑒于此，文獻(xiàn)[69]提出了一種名為Bi-MHG（bi-layer multimodal hypergraph learning）的雙層多模態(tài)超圖學(xué)習(xí)方法。該方法包括兩個(gè)超圖層，即tweet級(jí)超圖和特征級(jí)超圖，其目標(biāo)是捕捉異質(zhì)模態(tài)之間的噪聲相關(guān)性，以及允許模型接收缺失模態(tài)作為輸入。用一種新的交替優(yōu)化方法進(jìn)行雙層超圖學(xué)習(xí)。最后，根據(jù)測(cè)試微博的相關(guān)度得分得到測(cè)試微博的情感極性。

現(xiàn)有的多模態(tài)情感分析方法大多只考慮數(shù)據(jù)內(nèi)容，這些方法很難有效地捕捉視覺和文本表示之間的非線性關(guān)系，忽略了社會(huì)圖像之間的聯(lián)系信息。針對(duì)這些問題，文獻(xiàn)[74]提出了一種層次深度融合（hierarchical deep fusion，HDF）模型，該模型能夠探索圖像、文本及其社會(huì)聯(lián)系之間的跨模態(tài)相關(guān)性，學(xué)習(xí)全面的互補(bǔ)特征，從而進(jìn)行更有效的情感分析。HDF 模型結(jié)構(gòu)如圖11 所示。

首先，通過三個(gè)層次化LSTM（H-LSTM）網(wǎng)絡(luò)將視覺內(nèi)容和文本內(nèi)容結(jié)合起來，并學(xué)習(xí)圖像和文本在三個(gè)層次上的相關(guān)性。然后，將社會(huì)圖像中的多種類型的鏈接轉(zhuǎn)化為一個(gè)加權(quán)關(guān)系網(wǎng)絡(luò)，通過DeepWalk進(jìn)行網(wǎng)絡(luò)嵌入。最后，將聯(lián)合圖像-文本表示和節(jié)點(diǎn)嵌入視為輸入到多層感知器（multi-layer perceptron，MLP）的兩個(gè)視圖，該多層感知器探索非線性交叉模態(tài)相關(guān)性，捕獲互補(bǔ)信息以進(jìn)行多模態(tài)情感預(yù)測(cè)。

圖11 HDF 模型Fig.11 HDF model

文獻(xiàn)[76]提出了一種用于多模態(tài)情感分析的深層語義網(wǎng)絡(luò)MultiSentiNet，從圖像中提取包括對(duì)象和場(chǎng)景在內(nèi)的深層語義特征作為情感分類的附加信息。具體地，該模型將文本、對(duì)象和場(chǎng)景的三重特征定義為多模態(tài)tweet 的表示，并將其作為多模態(tài)情感分析任務(wù)的附加信息。模型結(jié)構(gòu)如圖12 所示。

圖12 MultiSentiNet模型Fig.12 MultiSentiNet model

在視覺方面，選擇VGG模型作為視覺目標(biāo)提取的目標(biāo)檢測(cè)器，同時(shí)使用最先進(jìn)的場(chǎng)景VGG 模型作為場(chǎng)景檢測(cè)器進(jìn)行場(chǎng)景特征提取。為了更好地理解文本，采用LSTM 模型進(jìn)行文本特征提取，同時(shí)提出了視覺特征引導(dǎo)的注意機(jī)制來提取對(duì)情感有重要影響的詞語，并將這些信息性詞語的表征與視覺語義特征、對(duì)象和場(chǎng)景進(jìn)行聚合。最后利用高級(jí)的三重特性：對(duì)象、場(chǎng)景和文本來表示多模態(tài)tweet。首先使用融合層來聚合這些三重特征，以獲得最終的多模態(tài)表示，然后在頂部添加一個(gè)softmax 分類器進(jìn)行情感分類，最后提出一個(gè)視覺特征引導(dǎo)的注意LSTM 模型來提取對(duì)整個(gè)tweet 的情感有重要影響的詞，并將這些詞的表達(dá)與視覺語義特征、對(duì)象和場(chǎng)景進(jìn)行聚合。

圖13 層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)Fig.13 Hierarchical and deeply interlinked integration network

文獻(xiàn)[79]提出了一種基于層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)的多媒體數(shù)據(jù)情感分類模型，該模型能同時(shí)兼顧視覺模態(tài)和文本模態(tài)最大相關(guān)性和兩模態(tài)各自的線性判別性，解決了圖片和文字之間的精細(xì)語義配準(zhǔn)問題。層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)模型如圖13 所示。

首先通過特征提取模型、文本模態(tài)和視覺模態(tài)特征產(chǎn)生最大相關(guān)的判別性特征。然后進(jìn)一步通過co-attention 網(wǎng)絡(luò)融合特征，進(jìn)而加大深層融合后的特征表示。最后合并最新的圖像視覺特征和文本語義特征，通過全連接神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)后再輸入情感分類器進(jìn)行分類。

4 基于圖文輿情情感分析數(shù)據(jù)集

目前，針對(duì)圖文情感分析的數(shù)據(jù)集一般來源于個(gè)人制作，對(duì)于科研方面基本屬于半公開或不公開狀態(tài)。本文將介紹幾種典型的相關(guān)公開數(shù)據(jù)集，以便更好地推動(dòng)圖文輿情情感分析領(lǐng)域的發(fā)展。具體如表2 所示。

Yelp 數(shù)據(jù)集：該數(shù)據(jù)集創(chuàng)建于2014 年，是涵蓋商戶、點(diǎn)評(píng)和用戶數(shù)據(jù)的一個(gè)子集，數(shù)據(jù)集包括來自于波士頓、芝加哥、洛杉磯、紐約和舊金山關(guān)于餐廳和食品的44 305 條評(píng)論，244 569 張圖片。通過1～5 這5個(gè)分值對(duì)數(shù)據(jù)集的情感傾向進(jìn)行標(biāo)注?？梢杂糜趥€(gè)人、教育和學(xué)術(shù)。數(shù)據(jù)集由5 個(gè)文件組成，每個(gè)文件分別對(duì)應(yīng)一個(gè)對(duì)象類型，該文件指定了業(yè)務(wù)ID、用戶ID、星號(hào)(介于1 和5 之間的整數(shù)值)、審查文本、日期和投票。數(shù)據(jù)集地址為https://www.kaggle.com/yelpdataset/yelp-dataset。

Tumblr 數(shù)據(jù)集：該數(shù)據(jù)集由Bourlai 等人提出。Tumblr 是一種微博服務(wù)，用戶在上面發(fā)布的多媒體內(nèi)容通常包含圖片、文本和標(biāo)簽等。數(shù)據(jù)集是根據(jù)選定的15 種情緒搜索對(duì)應(yīng)的情緒標(biāo)簽的推文，并且只選擇其中既有文本又有圖片的部分，然后進(jìn)行了數(shù)據(jù)處理，刪除了那些文本中原本就包含對(duì)應(yīng)情緒詞的內(nèi)容，以及那些不是英文為主的推文。數(shù)據(jù)集共有256 897 個(gè)多模態(tài)推文。數(shù)據(jù)集的情感標(biāo)注包含高興、悲傷、厭惡在內(nèi)的15 種情緒。

MVSA 數(shù)據(jù)集：該數(shù)據(jù)集由Niu等人提出，其中的所有圖像-文本對(duì)都是采用一個(gè)公共流API的方式從Twitter 收集，同時(shí)采用了406 個(gè)情感詞匯對(duì)其進(jìn)行過濾，以此來獲取有價(jià)值的推文。數(shù)據(jù)集一共有2 592條圖文數(shù)據(jù)，數(shù)據(jù)集的情感標(biāo)注是積極、消極和中性3種。數(shù)據(jù)集地址為http://mcrlab.net/research/mvsa-sentiment-analysis-on-multi-view-social-data/。

表2 圖文數(shù)據(jù)集總結(jié)Table 2 Summary of image and text datasets

Flickr 數(shù)據(jù)集：Flickr 是雅虎旗下的圖片分享網(wǎng)站，該數(shù)據(jù)集由文獻(xiàn)[83]提出，用于語言相似性的指稱度量的研究。數(shù)據(jù)集由31 783 張日常活動(dòng)、事件和場(chǎng)景的照片和158 915 個(gè)標(biāo)題組成。

Twitter15/17 數(shù)據(jù)集：Twitter15（4 290/1 432/1 459）數(shù)據(jù)集由Lu 等人提出，用于多模態(tài)社交媒體帖子中的姓名標(biāo)記任務(wù)。該數(shù)據(jù)集通過用體育和社會(huì)事件相關(guān)的詞語作為關(guān)鍵詞進(jìn)行數(shù)據(jù)查詢，包含一對(duì)推文及其在2016 年5 月、2017 年1 月和2017 年6 月提取的相關(guān)圖片。Twitter-17（4 000/3 257/1 000）由Zhang等人提出，用于多模態(tài)命名實(shí)體識(shí)別問題。情感標(biāo)注為三分類。

Multi-ZOL：該數(shù)據(jù)集收集整理了中國領(lǐng)先的IT信息和商業(yè)門戶網(wǎng)站ZOL.com 上的關(guān)于手機(jī)的評(píng)論。原始數(shù)據(jù)有5 288 條多模態(tài)評(píng)論，構(gòu)成了Multi-ZOL 數(shù)據(jù)集。在這個(gè)數(shù)據(jù)集中，每條多模態(tài)數(shù)據(jù)包含一個(gè)文本內(nèi)容、一個(gè)圖像集，以及至少一個(gè)但不超過六個(gè)評(píng)價(jià)方面，分別是性價(jià)比、性能配置、電池、壽命、外觀和感覺、拍攝效果和屏幕。對(duì)于每個(gè)方面，數(shù)據(jù)集的情感標(biāo)注是一個(gè)從1 到10 的情感得分。數(shù)據(jù)集下載地址為https://github.com/xunan0812/MIMN。

Twitter 反諷數(shù)據(jù)集：Twitter 反諷數(shù)據(jù)集構(gòu)建自Twitter 平臺(tái)，由Cai 等提出，包括2.4 萬條的tweet，圖像和圖像屬性的樣本。數(shù)據(jù)集按照80%∶10%∶10%的比例被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。數(shù)據(jù)集的情感標(biāo)注為“是諷刺/不是諷刺”二分類。

5 算法評(píng)價(jià)指標(biāo)及分析

一般來說，準(zhǔn)確度是評(píng)估不同算法性能最常用的指標(biāo)。然而，考慮到基準(zhǔn)數(shù)據(jù)集中樣本的不均勻性，僅使用這一指標(biāo)進(jìn)行績(jī)效評(píng)價(jià)是不公平的。為了解決這一問題，更好地展示各算法的實(shí)驗(yàn)結(jié)果，本文引入準(zhǔn)確率（Accuracy）、召回率（Recall）、F1 值三種評(píng)價(jià)指標(biāo)進(jìn)行綜合評(píng)價(jià)。在具體介紹之前先引入幾個(gè)符號(hào)，如表3 所示。

（1）準(zhǔn)確率：代表所有預(yù)測(cè)正確的樣本占總樣本的比例，其定義如式（1）所示。

表3 公式符號(hào)Table 3 Formula symbols

（2）召回率：針對(duì)的是原來的樣本，指的是樣本中的正例被預(yù)測(cè)正確的概率，其定義如式（2）所示。

（3）F1值：同時(shí)把查準(zhǔn)率和查全率考慮其中，讓二者同時(shí)達(dá)到最高，取一個(gè)平衡，其定義如式（3）所示。

5.1 基于特征層融合算法分析

表4 給出了基于特征層融合的實(shí)驗(yàn)結(jié)果。表5總結(jié)了基于特征層融合算法的優(yōu)缺點(diǎn)。通過對(duì)其優(yōu)缺點(diǎn)的分析可知，特征層融合方法雖然綜合考慮了兩個(gè)模態(tài)間的信息，但在處理特征間的差異問題上仍存在缺陷。例如VistaNet 模型，其優(yōu)勢(shì)是第一次將圖像作為注意力納入基于評(píng)論的情感分析。然而當(dāng)評(píng)論中存在反諷情緒時(shí)，會(huì)導(dǎo)致模態(tài)間的差異性逐漸增大，情感不一致的問題愈加突出。

表4 特征層融合算法實(shí)驗(yàn)結(jié)果Table 4 Experimental results of feature layer fusion algorithms

5.2 基于決策層融合的算法分析

決策層融合避免了兩種模態(tài)特征由于本質(zhì)上不同造成的干擾。表6 給出了基于決策融合的實(shí)驗(yàn)結(jié)果。表7 列出了決策層融合算法優(yōu)缺點(diǎn)，從中可以看出特征層融合的不足之處是無法學(xué)習(xí)到特征之間的情感互補(bǔ)關(guān)系。例如DNN 模型，其不足之處是文本和視覺內(nèi)容之間的關(guān)系經(jīng)常被忽略。因此在某種意義上，如何將兩個(gè)模態(tài)信息進(jìn)行有效融合仍是圖文融合輿情情感分析的挑戰(zhàn)性問題。

表5 特征層融合算法優(yōu)缺點(diǎn)Table 5 Advantages and disadvantages of feature layer fusion algorithms

表6 決策層融合算法實(shí)驗(yàn)結(jié)果Table 6 Experimental results of decision layer fusion algorithms

5.3 基于一致性回歸模型算法分析

相較于決策層融合，一致性回歸融合重點(diǎn)關(guān)注了文本和圖像的情感特征的一致性。表8 給出了基于一致性回歸融合的實(shí)驗(yàn)結(jié)果。表9 總結(jié)了一致性回歸算法優(yōu)缺點(diǎn)，從中可以看出，雖然一致性回歸融合關(guān)注了情感特征的一致性，但忽略了文本和圖像情感特征之間的情感異性。

表7 決策層融合算法優(yōu)缺點(diǎn)Table 7 Advantages and disadvantages of decision layer fusion algorithms

表8 一致性回歸融合算法實(shí)驗(yàn)結(jié)果Table 8 Experimental results of consistent regression fusion algorithms

6 總結(jié)和展望

總體而言，得益于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力，基于深度學(xué)習(xí)的聯(lián)合視覺文本情感分析和視聽內(nèi)容多模態(tài)情感分析取得了突破性進(jìn)展。盡管如此，社交網(wǎng)絡(luò)中的視覺文本數(shù)據(jù)和網(wǎng)絡(luò)視頻的多模態(tài)情感分析仍然有許多問題亟待解決。

（1）現(xiàn)有的視覺-文本聯(lián)合情感分析方法大多采用不同的融合策略來整合文本和視覺信息，忽略了文本和視覺內(nèi)容之間的相關(guān)性。此外，大量深度學(xué)習(xí)模型已被應(yīng)用于現(xiàn)有的聯(lián)合視覺-文本情感分析研究中，而社交媒體文本情感分析的豐碩成果卻往往被忽視。因此，如何將已有的文本情感分析研究成果應(yīng)用到視覺-文本情感聯(lián)合分析中，仍值得深入研究。

（2）基準(zhǔn)數(shù)據(jù)集的缺乏是多媒體情感分析，尤其是視覺分析和多模態(tài)分析的瓶頸。此外，樣本的不均勻性和情感標(biāo)簽的不可靠性增加了在不同方法之間進(jìn)行公平比較的難度。例如，相當(dāng)多的研究人員在他們自己的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，其中許多數(shù)據(jù)集只包含有限數(shù)量的樣本，這些樣本的標(biāo)簽并不完全正確。更糟糕的是，陽性樣本和陰性樣本的數(shù)量往往有很大的差異。在這些數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果并不令人信服，因?yàn)闆]有可信的數(shù)據(jù)集，性能評(píng)估就沒有意義。然而，現(xiàn)有的研究很少關(guān)注這一問題。因此，收集足夠的樣本，給它們貼上可靠的情感標(biāo)簽，并將其公之于眾，也是一項(xiàng)有意義的任務(wù)。

（3）現(xiàn)有的基于管道模式的視覺情感分析研究通常使用一組概念（如形容詞和名詞）來構(gòu)建描述視覺內(nèi)容的本體。在概念檢測(cè)過程中，要么對(duì)整個(gè)圖像進(jìn)行聚焦，要么只對(duì)其中的局部對(duì)象進(jìn)行聚焦，但人類對(duì)視覺內(nèi)容的感知是多維的。因此，可以對(duì)視覺內(nèi)容中的概念進(jìn)行整體和局部的檢測(cè)，從而形成多角度、多層次的視覺內(nèi)容描述，提高情感分析的性能。然而，如何全面、統(tǒng)一地描述社交媒體中各種各樣的視覺內(nèi)容并有效檢測(cè)情感相關(guān)語義，仍是一個(gè)有待解決的問題。

表9 一致性回歸融合算法優(yōu)缺點(diǎn)Table 9 Advantages and disadvantages of consistent regression fusion algorithms

（4）目前，社交媒體用戶將圖像、視頻等視覺內(nèi)容與文字描述一起發(fā)布是非常常見的。在大多數(shù)情況下，文本內(nèi)容和視覺內(nèi)容之間存在相關(guān)性。一方面，文本描述可用于為相應(yīng)的視覺內(nèi)容生成情感標(biāo)簽。另一方面，在視覺-文本情感聯(lián)合分析中，可以綜合利用視覺和文本的內(nèi)容來獲得更可靠的預(yù)測(cè)。然而，社交媒體消息的文本描述可能會(huì)產(chǎn)生噪音或誤導(dǎo)，其原因是評(píng)論可能與相應(yīng)的圖像內(nèi)容無關(guān)。在這種情況下，跨媒體的做法將產(chǎn)生負(fù)面影響。因此，無論是視覺情感分析，還是聯(lián)合視覺文本情感分析，挖掘和評(píng)價(jià)文本與視覺內(nèi)容之間的相關(guān)性并加以利用都是一個(gè)關(guān)鍵問題。

7 結(jié)論

隨著社會(huì)媒體的迅速發(fā)展，多媒體數(shù)據(jù)已經(jīng)成為人類情感和觀點(diǎn)的重要載體，因而對(duì)社交網(wǎng)絡(luò)中的多媒體內(nèi)容進(jìn)行情感分析具有重要的科學(xué)研究和實(shí)際應(yīng)用價(jià)值。本文在對(duì)網(wǎng)絡(luò)輿情情感分析的相關(guān)文獻(xiàn)進(jìn)行全面回顧的基礎(chǔ)上得出如下結(jié)論：多模態(tài)用于網(wǎng)絡(luò)輿情情感分析是利用互補(bǔ)信息渠道進(jìn)行情感分析的一種有效方法，其通常優(yōu)于單模態(tài)的分析方法。最后，本文深入探討了潛在的研究方向和研究趨勢(shì)。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看