• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      非獨(dú)立同分布文本情感表示學(xué)習(xí)方法

      2022-12-22 11:46:56郭紅鈺鄭揚(yáng)飛劉玉龍李山海吳艷雄
      關(guān)鍵詞:層次化極性段落

      李 倩,郭紅鈺,鄭揚(yáng)飛,劉玉龍,李山海,吳艷雄

      1.中國(guó)電子科技集團(tuán)有限公司 第十五研究所,北京 100083

      2.中華全國(guó)工商業(yè)聯(lián)合會(huì) 信息中心,北京 100035

      洞察文本中的情感極性(例如,正面情感、負(fù)面情感、中立情感等)并嵌入到文本的向量化表示中是情感分析的一項(xiàng)關(guān)鍵任務(wù)[1]。研究表明,有監(jiān)督的機(jī)器學(xué)習(xí)方法可以有效捕獲文本中的情感特征[2]。相比于人工提取的文本情感特征,基于深度表示學(xué)習(xí)構(gòu)建的文本特征可以顯著提高情感分析的準(zhǔn)確性[3]。

      然而,面向情感分析的文本表示學(xué)習(xí)方法普遍忽視了文本中的非獨(dú)立同分布特點(diǎn),進(jìn)而不能對(duì)含有非獨(dú)立同分布特點(diǎn)的文本進(jìn)行有效的表示。通常,文本中的詞與詞之間、句子與句子之間存在著相互耦合的關(guān)系(非獨(dú)立特點(diǎn)),相同詞或者句子在不同的語境下也可能有著不同的含義(非同分布特點(diǎn))。文本的非獨(dú)立特點(diǎn)和非同分布特點(diǎn)共同構(gòu)成了文本的非獨(dú)立同分布特點(diǎn)。圖1展示了一段文本中的非獨(dú)立同分布特點(diǎn)及其帶來的挑戰(zhàn)。在詞層面,單個(gè)詞語與其近鄰的詞語之間存在著耦合關(guān)系。例如,單詞“not”和“sure”是相互耦合的。這種耦合關(guān)系構(gòu)成了句子中最基本的情感單元。句子中的情感單元再進(jìn)一步直接耦合(例如,“not sure”和“why this”)或間接耦合(例如,“best parts”和“bread and the rice”)決定了一個(gè)句子的情感極性。此外,一個(gè)詞語可能在不同的語境和位置具有不同的含義。例如“dark”一詞在圖1的示例中具有負(fù)面的情感,但如果其用于描繪顏色則具有中性的情感。在句子層面,具有與詞層面類似的非獨(dú)立同分布特點(diǎn)。一個(gè)句子和它近鄰的句子相互作用(例如,圖1示例中的第一句和第二句),這些相互作用的句子又進(jìn)一步耦合在一起(例如,圖1示例中的間接耦合關(guān)系)決定了文本的情感極性。除此之外,一個(gè)句子在不同的位置也可能具有不同的情感極性。例如,圖1示例中的最后一句話,當(dāng)考慮第一句和第二句話時(shí),其具有負(fù)面的情感;但僅考慮這句話本身時(shí),其展現(xiàn)出正面的情感。對(duì)于非獨(dú)立同分布文本而言,非獨(dú)立同分布特點(diǎn)可能層次化的存在于詞層面、句子層面、段落層面,深度影響著文本的情感極性,并且難以被有效表示。

      圖1 文本中非獨(dú)立同分布特點(diǎn)示意圖Fig.1 Example of Non-IID characteristics in paragraph

      當(dāng)前僅有少量針對(duì)非獨(dú)立同分布文本的表示方法。這些方法考慮了近鄰詞語之間的耦合關(guān)系[4],詞語之間的序關(guān)系[5],詞和句子層次化的多義性[6],顯著地提升了情感分析的性能。然而,上述方法并未有效捕獲文本中完整的非獨(dú)立同分布特點(diǎn)。例如,大多數(shù)方法將“I feel the restaurant is good”和“I don’t feel the restau‐rant is good”判別為相同的情感極性。一個(gè)可能的原因是這些方法都只關(guān)注于情感詞“good”而忽略了詞語“don’t”和“good”的耦合關(guān)系。同樣,由于忽略了詞語“deal”在不同語境中具有不同的含義,又將“The taste is great”和“Cost a great deal of time”兩句中反應(yīng)的情感視為一致。

      完整地捕獲非獨(dú)立同分布文本中的非獨(dú)立同分布特點(diǎn)是具有挑戰(zhàn)的工作,既需要構(gòu)建復(fù)雜的模型,又需要防止模型過于復(fù)雜從而帶來數(shù)據(jù)過擬合的問題。為應(yīng)對(duì)這一挑戰(zhàn),本文提出了一種全新的非獨(dú)立同分布文本表示學(xué)習(xí)框架。該框架系統(tǒng)地捕獲文本中層次化分布的非獨(dú)立同分布特點(diǎn)并將其嵌入到向量空間中,構(gòu)成對(duì)文本的隱式特征表示。進(jìn)一步,通過情感先驗(yàn)知識(shí)構(gòu)造現(xiàn)實(shí)情感特征,在文本向量表示中,融入更多的情感信息,并以此防止復(fù)雜模型可能出現(xiàn)的數(shù)據(jù)過擬合問題。

      本文亦提出一種帶有注意力機(jī)制的層次化的、多尺度深度神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)非獨(dú)立同分布文本表示學(xué)習(xí)框架。具體而言,該神經(jīng)網(wǎng)絡(luò)采用多尺度卷積遞歸神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來捕獲層次化和異構(gòu)的耦合關(guān)系,采用注意力機(jī)制解決詞或句子的多義性問題。除此之外,該神經(jīng)網(wǎng)絡(luò)根據(jù)語義匹配層次化地融合了隱式和顯式的文本特征表示。

      本文的主要貢獻(xiàn)包括:

      (1)提出了一種面向情感分析的非獨(dú)立同分布文本表示學(xué)習(xí)框架。該框架綜合考慮了決定文本情感極性的文本非獨(dú)立特點(diǎn)和非同分布特點(diǎn),是首個(gè)全面考慮文本非獨(dú)立同分布特點(diǎn)的表示學(xué)習(xí)框架。

      (2)提出了一種可對(duì)非獨(dú)立同分布文本進(jìn)行建模的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用了帶有注意力機(jī)制的層次化多尺度卷積遞歸模塊,以建模層次化的耦合關(guān)系和多義性,從而揭示文本的情感極性。

      (3)提出了一種融合顯式特征表示和隱式特征表示的方法避免復(fù)雜模型數(shù)據(jù)過擬合。其中,隱式特征表示捕獲了非獨(dú)立同分布文本的情感極性,顯式特征表示減小了隱式特征表示在學(xué)習(xí)構(gòu)建過程中的過擬合風(fēng)險(xiǎn)并提供了額外的情感信息。

      本文在7個(gè)數(shù)據(jù)集上進(jìn)行了充分實(shí)驗(yàn)以驗(yàn)證所提出方法的性能。實(shí)驗(yàn)結(jié)果表明:(1)本文所提方法可以有效學(xué)習(xí)非獨(dú)立同分布特性,并帶來了顯著的情感分析性能提升;(2)融合顯式和隱式的特征表示可以有效提高非獨(dú)立同分布文本表示的質(zhì)量。

      1 相關(guān)工作

      1.1 非獨(dú)立同分布文本表示學(xué)習(xí)方法

      現(xiàn)有的非獨(dú)立同分布文本表示學(xué)習(xí)方法主要關(guān)注于捕獲文本的以下幾個(gè)方面的特性:上下文關(guān)聯(lián)關(guān)系,序列關(guān)聯(lián)關(guān)系以及詞或句子的多義性。

      (1)上下文關(guān)聯(lián)關(guān)系:通過考慮詞語/句子與其近鄰的詞語/句子的關(guān)聯(lián)關(guān)系來反映情感極性。例如,在詞向量的基礎(chǔ)上使用卷積神經(jīng)網(wǎng)絡(luò)來捕獲多個(gè)近鄰詞語的關(guān)系[7];在修辭結(jié)構(gòu)理論上引入循環(huán)神經(jīng)網(wǎng)絡(luò)以捕獲文本中直接的耦合關(guān)系[8];選取對(duì)上下文極度敏感的詞,求這類詞的詞向量之和,以捕獲文本中間接的耦合關(guān)系[9-10];采用層次化網(wǎng)絡(luò)結(jié)構(gòu)建模詞/句之間復(fù)雜的上下文關(guān)系[3]。

      (2)序列關(guān)聯(lián)關(guān)系:通過詞語/句子之間的序列關(guān)系反映情感極性。此類方法往往采用層次化的循環(huán)神經(jīng)網(wǎng)絡(luò)捕獲文本中序列的關(guān)聯(lián)關(guān)系[5]。但是,在循環(huán)網(wǎng)絡(luò)訓(xùn)練過程中常面臨梯度消失的問題。為了解決這類梯度消失的問題,后續(xù)工作在每一層循環(huán)神經(jīng)網(wǎng)絡(luò)都加入了批歸一化操作[11]。盡管如此,以上方法還是忽略了詞/句在不同語言環(huán)境下可能出現(xiàn)的多義性現(xiàn)象。

      (3)詞或句子的多義性:通過分析詞/句在不同語言環(huán)境下的不同語義判定情感極性。這類方法可以分為兩類,一類利用概率圖模型分析不同語言環(huán)境下的詞或句子所在的主題。例如,通過主題模型分析詞/句的多義性[12]。另一類方法通過詞/句上下文的分析體現(xiàn)多義性。例如,在層次化的網(wǎng)絡(luò)結(jié)構(gòu)中引入注意力機(jī)制[6,13],以及采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)以此捕獲詞語/句字相關(guān)的更多信息[14]。

      以上方法都從非獨(dú)立同分布特點(diǎn)的某一方面挖掘情感極性,本文則致力于全面地捕獲和分析非獨(dú)立同分布特性,從而支持更為精準(zhǔn)的文本情感分析。

      1.2 面向情感分析的文本特征提取

      從文本中提取情感有關(guān)特征是一種構(gòu)建面向情感分析的文本表示的直接有效的方法。與通過表示學(xué)習(xí)構(gòu)造文本向量表示不同,傳統(tǒng)的文本特征提取是基于對(duì)文本語義和情感的理解,人工構(gòu)造特征指標(biāo),所提取特征一般具有很強(qiáng)的情感指示能力。典型特征包括詞頻[15]、詞性標(biāo)注[16]等。此外,文獻(xiàn)[17]基于特定詞或詞組的存在性構(gòu)建特征,以反映段落情感。還有一些研究通過提取稀有詞,即一些幾乎不會(huì)出現(xiàn)在語料庫中,但具有明顯情感傾向的特殊詞(比如“Gooooood”)構(gòu)建段落特征[18]。另外一些工作[19]認(rèn)為情感詞是影響文本情感極性的最主要因素,因此直接將情感詞作為特征進(jìn)行情感極性的判斷。

      近年來,越來越多的研究者將人工提取的情感特征融入表示學(xué)習(xí)構(gòu)造的文本向量之中[20-21],從而利用情感特征中包含的領(lǐng)域知識(shí)來增強(qiáng)文本向量表示對(duì)于情感極性的判別性,進(jìn)一步提升了基于文本向量表示的情感分類效果。然而,大多數(shù)現(xiàn)有的方法未考慮人工提取的情感特征與表示學(xué)習(xí)構(gòu)建的文本向量表示在語義層面的層次化對(duì)應(yīng)關(guān)系[22-23],使其融合效果受限。

      2 非獨(dú)立同分布文本表示學(xué)習(xí)方法

      2.1 非獨(dú)立同分布文本表示學(xué)習(xí)目標(biāo)函數(shù)

      給定一段包含ns個(gè)句子{si|i=1,2,…,ns}的文本P∈?,其中第i個(gè)句子位包含nwi個(gè)詞的詞序列{wi,j|j=1,2,…,nwi},文本表示學(xué)習(xí)模型可以形式化定義為E(·):P→該模型將一段文本P轉(zhuǎn)化為一個(gè)nf維的向量p∈此處,P表示一個(gè)文本空間,?表示一個(gè)實(shí)數(shù)空間。

      將文本P中第i句中的第j個(gè)詞的情感極性表示為oi,j,則第i句的情感極性可以表示為Oi=∮nwi1oi,jdwi,j。此處,∮nwi

      1dwi,j表示從wi,1到wi,nwi的一種序列化運(yùn)算。在此基礎(chǔ)上,文本P的情感極性O(shè)∈O可以表示為O=Oidsi。此處表示從s1到sns的一種序列化運(yùn)算。一段文本的情感極性由從詞到句層次的∮和∮運(yùn)算決定,即:Ons×nwi→O。此處,O表示情感極性空間。

      面向情感分析的文本表示學(xué)習(xí)目標(biāo)是構(gòu)建一個(gè)模型E(·),使得該模型對(duì)于一個(gè)情感分類器C(·):?nf→O可以提供有效的包含情感信息的文本向量表示。在形式上,若定義一組文本P的分布為,面向情感分析的文本表示學(xué)習(xí)目標(biāo)函數(shù)可由如下公式表示:

      其中,div(·||·)表示兩個(gè)分布間的散度度量。為了適應(yīng)于不同任務(wù)種的不同數(shù)據(jù)特點(diǎn),div(·||·)可以采用不同的散度測(cè)量方法或者轉(zhuǎn)換后的散度函數(shù),例如KL散度、交叉熵、海靈格距離等。利用上述目標(biāo)函數(shù),可以在文本的表示空間中保留文本的情感分布特性。換而言之,利用情感分類器C(·)可以從文本的表示空間中恢復(fù)出文本的情感信息。

      在實(shí)際運(yùn)用目標(biāo)函數(shù)(1)的過程中,可能會(huì)出現(xiàn)兩個(gè)問題:較高的泛化誤差和較低的模型適應(yīng)度。此處,泛化誤差是指文本真實(shí)情感分布和由情感分類器從文本表示中學(xué)到的情感分布之間的差異。較高的泛化誤差通常由缺少訓(xùn)練數(shù)據(jù)所導(dǎo)致。雖然實(shí)際運(yùn)用中會(huì)有成千上萬的文本可供訓(xùn)練,但對(duì)于完全覆蓋文本的情感特性而言還是不足的。模型的適應(yīng)度是指表示模型E(·)捕獲情感相關(guān)信息的能力。較低的模型適應(yīng)度往往是由于在設(shè)計(jì)模型E(·)時(shí)忽略了情感相關(guān)的復(fù)雜數(shù)據(jù)特性導(dǎo)致的。

      為了有效降低泛化誤差,一種可行的策略是對(duì)表示學(xué)習(xí)的目標(biāo)函數(shù)增加約束項(xiàng),使得在文本的表示空間E:?nf中盡可能地保留住文本在原始空間P中的分布特性。若將文本原始空間P中的分布表示為,將文本表示空間E中的分布表示為,文本表示學(xué)習(xí)的目標(biāo)函數(shù)可調(diào)整為:

      為了有效增強(qiáng)模型的適應(yīng)度,一種有效策略是對(duì)決定文本極性的數(shù)據(jù)特點(diǎn)進(jìn)行建模。本文假設(shè)詞與詞、句子與句子之間的交互關(guān)系決定了一段文本的情感極性,這些交互關(guān)系包含在序列化運(yùn)算∮和之中。在此,定義詞表示函數(shù)為Ew(·):W→句子表示函數(shù)為Es(·):?nwi×new→,段 落 表 示 函 數(shù) 為Ep(·):→其中W表示詞空間,new表示詞表示空間的維度,nes表示句子表示空間的維度。為了對(duì)交互關(guān)系進(jìn)行建模,文本表示模型需要能夠分解為由詞表示函數(shù)、句子表示函數(shù)、段落表示函數(shù)順序運(yùn)算的形式。由此,文本表示學(xué)習(xí)的目標(biāo)函數(shù)可以重構(gòu)為:

      本文同時(shí)考慮保留文本的分布信息以及非獨(dú)立同分布文本的數(shù)據(jù)特性來實(shí)現(xiàn)對(duì)于情感分析更加精準(zhǔn)的文本表示。結(jié)合公式(2)和公式(3),非獨(dú)立同分布文本表示學(xué)習(xí)目標(biāo)函數(shù)定義如下:

      2.2 非獨(dú)立同分布文本表示學(xué)習(xí)框架設(shè)計(jì)

      依據(jù)非獨(dú)立同分布文本表示學(xué)習(xí)目標(biāo)函數(shù),本節(jié)提出面向情感分析的非獨(dú)立同分布文本表示學(xué)習(xí)框架,如圖2所示。非獨(dú)立同分布文本表示學(xué)習(xí)框架由具有層次化的結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)構(gòu)成。該框架按照從詞語到句子再到段落的層次化結(jié)構(gòu),順序使用目標(biāo)函數(shù)詞表示函數(shù)Ew(·)、句子表示函數(shù)Es(·)、段落表示函數(shù)Ep(·)來生成文本表示。

      圖2 非獨(dú)立同分布文本表示學(xué)習(xí)框架示意圖Fig.2 Non-IID document representation framework

      具體而言,詞表示函數(shù)Ew(·)由隱式詞嵌入層、顯式詞特征層、全連接層構(gòu)成。隱式詞嵌入層捕獲詞的上下文信息,并將其嵌入到向量空間之中構(gòu)成詞的隱式特征。顯式詞特征層通過預(yù)先構(gòu)建的詞情感信息提取函數(shù)提取詞語的特征,包含著專家對(duì)于文本情感的先驗(yàn)知識(shí)。全連接層融合隱式詞嵌入層和顯式詞特征層提取的詞特征向量,最終形成詞的向量表示。句子表示函數(shù)Es(·)由非獨(dú)立同分布特征學(xué)習(xí)模塊構(gòu)成。非獨(dú)立同分布特征學(xué)習(xí)模塊捕獲詞語之間的耦合關(guān)系及詞語本身在不同環(huán)境下的不同語義,而后將它們嵌入到句子的向量表示之中。本文將在3.3節(jié)對(duì)非獨(dú)立同分布學(xué)習(xí)模塊進(jìn)行詳細(xì)介紹。最后,段落表示函數(shù)Ep(·)由非獨(dú)立同分布特征學(xué)習(xí)模塊、顯式段落特征層、全連接層構(gòu)成。此處,非獨(dú)立同分布特征學(xué)習(xí)模塊與句子表示函數(shù)中的非獨(dú)立同分布特征學(xué)習(xí)模塊具有相同的結(jié)構(gòu)。不同的是,此處的非獨(dú)立同分布特征學(xué)習(xí)模塊通過捕獲句子間而不是詞語間的耦合關(guān)系及不同語義來生成段落的隱式特征表示。顯式段落特征層通過預(yù)先構(gòu)建的段落情感特征提取函數(shù)來構(gòu)造段落的特征。最終,全連接層融合顯式的段落表示和隱式的段落表示來構(gòu)成非獨(dú)立同分布段落的向量表示。

      非獨(dú)立同分布文本表示框架通過最小化文本原始情感分布與基于文本表示向量預(yù)測(cè)的情感分布的差異來實(shí)現(xiàn)目標(biāo)函數(shù)中的第一部分;通過層次化地融入先驗(yàn)知識(shí)驅(qū)動(dòng)的顯式特征來保留文本原始分布特征,以實(shí)現(xiàn)目標(biāo)函數(shù)中的第二部分。通過這種方式,非獨(dú)立同分布文本表示學(xué)習(xí)框架不僅可以捕獲復(fù)雜的非獨(dú)立同分布文本特征,同時(shí)可以防止過度擬合的問題發(fā)生。

      非獨(dú)立同分布文本學(xué)習(xí)框架可以很容易地通過設(shè)計(jì)非獨(dú)立同分布特征學(xué)習(xí)模塊和選擇合適的先驗(yàn)特征來實(shí)現(xiàn)。本文在2.3節(jié)給出了非獨(dú)立同分布文本表示學(xué)習(xí)框架的一種實(shí)現(xiàn)方法。

      2.3 非獨(dú)立同分布文本表示學(xué)習(xí)方法實(shí)現(xiàn)

      本節(jié)提出了一種帶有注意力機(jī)制的多尺度層次化深度神經(jīng)網(wǎng)絡(luò)框架來實(shí)現(xiàn)非獨(dú)立同分布文本表示學(xué)習(xí)。具體地,利用帶注意力機(jī)制的多尺度卷積循環(huán)神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)非獨(dú)立同分布特征學(xué)習(xí)模塊,并使用了三種類型的情感相關(guān)文本特征作為顯式的詞和段落特征。

      2.3.1 帶注意力機(jī)制的多尺度卷積循環(huán)神經(jīng)網(wǎng)絡(luò)

      帶注意力機(jī)制的多尺度卷積循環(huán)神經(jīng)網(wǎng)絡(luò)如圖3所示。在非獨(dú)立同分布文本表示學(xué)習(xí)方法中,該神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了非獨(dú)立同分布特征學(xué)習(xí)模塊。在句子表示函數(shù)中,該神經(jīng)網(wǎng)絡(luò)的輸入是一組詞向量;在段落表示函數(shù)中,該神經(jīng)網(wǎng)絡(luò)的輸入是一組句向量。該神經(jīng)網(wǎng)絡(luò)首先采用注意力機(jī)制將輸入的向量進(jìn)行轉(zhuǎn)化,通過輸入向量中的上下文信息為該向量賦予注意力權(quán)重。通過這種方式,可以利用相同文本的不同上下文內(nèi)容有效解決文本多義性的問題。然后,該神經(jīng)網(wǎng)絡(luò)使用帶有多尺度過濾器的卷積神經(jīng)網(wǎng)絡(luò)層來從轉(zhuǎn)化后的詞或句子向量中提取卷積特征。在卷積特征的基礎(chǔ)上,進(jìn)一步引入帶有門控循環(huán)單元的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)層來生成對(duì)應(yīng)于卷積特征的循環(huán)神經(jīng)網(wǎng)絡(luò)特征。最后,該神經(jīng)網(wǎng)絡(luò)使用全連接層聚合各循環(huán)神經(jīng)網(wǎng)路特征,從而構(gòu)造出句子或段落的表示向量。

      多尺度卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠捕獲文本中的耦合關(guān)系。一方面,該神經(jīng)網(wǎng)絡(luò)可以利用卷積神經(jīng)網(wǎng)絡(luò)層捕獲詞或句子之間的直接的耦合關(guān)系。卷積神經(jīng)網(wǎng)絡(luò)層通過不同尺度的過濾器(例如,圖3中1到K號(hào)卷積神經(jīng)網(wǎng)絡(luò)過濾器)來對(duì)詞或句子之間具有不同范圍和大小的直接耦合關(guān)系進(jìn)行建模。與傳統(tǒng)n-gram特征不同,此處生成的卷積特征更加關(guān)注于與情感直接關(guān)聯(lián)的文本間耦合關(guān)系,而n-gram特征對(duì)于所有的詞或句的組合賦予相同權(quán)重、一視同仁。另一方面,多尺度的卷積循環(huán)結(jié)構(gòu)可以通過雙向循環(huán)神經(jīng)網(wǎng)絡(luò)層捕獲詞或句子之間的間接耦合關(guān)系。同時(shí),雙向循環(huán)神經(jīng)網(wǎng)絡(luò)還可以揭示出句子或段落中的情感變化過程。綜上,由全連接層融合直接和間接耦合關(guān)系后的向量表示可以完整反映文本中的耦合關(guān)系。

      圖3 非獨(dú)立同分布特征學(xué)習(xí)模塊Fig.3 Non-IID-characteristic-learning module

      注意力機(jī)制用以捕獲詞或句子的異構(gòu)性,即詞或句在不同語境中的多義性問題。注意力機(jī)制根據(jù)上下文的信息對(duì)詞或句子的表示進(jìn)行調(diào)整,以此消除詞或句子的多義性對(duì)數(shù)據(jù)表示帶來的影響。對(duì)于一個(gè)表示向量xi,注意力機(jī)制首先用一個(gè)非線性層將其映射為hi=tanh(Wxi+b),其中W和b分別表示非線性層的權(quán)重于與偏置值。然后,注意力機(jī)制基于向量的上下文計(jì)算表示向量的調(diào)整系數(shù)αi,計(jì)算公式如下:

      其中,{xj|j∈c(i)}是向量xi的上下文集合,u是需要學(xué)習(xí)的上下文信息的全局記憶量。根據(jù)調(diào)整系數(shù)αi,注意力機(jī)制將向量xi調(diào)整為:

      調(diào)整后的向量表示將進(jìn)一步輸入到多尺度卷積循環(huán)結(jié)構(gòu)中對(duì)文本的耦合關(guān)系進(jìn)行學(xué)習(xí)。

      本文采用帶注意力機(jī)制的多尺度卷積循環(huán)神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)句子表示函數(shù)Es(·)和段落表示函數(shù)Ep(·)中的非獨(dú)立同分布特征學(xué)習(xí)模塊,其原因在于非獨(dú)立同分布特征在詞和句子層面具有相同的結(jié)構(gòu)和層次。此外,具有相同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)可以有效捕獲不同層次的相同結(jié)構(gòu)特征,例如GoogLeNet層次化地疊加Inception模塊在提取圖像不同層次特征時(shí)取得了巨大的成功[24]。

      2.3.2 顯式情感特征層次化構(gòu)建

      為了避免模型的過度擬合,非獨(dú)立同分布文本表示框架使用層次化的情感顯式特征來約束模型的學(xué)習(xí)過程。本文所提出方法在詞層次和段落層次均引入了顯式特征對(duì)模型進(jìn)行約束。

      在詞層次上,本文引入的顯式特征包括:(1)情感詞典特征[25];(2)詞性特征[16]。情感詞典特征包含著每個(gè)詞的情感極性概率值。詞性特征則顯式地指出了哪些詞需要在情感分析中得到更多的重視。為了生成情感詞典特征,本文提出的方法將每個(gè)詞編碼為一個(gè)二維向量,向量的兩個(gè)維度分別是每個(gè)詞正、負(fù)情感極性的概率值。為了生成詞性特征,本文提出的方法將每個(gè)詞進(jìn)行熱獨(dú)編碼,編碼的每一位對(duì)應(yīng)于一種詞性,若該詞擁有某詞性則對(duì)應(yīng)位編碼為1,其余位編碼為0。

      在段落層次上,本文引入稀有詞頻率特征[18]來構(gòu)造段落的顯式特征表示。研究表明,稀有詞對(duì)于文本極性可能有決定性的影響[17]。例如,單詞“Goooood”可能僅在語料庫中出現(xiàn)1到2次,但其清晰地指明了文本具有積極的情感極性。為有效構(gòu)造稀有詞頻率特征,本文所提方法首先對(duì)語料庫中的詞頻進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)頻率最低的10%的詞構(gòu)成稀有詞集合。而后,利用該稀有詞集合對(duì)段落進(jìn)行熱獨(dú)編碼,編碼的每一位對(duì)應(yīng)于一個(gè)稀有詞,若段落包含該稀有詞則對(duì)應(yīng)位編碼為1,若不包含則對(duì)應(yīng)位編碼為0。

      3 實(shí)驗(yàn)驗(yàn)證

      3.1 實(shí)驗(yàn)設(shè)置

      3.1.1 對(duì)比方法

      本文將所提出的方法與4種基于人工情感特征的方法以及7種深度表示學(xué)習(xí)方法的共11個(gè)變種進(jìn)行對(duì)比,以檢驗(yàn)所提出方法的性能。

      基于人工情感特征的方法包括詞袋模型特征(bagof-words,BOW)、帶有詞頻-逆文本頻率的詞袋模型特征(bag-of-words with term frequency-inverse docu‐ment frequency,BOW-TFIDF)、n元語法特征(ngram),以及帶有詞頻-逆文本頻率的n元語法特征(n-gram-TFIDF)。

      基于深度表示學(xué)習(xí)的方法包括:GateRNN的變種GateRNN-CNN[5]、GateRNN-LSTM[5];HNATT的 變 種HNATT-ATT[31]、HNATT-AVG[31]、HNATT-MAX[31];EL‐MO[14];BERT[3];SentiLARE[20];MF的 變 種MF_CNN[23]、MF_RNN[23];SKEP[21]。

      3.1.2 數(shù)據(jù)集

      本文在實(shí)驗(yàn)中使用了5個(gè)帶有情感標(biāo)簽的大型文本數(shù)據(jù)集,包括IMDB電影評(píng)論數(shù)據(jù)集[26],Amazon產(chǎn)品數(shù)據(jù)集[27],Yelp情感分析挑戰(zhàn)中的Yelp13、Yelp14、Yelp15數(shù)據(jù)集。同時(shí),在實(shí)驗(yàn)中還用了兩個(gè)較小的數(shù)據(jù)集Twitter短文情感分析數(shù)據(jù)集(Twitter)以及Twitter航程評(píng)論數(shù)據(jù)集(Twitter-Air)。對(duì)于IMDB、Yelp13、Yelp14、Yelp15、Twitter數(shù)據(jù)集而言,訓(xùn)練集和測(cè)試集已經(jīng)劃分,本實(shí)驗(yàn)依據(jù)其劃分好的訓(xùn)練集訓(xùn)練模型,并在其劃分好的測(cè)試集上進(jìn)行測(cè)試。對(duì)于Amazon和Twitter-Air數(shù)據(jù)集,本實(shí)驗(yàn)隨機(jī)劃分90%的數(shù)據(jù)作為訓(xùn)練集,剩余10%作為測(cè)試集。

      上述7個(gè)數(shù)據(jù)集來自于不同的領(lǐng)域和應(yīng)用,例如Twitter和Twitter-Air來自于社交平臺(tái),IMDB來自于電影平臺(tái),Yelp13、Yelp14、Yelp15來自于推薦平臺(tái),Amazon來自于電子商務(wù)平臺(tái)。因此,數(shù)據(jù)集在結(jié)構(gòu)特點(diǎn)上有著非常大的差異性。具體而言,上述7個(gè)數(shù)據(jù)集中包含的文本數(shù)量從5 697到5 255 009不等,每個(gè)文本包含的平均句子數(shù)量為3到14,每個(gè)文本包含的平均詞數(shù)為22到325.6,數(shù)據(jù)集中包含的單詞總數(shù)從16 389到3 652 038不等。

      3.1.3 數(shù)據(jù)預(yù)處理

      在數(shù)據(jù)預(yù)處理階段,本文提出的方法首先將文本分割成若干句子,并使用斯坦福大學(xué)的CoreNLP工具[28]對(duì)句子中的詞進(jìn)行標(biāo)記和標(biāo)準(zhǔn)化處理。然后,使用skip-gram模型[29]對(duì)各個(gè)詞語進(jìn)行隱式向量表示的預(yù)訓(xùn)練。接著,本文方法使用斯坦福大學(xué)的CoreNLP工具生成詞性特征,并使用SentiWordNet[25]生成情感字典特征。

      3.1.4 神經(jīng)網(wǎng)絡(luò)參數(shù)

      在實(shí)驗(yàn)中,本文模型的神經(jīng)網(wǎng)路參數(shù)設(shè)置如下:隱式詞向量的特征維度設(shè)置為100;多尺度卷積神經(jīng)網(wǎng)絡(luò)層的過濾器尺寸設(shè)置為2×100和3×100兩種尺度;在句子表示函數(shù)中,每一個(gè)卷積神經(jīng)網(wǎng)絡(luò)層中的過濾器個(gè)數(shù)設(shè)置為32,門控循環(huán)單元的個(gè)數(shù)設(shè)置為64,全連接層中的節(jié)點(diǎn)個(gè)數(shù)設(shè)置為64;在段落表示函數(shù)中,每一個(gè)卷積神經(jīng)網(wǎng)絡(luò)層中的過濾器個(gè)數(shù)設(shè)置為64,門控循環(huán)單元的個(gè)數(shù)設(shè)置為128,全連接層中的節(jié)點(diǎn)個(gè)數(shù)設(shè)置為128;全連接層的層數(shù)設(shè)置為2。在訓(xùn)練階段,本文提出方法使用在每一層后使用批歸一化(batch-normalization),并在全連接層后使用保持概率為0.5的dropout策略。訓(xùn)練采用Adam算法[30]以64個(gè)樣本的批量訓(xùn)練大小來優(yōu)化表示學(xué)習(xí)目標(biāo)函數(shù)。采用上述神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置的主要考慮如下:(1)保持在同一語義層次中每層神經(jīng)網(wǎng)絡(luò)輸出向量維度數(shù)目不變,避免維度減少可能導(dǎo)致的信息損失以及維度增加可能導(dǎo)致的模型過擬合;(2)在段落表示上采用高于句子表示的向量維度,從而使得段落表示向量擁有大于句子表示向量的信息容量;(3)采用批歸一化和dropout策略,緩解模型訓(xùn)練中可能導(dǎo)致的過擬合問題。本實(shí)驗(yàn)中的參數(shù)配置僅代表本文提出方法的一種具體實(shí)踐,用于展示所提出方法的性能優(yōu)勢(shì),不代表本文方法的最佳實(shí)踐。

      實(shí)驗(yàn)中的對(duì)比方法采用其推薦的參數(shù)配置,其中ELMO和BERT兩個(gè)模型采用其在Tensorflow Hub平臺(tái)上預(yù)訓(xùn)練得到的參數(shù)配置。對(duì)于所有對(duì)比方法,實(shí)驗(yàn)將其得到的向量表示輸入到輸出層帶有softmax激活函數(shù)的單隱層前饋神經(jīng)網(wǎng)絡(luò)中來構(gòu)造情感分類器。

      3.2 文本情感分析性能驗(yàn)證

      3.2.1 驗(yàn)證方法

      本實(shí)驗(yàn)驗(yàn)證所提出的方法捕獲的非獨(dú)立同分布文本特征是否能夠增強(qiáng)情感分析性能。本實(shí)驗(yàn)用兩種指標(biāo)來度量情感分析的性能:準(zhǔn)確率(accuracy)和均方根誤差(rooted-mean-square error,RMSE)。準(zhǔn)確率用于衡量表示學(xué)習(xí)使能的情感分類器可將文本的情感分類為其原本情感的能力。

      在傳統(tǒng)的分類問題中,通常面對(duì)的是離散的類別型標(biāo)簽。然而,在情感分析任務(wù)中,分類器面對(duì)的是有著序關(guān)系的類別型標(biāo)簽。例如,情感程度4更接近于情感程度5而不是情感程度1。因此,更精準(zhǔn)的情感分類器應(yīng)該可以預(yù)測(cè)出更接近于文本真實(shí)情感程度的文本情感值,然而這并不能被準(zhǔn)確率指標(biāo)所反映。為了彌補(bǔ)準(zhǔn)確率指標(biāo)的不足,本實(shí)驗(yàn)進(jìn)一步使用了均方根誤差指標(biāo),預(yù)測(cè)結(jié)果與真實(shí)情感值之間具有越小的均方根誤差表示所用模型的情感分析性能越好。

      3.2.2 驗(yàn)證結(jié)果

      實(shí)驗(yàn)結(jié)果如表1所示,其中本文提出的方法相較于對(duì)比的大多數(shù)方法提升了情感分類的準(zhǔn)確率。此處的準(zhǔn)確率提升主要受益于捕獲到的非獨(dú)立同分布數(shù)據(jù)特點(diǎn)以及融合了顯式和隱式的文本情感特征(將在4.3節(jié)予以驗(yàn)證)。對(duì)于Twitter和Twitter-Air數(shù)據(jù)集,本文所提出方法與BERT、SentiLARE和SKEP模型相比性能略低,但是仍然取得了高于其余對(duì)比模型的結(jié)果。此處的關(guān)鍵原因在于這兩個(gè)數(shù)據(jù)集所包含的結(jié)構(gòu)和耦合關(guān)系都較為簡(jiǎn)單(體現(xiàn)在其中文本僅包含少量語句),不具有顯著的非獨(dú)立同分布特性;并且文本量很少(分別為5 695和13 176),難以訓(xùn)練好本文提出的復(fù)雜模型。在此情況下,本文提出的方法性能略低于已經(jīng)在大量數(shù)據(jù)上進(jìn)行過預(yù)訓(xùn)練的模型。

      表1 不同方法的情感分類準(zhǔn)確率Table 1 Sentiment classification accuracy of different methods 單位:%

      如表2所示,在均方根誤差指標(biāo)的評(píng)價(jià)標(biāo)準(zhǔn)下,本文提出方法可以使得情感分析的性能得到顯著提升。從表2中可以看出,現(xiàn)有方法中性能最佳的是MF_RNN方法。該方法與本文方法一樣采用了層次化模型和并且融合了顯式和隱式的文本特征。對(duì)于非獨(dú)立同分布文本,本文提出的方法在情感分類問題上優(yōu)勢(shì)更為明顯。

      表2 不同方法的情感預(yù)測(cè)均方根誤差Table 2 Sentiment prediction rooted-mean-square error of different methods

      3.3 層次化顯式隱式特征融合性能驗(yàn)證

      3.3.1 驗(yàn)證方法

      實(shí)驗(yàn)通過對(duì)比所提方法的兩個(gè)變種來驗(yàn)證層次化結(jié)合顯式特征和隱式特征的重要性。變種一僅采用了非獨(dú)立同分布特征學(xué)習(xí)模塊。變種二僅在詞層面融入了詞性特征這一種顯式文本情感特征。為了更為全面地進(jìn)行驗(yàn)證,實(shí)驗(yàn)采用了分類準(zhǔn)確率和均方根誤差兩種驗(yàn)證指標(biāo)。

      3.3.2 驗(yàn)證結(jié)果

      實(shí)驗(yàn)結(jié)果如表3所示,可以得出如下結(jié)論:(1)融合顯式特征增加了情感分類的性能;(2)層次化的融合顯式特征進(jìn)一步提升了情感分類的精度。其根本原因是融合顯式特征后引入了更多的情感相關(guān)信息,這些信息使得原始空間中的文本情感分布在其表示空間得以保留。

      表3 本文方法與其變種方法情感分析對(duì)比結(jié)果Table 3 Sentiment analysis performance based on proposed method and its variants

      4 結(jié)束語

      面向情感分析的非獨(dú)立同分布文本表示學(xué)習(xí)方法將文本中復(fù)雜的層次化非獨(dú)立同分布特點(diǎn)嵌入到文本的向量表示之中,以更為精準(zhǔn)地刻畫文本情感。本文提出了一種非獨(dú)立同分布文本學(xué)習(xí)框架,并通過帶有注意力機(jī)制的多尺度層次化深度神經(jīng)網(wǎng)絡(luò)予以實(shí)現(xiàn)。充分的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提出方法可以顯著增強(qiáng)情感分析的性能。

      在未來工作中,可以從如下三個(gè)方面對(duì)本文工作進(jìn)行拓展延續(xù):

      (1)針對(duì)特定領(lǐng)域的文本特性,研究非獨(dú)立同分布文本表示學(xué)習(xí)框架的其他實(shí)現(xiàn)方法。

      (2)針對(duì)中文文本,研究非獨(dú)立同分布文本表示學(xué)習(xí)框架的具體實(shí)現(xiàn)方法。

      (3)針對(duì)情感分析應(yīng)用的可解釋性需求,研究可解釋的非獨(dú)立同分布文本表示學(xué)習(xí)方法。

      猜你喜歡
      層次化極性段落
      面向量化分塊壓縮感知的區(qū)域?qū)哟位A(yù)測(cè)編碼
      【短文篇】
      心理小測(cè)試
      跟蹤導(dǎo)練(四)
      夏天,愛情的第四段落
      散文詩(2017年17期)2018-01-31 02:34:11
      鐵路傳送網(wǎng)OTN設(shè)備互聯(lián)互通開銷層次化處理研究
      弄清段落關(guān)系 按圖索驥讀文
      讀寫算(下)(2016年11期)2016-05-04 03:44:07
      表用無極性RS485應(yīng)用技術(shù)探討
      一種新型的雙極性脈沖電流源
      艦船系統(tǒng)間電磁兼容性的層次化優(yōu)化方法
      依兰县| 上虞市| 龙泉市| 资源县| 朝阳市| 广水市| 南靖县| 屯留县| 那曲县| 镇江市| 东乌珠穆沁旗| 张家港市| 宁德市| 衡山县| 赤城县| 潍坊市| 同德县| 斗六市| 涟源市| 新营市| 自治县| 大田县| 丰台区| 乡城县| 玉山县| 盱眙县| 津市市| 安溪县| 买车| 建平县| 朝阳县| 甘南县| 墨竹工卡县| 林芝县| 浦北县| 灌阳县| 三都| 绥宁县| 礼泉县| 东丽区| 修水县|