• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      跨領(lǐng)域情感分析綜述

      2020-11-19 07:24:20趙曉鵬施水才
      關(guān)鍵詞:詞典分類器單詞

      趙曉鵬,施水才

      (1.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100192;2.北京拓爾思信息技術(shù)股份有限公司,北京 100101)

      0 引言

      跨領(lǐng)域情感分析在情感分析中是一個(gè)新興的領(lǐng)域,目前相關(guān)研究尚且不多,主要集中在如何尋找從源領(lǐng)域到目標(biāo)領(lǐng)域的映射關(guān)系,或者從源領(lǐng)域遷移到目標(biāo)領(lǐng)域的媒介。研究主要使用半監(jiān)督學(xué)習(xí)方法,利用少量的源領(lǐng)域標(biāo)簽數(shù)據(jù)集和大量源領(lǐng)域與目標(biāo)領(lǐng)域的未標(biāo)簽數(shù)據(jù)集,進(jìn)行逐次迭代,逐漸減少訓(xùn)練集和測(cè)試集之間的差異,最終形成適合目標(biāo)領(lǐng)域的函數(shù)。

      1 相關(guān)定義

      跨領(lǐng)域情感分析是情感分析的一個(gè)子領(lǐng)域。文獻(xiàn)[1-2]對(duì)情感分析問(wèn)題進(jìn)行了很好的總結(jié),其他研究者也做出了各自的貢獻(xiàn)。情感分析和跨領(lǐng)域情感分析涉及的定義主要包括:

      定義1 情感詞典情感詞典是擁有一系列暗示積極或消極情感的情感詞的列表,它是許多情感分析任務(wù)的基礎(chǔ)[3]。

      定義2 目標(biāo)目標(biāo)又稱作特征、主題、方面、實(shí)體等,是情感評(píng)價(jià)的對(duì)象(實(shí)體)。該實(shí)體可以被遞歸定義,即實(shí)體的每一部分也可以是一個(gè)目標(biāo)。

      定義3 領(lǐng)域一個(gè)領(lǐng)域D代表客觀存在或是一個(gè)語(yǔ)義概念所表達(dá)的一類實(shí)體,它代表一系列情感與目標(biāo)的集合[4]。

      定義4 情感給定一個(gè)特定的領(lǐng)域D,情感是文本文檔中用戶對(duì)該領(lǐng)域的某些實(shí)體的觀點(diǎn)。根據(jù)對(duì)象粒度的不同,情感分類可以分為文本級(jí)別、句子級(jí)別、短語(yǔ)級(jí)別和單詞級(jí)別等[5]。

      定義5 標(biāo)簽數(shù)據(jù)和未標(biāo)簽數(shù)據(jù)給定一個(gè)特定的領(lǐng)域D和某一情感數(shù)據(jù)xi,令yi表示xi的情感極性[6]。如果xi的整體情感為積極情感,則把xi標(biāo)記為“積極”(yi=+1);如果xi的整體情感為消極情感,則把xi標(biāo)記為“消極”(yi=-1)。情感文本和對(duì)應(yīng)的情感極性組成的二元組{xi,yi}稱為標(biāo)簽數(shù)據(jù)。如果xi沒(méi)有進(jìn)行極性賦值,則稱作未標(biāo)簽數(shù)據(jù)。如果xi的整體情感為中性情感,則把xi標(biāo)記為“中性”(yi=0)。大部分研究中只使用積極和消極兩種情感標(biāo)簽,但也有對(duì)情感標(biāo)簽進(jìn)行積極、消極和中性的三元分類的研究[7-8]。

      定義7 跨領(lǐng)域情感分類給定兩個(gè)特定的領(lǐng)域,即源領(lǐng)域和目標(biāo)領(lǐng)域,在至少擁有一定的源領(lǐng)域標(biāo)簽數(shù)據(jù)的前提下,跨領(lǐng)域情感分類的任務(wù)是學(xué)習(xí)一個(gè)精確的分類器,去預(yù)測(cè)未標(biāo)簽的目標(biāo)領(lǐng)域的情感數(shù)據(jù)的極性。有時(shí)源領(lǐng)域可能會(huì)有多個(gè)[9]。

      定義8 跨領(lǐng)域目標(biāo)抽取給定兩個(gè)特定的領(lǐng)域,即源領(lǐng)域和目標(biāo)領(lǐng)域,在至少擁有一定的源領(lǐng)域標(biāo)簽數(shù)據(jù)的前提下,跨領(lǐng)域目標(biāo)抽取的任務(wù)是學(xué)習(xí)一個(gè)精確的分類器,去預(yù)測(cè)未標(biāo)簽的目標(biāo)領(lǐng)域的情感數(shù)據(jù)中每個(gè)單詞對(duì)應(yīng)的目標(biāo)標(biāo)簽,并從中找到標(biāo)記為yi=2 類型的單詞。

      2 跨領(lǐng)域目標(biāo)抽取

      目標(biāo)抽取又稱特征抽取、主題提取、方面抽取等,是抽取主觀評(píng)論中情感評(píng)價(jià)的實(shí)體。據(jù)統(tǒng)計(jì),97%的目標(biāo)是領(lǐng)域依賴的,同時(shí)73%的情感詞也是領(lǐng)域依賴的[10],因此跨領(lǐng)域問(wèn)題在目標(biāo)抽取任務(wù)中有重要研究意義??珙I(lǐng)域目標(biāo)抽取任務(wù)的關(guān)鍵與跨領(lǐng)域情感分析一樣,需要找到源領(lǐng)域與目標(biāo)領(lǐng)域的關(guān)聯(lián)。方法可分為監(jiān)督學(xué)習(xí)算法和無(wú)監(jiān)督學(xué)習(xí)算法兩種,前者需要找到兩個(gè)領(lǐng)域之間的關(guān)聯(lián),而后者更偏向于找到獨(dú)立于多個(gè)領(lǐng)域的特征,依賴這些特征進(jìn)行目標(biāo)抽取。本文作者對(duì)近幾年跨領(lǐng)域目標(biāo)抽取任務(wù)的研究進(jìn)行了總結(jié),如表1所示。

      2.1 監(jiān)督學(xué)習(xí)算法

      近幾年對(duì)跨領(lǐng)域目標(biāo)抽取的研究不多。Jakob等[11]把目標(biāo)抽取看作信息抽取任務(wù),使用多個(gè)領(lǐng)域無(wú)關(guān)的特征構(gòu)成特征向量,訓(xùn)練一個(gè)條件隨機(jī)域連續(xù)標(biāo)注器,標(biāo)注每個(gè)單詞是否為要抽取的目標(biāo)。領(lǐng)域無(wú)關(guān)的特征的選擇使得該監(jiān)督算法能夠應(yīng)對(duì)跨領(lǐng)域問(wèn)題。其選擇的特征包括:①詞項(xiàng)本身;②詞項(xiàng)的詞性標(biāo)注;③最短依賴路徑(所有和目標(biāo)具有直接依賴關(guān)系[12]的詞項(xiàng)。依賴關(guān)系如圖1所示);④詞項(xiàng)距離(每個(gè)單詞和最近名詞的距離);⑤情感句(標(biāo)記所有出現(xiàn)在情感句中的詞項(xiàng))。

      Jakob等還對(duì)該算法在單一領(lǐng)域問(wèn)題和跨領(lǐng)域問(wèn)題上的效果進(jìn)行了評(píng)估,評(píng)估結(jié)果表明該算法應(yīng)用到跨領(lǐng)域數(shù)據(jù)集上,與應(yīng)用到單一領(lǐng)域數(shù)據(jù)集上效果相近,F值下降不到5%。文中也對(duì)當(dāng)時(shí)(2010年)最好的目標(biāo)抽取監(jiān)督學(xué)習(xí)算法,即Zhuang等[13]提出的算法,應(yīng)用在跨領(lǐng)域目標(biāo)抽取上進(jìn)行評(píng)估。先根據(jù)一個(gè)電影評(píng)論的結(jié)構(gòu)固定下來(lái)一些特征,包括與電影評(píng)論中“元素和人”有關(guān)的特征,形成特征表。根據(jù)特征表、語(yǔ)義依賴關(guān)系和情感詞找到一些語(yǔ)義依賴模型,進(jìn)而根據(jù)這些模型找到其他特征。對(duì)于不明顯的特征,統(tǒng)計(jì)詞語(yǔ)出現(xiàn)的頻率,根據(jù)頻率確定不明顯特征。

      Li等[6]提出一種兩階段框架進(jìn)行跨領(lǐng)域的情感詞和目標(biāo)的協(xié)同抽取。在算法的第一個(gè)階段,使用基于統(tǒng)計(jì)的方法生成一部分高質(zhì)量的情感詞和目標(biāo),以其作為種子,訓(xùn)練出一個(gè)分類器。在算法的第二個(gè)階段,使用一種關(guān)系適應(yīng)的自舉法進(jìn)行種子集的擴(kuò)張。自舉法通過(guò)迭代地增加訓(xùn)練集來(lái)增強(qiáng)分類器效果,最后反復(fù)迭代得到跨領(lǐng)域的分類器。該算法從標(biāo)簽數(shù)據(jù)訓(xùn)練集中學(xué)習(xí)兩方面的知識(shí):一是學(xué)習(xí)目標(biāo)候選詞的集合;二是學(xué)習(xí)明顯目標(biāo)與情感詞對(duì)之間的依賴樹(shù)路徑。當(dāng)把該算法應(yīng)用到跨領(lǐng)域目標(biāo)抽取問(wèn)題上時(shí),不能很好地解決跨領(lǐng)域目標(biāo)抽取問(wèn)題,平均F值不到20%。

      2.2 無(wú)監(jiān)督算法

      跨領(lǐng)域目標(biāo)抽取的另一類方法是無(wú)監(jiān)督算法。目前的方法是找到一系列領(lǐng)域無(wú)關(guān)的特征,并使用無(wú)監(jiān)督(或半監(jiān)督)算法進(jìn)行目標(biāo)抽取。由于特征與領(lǐng)域無(wú)關(guān)并且是無(wú)監(jiān)督算法,所以不存在跨領(lǐng)域的問(wèn)題,使得算法可以高效地應(yīng)用到任何領(lǐng)域。

      Qiu等[3]提出雙向傳播算法進(jìn)行產(chǎn)品特征(目標(biāo))抽取,抽取基于“情感詞與產(chǎn)品特征間具有某種關(guān)系”的假設(shè)進(jìn)行,把語(yǔ)句間詞語(yǔ)的依賴關(guān)系,即情感詞與產(chǎn)品特征之間的修飾關(guān)系和產(chǎn)品特征間的并列關(guān)系,作為挖掘產(chǎn)品特征的工具。首先使用少量的具有普遍性的情感詞(通過(guò)情感詞典獲得)尋找目標(biāo)和情感詞,然后利用挖掘出來(lái)的產(chǎn)品特征尋找新的產(chǎn)品特征,同時(shí)用產(chǎn)品特征尋找情感詞,反復(fù)迭代,直到不能找到新的情感詞或產(chǎn)品特征為止。最后使用頻率信息,固定詞組過(guò)濾等啟發(fā)式規(guī)則進(jìn)行剪枝。該算法應(yīng)用在5個(gè)不同領(lǐng)域的 Amazon 產(chǎn)品評(píng)論數(shù)據(jù)集上,F(xiàn)值均可達(dá)到 85%左右。然而雙向傳播算法在小規(guī)模數(shù)據(jù)集以及大規(guī)模數(shù)據(jù)集上存在準(zhǔn)確率偏低的問(wèn)題。

      Zhang等[14]在雙向傳播算法的基礎(chǔ)上,增加了“part-whole”規(guī)則和“no”規(guī)則。其中“part-whole”規(guī)則用來(lái)挖掘用戶評(píng)論中產(chǎn)品特征(部分)與產(chǎn)品(整體)間的聯(lián)系?!皀o”規(guī)則為“no+名詞”的模式,在文檔中出現(xiàn)此種模式,則說(shuō)明符合“no”規(guī)則,和“no”搭配的名詞為目標(biāo)。同時(shí)考慮情感詞和產(chǎn)品特征間的互斥增強(qiáng)關(guān)系(mutual reinforcement relationship),使用搜索引擎中的HITS算法對(duì)增加規(guī)則后的雙向傳播算法的結(jié)果進(jìn)行進(jìn)一步的優(yōu)化,有效地提高了雙向傳播算法在小規(guī)模數(shù)據(jù)集以及大規(guī)模數(shù)據(jù)集上的準(zhǔn)確率。

      3 跨領(lǐng)域情感分類

      3.1 概述

      在跨領(lǐng)域情感分析中,目前的研究熱點(diǎn)是跨領(lǐng)域情感分類,研究表明情感分類問(wèn)題對(duì)訓(xùn)練集所屬的領(lǐng)域是高度敏感的。從一個(gè)領(lǐng)域的情感文檔集訓(xùn)練(源領(lǐng)域)得到的分類器往往在另一個(gè)領(lǐng)域的測(cè)試集(目標(biāo)領(lǐng)域)表現(xiàn)很差,原因在于在不同領(lǐng)域中用來(lái)進(jìn)行情感表達(dá)的單詞和語(yǔ)言結(jié)構(gòu)相差非常大。而且,同一個(gè)單詞在一個(gè)領(lǐng)域表達(dá)積極情感,在另一個(gè)領(lǐng)域可能表達(dá)消極情感,因此需要進(jìn)行領(lǐng)域適應(yīng)或遷移學(xué)習(xí)。跨領(lǐng)域情感分類要解決的問(wèn)題是,找到從源領(lǐng)域到目標(biāo)領(lǐng)域的一種映射關(guān)系,或者說(shuō)尋找從源領(lǐng)域遷移到目標(biāo)領(lǐng)域的媒介?,F(xiàn)存的跨領(lǐng)域情感分類主要基于兩種設(shè)定:第一種需要源領(lǐng)域標(biāo)記數(shù)據(jù)和少量來(lái)自目標(biāo)領(lǐng)域的標(biāo)記數(shù)據(jù);第二種需要源領(lǐng)域標(biāo)記數(shù)據(jù)但不需要任何目標(biāo)領(lǐng)域的標(biāo)記數(shù)據(jù)。近幾年的研究主要集中在第二種設(shè)定上。

      Whitehead等[15]做了大量實(shí)驗(yàn)對(duì)跨領(lǐng)域情感分類問(wèn)題進(jìn)行分析,使用支持向量機(jī)分類器進(jìn)行11個(gè)不同領(lǐng)域下跨領(lǐng)域情感分類的研究,得出多個(gè)結(jié)論,主要包括:

      結(jié)論1在源領(lǐng)域訓(xùn)練得到的分類器不能很好地應(yīng)用到目標(biāo)領(lǐng)域,并且當(dāng)應(yīng)用到不同的目標(biāo)領(lǐng)域時(shí),得到的結(jié)果相差很大。

      結(jié)論2使用多個(gè)不同領(lǐng)域訓(xùn)練得到的分類器,能夠較好地應(yīng)用到這些領(lǐng)域的情感分類中。

      結(jié)論3使用多個(gè)源領(lǐng)域進(jìn)行訓(xùn)練得到的分類器,應(yīng)用到一個(gè)新的目標(biāo)領(lǐng)域時(shí),得到的結(jié)果與使用單一源領(lǐng)域進(jìn)行訓(xùn)練得到的最好結(jié)果相差不多。

      結(jié)論4可以通過(guò)領(lǐng)域間的相似度預(yù)測(cè)使用某一個(gè)源領(lǐng)域訓(xùn)練的分類器應(yīng)用到目標(biāo)領(lǐng)域時(shí),準(zhǔn)確率下降的比例。

      結(jié)論5可以通過(guò)聯(lián)合一組模型來(lái)增強(qiáng)分類器的表現(xiàn)。

      根據(jù)以上幾個(gè)結(jié)論跨領(lǐng)域情感分類可以劃分為兩類方法:一是尋找多個(gè)領(lǐng)域適應(yīng)的分類器;二是尋找適合某一給定目標(biāo)領(lǐng)域的源領(lǐng)域訓(xùn)練集。本文對(duì)近幾年跨領(lǐng)域情感分類的研究進(jìn)行總結(jié),如表2所示。

      表2 跨領(lǐng)域情感分類總結(jié)

      3.2 尋找領(lǐng)域適應(yīng)分類器

      近些年研究者們通過(guò)對(duì)領(lǐng)域獨(dú)立情感詞、情感敏感詞典、高層概念、文檔的情感主題等多方面的研究,找到了多種從源領(lǐng)域遷移到目標(biāo)領(lǐng)域的媒介。

      Pan等[4]把單詞分為領(lǐng)域依賴情感詞和領(lǐng)域獨(dú)立情感詞,前者為某一領(lǐng)域特有的情感詞(特征),后者為兩個(gè)領(lǐng)域共同具有的情感詞。領(lǐng)域依賴情感詞是造成跨領(lǐng)域情感分類準(zhǔn)確率下降的原因。領(lǐng)域獨(dú)立情感詞可以通過(guò)簡(jiǎn)單的啟發(fā)式規(guī)則獲得,規(guī)則為:①統(tǒng)計(jì)單詞頻率,即在不同領(lǐng)域出現(xiàn)且共同出現(xiàn)的頻率大于k的情感詞為領(lǐng)域獨(dú)立情感詞。②計(jì)算特征與領(lǐng)域的依賴性,即與文檔的互信息較高的情感詞為領(lǐng)域依賴情感詞。研究者首先把兩類詞作為兩個(gè)集合構(gòu)建一個(gè)二項(xiàng)圖,如圖2 所示。

      如果兩個(gè)集合中的某兩個(gè)單詞共現(xiàn),則把它們連接起來(lái),邊的權(quán)值為兩個(gè)單詞的共現(xiàn)頻率。共現(xiàn)可以定義為兩個(gè)單詞在同一個(gè)文檔或特定大小的窗口(范圍)內(nèi)出現(xiàn)。然后使用譜聚類算法對(duì)二項(xiàng)圖中的VDI和VDS進(jìn)行聚類。如果兩個(gè)領(lǐng)域特定單詞頻繁地與某些領(lǐng)域依賴單詞連接,則這兩個(gè)單詞相似;如果兩個(gè)領(lǐng)域依賴單詞頻繁地與某些領(lǐng)域獨(dú)立單詞連接,則這兩個(gè)單詞相似。最后在對(duì)目標(biāo)領(lǐng)域進(jìn)行情感分類時(shí),領(lǐng)域依賴情感詞可以根據(jù)在源領(lǐng)域與之相似的情感詞的極性進(jìn)行分類。使用該框架進(jìn)行文檔級(jí)別和語(yǔ)句級(jí)別的分類任務(wù),準(zhǔn)確率平均在75%左右。

      Bollegala 等[9]提出一種使用來(lái)自多個(gè)領(lǐng)域的標(biāo)簽數(shù)據(jù)和未標(biāo)簽數(shù)據(jù)自動(dòng)創(chuàng)建情感敏感的同義詞典的方法,來(lái)關(guān)聯(lián)不同領(lǐng)域間相近的情感詞。首先建立每個(gè)詞項(xiàng)的基礎(chǔ)特征向量,對(duì)于詞項(xiàng)u,先把在評(píng)論中與其共現(xiàn)的詞項(xiàng)作為特征向量,然后在特征向量中,對(duì)每個(gè)單詞增加其評(píng)論所屬的情感標(biāo)簽,接下來(lái)度量不同領(lǐng)域間情感詞的相近性,使用與兩個(gè)情感詞的特征向量中共現(xiàn)的單詞占所有單詞的比例計(jì)算。通過(guò)該方法擴(kuò)充原有的特征向量,形成最終的情感敏感的同義詞典。最后使用該詞典訓(xùn)練跨領(lǐng)域的二元情感分類器。該方法可以同時(shí)使用多個(gè)不同的源領(lǐng)域的數(shù)據(jù)集進(jìn)行訓(xùn)練,得到的分類器可以同時(shí)在多個(gè)領(lǐng)域進(jìn)行情感分類。該算法進(jìn)行跨領(lǐng)域情感分類準(zhǔn)確率平均在 80%左右。

      Glorot等[18]提出使用機(jī)器學(xué)習(xí)中的深入學(xué)習(xí)思想進(jìn)行跨領(lǐng)域情感分類,利用不同領(lǐng)域間相同的高層概念來(lái)關(guān)聯(lián)訓(xùn)練集和測(cè)試集。深入學(xué)習(xí)算法的思想是無(wú)監(jiān)督學(xué)習(xí)可以通過(guò)特征的層次級(jí)別迭代進(jìn)行,每一次迭代時(shí)所需要的特征由上一次利用高層特征學(xué)習(xí)獲得。高層特征又稱高層概念,是多個(gè)領(lǐng)域共同的概念,利用高層概念進(jìn)行深入學(xué)習(xí),得到多個(gè)領(lǐng)域下的底層特征。其提出的策略分為兩階段:第一階段,使用 SDA 算法在所有可用的源領(lǐng)域中利用無(wú)監(jiān)督的方式進(jìn)行高層概念的抽取。第二階段,利用這些特征組成特征向量,使用線性 SVM 分類器進(jìn)行訓(xùn)練得到情感分類器,利用該分類器進(jìn)行跨領(lǐng)域情感分類。使用該分類器在22個(gè)不同領(lǐng)域的數(shù)據(jù)集上進(jìn)行情感分類,結(jié)果表明該方法能夠同時(shí)進(jìn)行多個(gè)目標(biāo)領(lǐng)域的情感分類。

      He等[16]使用混合的主題模型同時(shí)得到文檔的主題和情感(情感主題),使用情感主題關(guān)聯(lián)不同領(lǐng)域的訓(xùn)練集和測(cè)試集。Yoshida等[19]提出了一種通過(guò)領(lǐng)域依賴情感詞和領(lǐng)域獨(dú)立情感詞把多個(gè)源領(lǐng)域的知識(shí)遷移到多個(gè)目標(biāo)領(lǐng)域的方法。源領(lǐng)域和目標(biāo)領(lǐng)域的關(guān)聯(lián)和Pan的研究類似,使用領(lǐng)域依賴情感詞和領(lǐng)域獨(dú)立情感詞。提出對(duì)一個(gè)單詞建立3個(gè)屬性:領(lǐng)域標(biāo)簽,領(lǐng)域依賴或領(lǐng)域獨(dú)立標(biāo)簽,單詞極性標(biāo)簽。在對(duì)源領(lǐng)域所有單詞進(jìn)行建模后,在目標(biāo)領(lǐng)域使用Gibbs Sampling計(jì)算每個(gè)單詞在不同標(biāo)簽下的后驗(yàn)概率,判斷一個(gè)單詞的極性和是否屬于領(lǐng)域依賴或獨(dú)立情感詞。Raksha Sharma等[17]使用卡方檢驗(yàn)通過(guò)帶標(biāo)記的源領(lǐng)域數(shù)據(jù),經(jīng)源領(lǐng)域的關(guān)鍵詞協(xié)助發(fā)現(xiàn)目標(biāo)領(lǐng)域的關(guān)鍵詞,通過(guò)兩個(gè)領(lǐng)域的關(guān)鍵詞及其傾向,得到SCP。然后利用SVM分類器實(shí)現(xiàn)目標(biāo)領(lǐng)域的情感分析。

      3.3 尋找領(lǐng)域相似訓(xùn)練集

      與上述利用媒介得到能夠同時(shí)應(yīng)用到多個(gè)領(lǐng)域的分類器的方法不同,尋找領(lǐng)域相似訓(xùn)練集是從訓(xùn)練集的角度出發(fā)研究跨領(lǐng)域情感分類??紤]如何能夠找到和目標(biāo)領(lǐng)域數(shù)據(jù)集分布最相近的源領(lǐng)域數(shù)據(jù)集,使用該數(shù)據(jù)集進(jìn)行分類器的訓(xùn)練,從而彌補(bǔ)源領(lǐng)域和目標(biāo)領(lǐng)域因?yàn)樘卣鞣植疾煌瑤?lái)的準(zhǔn)確率下降。

      Ponomareva N等[20]對(duì)領(lǐng)域相似訓(xùn)練集進(jìn)行研究時(shí),提出一種預(yù)測(cè)準(zhǔn)確率下降的方法,即預(yù)測(cè)使用不同領(lǐng)域的數(shù)據(jù)集訓(xùn)練分類器應(yīng)用到同一個(gè)目標(biāo)領(lǐng)域時(shí),準(zhǔn)確率會(huì)如何下降。研究者認(rèn)為領(lǐng)域相似性和領(lǐng)域復(fù)雜度是評(píng)判不同領(lǐng)域間數(shù)據(jù)集相似性的標(biāo)準(zhǔn)。對(duì)比使用余弦相似度、Jaccard 系數(shù)、χ2相關(guān)系數(shù)、DKL距離、DJS距離等來(lái)度量領(lǐng)域的相似性。兩個(gè)數(shù)據(jù)集相似性越高,說(shuō)明它們之間帶來(lái)的跨領(lǐng)域誤差越??;對(duì)比稀有單詞百分比、單詞豐富程度、相似熵等來(lái)評(píng)估數(shù)據(jù)集的復(fù)雜度。兩個(gè)數(shù)據(jù)集復(fù)雜度相差越少,說(shuō)明它們帶來(lái)的跨領(lǐng)域誤差越小。最后綜合考慮上述兩個(gè)標(biāo)準(zhǔn),提出能夠找出針對(duì)目標(biāo)領(lǐng)域最合適的訓(xùn)練集的線性回歸模型:

      F(sij,Δcij)=β0+β1sij+β2Δcij

      式中:sij為領(lǐng)域相似度;Δcij為領(lǐng)域間復(fù)雜度的差。并且利用該模型預(yù)測(cè)把使用某一源領(lǐng)域訓(xùn)練集訓(xùn)練得到的分類器應(yīng)用到目標(biāo)領(lǐng)域時(shí),準(zhǔn)確率下降的百分比。在跨領(lǐng)域情感分類問(wèn)題中,該模型在預(yù)測(cè)分類器帶來(lái)的跨領(lǐng)域誤差時(shí)平均標(biāo)準(zhǔn)差在 1.5%左右。

      4 跨領(lǐng)域情感分析資源

      跨領(lǐng)域情感分析的資源包括兩部分:數(shù)據(jù)集和情感詞典。前者分為訓(xùn)練集和測(cè)試集,用來(lái)進(jìn)行跨領(lǐng)域分類器的訓(xùn)練和分類器準(zhǔn)確率的測(cè)試;后者用于分類器的學(xué)習(xí),提供基礎(chǔ)的情感詞極性,增強(qiáng)分類器的準(zhǔn)確率。本文對(duì)近幾年跨領(lǐng)域情感分析任務(wù)的資源及自動(dòng)生成方法進(jìn)行了總結(jié),如表3所示。

      表3 資源自動(dòng)生成

      4.1 主要數(shù)據(jù)集

      對(duì)于跨領(lǐng)域目標(biāo)抽取主要的數(shù)據(jù)集有Liu 等[22]提供的數(shù)據(jù)集,可以從研究者的個(gè)人主頁(yè)獲得[23]。其中:亞馬遜產(chǎn)品評(píng)論數(shù)據(jù)集目前已經(jīng)擴(kuò)充到9個(gè)產(chǎn)品超過(guò)580萬(wàn)條產(chǎn)品評(píng)論,包括評(píng)論內(nèi)容、評(píng)論目標(biāo)、產(chǎn)品信息等內(nèi)容;比較數(shù)據(jù)集,包括5個(gè)領(lǐng)域的產(chǎn)品評(píng)論,評(píng)論的內(nèi)容以對(duì)比兩個(gè)產(chǎn)品的好壞為主。

      跨領(lǐng)域目標(biāo)抽取數(shù)據(jù)集需要對(duì)多個(gè)領(lǐng)域的大量評(píng)論進(jìn)行人工標(biāo)注,判斷每條評(píng)論中用戶評(píng)價(jià)的對(duì)象,即目標(biāo)。并且在評(píng)價(jià)對(duì)象中存在大量的不明顯對(duì)象,即該評(píng)價(jià)對(duì)象的詞項(xiàng)并沒(méi)有出現(xiàn)在整條產(chǎn)品評(píng)論中。對(duì)于跨領(lǐng)域情感分類主要的數(shù)據(jù)集有Blitzer使用的亞馬遜產(chǎn)品評(píng)論數(shù)據(jù)集[24],其中包括22個(gè)不同產(chǎn)品類型的超過(guò)34萬(wàn)條評(píng)論,每條評(píng)論均標(biāo)注了它的極性。與跨領(lǐng)域目標(biāo)抽取數(shù)據(jù)集相比,跨領(lǐng)域情感分類數(shù)據(jù)集更容易構(gòu)造,因?yàn)榇嬖诖罅靠梢杂靡悦鞔_判定一條用戶評(píng)論情感極性的信息。

      Whitehead等[15]提出了一種使用啟發(fā)式規(guī)則自動(dòng)建立用于進(jìn)行跨領(lǐng)域情感分類的數(shù)據(jù)集的方法。首先用網(wǎng)絡(luò)爬蟲(chóng)在多個(gè)網(wǎng)站下載評(píng)論數(shù)據(jù),包含用戶評(píng)論和用戶對(duì)目標(biāo)的打分,一般打分為5個(gè)等級(jí)或0~5分。使用閾值對(duì)每條評(píng)論進(jìn)行情感標(biāo)簽標(biāo)注,打分大于3.5分的用戶評(píng)論表達(dá)積極情感,否則表達(dá)消極情感。并由此生成了9個(gè)領(lǐng)域的數(shù)據(jù)集。

      4.2 情感詞典的自動(dòng)生成

      在跨領(lǐng)域情感分類任務(wù)中,情感詞典是重要的資源。它提供在未加標(biāo)簽的數(shù)據(jù)集中每個(gè)單詞普遍情況下的情感極性,一般為領(lǐng)域獨(dú)立單詞的極性。目前已有的情感詞典如SentiWordNet,Inquirer 等。研究者也在考慮如何自動(dòng)生成情感詞典。詞典自動(dòng)生成方法可以分為人工方法,基于詞典的方法與基于語(yǔ)料庫(kù)的方法。這里簡(jiǎn)單介紹后兩種方法。

      4.2.1 基于詞典的方法

      Hassan[21]在2010年提出使用在單詞相似度圖上利用馬爾可夫隨機(jī)游走的方法來(lái)判斷一個(gè)給定單詞的情感,進(jìn)而生成全部單詞的情感詞典。單詞相似度圖可以簡(jiǎn)單地使用WordNet等同義詞詞典生成。首先,使用WordNet 同義詞詞典中的同義詞建立單詞相似度圖。在建立好的單詞相似度圖上使用平均命中次數(shù)h(i|S)來(lái)度量從節(jié)點(diǎn)i到節(jié)點(diǎn)集合(單詞集合)S的距離,這個(gè)距離反應(yīng)單詞的極性。平均命中次數(shù)利用隨機(jī)游走來(lái)計(jì)算,計(jì)算從狀態(tài)i不屬于S到第一次進(jìn)入狀態(tài)i屬于S的平均游走次數(shù)。給定一個(gè)積極詞匯種子集合S+,和一個(gè)消極詞匯種子集合S-,為了評(píng)估一個(gè)給定的單詞w的情感極性,需要計(jì)算平均命中次數(shù)h(i|S+)和h(i|S-)。如果h(i|S+)的值大于h(i|S-)的值,則認(rèn)為給定的單詞為積極詞匯;如果h(i|S+)的值小于h(i|S-)的值,則認(rèn)為給定的單詞為消極詞匯。

      2011年,Hassan等[25]提出了尋找外文單詞情感極性的方法。首先建立一個(gè)雙語(yǔ)的單詞網(wǎng)絡(luò)圖,包含3種單詞對(duì)的關(guān)系:英文單詞-英文單詞,英文單詞-外文單詞,外文單詞-外文單詞。對(duì)于英文單詞-英文單詞的網(wǎng)絡(luò),使用WordNet同義詞詞典進(jìn)行單詞的連接。對(duì)于外文單詞-外文單詞的網(wǎng)絡(luò),使用類似的方法,只不過(guò)利用其他語(yǔ)言中與WordNet相似的詞典。對(duì)于英文單詞-外文單詞的網(wǎng)絡(luò),度量外文單詞與英文單詞在英文詞典中的釋義的相似度。該方法類似于Hassan 2010年提出的隨機(jī)游走方法,只不過(guò)把它應(yīng)用到另一個(gè)環(huán)境中。利用人工標(biāo)注的測(cè)試集在英語(yǔ)、阿拉伯語(yǔ)和印度語(yǔ)之間進(jìn)行測(cè)試,其平均準(zhǔn)確率在 85%左右。

      Velikovich等[26]提出一種使用網(wǎng)絡(luò)構(gòu)建情感詞詞典的方法。該算法基于一個(gè)在語(yǔ)句相似圖上的圖傳播算法,其輸入為積極情感語(yǔ)句種子集合和消極情感語(yǔ)句種子集合。語(yǔ)句圖中的每個(gè)頂點(diǎn)為一個(gè)候選語(yǔ)句,候選語(yǔ)句由將40 億個(gè)頁(yè)面中的語(yǔ)句按照一元組、二元組直到十元組組合而形成。利用啟發(fā)式規(guī)則,即候選語(yǔ)句的頻率和單詞間的互信息等,選擇這些候選語(yǔ)句中的200萬(wàn)個(gè),為每個(gè)候選語(yǔ)句建立邊,邊由在所有40億個(gè)網(wǎng)頁(yè)中在一個(gè)窗口大小下與該單詞共現(xiàn)的單詞組成,邊的權(quán)重定義為對(duì)應(yīng)的兩個(gè)頂點(diǎn)的余弦相似度,如果一條邊(vi,vj)中的兩個(gè)頂點(diǎn)都沒(méi)有關(guān)聯(lián)到權(quán)重最大的25條邊上,則刪除該邊。最后使用圖傳播算法計(jì)算每個(gè)語(yǔ)句的情感,形成情感詞典。

      4.2.2 基于語(yǔ)料庫(kù)的方法

      基于語(yǔ)料庫(kù)的情感詞典自動(dòng)生成方法更類似于跨領(lǐng)域情感分類,不過(guò)它是從單詞的角度進(jìn)行情感分類。其目的是通過(guò)不同領(lǐng)域的語(yǔ)料庫(kù),使源領(lǐng)域的情感詞典應(yīng)用于目標(biāo)領(lǐng)域中,找到的詞項(xiàng)也更多的是領(lǐng)域依賴情感詞。

      Du等[27]研究情感詞典從一個(gè)領(lǐng)域應(yīng)用到另一個(gè)領(lǐng)域時(shí)的適應(yīng)性問(wèn)題。提出了兩個(gè)假設(shè):第一,如果一個(gè)文檔含有許多積極(或消極)詞項(xiàng),那么它很可能是一個(gè)表達(dá)積極(或消極)情感的文檔。如果一個(gè)詞項(xiàng)出現(xiàn)在許多表達(dá)積極(或消極)情感的文檔中,那么它很可能是一個(gè)積極(或消極)詞項(xiàng)。該規(guī)則類似于使用二項(xiàng)圖對(duì)文檔和詞項(xiàng)進(jìn)行聚類。第二,盡管源領(lǐng)域和目標(biāo)領(lǐng)域可能服從不同的分布,但仍然可以識(shí)別兩個(gè)領(lǐng)域中共同的部分,例如兩個(gè)領(lǐng)域中相同的詞項(xiàng)擁有相同的極性。需要指出的是,這個(gè)假設(shè)并不總能成立。

      5 結(jié)束語(yǔ)

      跨領(lǐng)域情感分析是情感分析的子領(lǐng)域,主要包括跨領(lǐng)域目標(biāo)抽取和跨領(lǐng)域情感分類兩個(gè)任務(wù)。在跨領(lǐng)域目標(biāo)抽取任務(wù)中,可分為監(jiān)督學(xué)習(xí)算法和無(wú)監(jiān)督學(xué)習(xí)算法。前者需要找到兩個(gè)領(lǐng)域之間的關(guān)聯(lián),訓(xùn)練出同時(shí)適應(yīng)于兩個(gè)領(lǐng)域的分類器,但目前準(zhǔn)確率仍然偏低;后者偏向于找到獨(dú)立于多個(gè)領(lǐng)域的特征,依賴這些特征進(jìn)行目標(biāo)抽取,達(dá)到同時(shí)適應(yīng)于多個(gè)領(lǐng)域的目的。在跨領(lǐng)域情感分類任務(wù)中,研究者主要在尋找能夠從源領(lǐng)域遷移到目標(biāo)領(lǐng)域的媒介。近些年研究者使用領(lǐng)域獨(dú)立情感詞、情感敏感詞典、高層概念、文檔的情感主題等多種策略進(jìn)行跨領(lǐng)域情感分類,得到領(lǐng)域適應(yīng)分類器。同時(shí),有些研究者從數(shù)據(jù)的角度出發(fā),通過(guò)尋找和目標(biāo)領(lǐng)域數(shù)據(jù)集分布最相近的源領(lǐng)域數(shù)據(jù)集的方法,解決源領(lǐng)域與目標(biāo)領(lǐng)域特征分布不同的問(wèn)題。目前存在大量進(jìn)行跨領(lǐng)域情感分析的數(shù)據(jù)集和情感詞典,一些研究者也在考慮如何自動(dòng)擴(kuò)充某一給定領(lǐng)域的情感詞典及自動(dòng)生成不同領(lǐng)域的情感分類數(shù)據(jù)集。

      目前跨領(lǐng)域情感分析的準(zhǔn)確率仍然較低,在使用更好的機(jī)器學(xué)習(xí)算法進(jìn)行目標(biāo)抽取和情感分類的同時(shí),更應(yīng)該根據(jù)情感分析問(wèn)題本身,找到該問(wèn)題的主要特征,進(jìn)行跨領(lǐng)域情感分析研究。

      猜你喜歡
      詞典分類器單詞
      單詞連一連
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      看圖填單詞
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      看完這些單詞的翻譯,整個(gè)人都不好了
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      扶余县| 曲麻莱县| 精河县| 镇江市| 鄂托克旗| 来凤县| 乾安县| 独山县| 邯郸市| 华池县| 荔波县| 罗甸县| 九龙坡区| 伊川县| 霸州市| 阿图什市| 华池县| 台安县| 汝南县| 景谷| 东兴市| 涪陵区| 阿图什市| 平南县| 托克托县| 德令哈市| 左贡县| 曲水县| 湘西| 黑水县| 苍溪县| 阿拉善右旗| 青川县| 开封市| 德庆县| 彩票| 长垣县| 河北区| 台南市| 青州市| 孟津县|