• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于部首和音位的情感詞匯表示模型

      2018-07-18 03:02:34徐琳宏林鴻飛祁瑞華關(guān)菁華
      中文信息學(xué)報 2018年6期
      關(guān)鍵詞:音位部首語料

      徐琳宏,林鴻飛,祁瑞華,關(guān)菁華

      (1. 大連外國語大學(xué) 軟件學(xué)院,遼寧 大連 116044;2.大連理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

      0 引言

      基于文本的情感計算是一個多學(xué)科交叉的研究課題,研究內(nèi)容涉及自然語言處理、心理學(xué)、認(rèn)知與腦科學(xué),以及語言學(xué)等多個學(xué)科。在自然語言技術(shù)不斷發(fā)展的今天,人們可以通過分析語法結(jié)構(gòu)、語義信息和情感詞匯等方法從文本中抽取情感信息。從大量的文本中提取其中包含的情感信息在許多方面都有廣闊的應(yīng)用前景,如輿情監(jiān)控、產(chǎn)品傾向性分析、語音合成、信息安全、智能機(jī)器人、模式識別、個性化文本、解析文章情感結(jié)構(gòu)等。情感傾向性分析主要分為詞匯、語句和篇章三個層面,其中詞匯是語句和篇章計算的基礎(chǔ),包含豐富語義信息的詞匯向量有助于對語篇情感的理解。

      在詞匯表示方面的主要方法有: 一種是最簡單的詞向量,即one-hot representation,這種方法簡單,但不能有效表示詞語之間的相關(guān)性。還有一種是目前廣泛采用的分布式向量表示,它的每個向量由多個非零分量表示,能很好地體現(xiàn)詞匯之間的關(guān)系。目前應(yīng)用比較廣泛的是Word2vec,該模型因為訓(xùn)練速度快、代碼容易復(fù)現(xiàn)等原因被廣泛采用。上述詞匯表示方法主要計算詞匯所在的上下文的語義,忽略了詞匯本身的字和部首等內(nèi)在特征,下面介紹一些細(xì)粒度詞匯表示的研究工作。

      1 相關(guān)工作

      1.1 細(xì)粒度的中英文詞匯表示的相關(guān)工作

      在細(xì)粒度詞匯表示方面,英文主要研究構(gòu)成單詞的多個字母,中文方面研究構(gòu)成詞的字和部首等。英文的詞匯表示方面,深入到字母級別的研究有: 2013年,Chrupala等人提出一種簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)(SRN)學(xué)習(xí)字符級的向量表示[1]。 2014年,dos Santos將字符級別的詞匯表示用于詞性標(biāo)注,得到較好的效果[2]。dos Santos在2014年還采用卷積網(wǎng)絡(luò)得到詞匯的字符級表示,并在STS(stanford twitter sentiment)和SSTb(stanford sentiment treebank)兩個數(shù)據(jù)集上進(jìn)行情感分類,相比2013年的研究結(jié)果均有2%左右的提高[3]。

      在漢語詞匯表示方面,近幾年也有人做一些更細(xì)粒度的詞匯表示,例如漢字和部首等。2010年Yue Zhang等人根據(jù)詞匯中某部分的特征切割整個詞匯,使用到了詞匯中的字特征,在準(zhǔn)確率不降低的情況下,系統(tǒng)運行速度提高10倍多[4]。2013年Meishan Zhang 等人使用詞匯中的字特征,構(gòu)建了詞性標(biāo)注和短語分析等系統(tǒng),取得了約2%左右的性能提高[5]。2015年,Xinxiong Chen等人在CBOW模型的基礎(chǔ)上,利用每個詞匯中的漢字位置和形態(tài)表示詞向量,將CBOW模型生成的原始詞向量與字向量拼接,在不同數(shù)據(jù)集上計算詞匯的相關(guān)性,均有4%左右的性能提高[6]。2014年,Yaming Sun將部首信息引入詞匯表示中,在C&W模型的基礎(chǔ)上,使用CRF做中文分詞,不同測試集上準(zhǔn)確率均有提高[7]。2015年,Yanran Li在詞匯表示中引入字信息和部首信息,用于詞匯的相似度計算,效果較好[8]。2016年,Yin等人融合上下文詞匯的字信息和部首信息,生成詞向量,在詞語相似度計算的實驗中,比單純CBOW方法提高了近3%[9]。上述細(xì)粒度的詞匯表示工作,主要針對普通詞匯,而情感詞匯作為詞匯的一個特殊種類,有一些表達(dá)情感的獨有特征。

      1.2 情感詞匯表示的相關(guān)工作

      上面介紹的近幾年細(xì)粒度詞匯表示方面的研究成果是針對所有詞匯的,通常采用詞語相似度來驗證詞向量的有效性。而情感詞匯在表示方面有自身的特點,從20世紀(jì)90年代以來,詞匯傾向性的研究在國外得到了普遍的關(guān)注。Hatzivassiloglou和Mc Keown在1997年利用詞匯之間的連詞(and,or,but,either,or和neither,nor等)訓(xùn)練生成詞匯間的同義或反義傾向的連接圖,生成褒貶兩義的詞匯集[10]。2003年,Turney和Littman采用計算基準(zhǔn)詞對與詞匯相似度的方法識別詞匯傾向性[11]。2005年Vermeij等人利用有傾向性的詞匯在產(chǎn)品評論中出現(xiàn)的次數(shù)計算用戶評論的傾向性,提出了一種按詞頻加權(quán)統(tǒng)計的方法[12]?;谏鲜龇椒ǎ矘?gòu)建了一些情感詞匯字典[13],用于語篇傾向性計算[14-15]。2014年,楊亮等基于圖排序做情感詞匯消歧[16],2015年,烏達(dá)巴拉等使用CRFs完成短語情感分析[17]。分布式詞匯表示出現(xiàn)后,情感詞匯的表示也有新的研究成果。Duyu Tang等人在C&W模型基礎(chǔ)上,使用帶標(biāo)注的Twitter上的短文本構(gòu)建詞向量,將文本的標(biāo)注信息帶入詞向量的表示中[18]。2011年,Bespalov等人使用LSA(latent semantic analysis)初始化詞匯表示[19]。上述情感詞匯的表示主要集中在詞語級別,利用詞匯的上下文和語句的極性識別詞匯的情感極性,而情感詞匯也存在一些內(nèi)部特征,幫助詞匯表達(dá)情感語義,所以本文嘗試在情感詞匯表示中加入三種細(xì)粒度的特征,增強(qiáng)詞匯向量的情感語義。

      情感詞匯與普通詞匯表示不同,不僅需要考慮詞匯的相似度,更要考慮詞匯的情感極性。細(xì)粒度的情感詞匯表示方法是否能夠有效區(qū)分情感極性?情感詞匯是否還有其他的有效特征能夠區(qū)分詞匯的情感極性和感性色彩?受到上述細(xì)粒度詞匯表示和近幾年分布式的情感詞匯表示方法的啟發(fā),本文將中文情感詞匯的表示細(xì)化到字和部首水平,并借助漢語的音位知識,增強(qiáng)情感詞匯的表示能力,提出了一種融合多特征的情感詞匯表示模型。該模型在情感詞分類方面有較好的實驗效果。本文的主要貢獻(xiàn)如下: ①將部首信息加入到中文情感詞匯的表示中,并采用字和部首多種組合方法增強(qiáng)情感詞匯的表示能力; ②將音位信息加入到情感詞匯表示中,將詞中每個字的聲母、韻母和聲調(diào)作為特征,加入到情感詞匯表示中。

      文中第二節(jié)介紹了我們的情感詞匯分類模型;第三節(jié)中,使用前饋神經(jīng)網(wǎng)絡(luò)驗證第二節(jié)中的詞匯表示模型的效果;第四節(jié)總結(jié)了本文工作,并提出今后工作的設(shè)想。

      2 情感詞匯的表示

      分布式詞匯表示的常用模型有C&W[20],CBOW(continuous bog-of-words)[21]和SkipGram[21]等幾種方法,這些方法都是通過上下文學(xué)習(xí)詞匯的表示模型。其中SkipGram模型是目前應(yīng)用廣泛、在各種任務(wù)中表現(xiàn)較好的詞向量表示方法,本文選擇它作為Baseline。2.2節(jié)、2.3節(jié)和2.4節(jié)分別介紹了在SkipGram模型基礎(chǔ)上加入詞匯的字、部首和音位三種信息的模型。

      2.1 SkipGram模型

      SkipGram模型根據(jù)目標(biāo)詞匯來預(yù)測源詞匯,該模型將每個“上下文,目標(biāo)詞匯”的組合作為樣本,本文使用的Negative Sampling模型,目標(biāo)優(yōu)化函數(shù)為:

      (1)

      其中g(shù)(u)定義為:

      (2)

      NEG(u)表示處理詞匯u時產(chǎn)生的負(fù)樣本子集,目標(biāo)函數(shù)需采用梯度計算的方法進(jìn)行優(yōu)化。SkipGram模型相對于CBOW模型在大型數(shù)據(jù)集上更為有效。

      2.2 部首信息詞匯表示

      本文在SkipGram模型生成的詞向量基礎(chǔ)上,加入了漢字的部首信息。漢語的部首是表示語義的一個最小單位,也是漢字和詞語構(gòu)成的重要部分。漢字的部首主要起源于東漢許慎《說文解字》一書,他根據(jù)字義創(chuàng)建了540個部首,通過部首的排序表現(xiàn)篆書字形的意義,所以部首建立之初就具有表義的作用。同一部首的有些漢字具有相同的含義,例如: 部首“心”構(gòu)成的漢字多代表一定的心理活動,包含部首“心”的詞匯有“愉快”“憔悴”“悲傷”“反悔”“慚愧”“恬靜”“恬淡”和“恬然”等。可見很多部首具有情感色彩,能夠在區(qū)分情感詞匯時起到一定的甄別作用。

      表1根據(jù)部首出現(xiàn)在褒、貶義情感詞匯中的次數(shù),將它們劃分為褒義部首、貶義部首和中性部首。褒貶詞差值是指某個部首出現(xiàn)在褒義詞中的次數(shù)和出現(xiàn)在貶義詞中次數(shù)之差的絕對值。當(dāng)部首出現(xiàn)在褒義詞的次數(shù)比出現(xiàn)在貶義詞中的次數(shù)大于等于15,則將部首統(tǒng)計為褒義部首,反之,為貶義部首。如果小于15,則認(rèn)為是中性部首。從表1可見,部分部首對情感詞匯的識別有幫助作用。以褒貶詞差值15為例,具有明顯褒、貶義的部首均為113,占據(jù)部首總數(shù)的一半左右。

      表1 部首的情感相關(guān)性

      表2給出了褒貶義差值為15時,具有褒、貶含義的部首。

      表2 褒義和貶義部首示例

      本文選擇兩種方式生成詞匯對應(yīng)的部首向量,一種是取最大值的方法,另一種是拼接的方法。無論哪種方法,首先都要獲取原始的詞匯向量(Vwrd)和原始的部首向量(Vrad)。采用2.1節(jié)中的SkipGram模型訓(xùn)練得到原始的詞匯向量,原始的部首向量則通過函數(shù)生成符合正態(tài)分布的隨機(jī)向量。下面介紹多個字的部首向量融合成整個詞匯的部首向量的方法。

      (1) 取最大值的方法獲取詞匯的部首向量: 首先,解析出詞匯中每個字的部首信息,將部首對應(yīng)的向量按分量取最大值,得到詞匯對應(yīng)的部首向量。矩陣Rn×m表示詞匯w對應(yīng)的部首矩陣,其中n表示詞匯中包含的字?jǐn)?shù),m表示原始部首向量的長度:

      Rn×m=(r1,r2,…,ri,…,rn)T

      (3)

      向量ri表示詞匯中第i個字對應(yīng)的部首向量ri∈Vrad,詞匯的部首向量(zrad)的分量zi為:

      (4)

      通過上述方法得到詞匯的部首向量后與詞匯的原始向量拼接,采用前饋神經(jīng)網(wǎng)絡(luò)分類,最后通過softmax層得到最終的分類結(jié)果。圖1詳細(xì)描述了整個模型的情感詞匯分類的過程。

      圖1 MAX方法的詞匯表示模型

      (2) 多部首拼接的方法獲取詞匯的部首向量: 首先,解析出詞匯中每個字的部首信息,將詞中多個字的部首拼接得到詞匯對應(yīng)的部首向量。矩陣Rn×m表示詞匯w對應(yīng)的部首矩陣,其中n表示詞匯中包含的字?jǐn)?shù),m表示原始部首向量的長度:

      Rn×m=(r1,r2,…,ri,…,rn)T

      (5)

      向量ri表示詞匯中第i個字對應(yīng)的部首向量ri∈Vrad,詞匯的部首向量為:

      (6)

      一個詞匯中包含的字?jǐn)?shù)可能不同,為了使每個詞匯的部首向量長度相等,模型選取詞匯中最后兩個字的部首信息。所以實際系統(tǒng)中,上述公式中i的取值為:n-1和n。多部首拼接的方法分類過程如圖2所示。

      圖2 CONCAT方法的詞匯表示模型

      通過與原始詞匯向量拼接,可以得到如下新的詞匯向量,同樣采用單層前饋神經(jīng)網(wǎng)絡(luò)分類,其中損失函數(shù)使用交叉熵?fù)p失函數(shù):

      (7)

      2.3 按字切分的情感詞匯表示

      中文的詞匯由漢字組成,漢字的意義在一定程度上表示了詞匯的情感含義,例如“快樂”中的“樂”,“悲傷”中的“悲”,都表示了詞匯的基本情感傾向。所以我們嘗試將語料按字分割,首先生成詞匯的字向量,多個原始字向量拼接得到詞匯的字向量,然后再與詞匯的原始向量連接,得到最終的詞匯向量,如式(8)所示。

      (8)

      2.4 音位信息的情感詞匯表示

      音位是從一定言語連續(xù)體的眾多音素中歸納出來的能區(qū)別語素的最小語音單位。音位標(biāo)音是用符號把歸納出來的音位標(biāo)示出來,使它成為可讀的東西。漢字是包含音節(jié)的語素文字,有時候是“因形以得其音,因音以得其義[22-23]。漢語詞匯是一個音形義的統(tǒng)一整體,“漢語的聲調(diào)語言,調(diào)形曲線遵循一定之規(guī),具有區(qū)別詞義的作用”[24]。一般傳統(tǒng)的方法把語音歸納為聲母、韻母和聲調(diào)三部分[25]。目前, 有人認(rèn)為: “ 用什么方法來歸納普通話音位系統(tǒng), 有兩種針鋒相對的意見。一是按元音輔音系統(tǒng)歸納, 得出的是元音音位、輔音音位和聲調(diào)音位; 一是主張按聲韻調(diào)體系歸納, 得出的是聲位(聲母音位)、韻位(韻母音位)和調(diào)位(聲調(diào)音位)”[26],但無論哪種歸納方法,聲母、韻母和聲調(diào)都是其中的重要部分。不同極性的情感詞匯在不同音位上的音調(diào)也有所差別,以韻母“āi”為例,它與消極情感相關(guān)性較大,如“哀怨”“災(zāi)難”“歪曲”“癡呆”。

      獲取詞匯音位向量的方法與2.2節(jié)和2.3節(jié)類似,首先得到情感詞匯中每個字的音位信息,本文采用詞匯中最后兩個字的聲母、韻母(同一韻母聲調(diào)不同用不同的向量表示)四部分信息組成音位向量。首先為不同的聲母和不同聲調(diào)的韻母分配向量,向量還是使用符合正態(tài)分布的隨機(jī)向量。先將每個字不同聲母向量和韻母向量拼接,生成音位向量,然后將情感詞匯中不同字的音位連接,最后添加原始詞匯向量如式(9)所示。

      (9)

      其中o1,r1,o2,r2分別表示兩個字中的聲母向量和韻母向量。

      3 實驗及分析

      3.1 實驗語料及設(shè)計

      本文采用了兩個數(shù)據(jù)集訓(xùn)練原始的詞向量,一個是維基百科中文語料(WikiData),共1GB大小。另一個是從數(shù)據(jù)堂上獲取的200萬條微博情感句(WeiboData)*http://www.datatang.com/datares/go.aspx?dataid=619757,共97.7M。使用Word2vec*http://code.google.com/p/word2vec,訓(xùn)練基本的詞向量,詞向量的長度為200。情感詞匯選取大連理工大學(xué)信息檢索實驗室的情感詞匯本體[15],選取2 521個積極情感詞匯和1 776個消極情感詞匯,共4 297個詞匯做情感分類。80%作為訓(xùn)練集,20%作為測試集。部首和聲調(diào)采用GB2312字庫中的信息,包括漢字的字、音、義、部首和筆畫等信息*http://more.datatang.com/data/44078。為了驗證加入特征后詞向量的有效性,本文還選取COAE2014任務(wù)4提供的5 000條微博語句作為語料集,完成語句級的分類。

      實驗主要分為三部分: 首先在不同語料上實驗原始詞向量的分類結(jié)果,找到一個準(zhǔn)確率較高的Baseline。然后在此基礎(chǔ)上分別添加字、部首和音位信息,檢驗細(xì)粒度的特征是否能提高情感詞匯的分類結(jié)果。最后在COAE評測的語句級分類任務(wù)中驗證細(xì)粒度情感詞匯表示模型的有效性。

      3.2 實驗結(jié)果

      3.2.1不同語料訓(xùn)練詞向量的分類效果

      本實驗分別采用維基百科和微博情感句兩個語料訓(xùn)練詞向量,對情感詞匯分類,結(jié)果如表3所示。

      表3 不同維度及領(lǐng)域語料的分類效果

      和維基百科的語料比,微博情感語料里包含的情感詞匯更多,與情感領(lǐng)域更相關(guān),但是分類的準(zhǔn)確率比維基百科語料低了2.5%左右。兩個語料的大小差異較大,為了驗證語料的大小對詞向量的影響,我們將維基百科語料分為10份,每份大約100MB,分別訓(xùn)練詞向量,用于情感詞匯分類。結(jié)果顯示當(dāng)語料大小相當(dāng)時,如果向量長度取200,維基百科和微博情感語料效果基本相近,相差0.5%左右,都低于1GB維基百科的訓(xùn)練結(jié)果??梢娬Z料大小對詞向量的質(zhì)量有影響。另外,在10等分情況下,400長的詞向量效果遠(yuǎn)小于200長的詞向量,可見訓(xùn)練語料規(guī)模較小時,長度過大,會影響詞向量效果。

      另外,表3還對比了不同維度詞向量在情感詞匯分類中的效果,向量長度由200增加到400,詞向量的分類準(zhǔn)確率相差不大,400維的準(zhǔn)確率略低于長度為200的詞向量。

      3.2.2部首和音位信息等對分類結(jié)果的影響

      通過隨機(jī)正態(tài)分布為242個部首和96個聲母、韻母和聲調(diào)信息分配長度為50的向量,根據(jù)字和部首的對應(yīng)表,以及字和音位對應(yīng)表,將部首向量和音位向量連接在每個詞向量后,詞向量和字向量選擇維基百科語料的訓(xùn)練結(jié)果。因為一個詞中包含多個字,每個字都有部首和聲調(diào),所以本文嘗試了多種向量的組合方式,獲取整個詞匯的字、部首和音位向量的方法主要有以下幾種: 詞中多個部首向量按分量取最大值(WOMAXRAD);詞中多個部首向量拼接(WOCONRAD);前兩個字的部首向量連接(WOSERAD);最后兩個字的韻母向量連接(WOVOWEL);最后兩個字的聲母和韻母向量連接(WOPHONEME);語料訓(xùn)練生成的字向量(WOCHA);隨機(jī)生成字向量(WOCHARANDOM)。以上獲取的向量再與原始詞匯向量連接。另外還嘗試了去除原始詞匯向量的幾種方法: 單獨字向量連接(CHACONCAT);單獨部首向量(RADICAL)和單獨詞向量(WORD)。最后嘗試了詞、字、部首和音位向量拼接(WOCHARADPHOCAT);詞、字、部首和音位向量按列取最大值(WOCHARADPHOMAX)。

      本文采用單層前饋神經(jīng)網(wǎng)絡(luò)實現(xiàn)詞匯的情感分類。將字信息、部首信息和音位信息依次加入到原始詞向量中。表4列出每個特征對分類結(jié)果的影響。

      從實驗結(jié)果看,添加語料訓(xùn)練的字信息,分類結(jié)果提高了4%;添加部首信息,能在原始詞向量的基礎(chǔ)上提高2%;添加音位信息,分類結(jié)果能提高1.5%。將字、部首和音位信息同時融合到原始詞向量中,效果最好,比單純的詞向量提高了5.3%。這里的字向量是通過語料訓(xùn)練得到的,不是隨機(jī)生成的。如果采用隨機(jī)生成的字向量與詞匯向量拼接(WOCHARANDOM),分類的效果與單純使用詞向量幾乎沒有差別??赡懿渴仔畔⒑鸵粑恍畔⑹请S機(jī)生成,所以效果沒有字向量好,如果能找到訓(xùn)練部首和音位向量的方法,結(jié)果可能更好。但無論哪種方法,都對原始詞向量有補(bǔ)充作用,提高了情感詞匯分類的準(zhǔn)確率。

      表4 不同特征的分類效果

      單純使用部首或者字信息分類,比單純詞向量(Baseline)降低了24%。因為缺少基礎(chǔ)詞向量的信息,部首向量也是隨機(jī)生成的,對詞匯的表示能力不強(qiáng),所以效果較差。在多種添加部首信息的方法中,詞中每個部首向量按分量取最大值的方法效果最好。在多種添加音位信息的方法中,包含的信息較全面的方法是多個字的聲母和韻母向量拼接,準(zhǔn)確率較高。

      漢字能表達(dá)含義,但可能單獨的字形體上所體現(xiàn)的意義并非是單一的,孕育著表示一個以上漢語詞義的能力[27]。單純考慮字向量會丟失詞語組合的信息,導(dǎo)致歧義較大。所以當(dāng)去除原始詞向量,單純使用字向量分類時,比單純的詞向量準(zhǔn)確率低了3%。

      除了上述的單層神經(jīng)網(wǎng)絡(luò),本文還嘗試了其他神經(jīng)網(wǎng)絡(luò)模型,選擇表4中的詞向量與字向量連接的模型(WOCHA),分別使用單層神經(jīng)網(wǎng)絡(luò)、多層神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)三種方法,做了幾組對比實驗,結(jié)果如表5所示。

      表5 多種神經(jīng)網(wǎng)絡(luò)分類效果比較

      從實驗結(jié)果看,多層神經(jīng)網(wǎng)絡(luò)比單層神經(jīng)網(wǎng)絡(luò)低了近30%。卷積神經(jīng)網(wǎng)絡(luò)也比前饋神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率低了5%左右。另外,在實驗中還發(fā)現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)的過濾器越多,池化范圍越大,效果越低。

      3.2.3詞匯表示模型在句子分類中的效果

      為了驗證情感詞匯表示模型的有效性,本文選取COAE2014任務(wù)4提供的5 000條微博語句作為語料集。這些句子分別標(biāo)注為褒、貶兩義,實驗選擇1 666個句子作為訓(xùn)練集,3 334個句子作為測試集。本文采用兩種方法生成句子向量: 一個是句子中多個詞匯按分量取最大值的方法(MAX),另一個是多個詞匯取平均的方法(AVERAGE),實驗結(jié)果如表6所示。

      表6 情感句的識別效果

      在MAX方法生成語句向量中,添加字信息的詞向量比單純詞向量的準(zhǔn)確率增加2%左右。采用AVERAGE方法,語句分類效果更好,比原始詞向量也提高1.5%左右??梢?,添加了字信息的情感詞匯向量在句子分類中的效果較好。

      3.2.4情感詞匯和非情感詞匯的分類結(jié)果

      除了情感詞匯的褒、貶極性分類,我們還將上述的情感詞匯表示方法用在情感詞匯和非情感詞匯的識別中,為了使正例數(shù)與負(fù)例數(shù)平衡,選擇情感詞匯4 295個,非情感詞匯5 000個,實驗結(jié)果如表7所示。

      表7 非情感詞匯的識別效果

      從實驗結(jié)果看,添加字向量、部首向量和音位向量,對情感詞匯的識別效果都有提高,其中加入訓(xùn)練后的字向量效果最好,比單純詞匯向量的分類結(jié)果提高2%,可見添加三種細(xì)粒度特征能夠提高情感詞匯和非情感詞匯的分類準(zhǔn)確率,從而能在句子和篇章中,更高效地識別出情感詞匯。

      3.3 實驗分析

      通過上述的實驗結(jié)果可以得出以下幾點結(jié)論: ①在情感詞匯分類中,訓(xùn)練情感詞匯的語料規(guī)模更重要; ②添加字、部首和音位信息都能有效地提高情感詞匯的極性的分類效果,其中字、部首和音位信息與詞匯信息融合的模型效果最好; ③添加字、部首和音位信息有助于情感詞匯和非情感詞匯的分類結(jié)果; ④加入三種細(xì)粒度特征的情感詞匯,在COAE評測語料的語句級情感分類中也有較好效果。

      4 結(jié)論與展望

      本文將字、部首和音位信息加入詞向量的表示中,不同的詞向量表示方式,分別使用前饋神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)兩種分類方法,完成情感詞匯的極性分類。實驗結(jié)果表明,字、部首和音位信息包含一定的情感含義,能有效區(qū)分情感詞匯的極性。漢字是圖形表意的,未來可以在詞向量中嘗試添加“形聲字”和“會意字”的信息,也可以考慮尋找一些合理的方法來預(yù)訓(xùn)練原始部首和音位向量,分類方法上可以嘗試多個分類方法的融合。

      猜你喜歡
      音位部首語料
      部首歌
      弄清偏旁與部首
      滿語方言中的音位變換現(xiàn)象
      補(bǔ)
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      同部首的字
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
      關(guān)于《語言學(xué)綱要》中第三章《語音》的幾個問題
      曲松县| 辽源市| 台湾省| 那坡县| 阿合奇县| 城固县| 广平县| 安宁市| 江西省| 万源市| 达州市| 平乡县| 牟定县| 蕲春县| 万盛区| 岳阳市| 郓城县| 淳化县| 桐庐县| 宣威市| 聂荣县| 佛山市| 静海县| 衡南县| 余江县| 兴仁县| 崇礼县| 阳信县| 九台市| 渭南市| 勐海县| 仪征市| 盘山县| 汉沽区| 无锡市| 万全县| 和顺县| 祁阳县| 长阳| 揭东县| 新宁县|