• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于詞向量的藏文情感詞典的構(gòu)建方法研究

      2018-01-17 12:39:30巴桑卓瑪
      電子技術(shù)與軟件工程 2017年20期

      摘 要 隨著藏文信息技術(shù)的發(fā)展,藏文文本情感分析是近年來迅速興起的一個研究課題,而藏文情感詞典的構(gòu)建是藏文文本情感分析與文本挖掘領(lǐng)域中重要的基礎(chǔ)性工作。情感類別手工標(biāo)注不但費時費力,且容易受到主觀性的影響,同時對領(lǐng)域性的過分關(guān)注也大大限制了情感詞典的適用性。因此,本文在分析國內(nèi)外情感詞典擴充方法的基礎(chǔ)上,結(jié)合藏文本身的特點,提出了“基于詞向量的藏文情感詞典的構(gòu)建方法”,其核心思想是在人工標(biāo)注的基礎(chǔ)上定義基準(zhǔn)詞;然后基于詞向量來擴充情感詞典,并實踐和驗證了幾種不同的擴充情感詞典的方法,并選取最優(yōu)的KNN擴充法從語料中自動擴充藏文情感詞,建立了一部比較實用的藏文情感詞典。

      【關(guān)鍵詞】詞向量 藏文情感詞典 情感詞典擴充 K近鄰方法

      1 引言

      在通常情況下,藏文文本情感分析主要通過藏文情感詞來體現(xiàn),而藏文情感詞典的好壞直接影響情感分析的結(jié)果,因此,一個有效的情感詞典至關(guān)重要。徐琳宏等人于2008年發(fā)布了大連理工情感本體,該本體將情感分為樂、好、怒、哀、惡、懼、驚7類。全昌勤等人構(gòu)建了博客情感語料庫,其中共提取了8類情緒,并通過矩陣空間的方式運用支持向量機實現(xiàn)情感分類。以上研究對藏文情感詞典的構(gòu)建起到了巨大的推動作用。

      情感類別手工標(biāo)注不但費時費力,且容易受到主觀性的影響,同時對領(lǐng)域性的過分關(guān)注也大大限制了情感詞典的適用性。因此,本文在分析國內(nèi)外情感詞典擴充方法的基礎(chǔ)上,結(jié)合藏文本身的特點,提出了“基于詞向量的藏文情感詞典的構(gòu)建方法”,并依次構(gòu)建藏文情感詞典,這不僅藏文本身的語言特點,而且能提高藏文文本情感分析的結(jié)果,為藏文文本情感計算奠定一定的基礎(chǔ)。

      2 構(gòu)建藏文情感詞典的方法

      藏文情感詞典的構(gòu)建是藏文文本情感分析和文本挖掘領(lǐng)域中重要的基礎(chǔ)性工作,且情感詞典的質(zhì)量在很大程度上影響了文本情感分析的結(jié)果。隨著網(wǎng)絡(luò)詞語的流行和使用,完全依靠人工完善和擴充情感詞典的方法是不可行的。為了建立一部較完整、實用、準(zhǔn)確的藏文情感詞典,需要分兩部分來完成:構(gòu)建藏文基準(zhǔn)情感詞典和動態(tài)擴充藏文情感詞典。首先人工收集和整理了一部藏文基準(zhǔn)情感詞典,在此基礎(chǔ)上,基于詞向量擴充情感詞典,最終能建立一部比較實用的藏文情感詞典。

      2.1 構(gòu)建藏文基準(zhǔn)情感詞典

      本文參照大連理工大學(xué)信息檢索研究室構(gòu)建的中文情感詞匯本體庫的相關(guān)標(biāo)準(zhǔn)來構(gòu)建藏文情感詞典,利用詞語、詞性種類、情感類別、情感強度及極性等信息來描述情感詞,同時借助中文情感詞典,并結(jié)合藏文本身的特征構(gòu)建了藏文情感計算的詞匯構(gòu)建標(biāo)準(zhǔn)。其中,情感分為7大類21小類;情感強度分為1、3、5、7、9等五檔,9表示強度最大,1為強度最?。磺楦袠O性分為0、1、-1三種,0為中性詞,1為褒義詞、-1為貶義詞。程度副詞和轉(zhuǎn)折詞在藏文情感詞分析中起著非常重要的作用。否定詞和雙重否定詞在基于規(guī)則的藏文情感分析中有著至關(guān)重要的地位。若是只考慮情感詞而不考慮否定詞計算,情感傾向與實際的情感傾向不一致,甚至結(jié)果完全相反。因此,本文構(gòu)建的藏文基準(zhǔn)情感詞典主要包括兩個方面,即基礎(chǔ)情感詞和輔助詞表,具體內(nèi)容如表1所示。

      2.2 基于詞向量擴充藏文情感詞典

      近年來,隨著深度學(xué)習(xí)的發(fā)展,詞向量被廣泛應(yīng)用自然語言處理領(lǐng)域中。采用神經(jīng)網(wǎng)絡(luò)訓(xùn)練出來的詞語向量,能夠方便、快速的挖掘詞與詞之間的語義關(guān)系,詞語的相似度越高,其向量距離越近,情感詞典的擴充正是基于這一理論。

      2.2.1 傳統(tǒng)的相似度擴充法分析

      傳統(tǒng)相似度擴充法是按照詞語的相似度來擴充情感詞典,相似的詞語其詞向量的余弦距離會很接近,基于這一理論,研究者們提出了計算相似度擴充情感詞典的方法。其核心思想是對種子詞庫Train_Set中的每一個種子詞語w,計算w與目標(biāo)詞庫Test_Set中的所有目標(biāo)詞的相似度,選取相似度大于某一閾值的詞語,如果這些詞語不在種子詞庫中,那么按照w的情感類別進行標(biāo)注。然后將這些新詞作為新的種子詞放入種子詞庫Train_Set中。相似度越高,說明兩個詞語的距離越近。模型框架如圖1所示。

      這種方法是詞典擴充中最基本、最常用的方法,但它存在三個方面的問題:第一,對基準(zhǔn)詞典的廣度和精度要求高,對語料的廣度要求高。種子詞庫的質(zhì)量和相似度計算的優(yōu)先順序都會對詞典質(zhì)量產(chǎn)生影響,而迭代擴充會逐步加大誤差的范圍;第二,沒有進行一詞多考察,可靠性不高;第三,針對一般語義的詞向量本身具有一定的局限性。如“????????/??????????/??/????”(扎西喜歡德吉)和“????????/??????????/??/???????”(扎西討厭德吉)兩個句子中的“???”(喜歡)和“???????”(討厭)具有相同的上下文語境,如果訓(xùn)練語料比較單一,有可能將“喜歡”和“討厭”歸為近義詞。為了改進和優(yōu)化以上問題,本文結(jié)合KNN思想對基于詞向量擴充情感詞典的方法進行了研究。

      2.2.2 KNN方法

      KNN(K最近鄰居)算法的基本思想是在距離空間里,如果一個樣本的最接近的k個鄰居中,絕大多數(shù)屬于某個類別,則該樣本也屬于這個類別。俗稱為“隨大流”。針對情感新詞的識別,還要增加距離閾值的限制,保證找到的鄰居確實為“近鄰”,如果一個詞語與所有種子詞的相似度都低于閾值,則認為該詞不屬于情感詞。該理論用于情感詞典擴充中,首先對目標(biāo)詞庫Test_Set中的每一個目標(biāo)詞w,計算其與種子詞庫Train_Set中所有種子詞的相似度,選取與該目標(biāo)詞w相似度大于閾值的前k個詞語存入top_k_set中;然后通過匹配情感詞典找出這k個詞語中出現(xiàn)次數(shù)最多的情感類別,將該目標(biāo)詞標(biāo)注為這個類別;最后將w放入種子詞庫Train_Set作為新的種子詞繼續(xù)進行擴充。模型框架如圖2所示。

      該方法不同于傳統(tǒng)的相似度擴充法,KNN方法一次只能確定一個詞語的情感,雖然降低了效率,但可以有效避免傳統(tǒng)方法的迭代誤差,提高情感標(biāo)注的準(zhǔn)確率。另一方面,該方法對中性詞和非情感詞有較好的識別效果。特別是非情感詞,因為有了距離閾值的限制,非情感詞經(jīng)過相似度計算,理論上應(yīng)該找不到與其相似的種子詞,從而不對其進行情感標(biāo)注。endprint

      3 基于詞向量擴充藏文情感詞典的實現(xiàn)

      基于以上理論,本文將KNN方法應(yīng)用于藏文情感詞典的構(gòu)件中。為了驗證方法的有效性,本文同時實現(xiàn)了基于詞向量擴充情感詞典的另外兩種方法:權(quán)重增益法和SVM方法。權(quán)重增益法是基于目標(biāo)詞與整個種子詞庫的相似度來確定其情感分類;SVM方法是利用種子詞庫訓(xùn)練分類器從而對目標(biāo)詞進行情感分類。以便于實驗結(jié)果的對比和評估。

      3.1 實驗準(zhǔn)備

      3.1.1 種子詞庫建立

      從基準(zhǔn)情感詞典中按照情感極性(正、負、中)和情感強度(1、3、5、7、9)分為15個類,從每個類別中各選取具有代表性的100個詞語,共1500個詞語作為種子詞。

      3.1.2 目標(biāo)詞庫建立

      首先對訓(xùn)練語料進行去噪、分詞。藏文字符編碼范圍為“0F00~0FFF”,其中包括了九十個藏文特殊符號。然后用‘/作為分詞標(biāo)記,對文本進行分詞。然后針對分詞結(jié)果,查詢基準(zhǔn)詞典,如果當(dāng)前詞語不在基準(zhǔn)情感詞典中,則可以作為目標(biāo)詞。

      從語料中得到的目標(biāo)詞在實際擴充的時候才使用。在實驗階段要計算準(zhǔn)確率、召回率等指標(biāo)以衡量三種方法的效果,因此選擇了400個已知情感傾向的詞語作為目標(biāo)詞,其中褒義詞150個,貶義詞150個,中性詞100個。為了使模型具有較好的實際應(yīng)用效果,實驗中除了要衡量幾種方法對情感詞的識別效果,還要衡量方法對非情感詞的識別效果。因此,目標(biāo)詞庫中還包括了100個非情感詞。

      3.2 KNN方法在藏文情感詞典擴充上的應(yīng)用

      本文主要通過計算詞語間的余弦距離來實現(xiàn)藏文情感詞的擴充,其計算公式如(1)所示。

      如以上公式所示,y是目標(biāo)詞的向量表示,xi種子詞的向量表示,主要計算y和xi的cos值,如果cos值越大,說明兩個詞語越相似,經(jīng)過多次試驗,發(fā)現(xiàn)閾值大于0.6時效果最佳。實驗的步驟如圖3所示。

      核心算法描述如圖4所示。

      由于詞向量是從語料中獲取詞語的語義關(guān)系,因此skip-gram的輸入為已分詞訓(xùn)練語料,藏文語料的編碼格式為Unicode或UTF-8。本文在一萬多個已分詞的藏文文本上進行實驗,使用Word2vec工具訓(xùn)練詞向量,經(jīng)過多次試驗,發(fā)現(xiàn)詞向量維度為100,詞窗口大小為5的時候結(jié)果最優(yōu),共得到45469條藏文詞向量,將其以文本文檔的格式進行存儲。結(jié)果如表2所示。

      3.3 實驗結(jié)果分析

      本文對基于詞向量擴充情感詞典的幾種方法進行驗證,并選取最優(yōu)的KNN擴充法,并使用該方法從語料中自動擴充藏文情感詞,實驗結(jié)果如表3所示。

      該方法與SVM方法和權(quán)重遞增法的結(jié)果對比如圖5所示。

      實驗結(jié)果表明,本文提出的方法綜合效果最佳,有效避免了SVM方法對非情感詞識別效果差的問題,同時解決了權(quán)重遞增法不能支持情感多分類的問題。

      3.4 KNN方法擴充得到的藏文情感詞典

      基于以上的探討和實驗分析,本文選擇KNN方法在一萬多個藏文文本上進行擴充藏文情感詞。共得到了2000個正向情感詞,2000個負向情感詞,1739個中性情感詞。部分結(jié)果的截圖如圖6所示。

      4 總結(jié)

      本文在分析國內(nèi)外情感詞典擴充方法的基礎(chǔ)上,結(jié)合藏文本身的特點,提出了“基于詞向量的藏文情感詞典的構(gòu)建方法”,并選取最優(yōu)的KNN方法,其準(zhǔn)確率為71.22%,與另外兩種方法相比高出七到十個百分點,這充分說明KNN方法比較適用于擴充藏文情感詞。今后將進一步完善基準(zhǔn)詞典的質(zhì)量,擴大訓(xùn)練語料的范圍和類別,從而增加詞向量的規(guī)模和質(zhì)量,以便獲得更實用的藏文情感詞典。

      (通訊作者:高定國)

      參考文獻

      [1]梅莉莉,黃河燕等.情感詞典構(gòu)建綜述[J].中文信息學(xué)報,2016(30).

      [2]TURNEYP. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C].Proc of the 40th Annual Meeting of the Association for Computional Linuistics,2002:417-424.

      [3]QUAN Chang-qin,REN Fu-ji. Construction of a blog emotion corpus for Chinese emotional expression analysi[C].Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing; Volume 3,Association for Computational Linguistics,2009:1446-1454.

      [4]楊小平,張中夏,王良,等.基于Word2Vec的情感詞典自動構(gòu)建與優(yōu)化[J].計算機科學(xué),2017(44).

      [5]王科,夏睿.情感詞典自動構(gòu)建方法綜述[J].自動化學(xué)報,2016(42).

      [6]楊奎,段瓊瑾.基于情感詞典方法的情感傾向性分析[J].計算機時代,2017.

      [7]林思娟,林柏鋼,許為等.一種基于詞語能量值變化的微博熱點話題發(fā)現(xiàn)方法研究[J].信息網(wǎng)絡(luò)安全,2015(10):1671-1122.

      [8]楊陽,劉飛龍.基于詞向量的情感新詞發(fā)現(xiàn)方法[J].山東大學(xué)學(xué)報(理學(xué)版),2014(49).

      作者簡介

      巴桑卓瑪(1991-),女,研究生,主要研究方向為藏文信息處理。

      李苗苗(1988-),女,研究生,主要研究方向為藏文信息處理。

      高定國(1972-),男,藏族,教授,碩士,主要研究方向為藏文信息處理。

      作者單位

      西藏大學(xué)信息科學(xué)技術(shù)學(xué)院 西藏自治區(qū)拉薩市 850000endprint

      抚远县| 民丰县| 隆林| 汝阳县| 玛纳斯县| 布拖县| 兴海县| 五河县| 永安市| 新蔡县| 郁南县| 徐汇区| 博白县| 金川县| 海淀区| 登封市| 南汇区| 建始县| 平罗县| 永春县| 民权县| 武川县| 天津市| 余干县| 措勤县| 新沂市| 清徐县| 马尔康县| 武定县| 赣榆县| 洛川县| 溧阳市| 琼中| 阳高县| 广德县| 承德市| 固阳县| 仁怀市| 开江县| 肇东市| 乌苏市|