楊欣 群諾 郭龍銀 孟姚媛
摘? 要: 針對(duì)藏文情感分析的要求,建立藏文情感語料庫。建庫主要分三大步驟,爬取原始語料、開發(fā)標(biāo)注平臺(tái)、建立結(jié)構(gòu)化語料。在標(biāo)注體系上,糅合并參考英文和中文中相對(duì)優(yōu)秀的情感語料庫的標(biāo)注體系的優(yōu)點(diǎn),結(jié)合藏文情感文本的特點(diǎn),建立藏文情感語料標(biāo)注規(guī)范。實(shí)驗(yàn)表明,該語料庫具有擴(kuò)展性和實(shí)用性,在該標(biāo)注平臺(tái)上標(biāo)注藏語詞句能減輕標(biāo)注人員工作量,同時(shí)有效建立結(jié)構(gòu)化語料,滿足情感分析需求。
關(guān)鍵詞: 藏文; 情感語料庫; 標(biāo)注平臺(tái); 情感標(biāo)注
中圖分類號(hào):TP319? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2019)09-05-03
Construction and analysis of Tibetan emotional corpus
Yang Xin, Qun Nuo, Guo Longyin, Meng Yaoyuan
(School of Information Science and Technology, Tibet University, Lhasa, Tibet 850000, China)
Abstract: A Tibetan emotional corpus was established for the requirements of Tibetan sentiment analysis. There are three main steps in building a database, crawling the original corpus, developing an annotation platform, and establishing a structured corpus. On the labeling system, combines the advantages of the labeling system of the relatively good emotional corpus in English and Chinese, and combines the characteristics of Tibetan emotional text to establish the Tibetan emotional corpus labeling specification. Experiments show that the corpus is extensible and practical, and labeling Tibetan words and phrases on the labeling platform can reduce the workload of the labeling staff, and effectively establish structured corpus to meet the needs of sentiment analysis.
Key words: Tibetan; emotional corpus; labeling platform; sentiment tagging
0 引言
語料庫是存儲(chǔ)于計(jì)算機(jī)中并可利用計(jì)算機(jī)進(jìn)行檢索、查詢、分析的語言素材總體[1]。隨著互聯(lián)網(wǎng)的發(fā)展,藏語情感語料層出不窮,例如從電子書上的文章,社交軟件的信息,論壇網(wǎng)站和app上的評(píng)論,這些信息帶有復(fù)雜的情感傾向。收集和訓(xùn)練這些語料,將其作為情感分析的語料庫,在實(shí)際中可用于輿情監(jiān)測(cè)和輿情分析。在文本情感語料庫建設(shè)方面,目前已有的英文語料庫包括Pang語料庫[2],Whissell語料庫[3],Berardinelli電影評(píng)論語料庫[4],產(chǎn)品評(píng)論語料庫[5]等等。但是藏文的情感分析研究目前還處于初步階段,沒有統(tǒng)一的情感語料庫標(biāo)注規(guī)范,也沒有統(tǒng)一的測(cè)試標(biāo)準(zhǔn),因此構(gòu)建一個(gè)良好規(guī)范體系的藏文情感語料庫已成為研究的首要任務(wù)。本文制定藏文情感語料庫的標(biāo)注規(guī)范,設(shè)計(jì)并實(shí)現(xiàn)藏文情感標(biāo)注平臺(tái),建立結(jié)構(gòu)化語言,為后續(xù)的研究工作提供基礎(chǔ)條件。
1 原始語料收集
我們使用爬蟲進(jìn)行網(wǎng)站上的信息收集。我們使用Python3制作腳本,我們分析網(wǎng)頁結(jié)構(gòu),找到想要數(shù)據(jù)的地址,分析出數(shù)據(jù)地址與html5其他標(biāo)簽的不同。之后,我們?cè)偈褂谜齽t表達(dá)式精準(zhǔn)匹配到我們所需要資源的地址,從而得到相應(yīng)的數(shù)據(jù),最后清洗數(shù)據(jù),將非藏文的其他語言去除。
2 語料庫的標(biāo)注體系
語料庫是以是以自然交互的方式產(chǎn)生的機(jī)器可讀文本的集合[1]。而情感語料庫是將文本的語義和情感一一單獨(dú)標(biāo)注使得具有標(biāo)注性質(zhì)的機(jī)器可讀,且情感的標(biāo)注要有限的種類和明確的情感傾向性。
標(biāo)注要有相應(yīng)的規(guī)范,而在情感標(biāo)注規(guī)范中,對(duì)情感種類和傾向性也有要求,如果類別劃分過粗,就不能全面、細(xì)致地描述語言的復(fù)雜現(xiàn)象;但如果類別劃分過細(xì)、標(biāo)注信息過于龐大,不但會(huì)增加標(biāo)注難度、降低標(biāo)注效率,關(guān)系之間只有細(xì)微差別的情況也會(huì)使標(biāo)注結(jié)果呈現(xiàn)嚴(yán)重的不一致性[6]。因此需要權(quán)衡現(xiàn)有的情感分析的要求和標(biāo)注規(guī)范的局限性,而為了保證情感傾向的直接性以及標(biāo)注的快速性和單文本的數(shù)量,我們選擇句子級(jí)別的情感標(biāo)注。
在標(biāo)注規(guī)范的基礎(chǔ)上,我們確立標(biāo)注體系,即情感種類和結(jié)構(gòu)化的標(biāo)注,情感種類參考大連理工大學(xué)的情感語料標(biāo)注種類共分8大類和21小類。
在情感類別劃分之后,標(biāo)注也有諸多問題。例如??????????????????????????????????????????????????????????????(今天,我要給妻子一個(gè)驚喜)對(duì)于情感所有者以及句子整體而言更適合標(biāo)注為“好”。還有情感類別可能不僅僅是一種,例如????????????????????????????????????????????????????????????????????????????????????????????????????????(這個(gè)禮物太驚喜了,我期望很久了,好感動(dòng)),對(duì)于這類句子,情感類別應(yīng)該比較出程度最高的,對(duì)于情感標(biāo)注而言禮物若是滿足人的需求的更傾向于“樂”,若是滿足人的遺憾的,更傾向于“好”。綜合體系和要求,我們?cè)O(shè)計(jì)了如下的句子模型Sentence(line_index,topic,source,time,owner,recipient,label,rehetorical,degree_word,negative _word,sentence,)。句子模型描述了語料庫需要收集的信息。Line_index就是給所標(biāo)的句子賦予主碼,topic為評(píng)論主題或文章題目,sourse為來源地,time為標(biāo)記時(shí)間,owner為情感所有者,recipient為情感接受者,label為情感類別(可以不止一個(gè)排序由高到低),rehetorical修辭方法,degree_word程度副詞,negative_word否定詞,sentence為句子主題。
3 結(jié)構(gòu)化語言
標(biāo)注結(jié)果的保存方式有很多種,常見的有數(shù)據(jù)庫保存(其容量很大滿足構(gòu)建大語料庫的需求)和格式文件保存(xml等),本文利用xml格式文件保存標(biāo)注后的結(jié)果。Xml文件的結(jié)構(gòu)化使得文本標(biāo)注簡(jiǎn)潔而明了,利用Python的xml庫可以很方便地寫XML文件和解析XML文件,xml首先將XML文件讀人內(nèi)存,然后在內(nèi)存構(gòu)建一個(gè)樹狀結(jié)構(gòu),通過遍歷這棵樹可以快速地得到每一個(gè)節(jié)點(diǎn)的值[3]。xml庫,所建立的結(jié)構(gòu)如下:
<?xml version="1.0" encoding="UTF-8"?>
第一行表示xml版本以及編碼格式。藏文適用于utf-8,格式為一個(gè)標(biāo)注屬性的開始和結(jié)束,senti_corpus為根元素,為子元素。
4 情感標(biāo)注平臺(tái)的設(shè)計(jì)
情感標(biāo)注平臺(tái)主要是顯示語料、標(biāo)注語料以及存儲(chǔ)成結(jié)構(gòu)化語言,具體流程如圖3,顯示語料:打開語料,遍歷其中的所有文本,文本內(nèi)容直接顯示在屏幕上。標(biāo)注語料:在平臺(tái)的右側(cè)有標(biāo)注標(biāo)簽,各標(biāo)簽文本框用藏文顯示屬性的所有取值并用數(shù)字排列,但topic、source在打開文本時(shí)根據(jù)文本名和文件夾名生成,Line_index、time將在存儲(chǔ)時(shí)產(chǎn)生,便于標(biāo)注人員的工作,標(biāo)注人員只需按順序?qū)?biāo)注屬性名和屬性中的數(shù)字編號(hào)依次寫下,導(dǎo)出時(shí)后臺(tái)自動(dòng)在每一句后面識(shí)別標(biāo)簽并轉(zhuǎn)換成xml文檔。平臺(tái)具體窗口如圖4。
5 實(shí)驗(yàn)分析
從網(wǎng)站獲取的藏語語料有效度較低,內(nèi)容極為雜亂,有效語料不足總體的30%。綜合總有效預(yù)料為23444條。為了測(cè)試本文設(shè)計(jì)的標(biāo)注平臺(tái),總共標(biāo)了4723條語句,其中無情感語句占到54%,懼和驚占比較少,分別為4%和2%。其中每一個(gè)類別包含的語句數(shù)目如圖5所示。
實(shí)驗(yàn)結(jié)果顯示,本語料庫的標(biāo)注體系具有可擴(kuò)展性且歧義較少,平臺(tái)的顯示、標(biāo)注、存儲(chǔ)功能無誤,較大程度的降低了標(biāo)注人員的工作量。
6 結(jié)束語
本語料庫收集了23444條,已標(biāo)注語句4723條,確立了標(biāo)注規(guī)范和體系,開發(fā)了人工標(biāo)注平臺(tái), xml語料已投入極性情感分析。但構(gòu)建大型的語料庫才能提高情感分析算法的有效性和研究深度。本語料目前較大的問題在于藏文的否定詞、程度詞、修辭手法概括不足,需要標(biāo)注人員匯報(bào)整理,本文還將繼續(xù)擴(kuò)充語料,加入質(zhì)量檢測(cè),優(yōu)化標(biāo)注平臺(tái)功能以提高標(biāo)注速度,如有需求也會(huì)改善標(biāo)注體系,進(jìn)一步切合藏文語種,改善xml文檔。總之,本語料庫將為深度情感分析的研究而不斷努力和改善。
參考文獻(xiàn)(References):
[1] 徐琳宏,林鴻飛,趙晶.情感語料庫的構(gòu)建和分析[J].中文信息學(xué)報(bào),2008.1:116-122
[2] http://www.cs.cornell.edu/People/pabo/movie-reviewdata/[DB/OL].
[3] Theologos Athanaselis,Stelios Bakamidis,and Ioannis- Dologlou.Recognizing Verbal Content of Emotionally-Colored Speech [A].European Signal Processing-Conference[C]. 2006.
[4] http://www.reelviews.net/[DB/OL].
[5] http://epinions.com/[DB/OL].
[6] Zhou X.,Hu X.,Zhang X..Using Concept-BasedIndexing to Improve Language Modeling Approach toGenomic IR[ A]. ECIR 2006[ C]. LNCS 3936,2006:444-455
[7] 伊爾夏提·吐爾貢,吾守爾·斯拉木,熱西旦木·吐爾洪太,于清.維吾爾文情感語料庫的構(gòu)建與分析[J].中文信息學(xué)報(bào),2017.31(1):177-183,191