李婷玉,葛正榮,姚天昉
(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200240)
網(wǎng)絡(luò)技術(shù)的高速發(fā)展,宣告了信息時(shí)代的到來(lái)。如何將自己需要的信息從網(wǎng)絡(luò)上海量的數(shù)據(jù)中抽取出來(lái),已經(jīng)成為一個(gè)熱點(diǎn)研究方向。傳統(tǒng)搜索引擎的方法往往是依靠關(guān)鍵字的搜索,通過(guò)匹配來(lái)檢索出用戶(hù)所需要的信息和內(nèi)容。但是,關(guān)鍵字的匹配并不能很好地獲取用戶(hù)所需要的內(nèi)容,往往會(huì)夾雜著大量的無(wú)用信息,需要用戶(hù)人工篩選。而問(wèn)答系統(tǒng)(Question Answering)的出現(xiàn)有望代替原有的信息檢索技術(shù),使用戶(hù)能夠更方便地找到所要的信息。
傳統(tǒng)的問(wèn)答系統(tǒng)一般只針對(duì)比較簡(jiǎn)單的、基于事實(shí)的問(wèn)句,而隨著大量評(píng)論性信息的出現(xiàn),傳統(tǒng)的問(wèn)答系統(tǒng)回答這些情感問(wèn)題不再顯得有效。對(duì)此,Wiebe和Cardie等人首先實(shí)現(xiàn)了一個(gè)MPQA(Multi-Perspective Question Answering)系統(tǒng),它沒(méi)有專(zhuān)門(mén)對(duì)問(wèn)題進(jìn)行分類(lèi),而只是簡(jiǎn)單地采用人工的方法對(duì)情感問(wèn)題和基于事實(shí)的問(wèn)題進(jìn)行手工標(biāo)識(shí), 構(gòu)建了一個(gè)主觀(guān)性文本語(yǔ)料庫(kù),通過(guò)分析和抽取語(yǔ)料庫(kù)中的情感信息片段,回答情感問(wèn)題。Someasundaran和Wilson[1]等人在此基礎(chǔ)上,進(jìn)一步對(duì)情感的類(lèi)型體系進(jìn)行細(xì)分。 接著,Yu和Hatzivassibloglou[2]分別在篇章層和句子層對(duì)情感分類(lèi)做了研究。針對(duì)一個(gè)情感問(wèn)題,他們?cè)噲D在文本中尋找與問(wèn)題具有相同情感傾向的句子,然后根據(jù)這些情感句子產(chǎn)生答案,但是在情感問(wèn)題分析方面,僅僅只是對(duì)情感問(wèn)題的極性進(jìn)行了分類(lèi)。Kim和Hovy[3]專(zhuān)門(mén)對(duì)情感問(wèn)答系統(tǒng)中句子的情感持有者識(shí)別做了研究。Lun-Wei Ku和Hsin-His Chen[4]等人基于TREC-11和NTCIR等語(yǔ)料實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的情感問(wèn)答系統(tǒng)。
情感問(wèn)題分析是情感問(wèn)答系統(tǒng)中第一個(gè)處理步驟,它對(duì)于理解問(wèn)題的關(guān)鍵信息、提高檢索速度、縮小答案范圍等具有重要的意義。由于對(duì)漢語(yǔ)的搜索技術(shù)研究開(kāi)展地比較晚,再加上中文的復(fù)雜性,所以西方研究者所提出的一些方法與技術(shù)往往會(huì)“水土不服”。本文將重點(diǎn)研究非特定領(lǐng)域的情感問(wèn)題分類(lèi),從語(yǔ)法、語(yǔ)義、領(lǐng)域等不同層面分析并定義情感問(wèn)題的類(lèi)型。在語(yǔ)法層面,采用漢語(yǔ)語(yǔ)法的疑問(wèn)句式的分類(lèi)標(biāo)準(zhǔn);在語(yǔ)義層面,利用關(guān)鍵字等特征進(jìn)行分類(lèi);在領(lǐng)域?qū)用?,采用本體等工具確定領(lǐng)域。在此基礎(chǔ)上建立情感問(wèn)題類(lèi)型體系。接著篩選區(qū)分情感問(wèn)題和非情感問(wèn)題的敏感特征,這些特征可以來(lái)源于不同的語(yǔ)言層面。在完成情感問(wèn)題和非情感問(wèn)題分類(lèi)以后,針對(duì)情感問(wèn)題,采用情感問(wèn)題類(lèi)型體系對(duì)它進(jìn)行進(jìn)一步分類(lèi),確定問(wèn)題的關(guān)鍵信息(如命名實(shí)體)與預(yù)期候選答案的關(guān)系。
一般采用基于示例的指導(dǎo)性學(xué)習(xí)進(jìn)行問(wèn)題分類(lèi)時(shí),都按照疑問(wèn)短語(yǔ)來(lái)進(jìn)行[5],其主要方法有以下幾種:統(tǒng)計(jì)方法、規(guī)則學(xué)習(xí)、樹(shù)方法以及神經(jīng)網(wǎng)絡(luò)方法等。其中最常用的是統(tǒng)計(jì)方法,其次是規(guī)則學(xué)習(xí)和樹(shù)方法,而神經(jīng)網(wǎng)絡(luò)方法較少用。
在本次實(shí)驗(yàn)中,我們考慮從語(yǔ)法、語(yǔ)義、領(lǐng)域等層面分析并定義情感問(wèn)題的類(lèi)型。在語(yǔ)法層面,采用漢語(yǔ)語(yǔ)法的疑問(wèn)句式的分類(lèi)標(biāo)準(zhǔn);在語(yǔ)義層面,利用關(guān)鍵字等特征進(jìn)行分類(lèi);在領(lǐng)域?qū)用?,可以采用本體等工具確定領(lǐng)域。并在此基礎(chǔ)上建立情感問(wèn)題類(lèi)型體系。針對(duì)情感問(wèn)題,采用情感問(wèn)題類(lèi)型體系對(duì)它進(jìn)一步分類(lèi),確定問(wèn)題的關(guān)鍵信息和與預(yù)期候選答案的關(guān)系。
所以,總的來(lái)說(shuō),對(duì)于問(wèn)題的分析,最終將有三部分組成:
a) 語(yǔ)義層面的一些關(guān)鍵詞;
b) 語(yǔ)法層面的不同疑問(wèn)句類(lèi)型的分類(lèi);
c) 領(lǐng)域?qū)用骖I(lǐng)域的確定。
對(duì)于一般的文本來(lái)說(shuō),往往可以通過(guò)一些關(guān)鍵詞的搜索來(lái)進(jìn)行語(yǔ)義層面的分類(lèi)。但是問(wèn)題分類(lèi)有其特殊性,由于篇幅較小,一個(gè)問(wèn)題不超過(guò)20個(gè)語(yǔ)素,所以往往其語(yǔ)義不容易判斷。而對(duì)于情感問(wèn)題來(lái)說(shuō),它的問(wèn)題覆蓋面更狹窄,情感問(wèn)題往往是圍繞著一個(gè)情感表達(dá)事件來(lái)進(jìn)行提問(wèn)。因此只要將關(guān)于這個(gè)情感表達(dá)事件描述的關(guān)鍵詞抽取出來(lái),那么,就可以了解整個(gè)情感表達(dá)事件的大致意思。通過(guò)對(duì)大量情感問(wèn)題的觀(guān)察,我們認(rèn)為主要有以下幾個(gè)關(guān)鍵詞:
(1) 情感詞(sentiment word)
對(duì)于絕大多數(shù)情感問(wèn)題來(lái)說(shuō),帶有極性的形容詞或者動(dòng)詞往往是表達(dá)情感和看法用的最多的語(yǔ)素。因?yàn)樗鼛в幸欢ǖ那楦袃A向,而這些傾向則往往用來(lái)表達(dá)人對(duì)于事物的態(tài)度。本次實(shí)驗(yàn)利用《知網(wǎng)》(HowNet)情感詞辭典來(lái)判斷情感詞。
值得一提的是,大多數(shù)情感詞具有兩種詞性,一為形容詞,另一為動(dòng)詞。由于這兩種詞在句中的語(yǔ)法作用不同,所以往往要分開(kāi)標(biāo)記。
(2) 主題詞(target)
在情感問(wèn)題中,情感詞是用來(lái)修飾主題詞的,是為了對(duì)該主題表達(dá)一定的情感。在本次實(shí)驗(yàn)中,主要利用我們實(shí)驗(yàn)室已有的汽車(chē)主題庫(kù)進(jìn)行搜索[6]。
(3) 持有者(holder)
在情感問(wèn)題中,不同的人和團(tuán)體對(duì)于相同的主題可能抱有不同的情感和看法,因此持有者也應(yīng)該作為一個(gè)關(guān)鍵詞。
由于持有者可以是任何人、組織或者團(tuán)體,范圍很大,所以利用辭典不可能囊括。因此,還要加上語(yǔ)法上的判斷,比如動(dòng)詞前面很有可能就是情感的持有者,特別是建議性動(dòng)詞和情感動(dòng)詞。所以對(duì)于這兩者前面的名詞、代詞,和一些專(zhuān)有名詞,都認(rèn)為是情感持有者并提取出來(lái)。要注意的是,很多句子中會(huì)缺少情感持有者。
例如:吉普車(chē)安全嗎?
問(wèn)題的情感持有者被省略了。通過(guò)分析,本次實(shí)驗(yàn)中把情感持有者省略的狀況認(rèn)為是對(duì)于“你”的提問(wèn)。對(duì)于上例即看作“你認(rèn)為吉普車(chē)安全嗎?”
在本次實(shí)驗(yàn)中對(duì)于情感問(wèn)題分類(lèi)的語(yǔ)法層面研究主要向英語(yǔ)語(yǔ)法借鑒[7],將其分成兩大類(lèi),即一般疑問(wèn)句和特殊疑問(wèn)句。鑒于一般疑問(wèn)句的回答比較簡(jiǎn)單,所以不再細(xì)分。而特殊疑問(wèn)句首先與上一節(jié)抽取到的三個(gè)關(guān)鍵詞相對(duì)應(yīng)。用英語(yǔ)來(lái)表示即為:情感詞對(duì)應(yīng)“how”,主題詞對(duì)應(yīng)“what”,持有者對(duì)應(yīng)“who”。同樣問(wèn)原因“why”的特殊疑問(wèn)句也可以放在情感問(wèn)題的分類(lèi)里面,但是對(duì)于“where”和“when”這兩個(gè)問(wèn)地點(diǎn)和時(shí)間的特殊疑問(wèn)詞,則將它們舍去,因?yàn)樗鼈兛偸浅霈F(xiàn)在非情感問(wèn)題當(dāng)中,不在我們所討論的情感問(wèn)題范疇之內(nèi)。
情感問(wèn)題分類(lèi)如表1所示。
表1 情感問(wèn)題分類(lèi)表
情感詞類(lèi):這類(lèi)問(wèn)題是詢(xún)問(wèn)人或者團(tuán)體對(duì)于某一事件或事物的看法,而這類(lèi)問(wèn)題回答的要點(diǎn)總是在于情感詞,表2是幾種基本的問(wèn)句類(lèi)型。
表2 情感詞類(lèi)句式規(guī)則表
主題詞類(lèi):這類(lèi)問(wèn)題是詢(xún)問(wèn)人或者團(tuán)體什么事物或事件持有特定的看法,而這類(lèi)問(wèn)題回答的要點(diǎn)總是在于主題詞,表3是幾種基本的問(wèn)句類(lèi)型。
持有者類(lèi):這類(lèi)問(wèn)題是詢(xún)問(wèn)哪些人或團(tuán)體對(duì)某些事物或事件持有某種看法,而這類(lèi)問(wèn)題回答的要點(diǎn)總是在于持有者,表4是幾種基本的問(wèn)句類(lèi)型。
表3 主題詞類(lèi)句式規(guī)則表
表4 持有者類(lèi)句式規(guī)則表
原因類(lèi):這類(lèi)問(wèn)題是詢(xún)問(wèn)情感事件表達(dá)的原因,而這類(lèi)問(wèn)題的回答要點(diǎn)總是在于理由,表5是幾種基本的問(wèn)句類(lèi)型。
表5 原因類(lèi)句式規(guī)則表
一般疑問(wèn)句類(lèi):在情感問(wèn)題中,一般疑問(wèn)句常常詢(xún)問(wèn)某一情感表達(dá)事件的正確與否,而這類(lèi)問(wèn)題的答案一般只有兩種:正確或錯(cuò)誤。表6是幾種基本的問(wèn)句類(lèi)型。
從上述五種疑問(wèn)句類(lèi)型中可以總結(jié)出幾點(diǎn)情感問(wèn)題句式規(guī)律:
(1) 一般來(lái)說(shuō)主題詞和情感詞的位置可以互換,且不影響句子的表達(dá)。
(2) 一般來(lái)說(shuō)句子帶有持有者和建議性動(dòng)詞的,兩者可以省略,不影響句子的表達(dá)。
(3) 疑問(wèn)詞的不同和某種關(guān)鍵詞的缺失往往決定了句子的類(lèi)型。
表6 一般疑問(wèn)句句式規(guī)則表
對(duì)情感問(wèn)題的分析來(lái)看,決定這個(gè)問(wèn)題是屬于哪個(gè)領(lǐng)域最關(guān)鍵的是主題詞。主題詞往往決定了情感所針對(duì)的對(duì)象,這個(gè)對(duì)象屬于哪個(gè)領(lǐng)域則這個(gè)情感問(wèn)題也屬于該領(lǐng)域。在本次實(shí)驗(yàn)中,利用Google來(lái)進(jìn)行相關(guān)性的搜索。比如主題是“奔馳”,那么在Google中輸入“奔馳 汽車(chē)”,記錄其相關(guān)網(wǎng)頁(yè)數(shù)量,同時(shí)也輸入“奔馳 食物”,記錄其相關(guān)網(wǎng)頁(yè)數(shù)量,“汽車(chē)”和“食物”為領(lǐng)域。當(dāng)將主題詞和不同的領(lǐng)域的搜索引擎相關(guān)網(wǎng)頁(yè)數(shù)得到后,其中數(shù)值最大的領(lǐng)域便是這個(gè)主題的領(lǐng)域。對(duì)于問(wèn)題的領(lǐng)域,并不是說(shuō)要將其限定在某個(gè)領(lǐng)域中,而是將其歸納到某個(gè)領(lǐng)域中方便以后對(duì)答案進(jìn)行篩選等步驟,對(duì)于問(wèn)題本身沒(méi)有影響。
例如:對(duì)于主題“寶馬”的領(lǐng)域判斷,以下數(shù)據(jù)來(lái)源于www.google.com。
約有 19 100 000項(xiàng)符合 寶馬 汽車(chē) 的查詢(xún)結(jié)果
約有 9 730 000項(xiàng)符合 寶馬 食物 的查詢(xún)結(jié)果
約有 1 570 000項(xiàng)符合 寶馬 mp3 的查詢(xún)結(jié)果
可見(jiàn)寶馬與汽車(chē)的相關(guān)網(wǎng)頁(yè)最多,所以判斷寶馬屬于汽車(chē)領(lǐng)域。
從圖1來(lái)看,在語(yǔ)義、語(yǔ)法、領(lǐng)域三個(gè)方面,語(yǔ)義層次的分析最重要,它是一切的基礎(chǔ),關(guān)鍵詞的標(biāo)注是另外兩步的基礎(chǔ)。而語(yǔ)法層面和領(lǐng)域?qū)用嬖谀玫秸Z(yǔ)義分析的結(jié)果后則可以分別獨(dú)立執(zhí)行,最后將三個(gè)部分的結(jié)果整合輸出。
圖1 情感問(wèn)題分類(lèi)流程圖
本次實(shí)驗(yàn)對(duì)于每種疑問(wèn)句類(lèi)型準(zhǔn)備20句左右的測(cè)試語(yǔ)料,并按難度將其分成三等,對(duì)整個(gè)情感問(wèn)題分類(lèi)系統(tǒng)進(jìn)行測(cè)試,并且手工判斷其結(jié)果正確與否。最后的結(jié)果如表7所示。
從表7看來(lái),本次實(shí)驗(yàn)的結(jié)果一開(kāi)始不是十分理想,仔細(xì)觀(guān)察一些錯(cuò)位的句子,發(fā)現(xiàn)主要有以下幾個(gè)主要問(wèn)題:
例1:哪些人覺(jué)得寶馬車(chē)是最舒適的跑車(chē)?
這句問(wèn)題,系統(tǒng)的類(lèi)型判斷正確,但是對(duì)于情感詞的提取則不夠精確,系統(tǒng)提取了“舒適”而不是“最舒適”,而“最”、“不”、“比較”這類(lèi)副詞對(duì)于后續(xù)研究中對(duì)于答案的搜索有著至關(guān)重要的作用,所以應(yīng)該將情感形容詞前的副詞一并加入情感詞輸出。
例2: 為什么人們覺(jué)得奧迪漂亮安全?
該句疑問(wèn)句分類(lèi)正確,但是對(duì)于情感詞的提取不夠全面,系統(tǒng)提取了“漂亮”,但是“安全”則被忽略了。在情感問(wèn)題中,常常有這一類(lèi)問(wèn)題,其主題擁有多個(gè)情感詞。應(yīng)該將并列的情感詞一起輸出。
表7 情感問(wèn)題分類(lèi)系統(tǒng)實(shí)驗(yàn)結(jié)果
修改了以上一些問(wèn)題之后,用新的系統(tǒng)來(lái)進(jìn)行測(cè)試,結(jié)果有了很大的改善,對(duì)于簡(jiǎn)單和中等的情感問(wèn)題處理得比較理想。但是,對(duì)于困難的情感問(wèn)題,處理起來(lái)仍有些吃力,主要是由于漢語(yǔ)隨意性較強(qiáng),句型、詞性等在不同的情況下都可以有不同的變化。
本文對(duì)情感問(wèn)題分類(lèi)進(jìn)行研究,從語(yǔ)義、語(yǔ)法和領(lǐng)域三個(gè)方面對(duì)其進(jìn)行分類(lèi)。語(yǔ)義上挑選出三種關(guān)鍵詞;在語(yǔ)法上,將問(wèn)題分成五種類(lèi)型,并制定相應(yīng)的規(guī)則,對(duì)其進(jìn)行分類(lèi);在領(lǐng)域上,利用網(wǎng)絡(luò)搜索引擎得到結(jié)果進(jìn)行分類(lèi)。實(shí)驗(yàn)的結(jié)果比較理想。經(jīng)過(guò)實(shí)驗(yàn),我們認(rèn)為漢語(yǔ)情感問(wèn)題分類(lèi)最關(guān)鍵的部分還是在語(yǔ)法層面,如果能將每個(gè)詞在句子中所起到的作用分析清楚并且在系統(tǒng)中很好地加以識(shí)別,分類(lèi)會(huì)方便很多。
綜上所述,可以看出:漢語(yǔ)情感問(wèn)答系統(tǒng)作為一個(gè)新興的搜索引擎發(fā)展方向,對(duì)其的研究才剛剛起步,不管是理論上還是工程上,仍有很大的提升空間。
[1] SOMASUNDARAN S, WILSON T, WIEBE J, et al. QA with attitude: exploiting opinion type analysis for improving question answering in on-line discussions and the news[C]//Proceedings of the International Conference on Weblogs and Social Media. Boulder, Colorado,USA, 2007.
[2] YU H, HATZIVASSILOGLOU V. Towards answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. Sapporo, Japan, 2003: 129-136.
[3] Kim, S-M and Hovy, E. Identifying Opinion Holders for Question Answering in Opinion Texts[C]//Proceedings of AAAI-05 Workshop on Question Answering in Restricted Domains.2005.
[4] Lun-Wei Ku etc. Question Analysis and Answer Passage Retrieval for Opinion Question Answering Systems[C]//Computational Linguistics and Chinese Language Processing Vol.13,No.3, September 2008: 307-326.
[5] 鄭實(shí)福,劉挺,秦兵,等.自動(dòng)問(wèn)答綜述[J].中文信息學(xué)報(bào),2002,16(6):46-52.
[6] 姚天昉,聶青陽(yáng),李建超,等. 一個(gè)用于漢語(yǔ)汽車(chē)評(píng)論的意見(jiàn)挖掘系統(tǒng)[C]//中文信息處理前沿進(jìn)展-中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集. 北京:清華大學(xué)出版社,2006,260-281.
[7] 張剛,劉挺,鄭實(shí)福,等.開(kāi)放域中文問(wèn)答系統(tǒng)的研究與實(shí)現(xiàn)[C]//哈爾濱工業(yè)大學(xué)信息檢索研究室論文集,第一卷,2003.