楊 源,林鴻飛
(大連理工大學 信息檢索研究室,遼寧 大連 116024)
近些年來,產(chǎn)品評論的傾向性分析一直是一個熱點研究問題,具有很大的現(xiàn)實意義,不僅可以讓顧客更全面的了解產(chǎn)品信息,也為商家及時了解顧客的意見提供了幫助。產(chǎn)品評論中句式多種多樣,條件句占了很大比重,Narayanan等人[1]對英文評論中條件句(包含情感傾向為中性的)所占的比重進行了簡單的調(diào)查,大約占句子總量的8%左右。本文在語料采集過程中,也對中文評論中的條件句數(shù)量簡單調(diào)查了一下,含有情感傾向的條件句超過了句子總量的6%,所以,研究條件句的傾向性分析很有意義。
條件句傾向性分析屬于產(chǎn)品屬性傾向性分析的范疇,在這個領(lǐng)域,已經(jīng)有很多人從不同角度進行了研究。Hu等人[2]自動獲取了評論中的產(chǎn)品屬性以及情感詞,但是這些情感詞主要是形容詞。Popesu等人[3]在Hu的基礎(chǔ)上,選用了更多的詞性作為情感詞,得到了比Hu更好的結(jié)果。Popesu和Hu在分析屬性傾向性時沒有考慮句式的影響,在“如果覺得諾基亞不好,那么建議你買三星”這句評論中,沒有“如果……那么”,諾基亞的情感是負的,加上了“如果……那么”,諾基亞的情感是中性的。Liu等人[4]發(fā)現(xiàn)比較句對產(chǎn)品的觀點表達有很大意義,并對比較句和比較關(guān)系進行了抽取。Ganapathibhotla等人[5]后來在Liu的基礎(chǔ)上,分析了比較句中的屬性傾向性。宋銳等人[6]結(jié)合中文的特點,在抽取比較關(guān)系[7]的基礎(chǔ)上,分析了屬性傾向性。Liu、Ganapathibhotla以及宋銳考慮了特殊句式,對比較句進行了分析。條件句和比較句不同,有其自身的特點,不能把處理比較句的方法簡單的引入到條件句中。Narayanan分析了英文評論中的條件句,根據(jù)時態(tài)把條件句分為四類,但是時態(tài)特征在中文處理中并不適用,另外Narayanan也沒有考慮條件句的識別以及隱式條件句的分析。
本文在前人工作的基礎(chǔ)上,對中文產(chǎn)品評論中的條件句進行識別,并分析其傾向性??紤]了不含有條件連接詞的隱式條件句,并從中抽取出體現(xiàn)條件關(guān)系的隱式條件詞。在識別條件句時,主要利用條件連接詞和隱式條件詞及其詞性以及類序列規(guī)則進行分類。在分析傾向性時,依據(jù)條件連接詞和隱式條件詞把條件句分為假設(shè)條件句、讓步條件句、特定條件句和無條件句四類,并把條件句的類別用于SVM分類。本文的結(jié)構(gòu)安排如下: 第2節(jié)介紹相關(guān)術(shù)語,第3節(jié)介紹條件句的語言學特征,第4節(jié)介紹條件句識別以及傾向性分析所選的特征和分類策略,第5節(jié)介紹實驗結(jié)果和相關(guān)分析。
屬性: 實驗語料選取手機評論,用屬性表示手機的一些具體特征,如屏幕、按鍵等,手機型號或品牌也屬于屬性的范圍。
條件連接詞: 把像“如果……那么”這樣表示條件關(guān)系的詞稱為條件連接詞。
顯式條件句和隱式條件句: 含有條件連接詞的稱為顯式條件句,不含有條件連接詞的稱為隱式條件句。
隱式條件詞: 隱式條件句中通常含有一些體現(xiàn)條件關(guān)系的詞,稱之為隱式條件詞。
情感傾向性: 用消極和積極來表示傾向性。Narayanan等人采用了積極、消極和中立三種類別,本文選取語料時,過濾了中立的部分,進行二值分類。
條件從句和結(jié)果從句: 條件句分為兩個部分,條件部分稱為條件從句,結(jié)果部分稱為結(jié)果從句。
條件引導(dǎo)詞和結(jié)果引導(dǎo)詞: 像“如果”這樣的引導(dǎo)條件從句的詞稱為條件引導(dǎo)詞,像“那么”這樣的引導(dǎo)結(jié)果從句的詞稱為結(jié)果引導(dǎo)詞。
條件句是漢語中比較常用的句式,其語言特點可以為條件句傾向性分析提供重要的特征。下面詳細介紹一下條件句的一些語言特點。
產(chǎn)品評論中的條件句主要是顯式條件句,含有條件連接詞,這些詞體現(xiàn)了條件關(guān)系。
“如果……那么”是最具代表性的條件連接詞,“如果”引導(dǎo)條件從句,“那么”引導(dǎo)結(jié)果從句,如引言中所舉的例子,條件連接詞會影響屬性的傾向性。條件句中的整體情感往往與結(jié)果從句的情感相一致。
有些條件句會省略條件引導(dǎo)詞,有些條件句會省略結(jié)果引導(dǎo)詞。例如“如果你覺得諾基亞不好看,還是買三星吧”。
漢語中還有很多其他的條件連接詞,如“只要……就”、“只有……才”等。
常用的條件連接詞有限,在總結(jié)的基礎(chǔ)上手工建立了一個表。
隱式條件句中沒有條件連接詞,但是含有一些體現(xiàn)條件關(guān)系的隱式條件詞,表1是隱式條件句傾向性分析的例子。
表1 隱式條件句傾向性分析舉例
續(xù)表
表1所舉的例子都是隱式條件句,都是通過隱式條件詞來表示條件關(guān)系的,下面詳細介紹隱式條件詞。
“本來”是對結(jié)果從句的虛擬,“本來”引導(dǎo)的句子后面往往會有對這一原因的解釋,暗含這樣一種語義,如果不是后面闡述的原因,虛擬的結(jié)果就會成為現(xiàn)實。
“將會”、“將”除了對將來情況的一般表述之外,也可以引導(dǎo)結(jié)果從句,這時并不表示一種將來的情況,而是表示一種推測,一種假設(shè),當然也可以反映出一種情感,一種傾向。
“……的時候”、“有時”和“有時候”等是表示時間的詞,在漢語表達中,它們更多的是表示一種條件,反映一種情況,引導(dǎo)條件從句。
“不得不”通常在條件從句中,有時會省略結(jié)果從句,暗含一種如果不說,心里就會不痛快的情感傾向。也可以理解為“如果不……將會……”的意思。
“再”、“再次”表示一種假設(shè)的條件,常用在表示某人再做某事,或者某種情況再發(fā)生時,這種再次發(fā)生的事情并不一定真的發(fā)生,只是一種假設(shè)的情況,說明一種條件,如表1中的舉例就只是假設(shè)一種條件。
“……的話”經(jīng)常跟“如果”同時使用,是一種口語化的表達,但是有些條件句省略了“如果”,這時就可以用它來表示條件關(guān)系了。
“幸好”表達這樣一種語義: 如果不是這樣就后悔死了。也可以表示一種假設(shè)的條件關(guān)系。
“不然”、“不這樣”、“否則”通常引導(dǎo)結(jié)果從句,可以解釋為“如果不……就”,所以當然可以表示條件關(guān)系了。
隱式條件征詞不僅在隱式條件句中出現(xiàn),在顯式條件句中也大量出現(xiàn),跟條件連接詞一起表示條件關(guān)系,如“如果你再買手機的話,千萬不要買三星了”。句中“如果”和“再”以及“……的話”一起出現(xiàn),這是口語化表達的一個特點。
在抽取隱式條件詞時,采用了三種方式: 首先,手工總結(jié)了一個隱式條件詞表;其次,通過《同義詞詞林》[8],擴充了一些同義詞;最后,根據(jù)隱式條件詞與條件連接詞經(jīng)常共現(xiàn)的特點,自動從語料中抽取了一些在條件連接詞附近,與條件連接詞共現(xiàn)頻率高的詞,如“即使……也”經(jīng)常與“仍然”同時出現(xiàn)。當然,與條件連接詞同時出現(xiàn)的還有很多其他的詞,如產(chǎn)品品屬性和情感詞,所以抽取時只抽取了連詞、副詞和介詞和一些表達,然后去除了停用詞、情感詞等不可能是隱式條件詞的詞。
中文條件句一般可分為假設(shè)條件句、特定條件句和無條件句三類[9]。為了屬性傾向性分析的需要,把假設(shè)條件句中含有讓步成分的條件句單獨分離出來,作為一類,定義為讓步條件句。把條件句分為假設(shè)條件句、讓步條件句、特定條件句和無條件句四類,并非是對中文條件句的語義關(guān)系進行可以劃分,而是為了更好的分析屬性傾向性,所以這與條件句通常的三類分法并不矛盾。表2是部分條件連接詞與隱式條件詞分類實例。
表2 部分條件連接詞與隱式條件詞分類表
條件句分類主要是根據(jù)條件連接詞和隱式條件詞,下面詳細介紹條件句的四種分類。
假設(shè)條件句: 假設(shè)條件句中條件從句通常指出一種假設(shè)的條件,結(jié)果從句說明在這種條件下會出現(xiàn)的結(jié)果。假設(shè)條件句通常用“如果……那么”、“假如”、“倘若”等條件連接詞來表達。假設(shè)條件句中條件從句和結(jié)果從句通常具有一致的情感,如“如果諾基亞N73的屏幕不好,我就不買了”,條件從句和結(jié)果從句對N73的屏幕都持消極情感。
讓步條件句: 讓步條件句的條件從句通常指出一種讓步的條件,用“即使……也”、“縱然”、“盡管”等條件連接詞來表達,讓步條件句中條件從句和結(jié)果從句往往具有不一致的情感,如“即使三星的按鍵不好用,我也喜歡三星”,條件從句對三星持消極情感,結(jié)果從句對三星持積極情感,這也是本文把讓步條件句從假設(shè)條件句中分離出來單獨歸類的原因,這樣做更有利于屬性傾向性的判別。
特定條件句: 特定條件句的條件從句通常表示的是一種特定的、單一的條件,結(jié)果從句表示在這一特定條件下的結(jié)果。特定條件句通常用“只有……才”、“只要……就”等條件連接詞來表達。
無條件句: 無條件句的條件從句通常給出的是一種泛化的條件,結(jié)果從句表示的是這種泛化條件下的結(jié)果。無條件句通常用“無論……都”、“不管”等條件連接詞來表達。無條件句的傾向性通常由結(jié)果從句來決定,例如“無論其他品牌手機的外觀怎樣,三星的外觀設(shè)計都有自己的獨到之處”,結(jié)果從句表達的是對三星手機外觀的積極情感。
條件句分類主要根據(jù)條件連接詞和隱式條件詞,常用的條件連接詞有限,顯式條件句可以根據(jù)條件連接詞表分類,隱式條件句的分類分為兩種情況: 一種是含有手工獲得的隱式條件詞及其同義詞,可以類比顯式條件句直接分類;另一種只含有自動抽取的隱式條件詞,根據(jù)抽取時與其共現(xiàn)的條件連接詞進行分類。
對產(chǎn)品評論中的條件句進行分析,首先要識別出條件句,Jindal等人[10]做了許多比較句識別的工作,條件句的識別與比較句有類似的地方,僅通過條件連接詞和隱式條件詞,在條件句識別實驗中就得到了很高的召回率,但是準確率不高,因此,可以把條件句的識別分為兩步:
(1) 識別出含有條件連接詞和隱式條件詞的句子,作為候選條件句;
(2) 把候選條件句進一步處理分類,得到真正的條件句。
第一步比較容易實現(xiàn),下面主要介紹第二步。
觀察候選條件句中非條件句的句子,發(fā)現(xiàn)這些句子中含有的條件連接詞和隱式條件詞的詞性與條件句中的詞性不同,如表3所示,其中詞性標注使用中國科學院的分詞工具ICTCLAS[11]。
表3 條件連接詞和隱式條件詞詞性不同舉例
表3中,兩個例句的“那么”詞性不一樣,第一句是條件句,而第二句不是條件句,候選條件句中有很多這樣的句子。對于這些句子,可以把詞性加入分類特征來解決。
但是有些非條件句中,條件特征詞和隱式條件詞的詞性與條件句相同,如表4所示。
表4 條件連接詞和隱式條件詞詞性相同舉例
表4中第一句是條件句,第二句不是,兩句中“會”的詞性相同,仔細觀察發(fā)現(xiàn)周圍使用的詞不同,根據(jù)這一特點,采用類序列規(guī)則的方法可以幫助條件句的識別。這時需要把條件連接詞和隱式條件詞分為條件引導(dǎo)詞和結(jié)果引導(dǎo)詞兩類,分別用TJ和JG表示。條件連接詞以及手工獲取的隱式條件詞的分類比較直觀,對于自動抽取的隱式條件詞,根據(jù)抽取時與其共現(xiàn)的條件連接詞進行分類。引導(dǎo)詞周圍的詞只取詞性,因為條件句與非條件句中引導(dǎo)詞周圍的詞相差很大,只選取了引導(dǎo)詞左右各一個詞,如“你喜歡外觀漂亮的手機的話,那么我推薦諾基亞N73”得到的序列為{w}{JG}{r}。
識別條件句時,采用樸素貝葉斯模型進行分類,
(1)
公式(1)中s表示一條句子,ci表示句子的類別,C表示句子s的類別,Aj表示句子中的一個特征,aj表示特征的取值。
公式(2)是公式(1)中P(Aj=aj|C=ci)的計算公式,其中nij是同時滿足Aj=aj和C=cj的句子數(shù),ni是類別為ci的句子數(shù),mj是Aj可能取值的總數(shù),λ是平滑因子,實驗中取λ=1。
通過公式(1)分別算出一個句子是條件句和非條件句的概率,取概率大的作為該句子的類別。
條件句中出現(xiàn)多種屬性時,由于句式比較復(fù)雜,分析起來比較困難,暫時只考慮單一屬性的句子,把多種屬性的分析作為下一步的工作。但是有兩種情況也按照單一屬性處理: 一種是手機型號或品牌與具體特征同時出現(xiàn)的時候,只考慮具體特征;另一種情況是句中出現(xiàn)兩個屬性,其中一個屬性的傾向性在條件句中按中性處理,不加考慮,如“如果覺得諾基亞不好,那么建議你買三星”,只考慮三星,不考慮諾基亞,認為諾基亞的情感是中性。
Narayanan等人分析英文條件句傾向性時,采用了svm分類的方法,采用了普通句式中分析傾向性的特征,如否定詞、情感詞等,并根據(jù)時態(tài)把條件句分為四類,用于傾向性分類。然而時態(tài)特征在中文分析中不適用,根據(jù)漢語的特點,可以根據(jù)條件連接詞以及隱式條件詞把條件句分為假設(shè)條件句、讓步條件句、特定條件句和無條件句四類,用于條件句傾向性分析。下面簡單介紹一下除了條件句類別特征之外的其他特征,這些特征是屬性傾向性分析中經(jīng)常采用的特征。
(1) 情感詞。實驗采用大連理工大學信息檢索研究室的情感詞匯本體[12](以后簡稱為情感詞匯本體)進行情感詞的識別以及情感詞傾向性的分析,另外,有些情感詞的傾向性和手機屬性相關(guān)聯(lián),主要根據(jù)手工建立的手機屬性和情感詞搭配表來解決這部分情感詞的傾向性問題,如表5所示。
表5 屬性和情感詞搭配表示例
(2) 副詞。副詞總是和情感詞緊密聯(lián)系在一起的,雖然情感詞匯本體中已經(jīng)包含了一定數(shù)量的副詞可以用來表達傾向性,還有一些副詞,如“特別”、“簡直”等會加重所修飾情感詞的強度,本文也把這些副詞作為特征的一部分。
(3) 否定詞。在屬性傾向性判別中,否定詞是一類重要特征,否定詞的出現(xiàn)會改變傾向性的極性,主要考慮情感詞周圍3個詞之內(nèi)的否定詞。
(4) 手機屬性的位置。手機屬性的識別采用查表的方式,屬性的位置特征是指屬性是出現(xiàn)在條件從句中或者是結(jié)果從句中。這是Narayanan等人采用的一個特征。
條件句是根據(jù)條件連接詞和隱式條件詞進行分類的,所以這兩類詞也是重要特征,只是與類別特征產(chǎn)生重復(fù),實驗中在baseline特征集的基礎(chǔ)上分別加入這兩類特征,進行了比較。
實驗語料是來自IT168網(wǎng)站[13]的2 300條句子,其中1 112條是條件句,條件連接詞或隱式條件詞都是分類的關(guān)鍵詞,簡稱為關(guān)鍵詞,實驗分為四個部分。
(1) 利用是否含有關(guān)鍵詞來抽取條件句。
(2) 利用關(guān)鍵詞的詞性進行貝葉斯分類。
(3) 利用關(guān)鍵詞抽取的類序列規(guī)則進行貝葉斯分類,類序列規(guī)則抽取的最小支持度設(shè)為5%。
(4) 利用關(guān)鍵詞的詞性以及類序列規(guī)則進行貝葉斯分類。
實驗結(jié)果如圖1所示。
圖1 條件句識別實驗結(jié)果
從圖1中可以看到,在識別條件句時,利用關(guān)鍵詞的詞性進行分類以及利用關(guān)鍵詞抽取的類序列規(guī)則進行分類,都比僅利用是否含有關(guān)鍵詞來抽取條件句要得到更好的準確率,雖然召回率下降,但是F值卻提高了,另外利用關(guān)鍵詞抽取的類序列規(guī)則進行分類的結(jié)果要好于利用關(guān)鍵詞的詞性進行分類的結(jié)果,因為不同詞性的關(guān)鍵詞得到的類序列規(guī)則也不同,當同時考慮詞性和類序列規(guī)則時,得到了最好的結(jié)果。
實驗語料是來自IT168網(wǎng)站的1 109條條件句評論,采用一定的規(guī)則進行抽取,再進行手工標注,實驗語料全部是有關(guān)手機的評論,其中762條為顯式條件句,347條為隱式條件句,條件句為顯式或隱式,主要看該句是否含有條件連接詞,同一類的顯式或隱式條件句對屬性傾向性的表達類似,隱式條件句如果加上合適的條件連接詞,可以成為顯式條件句,所以屬性傾向性分類時不考慮條件句是顯式或是隱式。
分詞工具使用中國科學院的ICTCLAS,實驗的設(shè)計主要是為驗證把條件句分為四類對屬性傾向性分析中的影響,因此把情感詞、副詞、否定詞以及手機屬性的位置四類特征作為Baseline特征集,在Baseline特征集的基礎(chǔ)上分別考慮了條件連接詞和隱式條件詞、三類分法以及四類分法對屬性傾向性分類的影響。實驗中各類特征所占的比例如表6所示,實驗采用6倍交叉驗證,實驗結(jié)果如表7所示。
表7 條件句傾向性判別結(jié)果
表7的結(jié)果顯示,在Baseline特征集的基礎(chǔ)上,加入四類分法,得到了最好的結(jié)果,說明按條件連接詞和隱式條件詞把條件句分為四類有助于屬性傾向性分析。
條件句的三類分法是把假設(shè)條件句和讓步條件句合為一類,如3.3節(jié)所述,假設(shè)條件句中條件從句和結(jié)果從句的情感通常一致,而讓步條件句中條件從句和結(jié)果從句的情感通常不一致,把兩類句子放在一類會影響傾向性的結(jié)果,所以加入三類分法的結(jié)果不如四類分法,也不如加入條件連接詞和隱式條件詞的結(jié)果。
條件句是根據(jù)條件連接詞和隱式條件詞分為四類的,而四類分法的結(jié)果好于條件連接詞和隱式條件詞的結(jié)果,是因為直接加入類別特征可以起到減少向量維數(shù),降低向量稀疏的作用,所以效果更好。表8顯示了600條評論的實驗結(jié)果。
表8 600條評論的結(jié)果
表8是600條評論的實驗結(jié)果,與表7的結(jié)果相比,都有下降,因為機器學習在語料規(guī)模較大時效果更好,但是加入條件連接詞和隱式條件詞的結(jié)果下降的更快,因為用條件連接詞和隱式條件詞做特征,相當于把條件句分成了更多種的類別,隨著語料規(guī)模的下降,會影響機器學習的結(jié)果。
在實驗過程中還有一些因素會對結(jié)果造成影響,下面詳細介紹一下。
(1) 分詞過程會有一定的偏差,從而導(dǎo)致對語料的分析以及特征的選取會出現(xiàn)一定的偏差,影響實驗結(jié)果。
(2) 語料中有一些條件句不含有情感詞,而是用口語化的表達方式來表達情感,例如,“如果電池短信一天超過500字,那么待機時間就在三天之內(nèi)”,本句對待機時間持否定情感,但是句中不含有情感詞,按照常識可以判斷出表達的是消極含義,但是很難用情感詞表、或一般的特征選擇來解決,這類條件句的傾向性比較難判定,會影響實驗結(jié)果。
本文主要識別產(chǎn)品評論中的條件句并分析句中屬性的傾向性。條件句中一般都含有條件連接詞,隱式條件句不含有條件連接詞,但是一般都含有體現(xiàn)條件關(guān)系的隱式條件詞。識別條件句時,主要依據(jù)條件連接詞和隱式條件詞及其詞性以及類序列規(guī)則進行分類;分析屬性傾向性時,依據(jù)條件連接詞和隱式條件詞把條件句分為假設(shè)條件句、讓步條件句、特定條件句和無條件句四類,并把條件句的類別用于SVM分類。通過實驗證明了該方法有助于條件句傾向性分類。
分析產(chǎn)品評論的傾向性時,仍存在一定的不足。產(chǎn)品評論中有一些口語化的表達方式?jīng)]有一定的語法可依,新出現(xiàn)的一些情感表達常識不能用往常的分詞和情感詞抽取方法來識別,對實驗的結(jié)果會有一定的影響。
下一步的工作可以對多屬性條件句傾向性分析,抽取產(chǎn)品評論中的條件關(guān)系,以及對產(chǎn)品評論中口語化情感表達方式進行研究。
[1] Ramanathan Narayanan, Bing Liu and Alok Choudhary. Sentiment Analysis of Conditional Sentences[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP-09), Singapore,2009.
[2] Minqing Hu and Bing Liu. Mining and Summarizing Customer Reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD-2004), Seattle, Washington, USA, 2004.
[3] M. Popescu and O. Etzioni. Extracting Product Features and Opinions From Reviews[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2005). Vancouver, B.C., Canada,2006: 339-346.
[4] Bing Liu, Minqing Hu and Junsheng Cheng. Opinion Observer: Analyzing and Comparing Opinions on the Web[C]//Proceedings of the 14th international World Wide Web conference (WWW-2005), Chiba, Japan,2005.
[5] Murthy Ganapathibhotla and Bing Liu. Mining Opinions in Comparative Sentences[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling-2008), Manchester, 2008.
[6] Rui Song, Hongfei Lin. Comparative Components Extraction-based Feature Opinion Summarization[J]. Journal of Information and Computational Science. 2009,6(2): 1077-1085.
[7] 宋銳, 林鴻飛, 常富洋. 中文比較句識別及比較關(guān)系抽取[J]. 中文信息學報, 2009, 23(2):102-107.
[8] HIT-IRLab-同義詞詞林(擴展版)[DB/OL],哈爾濱工業(yè)大學信息檢索研究室: http://ir.hit.edu.cn/.
[9] 胡裕樹. 現(xiàn)代漢語[M]. 上海: 上海教育出版社, 1981.
[10] Nitin Jindal and Bing Liu. Identifying Comparative Sentences in Text Documents[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval (SIGIR-06), Seattle,USA,2006.
[11] 中國科學院http://ictclas.org[CP/OL].
[12] 徐琳宏, 林鴻飛,潘宇,等. 情感詞匯本體的構(gòu)造[J]. 情報學報,2008, 27(2):180-185.
[13] IT168[EB/OL].http://pinglun.it168.com.