黃苗黃奎崔歡歡朱國銳
摘要:傳統(tǒng)的輿情分析多采用文本聚類和分類技術(shù),但是由于自然語言自身表達(dá)的復(fù)雜性和靈活性,文本聚類和分類技術(shù)很難從根本上反映話題評論人員對待話題的真實(shí)態(tài)度。針對文本聚類和分類技術(shù)的局限性,設(shè)計(jì)了應(yīng)用于公司輿情分析的改進(jìn)概念圖算法。改進(jìn)的概念圖能表示部分概念節(jié)點(diǎn)的傾向性,利用改進(jìn)的概念圖計(jì)算每條評論的健康度,可有效地從語義分析角度計(jì)算評論語句的健康度。研究結(jié)果表明,應(yīng)用于公司輿情分析的改進(jìn)概念圖算法,其正確率普遍高于基于文本聚類和分類技術(shù)的輿情分析方法。
鍵詞:概念圖;輿情分析;文本傾向性;健康度
DOIDOI:10.11907/rjdk.161459
中圖分類號:TP312
文獻(xiàn)標(biāo)識碼:A文章編號文章編號:16727800(2016)009002203
基金項(xiàng)目基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(51178373);科技部科學(xué)技術(shù)支持項(xiàng)目(2008BAH37B05060);陜西省自然科學(xué)基金項(xiàng)目(2014JM2-6114)
作者簡介作者簡介:黃苗(1989-),女,河南洛陽人,西安建筑科技大學(xué)信息與控制工程學(xué)院碩士研究生,研究方向?yàn)槿斯ぶ悄?;黃奎(1992-),男,河南洛陽人,北京京東尚科信息技術(shù)有限公司工程師,研究方向?yàn)檩浨榉治?;崔歡歡(1989-),女,河南洛陽人,西安建筑科技大學(xué)信息與控制工程學(xué)院碩士研究生,研究方向?yàn)槿斯ぶ悄堋?/p>
0引言
企業(yè)危機(jī)事件爆發(fā)時(shí),負(fù)面信息在各個(gè)網(wǎng)站迅速傳播。如果企業(yè)不及時(shí)了解輿情態(tài)勢,未能及時(shí)作出正確的澄清和引導(dǎo),輿情信息對企業(yè)的影響將會(huì)變得不受控制。傳統(tǒng)輿情分析算法多采用文本聚類和分類技術(shù),能有效地挖掘出熱點(diǎn)話題,但是不能較為準(zhǔn)確地分析出話題評論人員的態(tài)度及其量化值。本文以自然語言理解語義分析理論為基礎(chǔ)[1],在分析了詞匯褒貶性和副詞強(qiáng)度的基礎(chǔ)上,設(shè)計(jì)了應(yīng)用于公司輿情分析的改進(jìn)概念圖算法,該算法能較好地分析出話題評論人員的態(tài)度及其量化值。
1概念圖基本理論
概念圖(Conceptual Graphs, CGs)是由美國的計(jì)算機(jī)科學(xué)家John F Sowa提出的一種知識表示方法。
定義1:概念圖可以定義為由概念節(jié)點(diǎn)、關(guān)系節(jié)點(diǎn)、有向弧組成的有向聯(lián)通圖[25],即:
CGs=(Concept,Relation,F(xiàn))(1)
其中,Concept = {C1,C2,.....,Cm}表示概念圖的概念節(jié)點(diǎn)集合,用來表示實(shí)體、動(dòng)作、狀態(tài)和事件等;Relation={R1,R2,.....,Rn}表示概念圖的關(guān)系節(jié)點(diǎn)集合,用來表示概念節(jié)點(diǎn)和概念節(jié)點(diǎn)之間的關(guān)系;F=(Concept×Relation ) ∪(Relation×Concept)是有向弧集合。
概念圖的表示形式有兩種[6-7],第一種是圖形表示形式。概念節(jié)點(diǎn)用矩形表示,關(guān)系節(jié)點(diǎn)用橢圓表示,概念節(jié)點(diǎn)和關(guān)系節(jié)點(diǎn)間的關(guān)系用有向弧表示。例如,語句“A cat eats the meat with the paw”的圖形表示法如圖1所示。
第二種是線性表示形式。概念節(jié)點(diǎn)用方括號表示,關(guān)系節(jié)點(diǎn)用圓括號表示。圖1用線性形式表示為:
[EAT]—(AGNT) →[CAT]
(OBJ) →[MEAT]
(MANR) →[PAW].
概念圖的圖形表示形式雖然形象、直觀,但是采用線性表示形式,能更好地在計(jì)算機(jī)中進(jìn)行表示和處理。因此,本文采用概念圖的線性表示形式。
2改進(jìn)的概念圖及健康度計(jì)算方法
2.1改進(jìn)的概念圖知識表示方法
在傳統(tǒng)概念圖的知識表示中,概念節(jié)點(diǎn)自身的傾向性從未在概念圖中反映出來。本文對部分概念節(jié)點(diǎn)引入了詞語的褒貶傾向性,概念節(jié)點(diǎn)的傾向性值用T(Tendency)表示,強(qiáng)度值用D(Degree)表示。但有些概念節(jié)點(diǎn)并不需要賦傾向性值,因?yàn)樵趯υu論句子進(jìn)行傾向性分析時(shí),材料、地點(diǎn)和類型等名詞之間的關(guān)系并沒有表示出句子所表示的立場,而作為句子的修飾詞語和句子的謂語動(dòng)詞,則表現(xiàn)出該動(dòng)作受體的立場。最后根據(jù)情感詞庫和副詞強(qiáng)度評分表對傳統(tǒng)概念圖賦傾向性值,表1展示了概念圖中關(guān)系對傾向性值的生成情況。
2.2傾向性值賦值規(guī)則
(1)HowNet情感詞典。在中文的文本處理方面最有權(quán)威的資源是HowNet。目前,HowNet最新版的詞典中,中文正面的情感詞語有836個(gè),中文負(fù)面情感的詞語有1 254個(gè)[8]。其中正面傾向詞匯的T值為+1,負(fù)面詞匯的T值為-1。部分HowNet情感詞語如表2所示。
(2)手動(dòng)添加網(wǎng)絡(luò)情感詞匯。因?yàn)榫W(wǎng)絡(luò)新詞更新快,且在正規(guī)詞典里沒有出現(xiàn),所以必須針對特定公司,收錄有褒貶性的網(wǎng)絡(luò)情感詞語[9]。其中正面傾向詞匯的T值為+1,負(fù)面詞匯的T值為-1。以京東商城為例,需要手動(dòng)添加的部分負(fù)面詞匯和正面詞匯如表3所示。
(3)程度副詞和否定詞:①程度副詞:程度副詞分為3個(gè)等級,分別賦程度值,程度值用D表示。具體賦值如表4所示;②否定副詞:否定副詞也用T表示,如:“不”、“沒”、“無”等,其T值為-1。
2.3改進(jìn)的概念圖健康度計(jì)算方法
定義2:健康度是評論者對該公司做的某件事的一個(gè)態(tài)度,記為H。健康度的計(jì)算方法如下:
Step1:計(jì)算所有關(guān)系(ADV)中被副詞修飾的動(dòng)詞或形容詞概念節(jié)點(diǎn)的傾向性值,該被修飾的概念節(jié)點(diǎn)傾向性值為該副詞強(qiáng)度值和此概念節(jié)點(diǎn)傾向性值的乘積。如果關(guān)系(ADV)連接的概念節(jié)點(diǎn)中有一個(gè)沒有傾向性,則不進(jìn)行此步的計(jì)算。
Step2:計(jì)算所有關(guān)系(DEC)中被形容詞修飾的概念節(jié)點(diǎn)的傾向性值和計(jì)算關(guān)系(DEC)的傾向性值,該被修飾的概念節(jié)點(diǎn)傾向性值等于被修飾的概念節(jié)點(diǎn)傾向性值和修飾的概念節(jié)點(diǎn)傾向性值的乘積。(DEC)的傾向性值記為Tend(DEC),如果與關(guān)系(DEC)中被修飾的概念節(jié)點(diǎn)和關(guān)系(OBJ)連接,則不計(jì)算此關(guān)系的Tend(DEC);如果沒有連接,則此關(guān)系的Tend(DEC)為關(guān)系(DEC)連接的兩個(gè)概念節(jié)點(diǎn)傾向性值的乘積。如果關(guān)系(DEC)連接的概念節(jié)點(diǎn)中有一個(gè)沒有傾向性,則不進(jìn)行此步的計(jì)算。
Step3:計(jì)算所有關(guān)系(ISA)的傾向性值,該傾向性值記為Tend(ISA)。該關(guān)系的傾向性值即為與關(guān)系(ISA)相連接的兩個(gè)概念節(jié)點(diǎn)傾向性值的乘積。如果關(guān)系(ISA)連接的概念節(jié)點(diǎn)中有一個(gè)沒有傾向性,則不進(jìn)行此步的計(jì)算。
Step4:計(jì)算所有關(guān)系(OBJ)的傾向性值,該傾向性值記為Tend(OBJ),該關(guān)系的傾向性值為與關(guān)系(OBJ)相連接的兩個(gè)概念節(jié)點(diǎn)傾向性值的乘積。如果關(guān)系(OBJ)連接的概念節(jié)點(diǎn)中有一個(gè)沒有傾向性,則不進(jìn)行此步的計(jì)算。
Step5:計(jì)算健康度,此段評論的健康度等于以上所有3個(gè)關(guān)系傾向性值的相加,即:
H=Tend(DEC)+Tend(ISA)+Tend(OBJ)(2)
3算法示例
3.1概念圖傾向性賦值
根據(jù)情感詞庫和副詞強(qiáng)度評分表為上述的概念圖賦傾向性值和程度值。例如:“可惡的京東,賣給我二手貨,以后不買京東的東西了!”
主題句的概念圖中關(guān)系(OBJ)、(DEC)對傾向性值生成起作用,與修飾關(guān)系(DEC)連接的修飾概念節(jié)點(diǎn)[可惡的]賦值為-1,[京東]、[東西]、[京東的]賦值為+1。與(OBJ)關(guān)系連接的兩個(gè)概念節(jié)點(diǎn)分別賦值,[賣]賦值為+1,[二手貨]賦值為-1。然后為另外一個(gè)與(OBJ)關(guān)系連接的兩個(gè)概念節(jié)點(diǎn)分別賦值,[不買]賦值為-1。所以主題句賦值后的概念圖為:
[賣]—(OBJ)→[二手貨] →(T) →[-1]
(AGNT)→[京東]—(DEC)←[可惡的]→(T) →[-1]
(T) →[+1]
(DIR)→[我]←(AGNT)←[不買]—(OBJ)→[東西]—(DEC)←[京東的]→(T)→[+1]
(T) →[+1]
(T) →[-1]
(T) →[+1].
3.2健康度計(jì)算
計(jì)算主題句的健康度,過程如下:①主題句里沒有程度副詞,所以步驟1省略;②計(jì)算關(guān)系(DEC)的傾向性值,主題句里第一個(gè)(DEC)關(guān)系是:[京東]←(DEC) ←[可惡的],記為(DEC)1。該關(guān)系中被修飾的概念節(jié)點(diǎn)沒有與關(guān)系(OBJ)連接,所以,計(jì)算Tend(DEC)1等于該關(guān)系連接的概念節(jié)點(diǎn)的乘積,即(-1)*(+1)=-1;第二個(gè)(DEC)關(guān)系是:[東西] ←(DEC) ←[京東的],記為(DEC)2,由于該關(guān)系中被修飾的概念節(jié)點(diǎn)與關(guān)系(OBJ)連接,所以不計(jì)算Tend(DEC)2,概念節(jié)點(diǎn)[東西]的傾向性值為[東西]和[京東的]傾向性值的乘積,即(+1)*(+1)=+1;③主題句里沒有(ISA)關(guān)系,所以此步驟省略;④第一個(gè)(OBJ)關(guān)系:[賣] →(OBJ) →[二手貨],記為(OBJ)1,Tend(OBJ)1=(+1)*(-1)=-1;第二個(gè)(OBJ)關(guān)系:[不買] →(OBJ) →[東西],記為(OBJ)2,Tend(OBJ)2= (-1)*(+1)=-1;⑤計(jì)算可得健康度為-3。
此評論文本的健康度表明,該評論者對該公司的某個(gè)事件持否定態(tài)度,且否定度為3。
4實(shí)驗(yàn)結(jié)果及分析
本試驗(yàn)系統(tǒng)采用Java語言來實(shí)現(xiàn),操作系統(tǒng)為Windows7,CPU為AMD 四核A8處理器,內(nèi)存為4G。
本文收集了新浪微博關(guān)于京東商城5個(gè)主題的1 000多條評論,通過人工測試某評論,健康度為正(負(fù)),而實(shí)驗(yàn)系統(tǒng)測試該評論的健康度也為正(負(fù)),此時(shí)為正確結(jié)果。最后再用KNN(K最近鄰)、SVM(支持向量機(jī))、Naive Bayes(樸素貝葉斯)幾種分類算法分別測試該1 000多條評論的正、負(fù)、中立態(tài)度。通過比較正確率說明本算法的優(yōu)越性,同時(shí)用精確率來說明本算法的可靠性。
設(shè)某個(gè)主題的總評論數(shù)為n,系統(tǒng)測試為正確結(jié)果的評論數(shù)為m,則系統(tǒng)測試的正確率為:
正確率=(m/n)*100%(3)
系統(tǒng)測試的健康度和人工測試的健康度的差值,與人工測試的健康度比值即為每條評論的精確度,再通過每條評論精確度的加權(quán)平均得到精確率。則系統(tǒng)測試的精確度和精確率公式如下:
精準(zhǔn)度=1-|人工測試的評論健康度-系統(tǒng)測試的評論健康度||人工測試的評論健康度|(4)
精準(zhǔn)度=1m∑i=mi=1|人工測試的評論健康度-系統(tǒng)測試的評論健康度||人工測試的評論健康度|×100%(5)
本測試系統(tǒng)的正確率和精確率及其它算法測試的正確率結(jié)果如表5所示。
從表5可以看出,本算法的正確率都在83%以上,普遍高于其它算法,同時(shí)也有很高的精確率。
5結(jié)語
本文針對網(wǎng)絡(luò)上關(guān)于公司的輿情信息,設(shè)計(jì)了一個(gè)應(yīng)用于公司輿情分析的改進(jìn)概念圖算法。綜合分析表明,本算法對短評論有較好的精確度,對長評論句子的精確度有誤差。本算法正確率普遍高于KNN算法、SVN算法和Naive Bayes算法,同時(shí)本算法有較高的精確率。采用該方法,在微博和論壇上摘取評論者對某個(gè)特定公司的評論,可以自動(dòng)、實(shí)時(shí)地分析出評論者對于該公司某事件的態(tài)度。同時(shí)本算法首次將概念圖的知識表示方法應(yīng)用到公司的輿情分析系統(tǒng)中,對其它領(lǐng)域的輿情分析系統(tǒng)具有一定參考價(jià)值。
參考文獻(xiàn)參考文獻(xiàn):
[1]STPHEN D RICHARDSON, GEORGE E HEIDORN, KEREN JENSEN. Natural language processing: the PLNLP approach[M]. New York: Kluwer Academic,1993:126128.
[2]SOWA,J F.Conceptual structures: information processing in mind and machine[M].AddisonWesley Publishing Company,1984.
[3]SOWA J F. Conceptual graphs for database interface[J].IBM J Res & Dev,1976,20(4):336357.
[4]劉培奇,凡星,段中興.傾向性文本的概念圖過濾技術(shù)的研究[J].微電子學(xué)與計(jì)算機(jī),2012,29(12):8487.
[5]劉培奇,李增智,趙銀亮.擴(kuò)展產(chǎn)生式規(guī)則知識表示方法[J].西安交通大學(xué)學(xué)報(bào),2004,38(6):587590.
[6]吳彬,羅鈞.基于模糊認(rèn)知圖的資源描述框架(RDF)研究[J].微電子學(xué)與計(jì)算機(jī),2009,26(3):4244.
[7]劉培奇,李增智.基于模糊含權(quán)概念圖的主觀題自動(dòng)閱卷方法研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(12):45654567.
[8]張鵬星.基于文本傾向性分析的網(wǎng)絡(luò)輿情分析及其趨勢預(yù)測[D].昆明:云南財(cái)經(jīng)大學(xué),2013.
[9]張超.文本傾向性分析在輿情監(jiān)控系統(tǒng)中的應(yīng)用研究[D].北京:北京郵電大學(xué),2008.
責(zé)任編輯(責(zé)任編輯:黃?。?