• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中文網(wǎng)絡評論中的產(chǎn)品特征情感傾向提取算法研究

      2017-02-24 10:10:39陶婭芝
      關鍵詞:特征詞語句主觀

      王 永,陶婭芝 ,張 勤

      (1.重慶郵電大學 電子商務與現(xiàn)代物流重點實驗室,重慶 400065; 2.圣何塞州立大學 計算機工程系,美國 加利福尼亞州 95192)

      中文網(wǎng)絡評論中的產(chǎn)品特征情感傾向提取算法研究

      王 永1,2,陶婭芝1,張 勤1

      (1.重慶郵電大學 電子商務與現(xiàn)代物流重點實驗室,重慶 400065; 2.圣何塞州立大學 計算機工程系,美國 加利福尼亞州 95192)

      Web中的客戶評論信息挖掘是大數(shù)據(jù)分析中的一項重要內(nèi)容。分析客戶評論中所包含的產(chǎn)品特征情感傾向,不僅可為消費者購買產(chǎn)品提供更具體的決策支持,還能有效幫助企業(yè)改進產(chǎn)品質(zhì)量。針對商業(yè)應用的實際需要,提出了一種自動從中文客戶評論中抽取產(chǎn)品特征并判斷其情感傾向的方案?;趂requent pattern-tree(FP-tree)方法提取產(chǎn)品特征,結合基于語料庫的方法和依存句法分析方法識別關于產(chǎn)品特征的主觀評論語句、情感詞及其情感詞的依存關系,綜合考慮情感詞、否定詞、程度詞計算產(chǎn)品特征的情感傾向值。采用公開數(shù)據(jù)中的600篇手機評論作為實驗數(shù)據(jù),檢驗了算法的準確性。對比分析的結果說明,算法有很好的應用潛力,能夠有效地從網(wǎng)絡評論中獲取有價值的商業(yè)信息。

      情感傾向分析;產(chǎn)品特征;語義相似度;Web挖掘;知識發(fā)現(xiàn)

      0 引 言

      隨著互聯(lián)網(wǎng)飛速發(fā)展,電子商務應運而生且發(fā)展迅速。當前,在電子商務網(wǎng)站中存在著大量客戶關于網(wǎng)絡產(chǎn)品的評論。這些評論信息極具價值,是大數(shù)據(jù)分析中的一項重要內(nèi)容。對客戶評論信息進行深度地分析不僅可幫助消費者進行購買決策,也可為生產(chǎn)企業(yè)提供反饋信息以便于更好地改進產(chǎn)品。由于網(wǎng)絡產(chǎn)品的客戶評論信息具有及時性、數(shù)量巨大、非結構化和內(nèi)容復雜等特點,僅依靠人工瀏覽全部的產(chǎn)品評論以獲取有價值的信息是不現(xiàn)實的。因此,網(wǎng)絡評論挖掘技術應運而生,并得到了廣泛的應用。

      當前,已有不少研究者提出了關于網(wǎng)絡客戶評論信息的挖掘方法。在網(wǎng)絡評論的產(chǎn)品特征提取方面,Quan等[1]通過測量域向量的相似距離來實現(xiàn)無監(jiān)督的產(chǎn)品特征提取。Wang等[2]提出了一種新型的混合關聯(lián)規(guī)則挖掘方法來識別隱含特征,該方法的核心是使用多種互補的算法來挖掘出更多的關聯(lián)規(guī)則。從中文語言特點出發(fā),李實等[3]提出了基于關聯(lián)規(guī)則Apriori的產(chǎn)品特征提取算法,但該方法運行效率不高。馬柏樟等[4]采用潛在狄利特雷分布訓練文本模型并結合同義詞詞林拓展和過濾規(guī)則得到產(chǎn)品特征。對于文本中的主觀信息的識別,人們通常采用2種方法,一是將形容詞作為判斷語句主觀性的依據(jù),二是通過使用機器學習方法計算待識別語句與主觀語句間的相似度來判斷待識別語句是否是主觀語句[5],第1種方法較第2種方法而言具有更好的魯棒性。Pan等通過直推式支持向量機(transductive support vector machines,TSVM)來實現(xiàn)對中性語句和極性語句的區(qū)分[6]。在中文領域中,葉強等[7]提出根據(jù)連續(xù)雙詞詞類組合模式(2-part-of-speech, 2-POS)來自動判斷句子的主觀性程度,該方法在查準率與查全率方面接近目前英文文本分析的研究結果。姚天昉等[8]針對微博汽車領域,提出了結合汽車評論語料與微博的基于支持向量機模型的主觀句識別方法。關于句子情感分析的研究,Kim[9]在傳統(tǒng)的 N-gram 模型基礎上,將句子位置和情感詞作為分類特征完成句子級的情感分類。Hu和Liu[10]提出將至少包含了一個特征詞和情感詞的語句定義為“意見語句”,然后根據(jù)句子中情感詞匯的總體情感來判斷句子的情感傾向,但是此方法只能對句子的情感傾向進行粗略地判斷。唐曉波等[11]提出一種基于句法分析的極性傳遞法和共詞分析相結合的方法對句子級文本進行情感分析。王曉東等[12]提出基于規(guī)則集和情感詞匯本體的連續(xù)3詞詞類組合(3-POS)模型,并以此來識別和計算主觀句子的傾向值。

      與單純研究文本挖掘方法不同的是,本文從數(shù)據(jù)的商業(yè)應用出發(fā),關注如何從網(wǎng)絡客戶評論自動獲取對產(chǎn)品特征的情感傾向。即首先確定評論中涉及的產(chǎn)品特征或者屬性,然后逐句分析該評論中客戶對這些產(chǎn)品特征的情感傾向。在產(chǎn)品特征的提取方面,采用以frequent pattern-tree(FP-tree)為基礎的特征提取算法,其運行速度遠高于基于Aprior的特征提取算法。在產(chǎn)品特征的情感分析方面,考慮了包含產(chǎn)品特征詞和特征詞附近至少有一個形容詞的句子,句子的篩選對提高算法的準確性有積極的意義。與已有的研究相比,本文并非從整體上確定某條評論是好評還是差評,而是從語句級別給出客戶喜好或厭惡的是產(chǎn)品的哪些具體特征或?qū)傩浴R虼?,本文在應用方面關注的粒度更細,即,首先在語句級別對客戶評論中的某項或多項產(chǎn)品特征的情感極性進行提取,以此為基礎進行匯總,獲得產(chǎn)品各項特征或?qū)傩缘目蛻羟楦袠O性。此項研究的結果,更利于生產(chǎn)企業(yè)掌握客戶對產(chǎn)品具體特征或?qū)傩缘南矏?,以便改進產(chǎn)品設計和提升產(chǎn)品質(zhì)量。同時,還能為消費者選購網(wǎng)絡商品提供更具體的參考意見,利于促進網(wǎng)絡消費市場的健康發(fā)展。

      1 算法描述

      本文以多種文本挖掘的方法為基礎,提出如圖1所示的評論信息處理的整體框架方案。首先,提出基于FP增長算法獲取網(wǎng)絡評論中的產(chǎn)品特征集;然后,結合依存句法分析方法和基于語料庫的方法,從評論中識別出有關產(chǎn)品特征的主觀信息元素,并根據(jù)情感詞和情感詞的修飾成分計算句子的情感傾向;最后,根據(jù)各句子的情感傾向結果,從整體上確定客戶對產(chǎn)品各項特征的情感傾向值。對本算法的詳細陳述如下。

      1.1 提取產(chǎn)品特征

      為了提高算法從評論中獲取產(chǎn)品特性的效率,本文提出了一種新的方法。首先,采用FP-tree算法獲取產(chǎn)品特征的候選集合;然后,利用產(chǎn)品與其屬性間的語義關聯(lián)關系,對獲取的產(chǎn)品候選特征做進一步篩選,彌補了關聯(lián)規(guī)則算法只考慮詞頻的不足,提高了產(chǎn)品特征集合的準確性。具體的產(chǎn)品特征提取步驟如下。

      圖1 評論信息處理整體框架Fig.1 Integrated framework of processing information

      步驟1 采用中科院的漢語詞法分析系統(tǒng) (institute of computing technology chinese lexical analysis system,ICTCLAS)對評論語料進行分詞和標注。由于產(chǎn)品特征往往與名詞相關,因此,從標注后的評論語料中抽取名詞和名詞短語,將其存儲到一個事務文件中。

      步驟2 采用FP-tree算法對事務文件進行掃描,獲得產(chǎn)品特征的候選集合I0。具體過程為:統(tǒng)計名詞或名詞短語出現(xiàn)的頻率,刪除出現(xiàn)頻率小于最小支持度(本文以1%作為標準)的詞語,得到頻繁項集F1;將F1生成一棵頻繁模式樹(FP-tree),并保留其中的關聯(lián)關系;將 FP-tree分解為若干個與頻繁項集相關的條件庫,再根據(jù)每一個條件庫做頻繁模式挖掘,得到頻繁項集F2,即產(chǎn)品特征的候選集合I0。

      步驟3 根據(jù)單字剪枝規(guī)則,去除I0中由單個字構成的特征,得到候選特征集I1。

      步驟4 根據(jù)中文語義及語法知識,確定中文頻繁項且非特征的名詞規(guī)則。以此規(guī)則來過濾I1,得到候選特征集I2。本文制定的中文頻繁項且非特征的名詞規(guī)則為:

      1)表示人的稱呼類名詞,如“同事”、“網(wǎng)友”、“老板”等;

      2)口語化的評論名詞,如“機子”、“本子”等;

      3)表示評價產(chǎn)品本身的名詞,如“手機”、“酒店”、“賓館”等;

      4)常見的抽象名詞,如“原因”、“情況”、“事情”等;

      5)常見的集合名詞,如“大家”、“人員”等。

      步驟5 2個詞之間的點互信息值(pointwise mutual information, PMI)越大,表示二者之間的關聯(lián)程度越高,反之則相反。計算產(chǎn)品和I2中各個候選特征之間的PMI值,篩選出大于閾值的候選特征,將其構成最終的產(chǎn)品特征集合I3。本文設定的產(chǎn)品與特征之間的PMI計算公式為

      (1)

      (1)式中:hit(x)是以詞x為關鍵詞時得到的搜索引擎所返回的頁面數(shù);hit(xandy)表示以x和y同時作為關鍵詞時得到的返回頁面數(shù)。此處選取百度搜索引擎返回的頁面數(shù)作為PMI計算的依據(jù),閾值通過實驗樣本數(shù)據(jù)綜合考慮查準率和查全率來確定,本文選擇的閾值為-3.77。

      1.2 識別包含產(chǎn)品特征的主觀評論語句及其評論信息

      在網(wǎng)絡客戶的產(chǎn)品評論文本中,并非所有的句子都表達了評論者的觀點、態(tài)度或情感。評論中,未包含情感信息的客觀陳述句對情感傾向分析的意義不大,甚至會影響挖掘結果的準確率。因此,識別主觀評論語句是進行產(chǎn)品特征情感傾向分析的前提。本文首先將包含產(chǎn)品特征的主觀評論語句定義為至少包含一個特征詞且特征詞附近至少有一個形容詞的句子;然后,結合依存句法分析方法和基于語料庫的方法,從評論中識別出有關產(chǎn)品特征的主觀評論句和評論句中包含的主觀評論信息,即情感詞、特征詞和情感詞關系對,以及情感詞修飾成分等主觀信息元素。具體步驟如下。

      步驟1 中文網(wǎng)絡產(chǎn)品評論文本具有篇幅不長,短句分隔隨意,語義豐富等特點。根據(jù)這些特點,本文把以逗號、分號、句號等標點結束的短句作為一個邏輯上的語義單位,將這些短句作為一個整句單位進行處理。即根據(jù)分詞中的標點符號標注{/w},將評論語料進行分句,得到一個句子片段集合。

      步驟2 根據(jù)已獲得的產(chǎn)品特征集合,從句子片段集合中獲取包含產(chǎn)品特征的主觀評論語句。使用計算機語言遍歷句子中的所有詞。若句子中存在產(chǎn)品特征集合中的詞,就以該產(chǎn)品特征詞為中心在檢測窗口范圍內(nèi)提取形容詞,將其作為情感詞,得到特征詞和情感詞關系對。本文根據(jù)實驗結果,將窗口大小設置為6。若句子中不包含特征詞或者包含特征詞但沒有情感詞,則認為該句子不是主觀評論語句,忽略而不予處理。

      步驟3 獲取特征詞與情感詞之間的匹配關系,具體過程如下。

      1)采用句法分析工具Parser對步驟2中得到的主觀評論語句進行依存句法分析,獲得句子中全部的依存關系對;

      2)若特征詞和情感詞之間存在nsubj型的依存關系,就認為它們存在匹配關系;

      3)對于不存在nsubj型依存關系的特征詞和情感詞,若存在一個詞使得特征詞和情感詞之間構成間接依賴關系,也認為該特征詞和情感詞之間存在匹配關系;

      4)保留存在匹配關系的特征詞和情感詞關系對,去除沒有匹配關系的特征詞和情感詞關系對。

      步驟4 從具有匹配關系的特征詞和情感詞關系對中提取出與情感詞相關的依存關系。本文主要提取與情感詞相關的advmod型和neg型依存關系對,即考慮修飾情感詞的否定詞和程度副詞成分。

      1.3 計算產(chǎn)品特征的情感傾向

      根據(jù)主觀評論語句中特征詞和主觀評論信息計算語句中產(chǎn)品特征的情感傾向。然后,對每一個產(chǎn)品特征的情感傾向進行統(tǒng)計,得到最終的情感傾向分析結果,具體步驟如下。

      步驟1 計算情感詞的情感傾向值。采用基于How Net的詞匯語義相似度方法計算情感詞的情感傾向值,其公式為

      (2)

      (2)式中:P代表褒義種子詞;N代表貶義種子詞;函數(shù)Sim(x,y)返回詞語與y之間的語義相似度;Orientation(X)為詞語X的情感傾向值。本文從How Net詞典提供的情感分析用詞語集中選取如表1所示的24組詞語作為種子詞。

      表1 褒貶義種子詞

      步驟2 若詞x的情感傾向值為0,且Sim(Pj/Nj,X)各項之和同時為0,則認為該詞不具有情感色彩,將其過濾掉。

      步驟3 考慮情感修飾詞的情況下,計算主觀評論句的情感傾向。

      1)處理否定副詞。若句子中存在與情感詞相關的neg型依存關系對,則將情感詞的傾向值取反,并強度減半。否定副詞對情感詞X的影響因子定義為

      (3)

      2)處理程度副詞。若句子中存在與情感詞相關的advmod型依存關系對,則對情感詞的程度進行修飾。程度副詞對情感詞X的影響因子定義為

      (4)

      (4)式中,Degree(dg)代表程度副詞dg的強度值。本文根據(jù)How Net提供的程度級別詞庫構建程度副詞表,并按照《知網(wǎng)》和《近代漢語:程度副詞研究》對程度副詞的強烈程度進行修正[13],結果如表2所示。

      3)計算句子的情感傾向。本文在綜合考慮情感詞、否定副詞、程度副詞的基礎上,提出句子情感傾向的計算公式為

      Orientation(S)=

      (5)

      (5)式中,Orientation(S)為句子的S的情感傾向值,符號正負代表句子的褒貶義。

      表2 程度副詞及其強度

      步驟4 以產(chǎn)品特征為分類標準,將其在各主觀評論句中的情感傾向統(tǒng)計在一起,即為該產(chǎn)品特征的情感傾向值。

      2 性能評價指標

      在信息檢索領域,常采用的性能評價指標有查準率P、查全率R、準確率Accuracy和綜合值F-score。在產(chǎn)品特征提取的性能分析中,采用查準率、查全率和綜合值作為評價指標,在句子情感傾向的性能分析中,采用查準率、查全率和準確率作為評價指標。

      2.1 產(chǎn)品特征提取的性能評價指標

      產(chǎn)品特征提取的各性能評價指標的計算方法為

      (6)

      (7)

      (8)

      (6)-(8)式中,A,B,C的含義如表3所示。

      表3 產(chǎn)品特征提取性能評價的列聯(lián)表

      2.2 句子情感傾向的性能評價指標

      與產(chǎn)品特征提取的評價指標類似,對句子情感傾向的性能評價指標的計算方法如式(9)-(13)所示。

      (9)

      (10)

      (11)

      (12)

      (13)

      (9)-(13)式中:p和n分別代表褒義句子和貶義句子;P(p)表示褒義句子的查準率;P(n)表示貶義句子的查準率;R(p)表示褒義句子的查全率;R(n)表示貶義句子的查全率;A,B,C,D的含義如表4所示。

      表4 句子情感傾向分析性能評估列聯(lián)表

      3 實驗結果及性能評估

      3.1 實驗數(shù)據(jù)

      以數(shù)據(jù)堂提供的600篇手機評論語料作為實驗數(shù)據(jù),對語料進行人工標注,得到手機的產(chǎn)品特征86個,如表5所示;得到主觀評論語句949個,其中褒義548個,貶義401個。

      3.2 實驗結果

      利用1.1節(jié)中提出的方法對語料進行處理,抽取出89個產(chǎn)品特征。因篇幅所限,僅列出客戶關注度居于前20位的手機特征,如表6所示。通過該算法得到的產(chǎn)品特征的查準率,查全率和綜合值分別為70.8%,73.3%和72%。此外,文獻[14]中的結果為62.8%,81.8%和71.05%,文獻[15]中的結果為70.72%,68.35%和69.51%。指標對比的結果表明,本文的特征提取方法具有更好的整體性能。

      表5 人工標注的手機產(chǎn)品特征集合

      表6 手機產(chǎn)品特征提取結果(按PMI值排序)

      續(xù)表6

      利用1.2節(jié)的方法從實驗語料中共抽取到與產(chǎn)品特征相關的主觀評論語句949句。語句中情感詞及其依存關系的抽取結果(隨意選取10句為代表)如表7所示。從表7中可以看出,該方法在提取主觀評論信息方面具有不錯的效果,為情感傾向分析奠定了好的基礎。

      表7 包含產(chǎn)品特征的主觀評論語句的提取信息

      采用1.3節(jié)的方法對產(chǎn)品特征進行情感傾向分析,并統(tǒng)計最終的結果,如表8所示。其中,“傾向性”列中的0代表貶義,1代表褒義。受篇幅所限,僅給出10個特征的統(tǒng)計結果作為代表。從表8中的信息可以看出,它能夠為客戶選購商品以及商家改進商品質(zhì)量提供更細維度的指導。

      表8 產(chǎn)品特征的情感傾向統(tǒng)計結果

      將本文最終得到的產(chǎn)品特征情感傾向結果與人工標注結果進行對比,得到情感分析實驗結果的列聯(lián)表如表9所示。計算得到褒義句子的查全率和查準率分別為84.1%和76.7%,貶義句子的查全率和查準率分別為65.1%和75%,總體的準確率為76.1%。

      表9 情感分析實驗結果列聯(lián)表

      3.3 效率分析

      從圖1所示的評論信息整體框架圖中可以看出,本文方案對評論文本的處理可以劃分為3大部分。在特征提取部分,采用循環(huán)方式對評論文本逐一進行分詞和詞性標注等處理,因此,該部分的時間復雜度為O(n)。在評論信息抽取部分,同樣是以單個的評論文本為單位,依次進行分句和對句子進行主觀信息的抽取,故該步驟的復雜度同樣是O(n)。在情感分析部分,以每條主觀評論句為單位逐一計算其傾向值,因此,該部分的時間復雜度亦為O(n)。所以,本文方案的時間復雜度為O(n)。

      針對不同的評論文本數(shù)量,本文方案的處理時間變化如圖2所示。從圖2可以看出,方案的處理時間與文本數(shù)量之間整體上呈線性關系。在評論文本數(shù)量為250時,存在一些偏差,這主要是評論文本的字數(shù)不完全相同引起的。

      圖2 算法時間復雜度分析圖Fig.2 Time complexity analysis of the algorithm

      3.4 實驗結果對比分析

      在本文的方法中,特別關注了情感詞修飾成分,即程度副詞和否定副詞對情感傾向值的影響。為驗證本文提出的修飾詞處理方法對句子情感傾向分析產(chǎn)生的影響,采用同一語料資源,在情感趨向的計算過程中不考慮修飾詞的影響,并在其余處理步驟完全相同的情況下進行試驗。2種方法的性能評價指標對比如圖3所示。從圖3中可以很明顯看出,本文提出的修飾詞處理方法能有效提高句子情感傾向分析的性能。

      圖3 情感傾向分析的性能對比結果Fig.3 Performance comparison of sentiment analysis

      對于手機產(chǎn)品特征的情感傾向分析,文獻[14]中的評論語句個數(shù)為150,為了有相同的比較基礎,本文在整體的949條語句中,隨機選取了150條語句進行測試并與之比較。將本文提出的方法與其他類似研究方法在性能評價指標上的比較結果如表10所示。

      從表10可看出,本文的指標均優(yōu)于文獻[15],這主要是由于文獻[15]在建立產(chǎn)品特征和觀點詞之間的關系時沒有考慮到程度副詞和否定詞對關系的影響。由圖3可知,忽略情感詞修飾成分會降低情感傾向的準確性。與文獻[10]相比較,本文方法的查全率整體優(yōu)于文獻[10],查準率則是本文的貶義句子的查準率較優(yōu),而褒義句子略低。文獻[10]針對的是英文領域中的產(chǎn)品評論,由于對象不同,兩者之間沒有絕對的可比性,但從整體上看,本方案的性能接近于英文領域的情感傾向分析研究水平。從整體評估指標準確率看,本文方案略優(yōu)于文獻[14]。文獻[14]采用的是機器學習方法,針對每種產(chǎn)品,在使用前都需要使用大量的人工標注樣本集進行訓練,要達到自動完成評論信息的挖掘還有一定的距離[14]。此外,從運行效率來說,在產(chǎn)品特征提取過程中,本文方案是基于FP-tree算法的,其運行效率遠高于文獻[14]中采用的基于Apriori的算法。

      表10 針對手機評論的句子級情感分析結果比較

      4 結 語

      本文針對中文網(wǎng)絡評論中的產(chǎn)品特征的情感傾向分析問題進行了深入的研究。首先,采用基于關聯(lián)規(guī)則的方法抽取產(chǎn)品特征,然后,以句子為單位,提取有關產(chǎn)品特征的主觀評論信息,并在計算情感傾向值時綜合考慮了情感詞、否定詞和程度副詞對句子情感傾向的影響,提高了情感傾向分析的準確性。最后,以手機評論語料為例,對本文提出的產(chǎn)品特征的情感分析算法進行了實驗測試,實驗結果表明,該算法具有很好的性能和應用潛力。

      [1] QUAN C Q, REN F J. Unsupervised product feature extraction for feature-oriented opinion determination [J]. Information Sciences, 2014, 272(10):16-28.

      [2] WANG W, XU X, WAN W. Implicit feature identification via hybrid association rule mining [J]. Expert Systems with Applications, 2013, 40(9):3518-3531.

      [3] 李實,葉強,李一軍.中文網(wǎng)絡客戶評論的產(chǎn)品特征挖掘方法研究[J].管理科學學報,2009,12(2):142-152. LI Shi,YE Qiang,LI Yijun,et al.Mining features of products from Chinese customer online reviews[J].Journal of Management Sciences in China,2009,12(2):142-152.

      [4] 顏志軍,馬柏樟.基于潛在狄利特雷分布模型的網(wǎng)絡評論產(chǎn)品特征抽取方法[J].計算機集成制造系統(tǒng), 2014,32(1):96-103. YAN Zhijun, MA Baizhang. Product features extraction of reviews based on LDA model [J]. Computer Integrated Manufacturing Systems, 2014,32 (1):96-103.

      [5] MISSEN M M S, BOUGHANEM M, CABANAC G.Opinion mining: reviewed from word to document level[J].Social Network Analysis and Mining,2013,3(1):107-125.

      [6] PAN W, ZHOU Y. Chinese Sentiment Orientation Analysis[C]//Computational Intelligence and Security (CIS), 2010 International Conference. Washington, DC, USA:IEEE Computer Society, 2010:1-5.

      [7] 葉強,張紫瓊,羅振雄.面向互聯(lián)網(wǎng)評論情感分析的中文主觀性自動判別方法研究[J].信息系統(tǒng)學報,2007, 1(1):79-91. YE Qiang, ZHANG Ziqiong, LUO Zhenxiong. Automatically Measuring Subjectivity of Chinese Sentences for Sentiment Analysis to Reviews on Internet[J]. China Journal of Information Systems, 2007,1(1):79-91.

      [8] 潘茜,姚天昉.微博汽車領域中用戶觀點句識別方法的研究[J]. 中文信息學報, 2014,28(5):148-154. PAN Xi, YAO Tianfang. Recongition of Microblog Customer Opinion Sentences in Automobiles Domain [J]. Journal of Chinese Information Processing, 2014, 28(5):148-154.

      [9] KM S, HOVY E. Determining the Sentiment of Opinions [C]// Proceedings of the 20th international conference on Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2004:1367-1373.

      [10] HU M, LIU B. Mining and summarizing customer reviews[C]//Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. New York, NY, USA: ACM, 2004: 168-177.

      [11] 唐曉波,肖璐.基于情感分析的評論挖掘模型研究[J]. 情報理論與實踐, 2013, 21(7) :100-104. TANG Xiaobo, XAIO Lu. Research on the Review Mining Model Based on the Sentiment Analysis [J]. Information Studies:Theory & Application,2013,21(7):100-105.

      [12] 王曉東,王娟,張征.基于情感詞匯本體的主觀性句子傾向性計算[J]. 計算機應用,2012, (6) :1678-1681,1684. WANG Xiaodong, WANG Juan, ZHANG Zheng. Computation on orientation for subjective sentence based on sentiment words ontology [J]. Journal of Computer Applications, 2012, 32(6):1678-1681, 1684.

      [13] 邱云飛,王雪,邵良杉.基于中文網(wǎng)絡客戶評論的消費者行為分析方法[J].現(xiàn)代情報, 2012, 32(1): 8-11. QIU Yunfei, WANG Xue, SHAO Liangshan. The Method of Customers’ Behavioral Analysis Based on Chinese Web Clients’ Reviews [J]. Journal of Modern Information, 2012, 32(1): 8-11.

      [14] 李實,葉強,李一軍,等.挖掘中文網(wǎng)絡客戶評論的產(chǎn)品特征及情感傾向[J]. 計算機應用研究, 2010, 27(8): 3016-3019. LI Shi, YE Qiang, LI Yijun, et al. Mining product features and sentiment orientation from Chinese customer reviews [J]. Application Research of Computers, 2010, 27(8):3016-3019.

      [15] SHI B, CHANG K. Mining Chinese reviews[C]//Data Mining Workshops, 2006. ICDM Workshops 2006. Sixth IEEE International Conference. Washington, DC, USA: IEEE Computer Society, 2006: 585-589.

      (編輯:田海江)

      Research on sentiment orientation of product feature from Chinese reviews on the internet

      WANG Yong1, 2, TAO Yazhi1, ZHANG Qin1

      (1.Key Laboratory of Electronic Commerce and Logistics of Chongqing, Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R.China; 2. Computer Engineering Department, San Jose State University, California,USA, 95192)

      Data mining in customer reviews of Web is one of the important applications in big data analysis. Extracting semantic orientation on product feature from customer reviews can not only provide customers with more detailed information for purchasing decision, but also help enterprises improve product quality. Aim at the actual requirement of business application, an algorithm of autocratically extracting customers’ semantic orientation on product features from network reviews is proposed. In the proposed algorithm, the product features are obtained based on frequent pattern-tree(FP-tree)method. Then, the subjective review sentences on product features, emotional words and its dependency rules are recognized according to corpus-based approach and dependency parsing method. Finally, the semantic orientation values of product features are calculated by considering the effect of opinion words, negative words, and degree words. The public data set with 600 mobile phone reviews is used to test the performance and validity of the proposed algorithm. Moreover, the comparing results show that the presented algorithm has the high potential to be applied to extract valuable commerce information from network product reviews.

      sentiment orientation analysis; product feature; semantic similarity; Web mining; knowledge discovery

      10.3979/j.issn.1673-825X.2017.01.012

      2016-05-10

      2016-10-15 通訊作者:王 永 wangyong_cqupt@163.com

      國家自然科學基金(61472464);重慶市前沿與應用基礎研究項目(cstc2015jcyjA40025);重慶市社會科學規(guī)劃管理項目(2015SKZ09);重慶市社科基金(K2015-59);重慶郵電大學社科基金(K2015-10)

      Foundation Items:The National Natural Science Foundation of China (61472464);The Chongqing Research Program of Basic Research and Frontier Technology(cstc2015jcyjA40025);The Social Science Planning Foundation of Chongqing(2015SKZ09);The Social Science Foundation of Chongqing(K2015-59);The Social Science Foundation of CQUPT(K2015-10)

      TP391.1

      A

      1673-825X(2017)01-0075-09

      王 永(1977-),男,四川自貢人,博士,教授,主要研究方向為Web數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、信息安全與信息管理。E-mail: wangyong_cqupt@163.com。

      陶婭芝(1991-),女,重慶人,碩士研究生,研究方向為知識發(fā)現(xiàn)、Web數(shù)據(jù)挖掘。E-mail: tao_yazhi@163.com。

      張 勤(1988-),女,河南人,碩士,研究方向為管理信息系統(tǒng)、數(shù)據(jù)挖掘。E-mail: 1831792821@qq.com。

      猜你喜歡
      特征詞語句主觀
      “美好生活”從主觀愿望到執(zhí)政理念的歷史性提升
      重點:語句銜接
      加一點兒主觀感受的調(diào)料
      基于改進TFIDF算法的郵件分類技術
      刑法主觀解釋論的提倡
      法律方法(2018年2期)2018-07-13 03:22:06
      產(chǎn)品評論文本中特征詞提取及其關聯(lián)模型構建與應用
      精彩語句
      面向文本分類的特征詞選取方法研究與改進
      如何搞定語句銜接題
      語文知識(2014年4期)2014-02-28 21:59:52
      關于“方言特征詞”理論的回顧及思考
      武陵學刊(2011年5期)2011-03-20 20:59:04
      高密市| 威宁| 闽侯县| 城市| 阿尔山市| 行唐县| 曲水县| 建阳市| 从化市| 上饶市| 嵊州市| 温泉县| 遵义县| 车致| 新竹市| 株洲市| 汶上县| 裕民县| 顺平县| 十堰市| 霍山县| 苗栗市| 通江县| 武强县| 蓬安县| 景泰县| 卓尼县| 万山特区| 鄂伦春自治旗| 彝良县| 禹州市| 那坡县| 陆川县| 滦平县| 宜兴市| 武城县| 辽阳市| 广安市| 金寨县| 罗甸县| 寿光市|