• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      商品隱式評價對象提取的方法研究

      2015-04-16 08:52:04邱云飛倪學(xué)峰邵良杉
      計算機工程與應(yīng)用 2015年19期
      關(guān)鍵詞:子句特征詞語料

      邱云飛,倪學(xué)峰,邵良杉

      QIU Yunfei1,NI Xuefeng1,SHAO Liangshan2

      1.遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島125100

      2.遼寧工程技術(shù)大學(xué) 系統(tǒng)工程研究所,遼寧 葫蘆島125100

      1.Software College,Liaoning Technical University,Huludao,Liaoning 125100,China

      2.Institute of Systems,Liaoning Technical University,Huludao,Liaoning 125100,China

      1 引言

      隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,消費者更喜歡在網(wǎng)絡(luò)上發(fā)布一些自己內(nèi)心真實的觀點,如去網(wǎng)站論壇發(fā)布一些針對某商品或服務(wù)的評論,同時在消費之前也會上網(wǎng)瀏覽下他人的觀點意見。這些評論中往往包含了用戶的最真實的觀點意見,因此,評論挖掘作為非結(jié)構(gòu)化信息挖掘的一個新興研究領(lǐng)域也隨之而生。目前對于網(wǎng)絡(luò)評論挖掘的問題,學(xué)者Popescu[1]將其歸結(jié)為以下幾個重要問題:(1)挖掘重要產(chǎn)品特征;(2)挖掘用戶對產(chǎn)品特征的主要觀點;(3)判斷評論觀點的情感導(dǎo)向;(4)根據(jù)觀點的重要性進行排名。

      國內(nèi)外對商品特征提取的研究方法正處于發(fā)展階段,文獻[2]提出如何從消費者評論中挖掘商品特征,但只能處理英文文本,并不適用于中文評論。文獻[3]采用基于句法分析技術(shù)的評論對象抽取方法;文獻[4]采用基于關(guān)聯(lián)規(guī)則分類的產(chǎn)品特征挖掘算法,這兩種方法雖然能很好的處理中文文本評論,但提取出的全部都是顯式評價對象。而文獻[5]采用特征詞庫對評論進行特征標(biāo)注,雖然特征標(biāo)注的準(zhǔn)確率能達到87.47%,但是需要人工核查獲取特征詞庫,其中耗費了大量的人力、物力。商品評論中的商品特征可以分為顯示特征和隱式特征[6],本文稱之為顯式評價對象和隱式評價對象。如果一個特征f出現(xiàn)在一個評估文本r中,那么被稱為r的一個顯式特征。如果f沒有在r中出現(xiàn),但是被暗指,那么將其稱為r的一個隱式特征。例如“這家店位置非常好下車就看到了”,就能簡單地識別出“位置”這一顯式屬性。而“地方不好找但是交通還是很方便的”,需要通過分析理解才能識別出“位置”這一屬性。現(xiàn)有的產(chǎn)品特征抽取方法所提取出的大都是產(chǎn)品的顯式特征,也就是通過各種模型提取出產(chǎn)品評論中的個別詞或詞組作為評價對象,但是這樣一來好多評價對象雖然描述不同但評價對象卻從屬于同一個方面。

      本文提出并實現(xiàn)了一種有監(jiān)督的商品隱式評價對象提取方法。第2 章詳細(xì)描述隱式評價對象提取的相關(guān)工作,主要包括候選評價對象提取、候選評價對象聚類、特征詞權(quán)值計算以及隱式評價對象識別。第3 章敘述了對大規(guī)模真實文本的實驗,并與相關(guān)的研究工作進行了比較。最后是對工作的一個小結(jié)。

      2 隱式評價對象提取的相關(guān)工作

      本文提出的商品隱式評價對象提取的方法,首先從評論語料中根據(jù)評價對象模型提取出候選評價對象,并根據(jù)k-means 算法[7]將候選評價對象聚類從而提取出隱式評價對象及其相關(guān)的特征詞集合,然后計算出每個特征詞指示隱式評價對象的能力,最后根據(jù)特征詞指示能力的引導(dǎo)抽取出用戶在評論語料中提出的觀點。圖1給出了實驗方法框架圖。

      圖1 實驗方法框架圖

      2.1 候選評價對象提取

      2.1.1 評價對象模型

      由于評論內(nèi)容比較短,評論子句大都是由簡單的詞或短語以一定的順序組合而成的,而且每條評論子句通常也就只描述了某一事物的一個特征,因此采用句式語義的形式分析方法提取出評論子句的主干[8],并構(gòu)建一個二元組C(np,ap)或C(np,vp),其中np、ap、vp分別表示具有名詞、形容詞、動詞詞性的詞或短語,且np即為此評論子句中的候選評價對象,ap或vp即為該候選評價對象的特征詞。二元組的構(gòu)建遵循如下三條原則(定義N為詞的個數(shù)):

      2.1.2 特征詞擴充

      針對評論子句僅由數(shù)個詞或詞組構(gòu)成,評論子句中對評價對象的描述不夠清晰,相應(yīng)的評價對象特征詞也不足以明確的指示該評價對象,為此需要尋求一種解決辦法,能從簡單的評論子句中獲取充足的指示特征詞,使得候選評價對象模型中有價值的信息有所增加。正是由于候選評價對象模型是由一個包含兩個元素的二元組組成,借此可以憑借這兩個詞或短語相似的詞擴充到特征詞集合T中。

      HowNet(《知網(wǎng)》)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間的概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫[9]。對于漢語詞匯,知網(wǎng)中的描述基于“義原”這一基本概念。義原,可以被認(rèn)為是漢語中最基本的、不易于再分隔的最小語義單位。將通過HowNet 獲取的np、ap、vp義原npi、apj、vpk擴充到特征詞集合T中,最終得到的候選評價對象模型為C(np,T),其中,T=(ap,N,A)或T=(vp,N,V),N=(np1,np2,…,npr),A=(ap1,ap2,…,aps),V= (vp1,vp2,…,vpt)。

      2.2 候選評價對象聚類

      根據(jù)評價對象模型獲取的候選評價對象分布不夠集中,排列比較松散,不能明確的展現(xiàn)出用戶的觀點態(tài)度,而且存在一種多個候選評價對象模型實際描述的卻是同一個評價對象的現(xiàn)象。為此采用k-means 聚類算法將候選評價對象C(np,T)根據(jù)T=(ap,N,A)或T=(vp,N,V)的相似度聚類。k-means 聚類算法的核心思想是找出k個聚類中心c1,c2,…,ck,使得每一個數(shù)據(jù)點xi和與其最近的聚類中心cr的平方距離和被最小化(該平方距離和被稱為偏差D)[10]?;趉-means 算法的候選評價對象聚類算法描述如下:

      Algorithmk-means(k,D)

      Input:候選評價對象集合D;聚類數(shù)k

      Output:聚類結(jié)果

      Procedure:

      步驟1隨機選擇k個候選評價對象作為初始的聚類中心Ki

      步驟2迭代循環(huán):每個候選評價對象Cj

      計算Cj與各候選評價對象類之間的相似度Similarity

      將Cj分配到相似度Similarity最大的聚類中心

      步驟3重新計算聚類中心Ki

      步驟4終止條件不成立跳轉(zhuǎn)到步驟2,否則結(jié)束

      終止條件:

      1.沒有候選評價對象被重新分配給不同的聚類

      2.沒有聚類中心發(fā)生變化

      候選評價對象C(np,T)之間的相似度計算基于劉群在文獻[11]中計算兩個義項集合的相似度算法來計算評價對象模型中特征詞集合T中元素之間的相似度,從而根據(jù)特征詞集合中元素相似度的算術(shù)平均值得出候選評價對象的相似度[12]。候選評價對象Ci與Cj之間的相似度計算公式如下公式(1)所示(如下公式(1)、(2)中將T=(ap,N,A) 或T=(vp,N,V) 統(tǒng)一寫成T=(t1,T1,T2)的形式):

      將k-means 聚類算法得出的k個聚類中心Kj(npj,Tj)中的npj作為最終要提取的評價對象,Tj以及聚類中其他候選評價對象Ci(npi,Ti)中的npi和Ti組成一個新的集合Γ作為評價對象npj的特征詞集合,形成最終的評價對象模型A(n,Γ)=(npj,Γ)。

      2.3 特征詞權(quán)值計算

      χ2統(tǒng)計量(CHI)衡量的是特征項ti和類別Cj之間的關(guān)聯(lián)程度[13],并假設(shè)ti和Cj之間符合具有一階自由度的χ2分布。特征對于某一類別的χ2統(tǒng)計值越高,它與該類之間的相關(guān)性越大,攜帶信息也較多,反之則較少。利用χ2統(tǒng)計量(CHI)在訓(xùn)練語料中衡量特征詞ti對于隱式評價對象Aj的指示能力,也就是說特征詞ti對于隱式評價對象Aj的χ2統(tǒng)計值χ2(ti,Aj)越高,它與該隱式評價對象之間的相關(guān)性也就越大,指示該隱式評價對象的能力就越強。計算特征詞對每個隱式評價對象的χ2統(tǒng)計值的公式(3)所示:

      其中,n表示語料庫中評論子句的總數(shù),|Aj|表示語料庫中評論了隱式評價對象的Aj評論子句總數(shù),α表示是評論了隱式評價對象Aj且包含特征詞ti的評論子句數(shù),β表示未評論Aj但包含特征詞ti的評論子句數(shù),γ表示評論了Aj但不包含特征詞ti的評論子句數(shù),d表示既未評論Aj也不包含特征詞ti的評論子句數(shù)。上述4 種情況可從表1 中清晰看出。

      表1 屬性關(guān)聯(lián)詞ti 與屬性Aj 關(guān)系示意圖

      2.4 隱式評價對象識別

      需要分析的評論子句C=w1w2…wp,由p個詞組成,這p個詞中必有q個特征詞,即C≥t1t2…tq。隱式評價對象提取過程中,根據(jù)該條評論語句,與隱式評價對象的特征詞集合I中每個特征詞ti的χ2統(tǒng)計值χ2(ti)=(χ2(ti,A1),χ2(ti,A2),…,χ2(ti,Am)),將評論語句中所有特征詞對某一隱式評價對象的χ2統(tǒng)計值的和記為該評論語句指示這一隱式評價對象的能力。定義公式(5),根據(jù)評論語句的χ2統(tǒng)計值提取出隱式評價對象。

      3 隱式評價對象提的取方案設(shè)計

      (1)實驗數(shù)據(jù)采集

      利用網(wǎng)絡(luò)爬蟲[14]從網(wǎng)絡(luò)上下載用戶評論文本作為實驗的語料數(shù)據(jù)并進行數(shù)據(jù)預(yù)處理。本研究以大眾點評網(wǎng)、飯統(tǒng)網(wǎng)、丁丁網(wǎng)等網(wǎng)站上針對餐館的評論數(shù)據(jù)為例形成評論語料庫。

      (2)對評論語料進行語句拆分

      本文根據(jù)句子邊界的啟發(fā)式搜索算法將一條評論語句分割成若干子句,而且通過對語料庫的分析,發(fā)現(xiàn)人們喜歡用“……”、“~”、“!!”、“!!!”、“。?!?、“~~”等一些特殊標(biāo)點符號或是一些表轉(zhuǎn)折、并列等的連詞來提示上下文談?wù)搯栴}的轉(zhuǎn)變[15]。因此,需要將這些特殊符號和連詞作為初始的句子邊界。

      (3)對評論語料分詞和詞性標(biāo)注

      本文對評論語料采用中國科學(xué)院計算機技術(shù)研究所在多年研究工作積累的基礎(chǔ)上,研制出的漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)進行分詞。分詞后根據(jù)詞性標(biāo)注的結(jié)果以及文獻[4]中提出的短語提取模式提取出名詞短語、形容詞短語、動詞短語。

      (4)提取候選評價對象

      在評論語料庫中利用評價對象模型提取出候選評價對象,并通過HowNet 獲取評價對象特征詞的義原以擴充特征詞集合。

      (5)隱式評價對象提取

      采用聚類算法對候選評價對象聚類從而提取出評論語料庫中所涉及的隱式評價對象,以及評價對象特征詞集合。

      (6)特征詞權(quán)重計算

      根據(jù)訓(xùn)練語料對步驟5得出的隱式評價對象特征詞集合中的各個元素,按照公式(3)進行特征詞權(quán)重計算。

      (7)隱式評價對象識別

      根據(jù)公式(5)提取出實驗語料中評論子句的隱式評價對象。

      4 實驗數(shù)據(jù)與分析

      4.1 實驗數(shù)據(jù)

      本實驗從大眾點評網(wǎng)(http://www.dianping.com)下載了關(guān)于北京、大連、廈門、鞍山4 個城市的10 家餐館的1 135 條評論,作為測試集進行實驗,評論語料分布如表2 所示。

      表2 評論語料

      4.2 實驗結(jié)果

      對評論語句進行語句分割后得到5 684 條評論子句,其中有1 624 條子句是陳述事實等與分析無關(guān)的評論子句,根據(jù)構(gòu)建候選評價對象模型的3 條規(guī)則對剩余的有價值的評論子句進行候選評價,對象建模后得出3 732 個候選評價對象。

      4.2.1 特征詞擴充對比

      為了驗證本文針對評論文本內(nèi)容短、稀疏性高的特點,提出的特征詞擴充技術(shù)能否有效提高聚類效果,進行此項實驗。將根據(jù)評論子句構(gòu)建的候選評價對象數(shù)據(jù)集1 與根據(jù)HowNet 義原擴充特征詞集合的候選評價對象數(shù)據(jù)集2 進行比較,來測評兩類數(shù)據(jù)集的聚類效果。由于人們關(guān)心的餐館特征一般在7 個左右,所以預(yù)分類的聚簇數(shù)K值在范圍[4,14]中進行實驗,對于聚類效果的評估采用整個聚類結(jié)果的平均純度purityavg(D)作為評價指標(biāo),purityavg(D)值越大說明一個聚類中僅包含一個類別的數(shù)據(jù)的程度越高。圖2 給出了在數(shù)據(jù)集1 和數(shù)據(jù)集2 上分別進行分裂的層次聚類的結(jié)果。

      圖2 在數(shù)據(jù)集1和數(shù)據(jù)集2上分別進行分裂的層次聚類的結(jié)果

      4.2.2 聚類結(jié)果對比

      本文的方法對3 732 個候選評價對象按照k-means聚類算法對選取的不同聚簇數(shù)K聚類,最終將各個聚簇中心作為評價對象,結(jié)果如表3 所示。

      4.2.3 評估隱式評價對象提取

      為了驗證本文提出的隱式評價對象方法反映用戶觀點的全面性和準(zhǔn)確性,除了采取了文本處理問題研究中普遍使用的性能評估指標(biāo):查全率recall和查準(zhǔn)率precision之外,還添加了絕對偏差值MAE作為度量標(biāo)準(zhǔn)。絕對偏差值MAE是通過計算系統(tǒng)識別出的隱式評價對象與手工標(biāo)注的隱式評價對象之間的偏差來度量分析的準(zhǔn)確性,MAE值越小分析質(zhì)量越高。對于隱式評價對象Ai的查全率、查準(zhǔn)率和絕對偏差值的計算方法如公式(6)、(7)、(8)所示,公式中的參數(shù)如表4 所示。

      對于實驗數(shù)據(jù)在選取不同聚簇數(shù)K,即不同隱式評價對象數(shù)量下進行隱式評價對象提取的查全率、查準(zhǔn)率和絕對偏差值的實驗,結(jié)果如表5。

      圖2 顯示隨著聚簇數(shù)K值得不斷增加,聚類結(jié)果的平均純度purityavg(D)也隨之上升,雖然K值越大聚類結(jié)果的純度就越大,但是根據(jù)表3 聚類結(jié)果顯示當(dāng)K值增加到9 時聚類之間的相似度也在隨之的增加,本文算法的查全率隨之上升但是查準(zhǔn)率在不斷降低,絕對偏差值卻在一再的升高。因此,在K的選擇上不僅要考慮k-means 聚類過程結(jié)果的平均純度,還要結(jié)合類間相似度,以及Recall和Precision二者的平衡點選擇最優(yōu)的K值。

      表3 k-means聚類結(jié)果

      表4 參數(shù)列表

      表5 隱式評價對象提取測評表

      5 結(jié)束語

      本文利用分類算法實現(xiàn)了一個商品隱式評價對象提取的系統(tǒng),可分為候選評價對象提取,利用k-means 算法對候選評價對象聚類,特征詞權(quán)重計算和隱式評價對象識別4 部分,結(jié)合用戶在網(wǎng)上發(fā)表的評論進行訓(xùn)練得出每個特征詞的指示能力,并根據(jù)特征詞的指示能力對實驗語料進行評估。實驗結(jié)果表明本研究方法是合理有效的,但是實驗結(jié)果受候選評價對象提取的影響很大。下一步,可以結(jié)合其他方法改進候選評價對象提取的方法,從而提高整個隱式評價對象識別方法的準(zhǔn)確性。

      [1] Popescu A M,Etzioni O.Extracting product features and op inions from reviews[C]//Proceedings of HLT-EMNLP 2005,2005:339-346.

      [2] Hu Minqing,Liu Bing.Mining opinion features in customer reviews[C]//Proceedings of the 19th National Conference on Artificial Intellgience,San Jose,USA,2004.

      [3] 劉鴻宇,趙妍妍,秦兵,等.評價對象抽取及其傾向性分析[J].中文信息學(xué)報,2010,24(1):84-88.

      [4] 李實,葉強,李一軍,等.中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征挖掘方法研究[J].管理科學(xué)學(xué)報,2009,12(2):142-152.

      [5] 潘宇,林鴻飛.基于語義極性分析的餐館評論挖掘[J].上海:計算機工程,2008,34(17):208-210.

      [6] Hu Minqing,Liu Bing.Mining and summarizing customer reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New Yorks:ACM Press,2004:168-177.

      [7] 任江濤,孫婧昊,施瀟瀟,等.一種用于文本聚類的改進的K均值算法[J].計算機應(yīng)用,2006,26:73-75.

      [8] 姚天昉,婁德成.漢語語句主題語義傾向分析方法的研究[J].中文信息學(xué)報,2007,21(5):73-79.

      [9] HowNet.HowNets Home Page[EB/OL].[2013-08-15].http://www.keenage.com.

      [10] 孫吉貴,劉杰,趙連宇.聚類算法研究[J].北京:軟件學(xué)報,2008,19(1):48-61.

      [11] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學(xué)研討會,中國臺北,2002:59-76.

      [12] 游彬,嚴(yán)岳松,孫英閣,等.基于HowNet 的信息量計算語義相似度算法[J].計算機系統(tǒng)應(yīng)用,2013,22(1):129-133.

      [13] 肖婷,唐雁.改進的卡方統(tǒng)計文本特征選擇方法[J].計算機工程與應(yīng)用,2009,45(14):136-140.

      [14] 鄭力明,易平.基于HTMLParser 信息提取的網(wǎng)絡(luò)爬蟲設(shè)計[J].微計算機期刊,2009,25(3):67-69.

      [15] 趙妍妍,秦兵,車萬翔,等.基于句法路徑的情感評價單元識別[J].軟件學(xué)報,2011,22(5):887-898.

      猜你喜歡
      子句特征詞語料
      命題邏輯中一類擴展子句消去方法
      命題邏輯可滿足性問題求解器的新型預(yù)處理子句消去方法
      基于改進TFIDF算法的郵件分類技術(shù)
      西夏語的副詞子句
      西夏學(xué)(2018年2期)2018-05-15 11:24:42
      產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      命題邏輯的子句集中文字的分類
      面向文本分類的特征詞選取方法研究與改進
      《苗防備覽》中的湘西語料
      平山县| 云龙县| 铁岭县| 灵川县| 灌南县| 阜新市| 文成县| 大姚县| 和硕县| 富平县| 新宾| 秀山| 大安市| 都昌县| 砀山县| 连江县| 德清县| 晋宁县| 丹巴县| 资溪县| 瑞安市| 鄂托克旗| 台北市| 城固县| 叙永县| 漳平市| 广灵县| 金塔县| 象州县| 昌乐县| 大同县| 九寨沟县| 石狮市| 文安县| 江油市| 延吉市| 新宁县| 阜城县| 江门市| 克拉玛依市| 重庆市|