• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于CBC—LIKE算法的產(chǎn)品特征詞聚類的研究

      2017-07-25 12:52:43江偉路松峰楊莉萍
      現(xiàn)代電子技術(shù) 2017年14期
      關(guān)鍵詞:聚類算法

      江偉+路松峰+楊莉萍

      摘 要: 用戶評(píng)論中存在產(chǎn)品特征表達(dá)多樣性問題,在細(xì)粒度觀點(diǎn)挖掘任務(wù)中需要對(duì)產(chǎn)品特征詞聚類。首先,結(jié)合不同的語義相似度計(jì)算的特點(diǎn),提出基于語義知識(shí)和上下文熵模型的語義相似度混合計(jì)算方法,計(jì)算抽取得到的特征詞語義相似度;然后改進(jìn)了傳統(tǒng)CBC算法,提出適用于產(chǎn)品特征詞聚類的CBC?LIKE方法實(shí)現(xiàn)聚類。最后在三個(gè)領(lǐng)域的真實(shí)評(píng)論語料上進(jìn)行實(shí)驗(yàn),對(duì)提出的語義相似度計(jì)算方法和聚類算法的性能進(jìn)行了分析。實(shí)驗(yàn)結(jié)果表明,所提方法是有效的,與另外兩種基線方法相比性能較優(yōu),取得了較好效果。

      關(guān)鍵詞: 產(chǎn)品特征; 語義相似度; 聚類算法; 觀點(diǎn)挖掘

      中圖分類號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)14?0081?04

      Abstract: Aiming at the problem of the various product feature expressions existing in user reviews, it′s necessary to cluster the product feature words in the task of fine?grained opinion mining. According to the calculation characteristics of different semantic similarities, a semantic similarity mixture calculation method based on semantic knowledge and context entropy model is proposed to calculate the extract the semantic similarity of feature words. The traditional CBC algorithm is improved. A CBC?LIKE method suitable for product feature words clustering is proposed. The experiment is conducted for the real review corpus in three domains. The performances of the proposed semantic similarity calculation method and clustering algorithm are analyzed. The experimental results show that the method is effective, its performance is better than that of other two benchmark methods, which has perfect effect.

      Keywords: product feature; semantic similarity; clustering algorithm; opinion mining

      產(chǎn)品評(píng)論領(lǐng)域中的細(xì)粒度意見挖掘旨在深入到產(chǎn)品特征層面,產(chǎn)品特征包含商品本身、商品的部件和屬性、以及屬性的特征等[1?2]。比如下面評(píng)論句子:I browsed the [pictures] in the computer, and found the [photos] were perfect and the [resolution] was high。其中方括號(hào)括起來的是相機(jī)這一領(lǐng)域產(chǎn)品評(píng)論的特征,而下劃線的詞語是針對(duì)該特征用戶表達(dá)的觀點(diǎn)。由于用戶發(fā)表評(píng)論時(shí)通常具有很大的自由度和隨意性,并且不同用戶的表達(dá)習(xí)慣也并不相同,因此,用戶評(píng)論文本呈現(xiàn)出高度的隨意性和不確定性特點(diǎn)。例如在數(shù)碼相機(jī)領(lǐng)域中,不同用戶可能分別采用“picture quality”和“image clarity”表示“照片”特征,而相機(jī)產(chǎn)品評(píng)論中提到的“picture”,“image”和“photo”這三個(gè)特征表示的是同一特征[3?4]。針對(duì)產(chǎn)品特征詞聚類問題,本文在完成特征抽取任務(wù)的基礎(chǔ)上,結(jié)合不同的語義相似度計(jì)算的特點(diǎn),提出基于語義知識(shí)和基于上下文熵模型的語義相似度混合計(jì)算方法,計(jì)算抽取得到的特征詞的語義相似度,然后提出CBC?LIKE聚類方法完成特征詞集合的聚類任務(wù)。最后對(duì)來自于三個(gè)領(lǐng)域的真實(shí)評(píng)論語料上的仿真實(shí)驗(yàn)結(jié)果表明,本文提出的方法對(duì)特征詞的聚類效果是有效的,優(yōu)于另外兩種基線方法。

      1 產(chǎn)品特征詞聚類

      1.1 混合特征詞語義相似度計(jì)算

      本文采用基于三種語義相似度計(jì)算的混合計(jì)算方法用于特征聚類。

      (1) 對(duì)產(chǎn)品特征的表達(dá)往往會(huì)共享同樣的詞[5]。比如,“LCD screen”, “LCD viewfinder”,指的都是同樣的產(chǎn)品特征“display”,這時(shí),screen和viewfinder具有相同的含義,所以對(duì)共享詞相似度的計(jì)算公式如下:

      (2) 基于WordNet[6]的語義相似度量方法,常用Jiang & Conrath算法[7],其計(jì)算方法如下:

      式中:LCS表示和之間的最小公共包含(Least Common Subsumer);IC表示信息量;是一個(gè)常量,表示W(wǎng)ordNet的名詞分類中概念總數(shù)。比如,本文實(shí)驗(yàn)中計(jì)算的產(chǎn)品特征“image”和“photo”語義相似度為0.744,而“image”和“battery”計(jì)算結(jié)果為0.221。

      (3) 基于詞典的方法的局限在于詞典容量有限,語義覆蓋程度不足[8]。所以本文進(jìn)一步引入基于上下文熵的方法計(jì)算詞的相似度,計(jì)算方法如下:

      式中:,分別表示分布上下文中出現(xiàn)的特征詞;,其中,和表示當(dāng)前詞的左上下文向量和右上下文向量[9],上下文向量中的每個(gè)維度用TF?IDF作為向量值。,之間的距離可以通過它們的左右上下文分布的KL?divergence之和計(jì)算得到[10]。因?yàn)閮蓚€(gè)特征詞分別都有其對(duì)應(yīng)的左邊上下文向量和右上下文向量,所以將兩個(gè)相加計(jì)算得到,如下:

      式中:和分別表示第維的詞出現(xiàn)在特征詞和的左(右)上下文向量中的概率權(quán)值;表示向量的維度。

      最后,本文對(duì)基于上述三個(gè)語義相似度度量方法相結(jié)合,得到最終的相似度計(jì)算公式:

      式中,和分別為語義相似度計(jì)算方法的權(quán)重,本文根據(jù)多次重復(fù)實(shí)驗(yàn)結(jié)果取值分別為0.7和0.4,實(shí)驗(yàn)中也對(duì)不同的語義相似度計(jì)算方法對(duì)聚類結(jié)果產(chǎn)生的影響進(jìn)行了分析。

      1.2 基于CBC算法的產(chǎn)品特征聚類

      CBC算法[11]由Pantel等人提出,其基本思想是首先根據(jù)待聚類數(shù)據(jù)集中的數(shù)據(jù)緊湊度形成若干簇,然后采用遞歸的方法將高質(zhì)量的候選聚類簇形成真正的中心,刪除與其沖突的候選中心,待所有聚類中心確定后,計(jì)算殘余元素與聚類中心的相似度,確定其歸屬。與K?means算法只用一個(gè)元素表示聚類的思想不同之處在于,該算法通過計(jì)算簇中元素的平均距離確定聚類的質(zhì)心,從而可以避免因局部最優(yōu)解而導(dǎo)致的較大誤差,并且已被證明在根據(jù)詞的語義相似度聚類中是有效的[11]。本文對(duì)傳統(tǒng)CBC算法進(jìn)行改進(jìn),提出CBC?LIKE算法用于特征詞的聚類任務(wù)。與原始CBC算法一樣該算法也分為三個(gè)步驟,不同的是,原始算法中需要兩個(gè)閾值進(jìn)行判斷,而CBC?LIKE算法中只需要一個(gè)閾值即可,本文根據(jù)經(jīng)驗(yàn)設(shè)置其值為0.35。另一方面改進(jìn)是原始CBC算法的聚類簇?cái)?shù)是未知的,所以其總是盡可能構(gòu)建聚類簇,但在產(chǎn)品特征聚類任務(wù)中,事先可以根據(jù)產(chǎn)品領(lǐng)域人工設(shè)定聚類簇?cái)?shù)[5],比如“Battery Cluster”,“Photography Cluster”等,從而提高聚類效果。算法如下:

      CBC?LIKE算法描述:

      輸入: 產(chǎn)品特征詞集合S

      聚類簇個(gè)數(shù)p

      (Committee)種子成員個(gè)數(shù)q

      輸出: 特征詞聚類結(jié)果C

      步驟1:for each feature in S

      計(jì)算語義相似度:ss(,),,屬于S且將ss(,)按降序存入集合

      end for

      步驟2:for each feature in S

      選擇中前q個(gè)特征構(gòu)成的committee:

      計(jì)算 的平均相似度:

      end for

      將按照降序存入集合

      定義C為存儲(chǔ)聚類中心集合的一個(gè)列表,初始化為空

      for each in

      if 相似度s(C,)<且

      if 為空 then 返回 C

      end if

      end for

      步驟3:for each residue feature

      分別計(jì)算與p個(gè)committee的語義相似度

      把fi并入語義相似度最近的簇

      end if

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)估指標(biāo)

      為測(cè)試本文提出方法的有效性,使用從亞馬遜電商網(wǎng)站(http://www.amazon.com/)中收集的3個(gè)領(lǐng)域的語料,分別是Digital Camera,Vacuum,Cell Phone。為得到最佳標(biāo)準(zhǔn),三個(gè)標(biāo)注者對(duì)抽取的產(chǎn)品特征進(jìn)行人工分類,從中選擇至少兩個(gè)以上相同標(biāo)注者標(biāo)注的標(biāo)簽作為最終標(biāo)注結(jié)果。表1給出了收集語料和標(biāo)注結(jié)果的基本統(tǒng)計(jì)信息。

      文中,對(duì)于特征聚類效果的評(píng)價(jià)指標(biāo)使用熵值(Entropy)和純度(Purity)[6],熵值用來衡量結(jié)果與標(biāo)準(zhǔn)劃分相比的混亂程度,值越小,分類結(jié)果的混亂程度越低;純度用來衡量分類結(jié)果與標(biāo)準(zhǔn)劃分的一致性程度,值越大,分類結(jié)果的純度越高。給定產(chǎn)品特征詞集合FS和簇?cái)?shù),對(duì)該集合的最佳分類記作,聚類算法將特征詞集合FS劃分為k個(gè)獨(dú)立子集,其熵值:

      式中,表示結(jié)果類中包含標(biāo)準(zhǔn)類中元素的比例。給定一組對(duì)于每個(gè)特征詞分類子集,其純度:

      式中,表示結(jié)果類中包含標(biāo)準(zhǔn)類中元素的比例。另外,為評(píng)估本文提出的基于CBC?LIKE聚類方法的效果,引入K?means和基于自動(dòng)標(biāo)注的半監(jiān)督EM方法這兩種聚類策略作為基線方法進(jìn)行對(duì)比。

      2.2 實(shí)驗(yàn)結(jié)果及分析

      為了驗(yàn)證本文提出的CBC?LIKE算法中種子(committee)的個(gè)數(shù)對(duì)聚類效果的影響,實(shí)驗(yàn)中設(shè)置種子個(gè)數(shù)從1~6,在三個(gè)領(lǐng)域語料上分別進(jìn)行了5輪實(shí)驗(yàn),計(jì)算其對(duì)應(yīng)的純度和熵值。實(shí)驗(yàn)結(jié)果如圖1所示。隨著種子個(gè)數(shù)的增加,CBC?LIKE算法的性能首先是在增加,然后在某些點(diǎn)的位置上減少。這表明種子個(gè)數(shù)對(duì)產(chǎn)品特征聚類是有幫助的,但是隨著種子數(shù)量的增加,會(huì)隨之帶來一些噪聲信息。為了驗(yàn)證本文提出的基于CBC?LIKE聚類方法的有效性,將其與其他兩個(gè)基線方法進(jìn)行了比較,表2給出了不同聚類算法在三種產(chǎn)品領(lǐng)域集上Entropy和Purity值的比較結(jié)果。其中,對(duì)于特征詞之間的相似度計(jì)算采用了本文提出的三種相似度計(jì)算結(jié)合的計(jì)算方法??梢钥吹?,與KM和EM方法相比,雖然在某些領(lǐng)域上面CBC?LIKE方法的Entropy值和Purity值這兩個(gè)指標(biāo)不占優(yōu),但是其在三種產(chǎn)品領(lǐng)域的平均Entropy值上都取得了最小值,同時(shí)平均Purity值取得了最大值,準(zhǔn)確率上與KM算法比較,具有較為明顯優(yōu)勢(shì),這表明,本文提出的CBC?LIKE方法在聚類性能上要優(yōu)于其他兩種聚類方法。

      為了進(jìn)一步分析不同的相似度計(jì)算對(duì)于CBC?LIKE聚類算法效果的影響。下面分別給出了基于詞典的計(jì)算方法和基于共同詞的相似度計(jì)算方法(WordNet+SW),基于上下文熵模型和共同詞的計(jì)算方法(CE+SW),本文前述的基于三種方法結(jié)合的相似度計(jì)算方法(FS),實(shí)驗(yàn)結(jié)果如表3所示。從實(shí)驗(yàn)結(jié)果中可以看出,采用三種相似度計(jì)算相結(jié)合的方法在最后的聚類效果上要優(yōu)于另外兩種。從平均Entropy值和Purity的結(jié)果上可以看到,F(xiàn)S要優(yōu)于前兩種方法,而CE+SW又優(yōu)于WN+SW的方法,說明采用上下文熵模型對(duì)于特征詞的相似度度量方法具有較好效果,能較好地反應(yīng)特征詞在產(chǎn)品評(píng)論中的語義關(guān)系,這個(gè)和本文實(shí)驗(yàn)中對(duì)于兩個(gè)調(diào)和參數(shù)α和β的實(shí)驗(yàn)性選取上是相印證的。

      3 結(jié) 論

      針對(duì)產(chǎn)品評(píng)論觀點(diǎn)挖掘產(chǎn)品特征聚類進(jìn)行了研究,提出在三種不同語義相似度的混合計(jì)算方法的基礎(chǔ)上,用CBC?LIKE聚類算法完成特征詞集合的聚類。最后的仿真實(shí)驗(yàn)結(jié)果表明,本文提出的三種不同語義相似度混合計(jì)算方法以及CBC?LIKE聚類算法能有效完成聚類任務(wù),純度和熵值這兩個(gè)指標(biāo)上的表現(xiàn)優(yōu)于基線方法。

      參考文獻(xiàn)

      [1] BALAZS J A, VEL?SQUEZ J D. Opinion mining and information fusion: a survey [J]. Information fusion, 2015, 27(C): 95?110.

      [2] HU M Q, LIU B. Mining and summarizing customer reviews [C]// Proceedings of 2004 the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle: ACM, 2004: 168?177.

      [3] YU Jianxing, ZHA Zhengjun, WANG Meng, et al. Aspect ranking: identifying important product aspects from online consumer reviews [C]// Proceedings of 2011 Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland: Association for Computational Linguistics, 2011: 1496?1505.

      [4] XU H, ZHANG F, WANG W. Implicit feature identification in Chinese reviews using explicit topic mining model [J]. Knowledge?based systems, 2015, 76(5): 166?175.

      [5] ZHANG S, JIA W, XIA Y, et al. Product features extraction and categorization in Chinese reviews [C]// Proceedings of 2010 IEEE the 6th International Conference on Advanced Information Management and Service. [S.l.]: IEEE, 2010: 324?329.

      [6] MILLER G A. WordNet: a lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39?41.

      [7] ZHAI Zhongwu, LIU Bing, XU Hua, et al. Clustering product features for opinion mining [C]// Proceedings of the Forth International Conference on Web Search and Web Data Mining. Hong Kong, China: IEEE, 2011: 347?354.

      [8] BRYNIELSSON J, JOHANSSON F, JONSSON C, et al. Emotion classification of social media posts for estimating people′s reactions to communicated alert messages during crises [J]. Security informatics, 2014, 3(1): 1?11.

      [9] XU T, PENG Q, CHENG Y. Identifying the semantic orientation of terms using S?HAL for sentiment analysis [J]. Knowledge?based systems, 2012, 35(15): 279?289.

      [10] ZHENG X, LIN Z, WANG X, et al. Incorporating appraisal expression patterns into topic modeling for aspect and sentiment word identification [J]. Knowledge?based systems, 2014, 61(2): 29?47.

      [11] PANTEL P, LIN D. Discovering word senses from text [C]// Proceedings of 2002 ACM SIGKDD Conference on Knowledge Discovery and Data Mining. [S.l.]: ACM, 2002: 613?619.

      猜你喜歡
      聚類算法
      一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法
      基于關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類方法分析張學(xué)文治療肝熱血瘀證用藥規(guī)律
      數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應(yīng)用
      K—Means聚類算法在MapReduce框架下的實(shí)現(xiàn)
      基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
      數(shù)據(jù)挖掘技術(shù)在識(shí)別可疑金融交易中的應(yīng)用
      基于改進(jìn)的K_means算法在圖像分割中的應(yīng)用
      大規(guī)模風(fēng)電場(chǎng)集中接入對(duì)電力系統(tǒng)小干擾穩(wěn)定的影響分析
      科技視界(2016年8期)2016-04-05 18:39:39
      基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類
      基于MapReduce的DBSCAN聚類算法的并行實(shí)現(xiàn)
      罗源县| 南开区| 昂仁县| 即墨市| 山东| 福清市| 云浮市| 和平县| 奉化市| 定日县| 延庆县| 莱阳市| 钦州市| 土默特左旗| 旺苍县| 绥德县| 白银市| 治县。| 汶川县| 景洪市| 保山市| 福海县| 图木舒克市| 陵川县| 图们市| 莱西市| 芮城县| 博客| 固原市| 盐边县| 桑植县| 南木林县| 德格县| 乐平市| 常州市| 柏乡县| 玛多县| 东安县| 滕州市| 洪江市| 顺平县|