• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用

      2017-12-02 01:52:34余琦瑋徐新勝王慶林
      中國(guó)機(jī)械工程 2017年22期
      關(guān)鍵詞:特征詞關(guān)聯(lián)節(jié)點(diǎn)

      余琦瑋 肖 穎 林 靜 徐新勝 王慶林 張 飛

      1.中國(guó)計(jì)量大學(xué)工業(yè)工程研究所,杭州,3100182.中國(guó)計(jì)量大學(xué)機(jī)械設(shè)計(jì)制造及其自動(dòng)化研究所,杭州,310018

      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用

      余琦瑋1肖 穎1林 靜1徐新勝1王慶林1張 飛2

      1.中國(guó)計(jì)量大學(xué)工業(yè)工程研究所,杭州,3100182.中國(guó)計(jì)量大學(xué)機(jī)械設(shè)計(jì)制造及其自動(dòng)化研究所,杭州,310018

      網(wǎng)絡(luò)上產(chǎn)品評(píng)論文本是用戶對(duì)產(chǎn)品的評(píng)價(jià)與反饋,及時(shí)、有效挖掘其中有價(jià)值的信息是制造企業(yè)、銷售商獲取競(jìng)爭(zhēng)優(yōu)勢(shì)迫切需要解決的問(wèn)題。綜合詞形、詞性、依存關(guān)系、控制詞及其情感描述等,設(shè)計(jì)了特征詞提取規(guī)則單元以及規(guī)則模板,基于條件隨機(jī)場(chǎng)實(shí)現(xiàn)了產(chǎn)品特征詞的有效提取,并對(duì)特征詞進(jìn)行分類;構(gòu)建了特征詞頻次、情感評(píng)分的計(jì)算模型;結(jié)合產(chǎn)品特征詞的內(nèi)容與分類,構(gòu)建了產(chǎn)品特征詞關(guān)聯(lián)模型。在此基礎(chǔ)上,提出了基于貝葉斯網(wǎng)絡(luò)的產(chǎn)品特征詞關(guān)鍵影響因素推理方法,并以某手機(jī)產(chǎn)品為對(duì)象進(jìn)行應(yīng)用與驗(yàn)證。研究結(jié)果可以為制造企業(yè)、銷售商的精細(xì)化管理提供實(shí)施依據(jù)。

      文本挖掘;特征詞提取;情感評(píng)分;關(guān)聯(lián)模型構(gòu)建;影響因素推理

      0 引言

      隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)成為一種重要資源,基于海量數(shù)據(jù)的科學(xué)決策和精細(xì)化管理將成為現(xiàn)代企業(yè)管理發(fā)展的必然趨勢(shì)[1]。在電子商務(wù)領(lǐng)域,海量的產(chǎn)品評(píng)論蘊(yùn)含著豐富的信息,但往往用戶、企業(yè)等需要花費(fèi)大量時(shí)間才能找到感興趣的信息。評(píng)論(包括政治評(píng)論、文學(xué)評(píng)論、電影評(píng)論、產(chǎn)品評(píng)論、餐飲評(píng)論等[2])挖掘是近年興起的處理海量評(píng)論數(shù)據(jù)的有效方法。產(chǎn)品評(píng)論挖掘的主要任務(wù)是產(chǎn)品特征詞提取以及針對(duì)產(chǎn)品特征詞的情感評(píng)價(jià)[3]。產(chǎn)品特征詞提取是指從產(chǎn)品評(píng)論文本中抽取用戶評(píng)價(jià)的、與產(chǎn)品有關(guān)的詞語(yǔ),通常包括產(chǎn)品的功能、性能、可用性、售后服務(wù)等,是產(chǎn)品評(píng)論挖掘的基礎(chǔ)環(huán)節(jié)。

      針對(duì)產(chǎn)品特征詞提取,研究人員提出了許多方法。在英文產(chǎn)品評(píng)論方面,HU等[4]提出了抽取頻繁項(xiàng)作為產(chǎn)品特征詞的方法。進(jìn)一步地,WEI等[5]對(duì)該方法進(jìn)行改進(jìn),通過(guò)從General Inquirer中挑選出形容詞對(duì)頻繁詞集進(jìn)行刪減,提高了特征詞提取的準(zhǔn)確率和召回率。余傳明等[6]基于支持向量機(jī),研究了從客戶評(píng)論文本中提取產(chǎn)品特征詞的方法。JAKOB等[7]基于條件隨機(jī)場(chǎng)(conditional random field,CRF),研究了產(chǎn)品特征詞及其情感詞的提取方法。此外,SU等[8]提出了基于模式知識(shí)的產(chǎn)品特征詞及其情感詞的提取方法。由于中文語(yǔ)言與英文語(yǔ)言在句子結(jié)構(gòu)、句法、語(yǔ)法等方面的不同,針對(duì)英文評(píng)論文本的產(chǎn)品特征詞提取方法和技術(shù)不能直接用于中文評(píng)論文本的挖掘。于是,李實(shí)等[9-10]將文獻(xiàn)[4]的方法引入中文網(wǎng)絡(luò)評(píng)論的特征提取應(yīng)用中,結(jié)合漢語(yǔ)特點(diǎn),對(duì)提取結(jié)果進(jìn)行單字詞的剔除,取得了較好的效果。JIANG等[11]基于CRF,研究了提高中文評(píng)論文本中特征詞提取的方法。王永等[1]采用FP增長(zhǎng)算法和PMI閾值過(guò)濾技術(shù),實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)評(píng)論中產(chǎn)品特征詞的提取。祖李軍等[12]提出了PMI的改進(jìn)算法PMI-Bootstrapping,并應(yīng)用在論壇評(píng)論的產(chǎn)品特征詞提取中。馬柏樟等[13]提出了基于潛在狄利特雷分布模型的特征詞提取方法。徐建民等[14]在本體庫(kù)的基礎(chǔ)上,利用TF-IDF算法實(shí)現(xiàn)了對(duì)文本中特征詞的提取。以上研究都是以獲取與產(chǎn)品相關(guān)的特征詞為基礎(chǔ),并實(shí)現(xiàn)了針對(duì)特征詞的觀點(diǎn)判別、情感分析、重要性排序等應(yīng)用。然而,產(chǎn)品特征詞中包含的內(nèi)容和信息通常很多,如有描述產(chǎn)品零部件本身的特征詞、有描述零部件功能、性能的特征詞,以及描述產(chǎn)品在使用、服務(wù)等方面的特征詞,且這些產(chǎn)品特征詞之間存在一定的關(guān)聯(lián),并相互影響,已有的產(chǎn)品特征詞提取方法及其應(yīng)用都沒(méi)有開(kāi)展這方面的研究工作。深入研究和分析產(chǎn)品特征詞之間的關(guān)聯(lián)與影響,可以為制造企業(yè)、銷售商的科學(xué)決策和精細(xì)化管理提供實(shí)施依據(jù)。鑒于此,本文以網(wǎng)絡(luò)評(píng)論文本挖掘?yàn)槭侄?,運(yùn)用規(guī)則設(shè)計(jì)、模板構(gòu)造等方法,有效提取產(chǎn)品評(píng)論文本中的特征詞,并構(gòu)建產(chǎn)品特征詞關(guān)聯(lián)模型。在此基礎(chǔ)上,實(shí)現(xiàn)基于貝葉斯網(wǎng)絡(luò)的關(guān)鍵影響特征詞推理與應(yīng)用。研究結(jié)果可以為制造企業(yè)、產(chǎn)品銷售商在產(chǎn)品改進(jìn)、管理與服務(wù)等方面提供實(shí)施依據(jù)。

      1 網(wǎng)絡(luò)評(píng)論與產(chǎn)品管理

      基于各種服務(wù)平臺(tái),通過(guò)網(wǎng)絡(luò)終端、移動(dòng)終端等進(jìn)行信息交流、溝通,以及商品交易等,已成為現(xiàn)代社會(huì)生活的一種重要形式。用戶在電商平臺(tái)(如淘寶、京東、亞馬遜等)購(gòu)買了商品,通常會(huì)對(duì)商品進(jìn)行評(píng)論與反饋。這些評(píng)論文本中蘊(yùn)含著有關(guān)產(chǎn)品功能、性能、服務(wù)等方面的信息,如“這個(gè)手機(jī)分辨率不錯(cuò),性價(jià)比不錯(cuò),但物流不太給力”。制造企業(yè)、銷售商如果能夠獲取這些信息,加以有效利用,將會(huì)為其產(chǎn)品研發(fā)、服務(wù)等提供指導(dǎo)依據(jù)。同時(shí),用戶也可以通過(guò)這些信息決定自己的購(gòu)買行為。近年來(lái),制造企業(yè)、銷售商逐漸關(guān)注到用戶評(píng)價(jià)、反饋信息對(duì)產(chǎn)品管理、提高客戶滿意度、提升服務(wù)水平的重要性[5]。

      有效提取產(chǎn)品評(píng)論文本中的特征詞,深入挖掘特征詞之間的關(guān)聯(lián)與影響關(guān)系,能夠?yàn)榭茖W(xué)、定量的精細(xì)化管理提供支持。在此思想指導(dǎo)下,本文提出一種基于網(wǎng)絡(luò)評(píng)論文本挖掘的產(chǎn)品特征詞提取方法,如圖1所示。

      圖1 基于網(wǎng)絡(luò)評(píng)論文本挖掘的產(chǎn)品特征詞提取及其應(yīng)用Fig.1 Product feature extraction and its application based on online review mining

      借助網(wǎng)絡(luò)爬蟲(chóng)技術(shù),從網(wǎng)頁(yè)、論壇、平臺(tái)等信息源抓取與目標(biāo)產(chǎn)品相關(guān)的用戶評(píng)論文本。在此基礎(chǔ)上,產(chǎn)品特征詞提取及其應(yīng)用的工作主要分為四個(gè)階段。

      (1)基于CRF的產(chǎn)品特征詞提取。為了對(duì)目標(biāo)產(chǎn)品進(jìn)行深入分析,從分詞結(jié)果中篩選出與產(chǎn)品相關(guān)的特征詞。CRF模型[15]是一種判別式概率模型,能夠有效標(biāo)注、分析序列資料(如自然語(yǔ)言文字等)。本文采用CRF模型實(shí)現(xiàn)產(chǎn)品特征詞提取。首先,準(zhǔn)備一定規(guī)模的訓(xùn)練集,并完成情感詞標(biāo)注等;然后,設(shè)計(jì)特征詞提取規(guī)則,在此基礎(chǔ)上,運(yùn)用CRF系統(tǒng)完成關(guān)鍵的產(chǎn)品特征詞提取工作。

      (2)產(chǎn)品特征詞的定量描述。產(chǎn)品特征詞的定量描述包括:頻次和情感評(píng)分計(jì)算。產(chǎn)品特征詞的頻次是指特征詞在所有評(píng)論文本中出現(xiàn)的次數(shù)之和,反映了用戶對(duì)該特征詞的關(guān)注程度。產(chǎn)品特征詞的情感評(píng)分描述了用戶對(duì)該特征詞的喜愛(ài)、偏好及其程度。頻次計(jì)算和情感評(píng)分為定量分析產(chǎn)品特征詞及其應(yīng)用提供了數(shù)據(jù)基礎(chǔ)。

      (3)產(chǎn)品特征詞關(guān)聯(lián)模型構(gòu)建。基于分詞結(jié)果和CRF提取得到的產(chǎn)品特征詞集,結(jié)合產(chǎn)品特征詞分類,將產(chǎn)品特征詞與產(chǎn)品基礎(chǔ)結(jié)構(gòu)上各相關(guān)節(jié)點(diǎn)(零部件)分別建立聯(lián)系,構(gòu)建產(chǎn)品特征詞關(guān)聯(lián)模型,為實(shí)現(xiàn)以產(chǎn)品及其零部件為目標(biāo)的管理應(yīng)用提供模型與數(shù)據(jù)支持。

      (4)基于評(píng)論文本挖掘的產(chǎn)品管理應(yīng)用。通過(guò)產(chǎn)品特征詞提取及其頻次計(jì)算和情感評(píng)分,在識(shí)別出用戶關(guān)注度高、評(píng)價(jià)負(fù)面的產(chǎn)品特征詞的基礎(chǔ)上,結(jié)合產(chǎn)品特征詞之間的關(guān)系以及特征詞與產(chǎn)品結(jié)構(gòu)之間的關(guān)聯(lián)與數(shù)量信息,深入分析引起用戶負(fù)面評(píng)價(jià)的潛在影響因素(產(chǎn)品特征詞),為制造企業(yè)或銷售商的產(chǎn)品管理提供實(shí)施依據(jù)。

      2 基于CRF的產(chǎn)品特征詞提取

      CRF模型[15]中,隨機(jī)變量x表示需要標(biāo)記的觀察序列集,隨機(jī)變量Y表示相應(yīng)的標(biāo)記序列集,假設(shè)所有的yi∈Y在一個(gè)大小為N的有限字符集內(nèi)?;贑RF的產(chǎn)品特征詞提取過(guò)程如圖2所示。在對(duì)評(píng)論文本進(jìn)行廣泛分析的基礎(chǔ)上,首先給定訓(xùn)練集,并人工標(biāo)注產(chǎn)品特征詞及情感詞等,同時(shí),從分詞詞語(yǔ)、詞性、依存關(guān)系、支配詞等,以及標(biāo)定的特征詞類型、情感詞等方面,設(shè)置特征詞提取規(guī)則。然后,通過(guò)CRF模型對(duì)訓(xùn)練集進(jìn)行遍歷,結(jié)合特征詞提取規(guī)則,通過(guò)學(xué)習(xí)得到CRF的核心功能模塊Models,在此基礎(chǔ)上,實(shí)現(xiàn)從評(píng)論文本的分詞結(jié)果中提取相關(guān)產(chǎn)品特征詞的目標(biāo)。

      圖2 基于CRF的產(chǎn)品特征詞提取過(guò)程Fig.2 Workflow of product feature extraction based on CRF

      2.1特征詞提取規(guī)則設(shè)置

      中文由于自身語(yǔ)法、句法、句子結(jié)構(gòu)等的復(fù)雜性,且用戶在網(wǎng)絡(luò)上發(fā)表評(píng)論通常用語(yǔ)較隨意[16],不斷有新的詞匯或表達(dá)方式產(chǎn)生,因此,產(chǎn)品特征詞提取、情感評(píng)價(jià)等難度較大。

      為了從產(chǎn)品評(píng)論文本中深度挖掘產(chǎn)品的特征詞,本文設(shè)計(jì)了一個(gè)三元組的規(guī)則單元結(jié)構(gòu),即[p,Ω,T],其組成元素的內(nèi)涵如圖3所示。

      由圖3可以看出,特征詞提取規(guī)則在相對(duì)位置p、信息類型Ω及其內(nèi)容T三個(gè)方面進(jìn)行了描述和規(guī)定。其中,與當(dāng)前詞語(yǔ)相關(guān)的其他詞語(yǔ)的位置及其內(nèi)容分別用p和T進(jìn)行描述。+p表示相對(duì)當(dāng)前詞語(yǔ)的后面第p個(gè)位置,而-p表示相對(duì)當(dāng)前詞語(yǔ)的前面第p個(gè)位置。T表示所描述位置上的具體內(nèi)容。信息類型Ω從詞法(詞形、詞性、上下文)、句法(依存關(guān)系、支配詞)兩個(gè)領(lǐng)域?qū)?duì)應(yīng)位置所描述的信息類型進(jìn)行了規(guī)定,這些類型分別用符號(hào)(0,1,2,3,4)進(jìn)行表達(dá)。圖4給出了一個(gè)規(guī)則單元結(jié)構(gòu)及其內(nèi)涵。其他規(guī)則的內(nèi)涵也可以通過(guò)這種形式進(jìn)行解釋,不再贅述。

      圖4 一個(gè)規(guī)則單元結(jié)構(gòu)及其內(nèi)涵描述Fig.4 Cell structure of a rule and its description

      以此為基礎(chǔ),通過(guò)規(guī)則單元之間的組合,可以構(gòu)造具有特定功能目標(biāo)的特征詞提取規(guī)則模板,其一般形式如圖5所示。模板中第一行描述了單個(gè)單元規(guī)則的應(yīng)用,第二行描述了同類規(guī)則之間的組合應(yīng)用,第三行描述了不同類型規(guī)則之間的組合應(yīng)用。例如,通過(guò)規(guī)則單元[0,1,“n”]與規(guī)則單元[1,0,“可以”]之間的組合,描述了:當(dāng)前詞語(yǔ)的詞性是名詞,且當(dāng)前詞語(yǔ)的下一個(gè)詞語(yǔ)是“可以”(表示對(duì)該產(chǎn)品特征詞正面的情感評(píng)價(jià))。

      [p…k,Ωi,T][p…k,Ωi,T]…[pk+h,Ωi,T]…[p…k,Ωi,T]…[pk+h′,Ωi,T]……

      s.t.

      i,i′∈{0,1,2,3,4} andi≠i′

      k,h,h′=const.

      圖5特征提取規(guī)則模版內(nèi)容的一般描述形式

      Fig.5Generaldescriptionformoftemplatecontentoffeatureextractionrule

      基于特征詞提取規(guī)則模板,借助CRF方法,以每條評(píng)論文本為單元,將其中所有符合條件的特征詞全部提取出來(lái),并按照它們?cè)谠u(píng)論文本中出現(xiàn)的位置順序存儲(chǔ),作為產(chǎn)品特征詞關(guān)聯(lián)模型構(gòu)建的數(shù)據(jù)基礎(chǔ)。

      2.2產(chǎn)品特征詞分類

      通常,從產(chǎn)品評(píng)論文本中提取的特征詞包含很多方面的內(nèi)容。為了深入分析產(chǎn)品特征詞之間的內(nèi)在關(guān)聯(lián)與相互影響,從評(píng)論文本中提取到的產(chǎn)品特征詞需要進(jìn)行區(qū)分,便于相關(guān)數(shù)據(jù)的統(tǒng)計(jì)和分析。本文中根據(jù)研究對(duì)象的特點(diǎn),產(chǎn)品特征詞主要分為五大類:產(chǎn)品/零部件名稱特征詞、產(chǎn)品/零部件功能特征詞、產(chǎn)品/零部件性能特征詞、產(chǎn)品/零部件可用性特征詞、產(chǎn)品服務(wù)特征詞。產(chǎn)品特征詞分類及其之間的邏輯關(guān)系如圖6所示。

      圖6 產(chǎn)品特征詞分類及其邏輯關(guān)系結(jié)構(gòu)Fig.6 Product feature classification and its logic structure

      產(chǎn)品/零部件名稱特征詞描述產(chǎn)品/零部件的名稱,如xx F2、攝像頭等。這些特征詞常用于用戶評(píng)價(jià)一個(gè)產(chǎn)品或者其零部件,是構(gòu)建特征詞關(guān)聯(lián)關(guān)系的依據(jù)。

      產(chǎn)品/零部件功能特征詞描述產(chǎn)品/零部件功能方面的特征,如拍照、錄影等。

      產(chǎn)品/零部件性能特征詞描述產(chǎn)品/零部件性能方面的特征,如像素、續(xù)航時(shí)間等。

      產(chǎn)品/零部件可用性[17]特征詞描述產(chǎn)品/零部件的功能在可掌握、流程合理、操作簡(jiǎn)便等方面的特征。

      產(chǎn)品服務(wù)特征詞描述產(chǎn)品在快遞、物流服務(wù)方面的情況,如快遞送到時(shí)間長(zhǎng)短、貨物包裹是否完好等,也是網(wǎng)絡(luò)購(gòu)買用戶非常關(guān)注的內(nèi)容之一。

      這些特征詞之間通過(guò)修飾、共現(xiàn)等方式,形成了內(nèi)在的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)對(duì)產(chǎn)品零部件的描述,是構(gòu)建產(chǎn)品特征詞關(guān)聯(lián)模型的依據(jù)。

      3 產(chǎn)品特征詞的定量描述

      3.1特征詞頻次

      特征詞在評(píng)論文本中出現(xiàn)的次數(shù)反映了用戶對(duì)該產(chǎn)品特征詞的關(guān)注程度,是制造企業(yè)深入了解客戶關(guān)注點(diǎn)的一個(gè)方面。評(píng)論文本中,特征詞i出現(xiàn)的頻次計(jì)算模型為

      (2)

      其中,ns為所有評(píng)論文本的條數(shù);kis為第i個(gè)特征詞在第s條評(píng)論文本中出現(xiàn)的次數(shù)。

      特征詞頻次從所有評(píng)論文本中對(duì)特征詞進(jìn)行了全面的統(tǒng)計(jì),是后續(xù)計(jì)算、分析與特征詞相關(guān)統(tǒng)計(jì)參量的基礎(chǔ)。

      3.2特征詞情感評(píng)分

      用戶對(duì)產(chǎn)品給出的反饋與評(píng)價(jià),在評(píng)論文本中通常表現(xiàn)為特征詞之間的修飾、描述等形式。通過(guò)對(duì)評(píng)論文本的分詞結(jié)果分析可知,特征詞之間的修飾、描述形式通常表現(xiàn)為

      {程度副詞,情感詞,特征詞}

      其中,程度副詞修飾情感詞,程度副詞和情感詞一起修飾特征詞,表達(dá)用戶對(duì)產(chǎn)品特征詞的主觀感受或評(píng)價(jià)。

      通常,程度副詞和情感詞都是非結(jié)構(gòu)化的文本描述形式,表達(dá)的情感強(qiáng)弱程度也各不相同。為此,本文中將情感詞分類為褒義情感詞(P)、貶義情感詞(N)以及中性情感詞(M)。根據(jù)情感詞的極性(P或N)及其情感強(qiáng)度分類,分別設(shè)置1、3、5、7、9五個(gè)分值,強(qiáng)度依次增強(qiáng)。同樣,程度副詞根據(jù)其強(qiáng)度分類,分別設(shè)置2、4、6三個(gè)分值,強(qiáng)度依次增強(qiáng)。中性情感詞如大、小、多、少,與不同的產(chǎn)品特征詞結(jié)合可能產(chǎn)生不同的表達(dá)結(jié)果,難以判斷其褒貶義,為此結(jié)合整條評(píng)論文本的語(yǔ)境,將所有情感詞(包括褒義和貶義)的綜合得分作為被中性情感詞修飾的特征詞i的情感得分。

      基于此,特征詞i的情感評(píng)分計(jì)算模型為

      其中,SFi為第i個(gè)特征詞Fi的情感評(píng)分;SFi_P為第i個(gè)特征詞Fi在褒義評(píng)論文本中的情感評(píng)分;SFi_N為第i個(gè)特征詞Fi在貶義評(píng)論文本中的情感評(píng)分;SFi_M為第i個(gè)特征詞Fi在中性評(píng)論文本中的情感評(píng)分;a、b、c分別為與Fi有關(guān)的褒義評(píng)論的條數(shù)、貶義評(píng)論的條數(shù)、中性評(píng)論的條數(shù);SPx為第x條褒義評(píng)論中距離Fi最近的情感詞的分值;SPxA為第x條褒義評(píng)論中修飾最近情感詞的程度副詞的強(qiáng)度;SNy為第y條貶義評(píng)論中距離Fi最近的情感詞的分值;SNyA為第y條貶義評(píng)論中修飾最近情感詞的程度副詞的強(qiáng)度;pz為針對(duì)特征詞Fi的第z條中性評(píng)論中褒義情感詞的個(gè)數(shù);nz為針對(duì)特征詞Fi的第z條中性評(píng)論中貶義情感詞的個(gè)數(shù);SMz_Pz1為第z條中性評(píng)論中第z1個(gè)褒義情感詞的情感分值;SMz_Pz1A為第z條中性評(píng)論中修飾第z1個(gè)褒義情感詞的程度副詞的強(qiáng)度;SMz_Nz2為第z條中性評(píng)論中第z2個(gè)貶義情感詞的情感分值;SMz_Nz2A為第z條中性評(píng)論中修飾第z2個(gè)貶義情感詞的程度副詞的強(qiáng)度。

      產(chǎn)品特征詞的情感評(píng)分綜合反映了用戶對(duì)產(chǎn)品特征詞的情感傾向性及其程度,是制造企業(yè)確認(rèn)關(guān)注目標(biāo)、分析關(guān)聯(lián)因素、實(shí)施定量管理的基礎(chǔ)。

      4 產(chǎn)品特征詞關(guān)聯(lián)模型構(gòu)建

      產(chǎn)品特征詞關(guān)聯(lián)模型以產(chǎn)品基礎(chǔ)結(jié)構(gòu)為框架,將從評(píng)論文本中挖掘的特征詞,根據(jù)其內(nèi)容與類型,分別在產(chǎn)品基礎(chǔ)結(jié)構(gòu)中找到對(duì)應(yīng)者,或?qū)⑵涮砑拥较嚓P(guān)的節(jié)點(diǎn)(產(chǎn)品、部件、零件)中。

      基于分詞結(jié)果和產(chǎn)品特征詞構(gòu)建產(chǎn)品特征詞關(guān)聯(lián)模型的算法流程如圖7所示。

      圖7 構(gòu)建產(chǎn)品特征詞關(guān)聯(lián)模型的算法流程Fig.7 Algorithm workflow of constructing correlationmodel among product features

      在讀取和構(gòu)建特征詞之間關(guān)聯(lián)關(guān)系的過(guò)程中,如果當(dāng)前構(gòu)建的產(chǎn)品特征詞之間的關(guān)聯(lián)關(guān)系在前面的過(guò)程中已經(jīng)構(gòu)建并存在,則這對(duì)關(guān)聯(lián)關(guān)系的數(shù)量將累加到前面的數(shù)據(jù)中;如果不存在,則其數(shù)量賦為初始值。產(chǎn)品特征詞關(guān)聯(lián)模型中,特征詞之間的數(shù)據(jù)結(jié)構(gòu)為一個(gè)四元組結(jié)構(gòu),如下所示:

      PSFij=[Fi,Fj,Num,Sco]

      其中,F(xiàn)i為關(guān)聯(lián)單元中的父節(jié)點(diǎn)(即第i個(gè)特征詞);Fj為關(guān)聯(lián)單元中的子節(jié)點(diǎn)(即第j個(gè)特征詞);Num為關(guān)聯(lián)單元中第j個(gè)特征詞在整個(gè)評(píng)論文本中出現(xiàn)的頻次;Sco為關(guān)聯(lián)單元中第j個(gè)特征詞在整個(gè)評(píng)論文本中的情感評(píng)分。

      基于圖7描述的算法流程,將原本分散在不同評(píng)論文本中的特征詞及其關(guān)系進(jìn)行歸類和集中,形成了復(fù)雜、完整的產(chǎn)品特征詞關(guān)聯(lián)模型,為基于評(píng)論文本挖掘的綜合管理與應(yīng)用提供了模型和數(shù)據(jù)基礎(chǔ)。

      5 關(guān)鍵影響特征詞推理

      基于特征詞提取、特征詞頻次與情感得分計(jì)算,并通過(guò)構(gòu)建的產(chǎn)品特征詞關(guān)聯(lián)模型,可以方便地確定用戶對(duì)產(chǎn)品特征詞的關(guān)注或評(píng)價(jià)狀況。針對(duì)用戶評(píng)價(jià)不理想(情感評(píng)分計(jì)算較低)的產(chǎn)品特征詞,有效確定關(guān)鍵的影響因素,能夠?yàn)橹圃炱髽I(yè)或銷售商的管理工作提供重要指導(dǎo)依據(jù)。貝葉斯定理為利用搜集到的信息對(duì)原有判斷進(jìn)行修正、推理提供了有效手段。以產(chǎn)品特征詞關(guān)聯(lián)模型的結(jié)構(gòu)和數(shù)據(jù)為依據(jù),基于貝葉斯的關(guān)鍵影響產(chǎn)品特征詞推理過(guò)程的數(shù)學(xué)描述如下。

      關(guān)于一組變量X={X1,X2,…,Xn}的貝葉斯網(wǎng)絡(luò)包括兩個(gè)部分:①表示X中變量條件獨(dú)立的網(wǎng)絡(luò)結(jié)構(gòu)S;②與每一個(gè)變量相聯(lián)系的局部概率分布集合P。如果以Xi表示變量以及該變量對(duì)應(yīng)的節(jié)點(diǎn),Xj表示S中Xi的父節(jié)點(diǎn),則在父節(jié)點(diǎn)的客戶評(píng)價(jià)不理想(情感得分較低,N)的情況下,由各子節(jié)點(diǎn)造成的可能性計(jì)算模型如下:

      (2)

      其中,P(Xi=L)為所有用戶評(píng)論中,對(duì)產(chǎn)品特征詞Xi不滿意(L)的評(píng)論比例,即

      (3)

      其中,n(r,Xi)為第r條評(píng)論中,包含特征詞Xi的次數(shù);m(r,Xi,L)為第r條評(píng)論中,包含特征詞Xi且對(duì)其評(píng)價(jià)為負(fù)面(L)的次數(shù);Q表示評(píng)論文本的總數(shù)。

      同時(shí),P(Xj=N|Xi=L)為某一子節(jié)點(diǎn)特征詞Xi評(píng)價(jià)為負(fù)面(L)時(shí),父節(jié)點(diǎn)特征詞Xj的用戶評(píng)價(jià)不理想(N)的概率。結(jié)合產(chǎn)品特征詞關(guān)聯(lián)模型,P(Xj=N|Xi=L)計(jì)算模型為

      P(Xj=N|Xi=L)=
      ∑P(Xj=N|Xi,…,Xk)P(Xi=Γ)Γ=L,M,H,…,
      P(Xk=Γ)Γ=L,M,H

      (4)

      其中,P(Xj=N|Xi,…,Xk)描述子節(jié)點(diǎn)(Xi,…,Xk)分別獲得肯定(H)、否定(L)和中性(M)評(píng)價(jià)時(shí),父節(jié)點(diǎn)特征詞Xj的用戶評(píng)價(jià)不理想(N)的概率。這些子節(jié)點(diǎn)分別獲得肯定(H)、否定(L)和中性(M)評(píng)價(jià)時(shí)的概率和,表示子節(jié)點(diǎn)特征詞Xi評(píng)價(jià)為負(fù)面(L)時(shí),父節(jié)點(diǎn)特征詞Xj的用戶評(píng)價(jià)不理想(N)的概率,即P(Xj=N|Xi=L)。

      基于產(chǎn)品特征詞關(guān)聯(lián)模型的結(jié)構(gòu)及其數(shù)據(jù),可以方便地統(tǒng)計(jì)這些子節(jié)點(diǎn)特征詞狀態(tài)的概率及其對(duì)父節(jié)點(diǎn)特征詞狀態(tài)影響的概率。因此,通過(guò)式(2)~式(4)可以實(shí)現(xiàn)關(guān)鍵影響特征詞的推理。

      6 應(yīng)用案例

      為了說(shuō)明上述原理與方法的可行性,以國(guó)內(nèi)某電子通信產(chǎn)品xx F2為例,從中關(guān)村、京東和蘇寧三個(gè)電商平臺(tái),分別用網(wǎng)絡(luò)爬取工具火車采集器和GoSeeker(由于不同電商平臺(tái)的網(wǎng)頁(yè)結(jié)構(gòu)不一樣,所以分別采用了不同的網(wǎng)絡(luò)爬取工具)抓取了12 955條(其中,中關(guān)村772條,京東7392條,蘇寧4791條)產(chǎn)品評(píng)論文本記錄,并采用ictclas和ltp軟件工具進(jìn)行分詞、句法分析。結(jié)合CRF的應(yīng)用需求設(shè)計(jì)了產(chǎn)品特征詞提取規(guī)則及其模板,并開(kāi)發(fā)了產(chǎn)品特征詞提取及關(guān)聯(lián)模型構(gòu)建系統(tǒng)。

      產(chǎn)品特征詞是所有分析與應(yīng)用工作的基礎(chǔ),本文專門(mén)設(shè)計(jì)了特征詞提取規(guī)則及其模板。為了驗(yàn)證其有效性,將基于本文提出的特征詞提取規(guī)則及其模板提取得到的產(chǎn)品特征詞結(jié)果,與JAKOB等[7]的方法(與本文的研究思路最為接近)提取得到的產(chǎn)品特征詞結(jié)果進(jìn)行試驗(yàn)驗(yàn)證與比較,采用通用評(píng)價(jià)指標(biāo):準(zhǔn)確率(P)、召回率(R),以及F值為衡量標(biāo)準(zhǔn)。設(shè)計(jì)驗(yàn)證實(shí)驗(yàn)如下:將5000句實(shí)驗(yàn)語(yǔ)料分成5個(gè)子集,并分別編號(hào)為1、2、3、4、5,每個(gè)子集均包含1000句產(chǎn)品評(píng)論文本。采用5折交叉驗(yàn)證法,每次以4個(gè)子集作為訓(xùn)練集,1個(gè)子集為測(cè)試集,交叉重復(fù)5次,保證每次測(cè)試集是不同的子集。產(chǎn)品特征詞提取的各項(xiàng)指標(biāo)分別如表1所示??梢钥闯?,運(yùn)用本文中提出的方法,產(chǎn)品特征詞提取過(guò)程的F值達(dá)到54.51%,高于Jakob方法的50.63%,說(shuō)明本文中提出的產(chǎn)品特征詞提取規(guī)則及其模板設(shè)置是合理的。

      表1 兩種產(chǎn)品特征詞提取方法的實(shí)驗(yàn)結(jié)果

      在產(chǎn)品特征詞提取、同義詞/近義詞處理[1,9,12]的基礎(chǔ)上,結(jié)合特征詞頻次、情感評(píng)分計(jì)算及其分類,基于圖7描述的算法流程,構(gòu)建了產(chǎn)品特征詞關(guān)聯(lián)模型如圖8所示,表達(dá)了用戶對(duì)各級(jí)產(chǎn)品特征詞的關(guān)注、偏好、評(píng)價(jià)等定量信息。值得注意的是,父節(jié)點(diǎn)與其所有子節(jié)點(diǎn)之間在數(shù)據(jù)(頻次、情感評(píng)分)上并不滿足疊加特性,即所有子節(jié)點(diǎn)的相關(guān)數(shù)據(jù)之和并不等于父節(jié)點(diǎn)的對(duì)應(yīng)數(shù)據(jù)。這與實(shí)際情況是符合的,因?yàn)楫a(chǎn)品零部件也作為產(chǎn)品評(píng)論文本中的特征詞,其數(shù)據(jù)是根據(jù)產(chǎn)品零部件名稱特征詞在客戶評(píng)論文本中出現(xiàn)的頻次及客戶對(duì)其評(píng)價(jià)計(jì)算得到的,而表征功能、性能、可用性、服務(wù)的子節(jié)點(diǎn)特征詞,也是根據(jù)其在客戶評(píng)論文本中存在情況計(jì)算得到的,兩者之間不一定同時(shí)出現(xiàn)。因此,父子節(jié)點(diǎn)之間的相互關(guān)聯(lián)與影響程度需要另行計(jì)算分析。

      圖8 xx F2產(chǎn)品特征詞關(guān)聯(lián)模型Fig.8 Product feature correlation model of xx F2

      針對(duì)情感評(píng)分不理想的產(chǎn)品特征詞,提出基于貝葉斯網(wǎng)絡(luò)推理關(guān)鍵影響特征詞。根據(jù)貝葉斯網(wǎng)絡(luò)的推理需要,基于產(chǎn)品特征詞的頻次與情感評(píng)分?jǐn)?shù)據(jù),構(gòu)造了產(chǎn)品特征詞之間相互影響關(guān)系的概率表(表2),由于篇幅限制,只給出了部分節(jié)點(diǎn)之間的條件概率。

      表2產(chǎn)品特征詞之間相互影響關(guān)系的概率表(部分)

      Tab.2Possibilityformofmutualinfluencerelations
      amongproductfeatures(partial)

      以圖8中產(chǎn)品特征詞“屏幕”(情感評(píng)分僅為92)為例,結(jié)合表2中的數(shù)據(jù),通過(guò)式(1)~式(3),分別計(jì)算與產(chǎn)品特征詞(父節(jié)點(diǎn))“屏幕”關(guān)聯(lián)的產(chǎn)品特征詞(子節(jié)點(diǎn))“分辨率”“靈敏度”“材料”,造成用戶對(duì)特征詞“屏幕”評(píng)價(jià)不理想的概率為:0.437、0.314、0.249。由此可知,針對(duì)產(chǎn)品xx F2,造成用戶對(duì)其產(chǎn)品特征詞“屏幕”不太滿意,最可能的因素是“分辨率”。因此,制造企業(yè)需要對(duì)產(chǎn)品屏幕的“分辨率”進(jìn)行改進(jìn)和完善,從而提高產(chǎn)品的客戶滿意度。同樣,其他產(chǎn)品特征詞之間的相互關(guān)聯(lián)與影響情況,也可以通過(guò)這種方式計(jì)算。

      7 結(jié)論

      本文以文本挖掘?yàn)槭侄?,基于CRF原理及其應(yīng)用需求,在傳統(tǒng)詞形、詞性的基礎(chǔ)上,綜合考慮依存關(guān)系、控制詞及其類型,以及指定句子結(jié)構(gòu)中的具體內(nèi)容,設(shè)計(jì)了產(chǎn)品特征詞提取規(guī)則單元及其模板,可以有效提取特定語(yǔ)言表達(dá)習(xí)慣與方式中的內(nèi)容,提高了產(chǎn)品特征詞提取的效率。在此基礎(chǔ)上,構(gòu)造了特征詞頻次及其情感評(píng)分的計(jì)算模型,為產(chǎn)品特征詞的定量描述提供了參考。進(jìn)一步地,構(gòu)建了產(chǎn)品特征詞關(guān)聯(lián)模型,將原本分散在產(chǎn)品評(píng)論文本中的特征詞進(jìn)行歸類與集中;基于貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)用戶評(píng)價(jià)不理想的產(chǎn)品特征詞的關(guān)鍵影響因素進(jìn)行推理,從而可以深入洞察產(chǎn)品特征詞之間的關(guān)聯(lián)與影響機(jī)制,為產(chǎn)品設(shè)計(jì)者、制造者或零售商的精細(xì)化管理提供依據(jù)。

      然而,基于中文自然語(yǔ)言的處理和應(yīng)用是一個(gè)復(fù)雜、廣泛的課題,本文只作初步探討,相關(guān)內(nèi)容還需進(jìn)一步研究和完善,特別是在產(chǎn)品特征詞挖掘的準(zhǔn)確率、產(chǎn)品特征詞中同義詞/近義詞處理、評(píng)論文本中新產(chǎn)生的特征詞及其與現(xiàn)有特征之間的關(guān)系、產(chǎn)品特征詞之間的語(yǔ)義關(guān)系等,都需要進(jìn)一步研究,這是提高基于評(píng)論文本挖掘的工程應(yīng)用價(jià)值的關(guān)鍵。

      [1] 王永,張勤,楊曉潔. 中文網(wǎng)絡(luò)評(píng)論中產(chǎn)品特征提取方法研究[J].情報(bào)分析與研究,2013,12:70-73.

      WANG Yong, ZHANG Qin, YANG Xiaojie. Research on the Method of Extracting Features from Chinese Product Reviews on the Internet [J]. Intelligence Analysis and Research, 2013, 12: 70-73.

      [2] JIN J, JI P, GU R. Identifying Comparative Customer Requirements from Product Online Reviews for Competitor Analysis [J]. Engineering Applications of Artificial Intelligence, 2016,49: 61-73.

      [3] RAVI K V , RAGHUVEER K. Web User Opinion Analysis for Product Features Extraction and Opinion Summarization [J]. International Journal of Web amp; Semantic Technology, 2012,3(4): 69-82.

      [4] HU M, LIU B. Mining Opinion Features in Customer Reviews [C]// National Conference on Artificial Intelligence. San Jose, 2004:755-760.

      [5] WEI C P, CHEN Y M, YANG C S, et al. Understanding What Concerns Consumers: a Semantic Approach to Product Feature Extraction from Consumer Reviews [J]. Information System amp; E-business Management, 2010,8(2):149-167.

      [6] 余傳明,陳雷,張小青.基于支持向量機(jī)的產(chǎn)品屬性識(shí)別研究[J].情報(bào)學(xué)報(bào),2010,29(6):1038-1044.

      YU Chuanming, CHEN Lei, ZHANG Xiaoqing. Mining Product Features from Free-text Customer Reviews: an SVM-based Approach[J]. Journal of the China Society for Scientific amp; Technical Information, 2010,29(6):1038-1044.

      [7] JAKOB N, GUREVYCH I. Extracting Opinion Targets in a Single- and Cross- Domain Setting with Conditional Random Fields [C]// Conference on Empirical Methods in Natural Language Processing. Cambridge,2010:1035-1045.

      [8] SU S H, LYNN K T. Extracting Product Features and Opinion Words Using Pattern Knowledge in Customer Reviews [J]. The Scientific World Journal, 2013: 394758.

      [9] 李實(shí),葉強(qiáng),李一軍, 等. 中文網(wǎng)絡(luò)客戶評(píng)論的產(chǎn)品特征挖掘方法研究[J].管理科學(xué)學(xué)報(bào), 2009,12(2):142-152.

      LI Shi, YE Qiang, LI Yijun, et al. Mining Features of Products from Chinese Customer Online Reviews [J]. Journal of Management Science in China, 2009,12(2):142-152.

      [10] LI Shi, YU Ming. Mining Frequent and Infrequent Features from Chinese Customer Reviews [J]. Journal of Theoretical and Applied Information Technology, 2013, 48(1): 193-199.

      [11] JIANG T J, SHIH C W, YANG T H, et al. Enhancement of Feature Engineering for Conditional Random Field Learning in Chinese Word Segmentation Using Unlabeled Data [J]. Computational Linguistics amp; Chinese Language Processing, 2012,9: 45-86.

      [12] 祖李軍,王衛(wèi)平. 中文網(wǎng)絡(luò)評(píng)論中提取產(chǎn)品特征的研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用, 2014,23(5):196-201.

      ZU Lijun ,WANG Weiping. Research of Extracting Product Features from Chinese Online Reviews [J]. Computer System Applications, 2014,23(5):196-201.

      [13] 馬柏樟,顏志軍. 基于潛在狄利特雷分布模型的網(wǎng)絡(luò)評(píng)論產(chǎn)品特征抽取方法[J].計(jì)算機(jī)集成制造系統(tǒng), 2014,20(1):96-103.

      MA Baizhang,YAN Zhijun. Product Features Extraction of Online Reviews Based on LDA Mode [J]. Computer Integrated Manufacturing Systems,2014,20(1):96-103.

      [14] 徐建民,王金花,馬偉瑜. 利用本體關(guān)聯(lián)度改進(jìn)的TF-IDF特征詞提取方法[J]. 情報(bào)科學(xué),2011,29(2):279-283.

      XU Jianmin, WANG Jinhua,MA Weiyu. Improved TF-IDF Feature Selection Method Based on Ontology Relative Degree [J]. Intelligence Sciences, 2011,29(2):279-283.

      [15] LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]// Proceedings of the 18th International Conference on Machine Learning. San Francisco, 2001:282-289.

      [16] VELARDI P, STILO G, TOZZI A E, et al. Twitter Mining for Fine-grained Syndromic Surveillance [J]. Artificial Intelligence in Medicine, 2014, 61(3):153-163.

      [17] WU Mingxing, WANG Liya, LI Ming, et al. An Approach of Product Usability Evaluation Based on Web Mining in Feature Fatigue Analysis [J]. Computers amp; Industrial Engineering, 2014,75(1): 230-238.

      (編輯王旻玥)

      FeatureExtractionandCorrelationModelConstructionofOnlineProductReviewsandItsApplications

      YU Qiwei1XIAO Ying1LIN Jing1XU Xinsheng1WANG Qinglin1ZHANG Fei2

      1.Institute of Industrial Engineering,China Jiliang University,Hangzhou,310018 2.Institute of Mechanical Design, Manufacturing and Its Automation,China Jiliang University,Hangzhou,310018

      Online product reviews were the feedback of customer valuing a product. It was an urgent problem for manufacturers and retailers to mine valuable informations effectively and timely from online product reviews with the goal of gaining competitive advantages. Considering comprehensive factors such as word, part-of-speech (POS), dependency relations, governing word and its opinion description, the unit of rule for extracting product features and the rule template were designed. Product features were extracted from online reviews effectively through conditional random field (CRF) theory, and the product features were classified. The quantitative calculation models of product features including frequency and sentiment score were proposed. A correlation model among product features was established based on the description contents of product features and their classifications. On the basis of these, an approach of inferring the key influence factors among product features was presented based on Bayes network. Finally, a case study was performed to verify the feasibility of the methods mentioned above by using a mobile phone as an example, and the results may be used as evidence to implement precision management for manufacturers and retailers.

      text mining; feature extraction; emotional scoring; correlation model construction; influence factor deducing

      TP14;TH128

      10.3969/j.issn.1004-132X.2017.22.011

      2016-11-23

      國(guó)家自然科學(xué)基金資助項(xiàng)目(51405462,51305417);浙江省自然科學(xué)基金資助項(xiàng)目(LY16G010006);浙江省科技廳公益性技術(shù)應(yīng)用研究計(jì)劃資助項(xiàng)目(2014C31117)

      余琦瑋,女,1978年生。中國(guó)計(jì)量大學(xué)工業(yè)工程研究所講師。主要研究方向?yàn)閿?shù)據(jù)挖掘、人因工程。肖穎,女,1978年生。中國(guó)計(jì)量大學(xué)工業(yè)工程研究所講師。林靜,女,1993年生。中國(guó)計(jì)量大學(xué)工業(yè)工程研究所碩士研究生。徐新勝(通信作者),男,1976年生。中國(guó)計(jì)量大學(xué)工業(yè)工程研究所副教授。E-mail: lionkingxxs@cjlu.edu.cn。王慶林,男,1995年生。中國(guó)計(jì)量大學(xué)工業(yè)工程研究所碩士研究生。張飛,女,1978年生。中國(guó)計(jì)量大學(xué)機(jī)械設(shè)計(jì)制造及其自動(dòng)化研究所副教授。

      猜你喜歡
      特征詞關(guān)聯(lián)節(jié)點(diǎn)
      CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
      基于類信息的TF-IDF權(quán)重分析與改進(jìn)①
      Analysis of the characteristics of electronic equipment usage distance for common users
      基于AutoCAD的門(mén)窗節(jié)點(diǎn)圖快速構(gòu)建
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      抓住人才培養(yǎng)的關(guān)鍵節(jié)點(diǎn)
      面向文本分類的特征詞選取方法研究與改進(jìn)
      亚东县| 临海市| 城步| 宣化县| 河间市| 治县。| 石狮市| 墨江| 横峰县| 杂多县| 泗水县| 普定县| 昆山市| 墨脱县| 浦东新区| 绿春县| 尚志市| 澄迈县| 璧山县| 博客| 突泉县| 涿州市| 昔阳县| 哈尔滨市| 仁化县| 桂阳县| 清流县| 库尔勒市| 克山县| 阜南县| 孟州市| 梨树县| 常山县| 泾阳县| 杭锦后旗| 定安县| 天祝| 阳原县| 公主岭市| 华容县| 宁夏|