• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      在線評(píng)論的評(píng)論有用性判定

      2019-11-17 04:05:19陳雪晶程銳
      電腦知識(shí)與技術(shù) 2019年26期
      關(guān)鍵詞:信息熵

      陳雪晶 程銳

      摘要:為了更好地為消費(fèi)者提供具有參考價(jià)值的在線評(píng)價(jià),本論文基于對(duì)網(wǎng)上評(píng)論內(nèi)容的分析,借助LDA主題模型挖掘出評(píng)論內(nèi)容中所隱藏的主題信息,并與標(biāo)準(zhǔn)訓(xùn)練語料的主題信息進(jìn)行對(duì)比,計(jì)算它們之間的信息熵,使用計(jì)算出來的信息熵來表示評(píng)論內(nèi)容偏離標(biāo)準(zhǔn)語料庫的程度,從而得到評(píng)論內(nèi)容的有用程度。

      關(guān)鍵詞:評(píng)論有用性;KL距離;LDA主題模型;信息熵

      中圖分類號(hào): TP31? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2019)26-0266-03

      開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      Abstract: In order to better provide consumers with online evaluations of reference value, this thesis is based on the analysis of online comments, use the LDA theme model to dig out the hidden subject information in the comments, and compare it to the subject matter of the standard training corpus, calculate the information entropy between them, use the calculated information entropy to indicate the degree to which the content of the comment deviates from the standard Corpus, to obtain the usefulness of the content of the comments.

      Key words: Comment Usefulness; KL distance; LDA topic model;? Information Entropy

      1 引言

      隨著電子商務(wù)的發(fā)展,消費(fèi)者的購物習(xí)慣、行為模式等都發(fā)生了相應(yīng)的變化[1]。評(píng)論信息是潛在消費(fèi)者消費(fèi)意愿的重要依據(jù),而商家可以參考用戶評(píng)論調(diào)整其產(chǎn)品,變革銷售模式等來獲取更大的利潤(rùn)[2]?,F(xiàn)如今,在線點(diǎn)評(píng)的低門檻和松于審核導(dǎo)致了在線點(diǎn)評(píng)的泛濫,不僅評(píng)論質(zhì)量參差不齊,而且大量垃圾評(píng)論充斥其中,垃圾評(píng)論是一些沒有任何意義或用戶帶有某些目的性質(zhì)的在線評(píng)論的統(tǒng)稱,這些評(píng)論是由用戶隨意或者是故意發(fā)布的不真實(shí)的甚至是帶有欺騙性質(zhì)的評(píng)論信息[3]?,F(xiàn)如今,在線評(píng)論的評(píng)論有用性判定已經(jīng)逐步成了衡量在線評(píng)論質(zhì)量的最便捷有效的手段之一[4]。有用性可以看作是對(duì)評(píng)論中所包含的一些潛在價(jià)值進(jìn)行主觀測(cè)量,評(píng)論的有用性可以等同于評(píng)論的價(jià)值[5]?;谝陨戏治?,研究在線評(píng)論的評(píng)論有用性是具有實(shí)際意義,本論文也將圍繞在線評(píng)論的有用性判定進(jìn)行展開。

      2 原理分析

      本論文實(shí)施的主要原理是通過LDA主題模型能夠得到評(píng)論文本的主題分布概率,也就是這條評(píng)論屬于各個(gè)主題的概率是大,所得到的這些概率分布就可以作為計(jì)算KL距離的輸入,進(jìn)而得到評(píng)論樣本和評(píng)論總體之間的差異性,如果差異性很大,則認(rèn)為該評(píng)論樣本“不合格”,即判定為該條評(píng)論是無用的;如果差異性很小,則認(rèn)為評(píng)論樣本“合格”,即判定為是該條評(píng)論是有用的。

      3 算法描述

      3.1 算法流程圖

      本論文提出的評(píng)論有用性判定算法結(jié)合了信息熵和LDA主題模型,其判定算法的整體流程如圖1所示:

      3.2 文檔預(yù)處理

      文檔預(yù)處理主要是對(duì)訓(xùn)練語料以及評(píng)論文檔進(jìn)行相應(yīng)的處理,其處理實(shí)現(xiàn)的詳細(xì)流程如圖2所示:

      文檔預(yù)處理的實(shí)驗(yàn)結(jié)果如圖3所示:

      3.3 主題特征計(jì)算

      主題特征計(jì)算的流程如圖4所示:

      以上流程圖主要描述了如何對(duì)文本主題特征進(jìn)行計(jì)算,主題特征計(jì)算其本質(zhì)主要就是利用Gibbs Sampling采樣法結(jié)合LDA主題模型對(duì)隱變量進(jìn)行估計(jì),從而得到文本隱含的主題表示。綜合各方面進(jìn)行考慮,本論文中最終選用的參數(shù)估計(jì)算法所選擇的是Gibbs Sampling算法,Gibbs算法的大致實(shí)現(xiàn)步驟主要由:1、初始化;2、更新糾正詞語分配給每個(gè)主題的概率;3、收斂到目標(biāo)分布之后間隔取樣;4、迭代完成之后對(duì)取樣的樣本取均值四個(gè)步驟組成。

      3.4 主題相關(guān)性度量

      通過計(jì)算主題特征,可以得到語料庫中的評(píng)論和用戶提交的評(píng)論的主題特征,但語料庫中的評(píng)論的主題特征是一個(gè)M*K矩陣,而文檔主題特征是一個(gè)擁有K個(gè)元素的一維矩陣,語料庫中的評(píng)論和用戶提交的評(píng)論的主題特征的維度不一致,信息熵只能計(jì)算兩個(gè)維度相同的概率分布的差異性,因此,無法直接求解它們之間的信息熵,要想求解只能將他們轉(zhuǎn)換為同一緯度的矩陣。本論文利用歸一化指數(shù)函數(shù)softmax函數(shù)對(duì)語料庫中的文檔主題分布進(jìn)行歸一化處理,處理后語料庫中的文檔主題特征轉(zhuǎn)換為了一維矩陣,此時(shí),它們的維度就達(dá)到了一致,再通過求解信息熵即可評(píng)估其差異性。差異性評(píng)估的算法流程如圖5所示:

      4 實(shí)驗(yàn)過程

      4.1 實(shí)驗(yàn)數(shù)據(jù)獲取

      本論文通過設(shè)計(jì)語料擴(kuò)充模塊獲得對(duì)LDA主題模型進(jìn)行訓(xùn)練的文檔。其實(shí)現(xiàn)的算法流程如圖6所示。

      4.2 參數(shù)調(diào)節(jié)

      LDA主題模型中的主題數(shù)K,burn in的大小會(huì)影響整個(gè)算法的效果,本論文通過實(shí)驗(yàn)對(duì)burn in進(jìn)行分析得到每個(gè)參數(shù)的最優(yōu)值。

      ⑴burn in參數(shù)調(diào)節(jié)

      burn in最小時(shí)算法的建模能力最強(qiáng),根據(jù)burn in參數(shù)調(diào)節(jié)圖可以看出當(dāng)burn in取值為17500時(shí)算法的性能最佳。

      ⑵主題數(shù)量K參數(shù)調(diào)節(jié)

      困惑度越小越算法建模的能力越好,從主題數(shù)量K參數(shù)調(diào)節(jié)圖中可以看出,當(dāng)K的取值為20時(shí),實(shí)驗(yàn)的算法效果是最好。

      5 實(shí)驗(yàn)結(jié)果分析

      實(shí)驗(yàn)結(jié)果的結(jié)果圖如圖9所示:

      我們根據(jù)圖9,對(duì)比曲線A和B可以明顯發(fā)現(xiàn)兩條曲線之間存在某個(gè)可以將他們區(qū)分開來的數(shù)值,我們預(yù)測(cè)此值即為判斷評(píng)論是否有用的閾值,為了進(jìn)一步確定出這個(gè)值是多少,我們?cè)黾訕?biāo)記為“合格”的評(píng)論至5500條,增加標(biāo)記為“不合格”的評(píng)論至2400條,閾值從0.3到0.4進(jìn)行取值實(shí)驗(yàn),并每次試驗(yàn)的結(jié)果進(jìn)行統(tǒng)計(jì)如表1所示:

      從表1中可以看出,當(dāng)閾值取0.34時(shí),算法的分類效果最好,所以判斷評(píng)論是否有效的主題分布對(duì)稱性誤差為0.34。

      6 總結(jié)

      本論文針對(duì)評(píng)論有用性判定的問題,提出了結(jié)合主題分布和信息熵的方法。LDA主題模型基于優(yōu)良的數(shù)學(xué)理論挖掘出訓(xùn)練語料和用戶提交的評(píng)論中所隱含的主題,得到的主題特征作為信息熵的輸入,得到它們之間在主題層面上的差異的非對(duì)稱性度量,通過主題差異性非對(duì)稱性度量,可以從側(cè)面對(duì)用戶提交的評(píng)論的有用性進(jìn)行判定。

      參考文獻(xiàn):

      [1] 張麗. 在線評(píng)論的客戶參與動(dòng)機(jī)與評(píng)論有效性研究[D]. 南開大學(xué), 2011.

      [2] 張恒. 基于深度學(xué)習(xí)的虛假評(píng)論識(shí)別方法研究[D]. 哈爾濱工業(yè)大學(xué), 2011.

      [3] Bing L. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data(Data-Centric Systems and Applications)[J].Acm Sigkdd Explorations Newsletter,2008,10(2):23-25.

      [4] 劉苗苗,黃沛. 在線評(píng)論有用性的實(shí)證研究述評(píng)與展望[J]. 未來與發(fā)展, 2017, 41(12):64-67.

      [5] 方佳明,王鈺瑩,趙志榮. 不同產(chǎn)品品牌聲譽(yù)對(duì)在線評(píng)論有用性影響因素的調(diào)節(jié)效應(yīng)[J]. 軟科學(xué), 2016, 30(3).

      【通聯(lián)編輯:梁書】

      猜你喜歡
      信息熵
      基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
      基于信息熵模糊物元的公路邊坡支護(hù)方案優(yōu)選研究
      基于小波奇異信息熵的10kV供電系統(tǒng)故障選線研究與仿真
      基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
      基于信息熵賦權(quán)法優(yōu)化哮喘方醇提工藝
      中成藥(2017年7期)2017-11-22 07:32:59
      一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
      改進(jìn)的信息熵模型在區(qū)域水文站網(wǎng)優(yōu)化布設(shè)中的應(yīng)用研究
      基于信息熵的IITFN多屬性決策方法
      基于信息熵的循環(huán)譜分析方法及其在滾動(dòng)軸承故障診斷中的應(yīng)用
      泊松分布信息熵的性質(zhì)和數(shù)值計(jì)算
      湘潭县| 溧阳市| 怀柔区| 昌黎县| 怀仁县| 钟祥市| 博乐市| 乳源| 弋阳县| 息烽县| 咸宁市| 新巴尔虎右旗| 古浪县| 彭水| 板桥市| 溧水县| 贵溪市| 襄城县| 和平区| 保定市| 靖江市| 湖南省| 洪江市| 武隆县| 陆丰市| 黎川县| 宁远县| 临海市| 南宫市| 永兴县| 子洲县| 海丰县| 通州区| 宿迁市| 晋州市| 托克托县| 江西省| 天台县| 盘山县| 沂水县| 云和县|