• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      應(yīng)用SD-LS-SVM 算法的評論情感分析模型

      2021-04-23 05:50:26孫翌博濮澤堃徐玉華
      軟件導(dǎo)刊 2021年4期
      關(guān)鍵詞:置信區(qū)間分詞特征向量

      孫翌博,濮澤堃,徐玉華,胡 冰

      (1.常州工學(xué)院計算機信息工程學(xué)院,江蘇常州 213032;2.南京郵電大學(xué)江蘇省郵政大數(shù)據(jù)技術(shù)與應(yīng)用工程研究中心;3.南京郵電大學(xué)國家郵政局郵政行業(yè)技術(shù)研發(fā)中心(物聯(lián)網(wǎng)技術(shù)),江蘇南京 210003)

      0 引言

      由于智能終端設(shè)備和移動互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,傳統(tǒng)線下消費部分份額已開始逐步轉(zhuǎn)移到線上電商消費中。對于商品的評論也從消費者的口碑式口口相傳轉(zhuǎn)變?yōu)榛ヂ?lián)網(wǎng)電商平臺上的評論熱潮。而這些產(chǎn)生于消費者購買后的評價信息,對電商或店家研究商品的銷售情況與制定相關(guān)銷售策略十分有價值。電商或賣家可以對消費者購買后產(chǎn)生的評價信息進(jìn)行分析,然后根據(jù)分析結(jié)果實現(xiàn)更好的決策[1]。

      情感分析是對文本進(jìn)行分析處理后對其所表達(dá)的情感進(jìn)行分類[2-3],由Pang 等[4]于2002 年提出。情感分析主要用于處理非結(jié)構(gòu)化及未標(biāo)記的數(shù)據(jù),而這些數(shù)據(jù)往往比較模糊主觀,因此需要涉及多個領(lǐng)域,其中包括自然語言處理[5]、機器學(xué)習(xí)[6]、數(shù)據(jù)分析[7]等。目前,對文本進(jìn)行情感分析的常見方法主要有情感詞典方法和機器學(xué)習(xí)方法[8]。情感詞典是一種傳統(tǒng)的情感分析方法[9-10],由Whissell[11]于1988 年提出。情感詞典首先對已知的廣泛使用的情感詞進(jìn)行歸納和整理,匹配文本和情感詞典中相同的詞語,進(jìn)而預(yù)測出待檢測文本的情感屬性?;跈C器學(xué)習(xí)的情感分析方法首先提取文本特征[12-13],然后按照預(yù)先設(shè)定的算法對文本進(jìn)行相應(yīng)處理,最后輸出情感分類結(jié)果。這種方式相較于基于情感詞典的情感分析方法,不僅可以減少相關(guān)人員的負(fù)擔(dān)和主觀的非理性判斷,還能夠建立足夠大的情感詞庫并且對詞庫不斷迭代更新。

      Lin 等[14]開發(fā)了一種跨語言聯(lián)合情感模型,該模型同時檢查兩種語言意見表達(dá);Liu 等[15]使用支持向量機(Support Vector Machines,SVM)作為情感分析的基礎(chǔ)分類器,對在線評論情感進(jìn)行分析。最小二乘支持向量機(Least Squares SVM,LS-SVM)相對于SVM,有著更低的訓(xùn)練復(fù)雜度[16]。在面對復(fù)雜文本特征分類的情形下,LS-SVM 的訓(xùn)練速度更適合。MuthuKumaran 等[17]利用LS-SVM 算法實現(xiàn)用戶評論分析與排名,從而實現(xiàn)合理的商品推薦。但是,LS-SVM 相對于SVM,存在稀疏性與魯棒性問題。此外,面對評論中追評等多次評論情況也需要進(jìn)行合理處理才能進(jìn)一步提高評論情感的分析準(zhǔn)確度。

      因此,為了高效預(yù)測用戶評論中的情感分類,本文提出一種基于SD-LS-SVM(Simple Optimization of Dynamic Confidence Interval for Least Squares Support Vector Machines)的評論情感分析模型。通過該模型對評論文本進(jìn)行預(yù)處理并提取文本情感特征向量,同時利用改進(jìn)的SDLS-SVM 算法對評論進(jìn)行情感分類。

      1 評論情感分析模型設(shè)計

      為了有效預(yù)測用戶評論的情感類別,需要建立評論情感分析模型,該模型結(jié)合情感詞典與機器學(xué)習(xí)技術(shù)對評論進(jìn)行分析從而提取其文本特征。首先,對評論數(shù)據(jù)和訓(xùn)練文本進(jìn)行預(yù)處理,并利用多個開源數(shù)據(jù)庫構(gòu)建詞網(wǎng),通過上下文分析對分詞進(jìn)行評分,并對追評進(jìn)行有效處理,從而生成文本情感特征向量;然后,通過置信區(qū)間的動態(tài)優(yōu)化修剪向量以提高LS-SVM 的稀疏度與算法效率,從而形成SD-LS-SVM 算法;最后,利用修剪后的最優(yōu)數(shù)據(jù)集與SD-LS-SVM 算法對評論文本進(jìn)行情感預(yù)測。

      如圖1 所示,評論情感分析模型包括文本預(yù)處理模塊、構(gòu)建詞網(wǎng)模塊、基于上下文分析的分詞評分計算模塊、追評處理模塊、評論文本情感特征向量提取模塊與SD-LSSVM 評論情感分類模塊。各模塊主要功能如下:

      (1)文本預(yù)處理。文本預(yù)處理模塊首先對文本語言進(jìn)行檢測,如為非中文文本將進(jìn)行翻譯操作,本系統(tǒng)主要對中文文本評論進(jìn)行情感分析。利用開源工具對評論文本進(jìn)行分詞,過濾常用停用詞,并保留文本符號,因為常用停用詞主要表示語氣的停頓,而不能揭示相關(guān)情感,而符號卻帶有情感含義。

      (2)詞網(wǎng)構(gòu)建。搜集多個開源情感詞典,例如清華大學(xué)中文褒貶義詞典、情感詞匯本體、臺灣大學(xué)NTUSD 簡體中文情感詞典、知網(wǎng)Hownet 情感詞典等構(gòu)建詞網(wǎng)。通過與詞網(wǎng)對比,可以進(jìn)行文本語料分析、標(biāo)注詞性、生成詞袋。

      Fig.1 Comment sentiment analysis model圖1 評論情感分析模型

      (3)基于上下文分析的分詞評分計算。該模塊利用上下文分析技術(shù)將待檢測的分詞與詞網(wǎng)中語料進(jìn)行對比分析。首先通過Word2vector 技術(shù)將待檢測分詞與詞網(wǎng)語料轉(zhuǎn)化文本向量,然后采用聚類算法找到與待檢測分詞最相似的詞網(wǎng)語料,并用投票機制識別分詞的情感極性,其表達(dá)式如式(1)所示。其中,num(Positive)是該分詞在詞網(wǎng)中屬于積極類的個數(shù),num(Negative)是該分詞在詞網(wǎng)中屬于消極類的個數(shù)。根據(jù)投票結(jié)果獲得語料各分詞得分S(x)。如果得分為+1,則該詞為積極詞性;為-1 則是消極詞性;為0 則是中性詞。

      此外,還需要建立副詞的評分機制,根據(jù)副詞評分計算顯示分詞詞性的強度λ,因此分詞的最終得分為S(x) ×λ。

      (4)追評處理?,F(xiàn)有電商平臺中的商品評論已經(jīng)不再局限于初次評論,消費者往往會在收貨一段期間再次追加評論以表達(dá)使用感受,而使用感受會隨著時間的推移發(fā)生變化,初評與追評的情感也可能存在差異,但是由于用戶經(jīng)過一段時間的商品體驗,追評相比初評更加客觀。為了更加全面地分析用戶的評論情感,該系統(tǒng)也需要對追評進(jìn)行處理。若同一用戶的初評與追評通過上述步驟計算得出的詞性相同,則合并為一條評論;若詞性不同,則將追評替代初評。

      (5)評論文本情感特征向量提取。該模塊將每個評論表示為一個文本特征向量Ω={θ1,θ2,…,θn},其中n是每條評論的有效高頻分詞總數(shù),θ則為每個高頻分詞的最終評分。通過上述步驟可以對每條評論進(jìn)行有效處理,并獲取每條評論的文本情感特征向量。

      (6)評論情感分類。該模塊對LS-SVM 算法進(jìn)行改進(jìn),利用改進(jìn)算法對文本特征向量進(jìn)行分類以實現(xiàn)評論情感預(yù)測。對于LS-SVM 缺乏稀疏性問題,可以通過基于置信區(qū)間的訓(xùn)練樣本修剪策略CI-LS-SVM[18]加以應(yīng)對。然而,固化的置信區(qū)間迭代掃描方法使得算法缺乏靈活性,且復(fù)雜度較高,因此采用基于動態(tài)置信區(qū)間的SD-LS-SVM 算法提高計算效率,并對訓(xùn)練數(shù)據(jù)進(jìn)行修剪獲得最優(yōu)訓(xùn)練數(shù)據(jù)集。將評論文本的情感特征向量導(dǎo)入SD-LS-SVM 算法中,并利用最優(yōu)訓(xùn)練集,對評論情感進(jìn)行分類,計算出用戶評論的情感類別。

      通過以上步驟,基于SD-LS-SVM 評論情感分析模型實現(xiàn)了評論文本預(yù)處理、特征向量提取與情感分類。通過分析出的情感類別,商家或平臺則可以判斷用戶對于該商品的喜惡趨勢,從而有針對性地制定相應(yīng)的營銷策略,并進(jìn)行精準(zhǔn)的商品推薦。

      2 SD-LS-SVM 情感分類算法

      LS-SVM 是對SVM 的一種變形算法,主要將QP(Quadratic Programming)問題轉(zhuǎn)化為線性方程組問題。相比于SVM,LS-SVM 的計算復(fù)雜度更低,算法效率更高。然而在LS-SVM 中,由于等式約束,幾乎所有訓(xùn)練樣本都是支持向量,并且對平方誤差具有異常值的敏感性,使得LS-SVM 相比SVM 缺少稀疏性和魯棒性。為了提高LS-SVM 算法的檢測效率與精度,需對LS-SVM 加以改進(jìn)。

      2.1 基于置信區(qū)間簡單動態(tài)優(yōu)化的LS-SVM 算法改進(jìn)

      本文提出一種改進(jìn)的SD-LS-SVM 算法,即利用簡單動態(tài)置信區(qū)間優(yōu)化策略處理文本情感數(shù)據(jù)樣本以提高分類精度。置信區(qū)間是總體參數(shù)區(qū)間估計值的一種,它顯示估計值的可靠性。在不同的置信度水平下,一些訓(xùn)練樣本將超出置信區(qū)間的限制。本文通過動態(tài)機制調(diào)整置信水平,并在置信區(qū)間之外逐漸刪除樣本,以提高LS-SVM 的稀疏性。

      通過引入拉格朗日函數(shù)解決約束優(yōu)化問題,其中αi為拉格朗日乘項。

      然后求偏導(dǎo)優(yōu)化:

      消除變量ωi和δi,可以得到以下線性方程式:

      其中,y=[y1,y2,…,yN],α=[α1,α2,…,αN],I是單位矩陣,Ω是M×MHessian 矩陣,即Ωij=K(xi,xj),K是RBF 核函數(shù)如式(6),σ為核函數(shù)寬度。

      可以通過式(8)進(jìn)行1-α置信度的預(yù)測值區(qū)間預(yù)估,即L(x) ≤y(x) ≤U(x)。其中,Λ是所選擇的一個合適的平滑函數(shù)。

      且局部近似值服從高斯分布,如式(9):

      E(y(x))為均值,ρ‖w(x) ‖為方差。由于預(yù)測會存在偏差令bi(x)=E(y(x)) -y(x)。由此可將置信區(qū)間修正為如式(10):

      引入動態(tài)調(diào)整迭代因子μ與縮略因子?,使得置信度在合理范圍內(nèi)變化。需要修剪的支持向量數(shù)量s與平均刪減的支持向量機數(shù)量m的比值達(dá)到一定閾值時,迭代因子μ通過取下限整數(shù)進(jìn)行動態(tài)下調(diào)。置信度的動態(tài)調(diào)整機制如式(11)。

      最終修剪過的LS-SVM 如式(12),從而確定支持向量中的最優(yōu)子集{(xi,yi)i∈S}。

      然后可以進(jìn)一步計算平均方差如式(13)。

      然后通過以上機制實現(xiàn)LS-SVM 置信區(qū)間的簡單動態(tài)修正,從而提高LS-SVM 的稀疏性。

      2.2 SD-LS-SVM 文本情感分類

      首先使用1 000 條開源數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集,并使用爬蟲軟件從淘寶、京東與蘇寧易購知名電商平臺中爬取評論數(shù)據(jù)集對訓(xùn)練數(shù)據(jù)集作進(jìn)一步擴充,訓(xùn)練數(shù)據(jù)集中包含積極語料子集與消極語料子集。將訓(xùn)練數(shù)據(jù)集通過上述模型提取語料的情感特征向量,然后通過SD-LS-SVM高效地修剪冗余樣本,得到最優(yōu)訓(xùn)練數(shù)據(jù)集。利用最優(yōu)數(shù)據(jù)集,通過SD-LS-SVM 算法對實際評論情感進(jìn)行分類。由于在修剪過程中需要進(jìn)行迭代訓(xùn)練,因此需要考慮終止條件。本文將累積誤差作為終止條件,當(dāng)累積誤差降至閾值K時就終止訓(xùn)練,累積誤差計算如式(14)。

      SD-LS-SVM 文本情感分類流程如圖2 所示。輸入訓(xùn)練數(shù)據(jù)集,原始支持向量機集合為所有訓(xùn)練樣本;令原始置信度為0.05,累積誤差閾值K為0.9?;赟D-LS-SVM的情感分類具體步驟如下:

      Fig.2 Sentiment classification process based on SD-LS-SVM圖2 基于SD-LS-SVM 的情感分類流程

      ①LS-SVM 分類與誤差懲罰參數(shù)γ、核函數(shù)寬度δ有關(guān),因此利用蟻群算法求解這兩個參數(shù)的最優(yōu)解[19];②用訓(xùn)練數(shù)據(jù)集求解式(5)以實現(xiàn)對原始模型的訓(xùn)練;③通過式(7)計算預(yù)測值和式(13)均方誤差;④利用式(10)計算置信度為α?xí)r的置信區(qū)間;⑤移除在置信區(qū)間外的訓(xùn)練樣本,并將剩余訓(xùn)練樣本作為支持向量;⑥利用式(11)計算新的置信度α與置信區(qū)間,然后回到步驟②進(jìn)行重訓(xùn)練,直至累積誤差降至閾值K,此時經(jīng)過修剪后的數(shù)據(jù)集為最優(yōu)數(shù)據(jù)集;⑦利用最優(yōu)數(shù)據(jù)集對SD-LS-SVM 模型進(jìn)行訓(xùn)練;⑧將待檢測的評論文本情感特征向量數(shù)據(jù)輸入SD-LSSVM 模型進(jìn)行分類,實現(xiàn)評論情感預(yù)測;⑨通過精確度P與召回率R與式(15)評估分類效果,對模型進(jìn)行性能評價。

      3 評論情感分析系統(tǒng)仿真實驗

      為了驗證應(yīng)用SD-LS-SVM 算法的評論情感分析模型的有效性與可靠性,本文設(shè)計相應(yīng)的仿真系統(tǒng),基于該模型實現(xiàn)相應(yīng)的情感預(yù)測功能,并對模型狀態(tài)與訓(xùn)練結(jié)果進(jìn)行統(tǒng)計分析。

      Fig.3 Simulation system architecture圖3 仿真系統(tǒng)架構(gòu)

      如圖3 所示,評論情感分析仿真系統(tǒng)主要分為數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)分析層與數(shù)據(jù)顯示層。數(shù)據(jù)采集層可從商品網(wǎng)頁上采集用戶評論、追評以及相關(guān)點贊數(shù)據(jù),也為用戶提供數(shù)據(jù)導(dǎo)入接口,通過外部導(dǎo)入文本數(shù)據(jù)進(jìn)行分析預(yù)測,所采集的文本數(shù)據(jù)均采用CSV 格式存儲在后臺數(shù)據(jù)庫;數(shù)據(jù)處理層主要對訓(xùn)練數(shù)據(jù)和待檢測數(shù)據(jù)進(jìn)行預(yù)處理,其中包括詞網(wǎng)構(gòu)建、文本分詞、分詞的詞性計算以及文本的特征向量提??;數(shù)據(jù)分析層對SD-LS-SVM 模型進(jìn)行訓(xùn)練,將待檢測數(shù)據(jù)進(jìn)行分類,并對分類結(jié)果進(jìn)行標(biāo)注;數(shù)據(jù)顯示層實現(xiàn)參數(shù)信息顯示,便于數(shù)據(jù)管理者設(shè)置相應(yīng)的模型參數(shù),并將數(shù)據(jù)分析層的預(yù)測結(jié)果、運行的模型狀態(tài)以圖表形式進(jìn)行直觀展示。

      基于SD-LS-SVM 的評論情感分析仿真系統(tǒng)主要使用Web 技術(shù)棧進(jìn)行實現(xiàn),分為前后端。在前端搭建Angular 框架,并設(shè)計實現(xiàn)相應(yīng)的顯示界面;后端搭建Django 框架,結(jié)合Mysql 數(shù)據(jù)庫,并基于ScikitLearn 框架完成情感分類模型。對于電商平臺中待檢測的評論,在對其作預(yù)處理后,提取文本特征向量,通過SD-LS-SVM 模型進(jìn)行分類。系統(tǒng)管理員可以通過前端控件選擇相應(yīng)的基礎(chǔ)情感詞典,設(shè)置訓(xùn)練和測試數(shù)據(jù)比例,并導(dǎo)入所需的SD-LS-SVM 參數(shù)模型。

      如圖4 所示,該系統(tǒng)通過SD-LS-SVM 模型對所需分析的語料進(jìn)行情感預(yù)測,并展示其結(jié)果。預(yù)測結(jié)果包括預(yù)測類別,即情感是屬于積極情感還是消極情感,給出正極性評估值和負(fù)極性評估值。

      系統(tǒng)模型每月都會進(jìn)行一次訓(xùn)練,系統(tǒng)會自動選擇準(zhǔn)確度最高的模型作為當(dāng)前模型。如圖5 所示,該系統(tǒng)會對每次的訓(xùn)練時常和分析結(jié)果進(jìn)行統(tǒng)計與展示。通過多次訓(xùn)練,模型的情感分類準(zhǔn)確率達(dá)70%~85%。仿真系統(tǒng)統(tǒng)計分析結(jié)果驗證了基于SD-LS-SVM 的情感分析模型可以對評論文本的情感進(jìn)行有效分類。

      Fig.4 Results of sentiment classification圖4 情感分類結(jié)果

      Fig.5 Statistics and analysis of model status圖5 模型狀態(tài)統(tǒng)計與分析

      4 結(jié)語

      本文提出一種應(yīng)用SD-LS-SVM 算法的評論情感分析模型,通過該模型實現(xiàn)評論文本預(yù)處理,構(gòu)建詞網(wǎng),并利用上下文分析方法生成評論中分詞的得分,同時對追評進(jìn)行處理從而提取文本情感特征向量。此外,本文對LS-SVM進(jìn)行了改進(jìn),首先利用簡單置信區(qū)間動態(tài)優(yōu)化獲取最優(yōu)訓(xùn)練數(shù)據(jù)集,并利用最優(yōu)數(shù)據(jù)集與改進(jìn)的SD-LS-SVM 算法對評論文本進(jìn)行分類。本文對評論情感分析系統(tǒng)進(jìn)行了仿真實驗,通過實驗證明了基于SD-LS-SVM 的評論情感分析模型的有效性。目前,本文只是將該模型進(jìn)行了實驗仿真,在未來工作中,需要研究SD-LS-SVM 評論情感分析模型在真正電商平臺中的應(yīng)用,其中需要將SD-LS-SVM評論情感分析模型部署至實際電商平臺中,并根據(jù)評論情感分類結(jié)果,生成相應(yīng)的滿意度報告。商家利用報告結(jié)果一方面可以改善商品質(zhì)量,另一方面可以挖掘忠實客戶以實施精準(zhǔn)營銷。

      猜你喜歡
      置信區(qū)間分詞特征向量
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
      定數(shù)截尾場合三參數(shù)pareto分布參數(shù)的最優(yōu)置信區(qū)間
      克羅內(nèi)克積的特征向量
      p-范分布中參數(shù)的置信區(qū)間
      多個偏正態(tài)總體共同位置參數(shù)的Bootstrap置信區(qū)間
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      列車定位中置信區(qū)間的確定方法
      一類特殊矩陣特征向量的求法
      EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
      值得重視的分詞的特殊用法
      景宁| 吉林省| 边坝县| 天柱县| 新宾| 交城县| 西宁市| 柳江县| 青川县| 磐安县| 锦州市| 渑池县| 昂仁县| 武强县| 新乐市| 冀州市| 武川县| 武定县| 兰州市| 安西县| 陕西省| 静宁县| 紫阳县| 二连浩特市| 舞钢市| 宣恩县| 巴东县| 安康市| 门头沟区| 洪湖市| 郓城县| 崇仁县| 华安县| 越西县| 陆丰市| 右玉县| 托克逊县| 绥宁县| 东宁县| 从江县| 宝丰县|