• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于NMF的Web評(píng)論情感分類(lèi)方法研究

      2016-11-02 23:04:24任靜劉立波
      電腦知識(shí)與技術(shù) 2016年18期
      關(guān)鍵詞:支持向量機(jī)

      任靜 劉立波

      摘要:Web評(píng)論研究技術(shù)中,其情感分析就是將評(píng)論的情感極性進(jìn)行褒貶分類(lèi)的過(guò)程。本文將非負(fù)矩陣分解(nonnegative matrix decomposition, NMF)和支持向量機(jī)(support vector machine,SVM)相結(jié)合,構(gòu)造出一種基于NMF的支持向量機(jī)(NMF-SVM)分類(lèi)算法。該算法利用NMF對(duì)初始的“詞—文檔”向量矩陣進(jìn)行有效降維,提取潛在語(yǔ)義,最后利用支持向量機(jī)對(duì)重新構(gòu)造的“詞-文本”向量模型進(jìn)行情感分類(lèi)。實(shí)驗(yàn)結(jié)果證明,該分類(lèi)算法的準(zhǔn)確率優(yōu)于比傳統(tǒng)的SVM算法,具有一定應(yīng)用價(jià)值。

      關(guān)鍵詞:Web評(píng)論;情感極性分類(lèi);非負(fù)矩陣分解;支持向量機(jī)

      中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)18-0167-04

      Sentiment Classifier Based on NMF for Web Comments

      REN Jing,LIU Li-bo

      (College of Information Engineering Ningxia University, Yinchuan 750021, China)

      Abstract: The research technique of Web review, the sentiment analysis is regarded as a classification process for review's emotional polarity. A support vector machine (NMF-SVM) classification algorithm based on NMF has been put forward, for which combine NMF(nonnegative matrix decomposition) and SVM(support vector machine). The algorithm using NMF for initial word-document vector matrix to reduce the dimension effectively, and to extract the latent semantic, finally using support vector machine to emotion classification that word-document vector model has reconstructed. The experimental results show that the accuracy of the classification algorithm is superior to the traditional SVM algorithm.

      Key words: web comments; emotional polarity classification; nonnegative matrix decomposition; support vector machine

      隨著Web2.0時(shí)代的到來(lái),為人們提供更加直觀的意見(jiàn)溝通、情感交流的平臺(tái),它的出現(xiàn)不但打破傳統(tǒng)行業(yè)運(yùn)作模式,而且在用戶(hù)體驗(yàn)式思維有很大的沖擊。因此,越來(lái)越多的用戶(hù)喜歡在互聯(lián)網(wǎng) (如博客和論壇)上,發(fā)表自己的觀點(diǎn)和分享自己的經(jīng)驗(yàn),直接表達(dá)自己的各種情感,如喜怒哀樂(lè)支持和反對(duì)等。Web上用戶(hù)的評(píng)論信息在不斷增長(zhǎng),分布在網(wǎng)絡(luò)上的海量信息成為了潛在用戶(hù)計(jì)劃消費(fèi)前不可缺少的信息參考和指導(dǎo)。例如,在各大門(mén)戶(hù)網(wǎng)站和論壇上出現(xiàn)某產(chǎn)品的評(píng)價(jià)和意見(jiàn)信息,直接影響潛在消費(fèi)顧客的購(gòu)買(mǎi)行為,也影響經(jīng)營(yíng)者、廠(chǎng)商了解用戶(hù)真實(shí)需求、自身產(chǎn)品、服務(wù)方面的不足。面對(duì)海量的網(wǎng)絡(luò)評(píng)論信息,僅靠純手工統(tǒng)計(jì)、分析、挖掘,根本不切合實(shí)際,因此,利用計(jì)算機(jī)幫助用戶(hù)快速完全地獲取和整理這些相關(guān)的評(píng)價(jià)信息是當(dāng)務(wù)之急。

      中文文本情感分析也稱(chēng)意見(jiàn)挖掘,是對(duì)具有情感色彩的主觀性文本信息,進(jìn)行識(shí)別、分析、處理、歸納等一系列過(guò)程。其價(jià)值體現(xiàn)在從大量文本信息中分析得到總結(jié)性的結(jié)論。目前對(duì)于Web評(píng)論的研究方面,Wei等人[1]分析產(chǎn)品評(píng)論中特征的提取和情感詞提取的方法。曹斌[2]通過(guò)數(shù)據(jù)挖掘算法,提取包含情感特征詞的旅游評(píng)論句子,判斷這些句子的情感傾向性,為用戶(hù)提供有價(jià)值的意見(jiàn)。肖芬[3]針對(duì)Web站點(diǎn)中的評(píng)論文本,通過(guò)產(chǎn)品屬性詞和評(píng)價(jià)詞的提取,挖掘出用戶(hù)對(duì)產(chǎn)品意見(jiàn)的極性。周城[4]利用文本分類(lèi)技術(shù)和情感詞典技術(shù)兩種分析方法對(duì)中文Web評(píng)論進(jìn)行情感傾向性分析。孫瑩[5]利用Web文本數(shù)據(jù)爬取的酒店評(píng)論信息,進(jìn)行文本的數(shù)據(jù)挖掘,構(gòu)建情感分類(lèi)模型,最終對(duì)口碑進(jìn)行情感分類(lèi),挖掘其中的商業(yè)價(jià)值。黃勝[6]從細(xì)粒度角度進(jìn)行原始數(shù)據(jù)抽取、目標(biāo)評(píng)價(jià)、詞典構(gòu)建、傾向詞聯(lián)合等四個(gè)方面挖掘出Web評(píng)論文本的主觀性意見(jiàn)。彭浩等人[7]提出一種基于比較句的Web評(píng)論情感傾向性分析方法,實(shí)驗(yàn)驗(yàn)證,該方法能對(duì)對(duì)用戶(hù)情感傾向性做出有效判斷。徐凱[8]針對(duì)產(chǎn)品特征提取方面細(xì)致研究,有效識(shí)別用戶(hù)情感傾向,為用戶(hù)消費(fèi)、廠(chǎng)商、企業(yè)提供有價(jià)值的信息。以上研究在Web評(píng)論文本的情感分類(lèi)準(zhǔn)確率有很大程度的提高,但是對(duì)文本特征空間較大、數(shù)據(jù)稀疏、有效特征較少問(wèn)題上仍存在不足。

      因此,本文基于傳統(tǒng)文本情感分類(lèi)的研究方法,利用非負(fù)矩陣分解算法對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)降維,提取有效特征,即體現(xiàn)了語(yǔ)義特征,又對(duì)大規(guī)模的Web評(píng)論分類(lèi)的效率和精度都有所提高,將情感詞集與待分類(lèi)文檔的在語(yǔ)義上關(guān)聯(lián)起來(lái),通過(guò)NMF重新構(gòu)造的“詞-文檔”語(yǔ)義距離作為支持向量機(jī)(SVM)分類(lèi)器的特征向量。實(shí)驗(yàn)結(jié)果表明,本文提出的方法相比于傳統(tǒng)的SVM方法在分類(lèi)準(zhǔn)確度上有所提高。

      1 相關(guān)理論

      1.1 特征向量空間

      目前SVM的文本分類(lèi),是根據(jù)文本內(nèi)容將它們分類(lèi)到目標(biāo)類(lèi)型的集合中,再利用初始文檔的“詞-文檔”向量空間模型作為分類(lèi)器的輸入,通過(guò)標(biāo)識(shí)好的訓(xùn)練樣本集進(jìn)行模型構(gòu)建,最后輸入測(cè)試樣本集數(shù)據(jù),獲取測(cè)試數(shù)據(jù)的分類(lèi)結(jié)果。運(yùn)用文本分類(lèi)的方法對(duì)文本進(jìn)行情感分類(lèi)過(guò)程中,文本分類(lèi)特征的選擇直接影響分類(lèi)結(jié)果的好壞。

      文本情感分析研究中,特征詞與文檔的間關(guān)系一般用向量空間模型(Vector Space Model,VSM)來(lái)表示,將數(shù)據(jù)向量化利于問(wèn)題的后續(xù)處理。文本情感分類(lèi)中最常見(jiàn)的特征向量空間模型是“詞-文檔”關(guān)系矩陣,關(guān)系矩陣中的特征值的好壞某種程度上決定了分類(lèi)器的性能。特征值一般情況下對(duì)應(yīng)特征詞在對(duì)應(yīng)文檔中出現(xiàn)的次數(shù),常見(jiàn)的特征提取方法有DF(文檔頻率)、信息增益(IG)和互信息(MI)等[9],將“詞-文檔”之間的關(guān)系表示為向量空間。TF-IDF(詞頻-逆向文檔頻率)方法是最常見(jiàn)的詞頻統(tǒng)計(jì)方法之一,TF-IDF計(jì)算公式如下[9]:

      利用詞-文檔逆向頻率方法,將每篇文檔表示成基于tf-idf權(quán)重向量,構(gòu)建所有特征詞的向量空間,初始化“詞-文檔”向量空間模型。

      1.2 NMF原理

      NMF是近年來(lái)一種新型的基于語(yǔ)義的矩陣分解算法,它將一個(gè)大的非負(fù)矩陣分解為左右兩個(gè)小非負(fù)矩陣,使得分解后的兩個(gè)小矩陣相乘可還原得到大矩陣。由于分解前后的矩陣中元素都是非負(fù)值,因此原矩陣中的列向量可以解釋為對(duì)左矩陣中所有列向量(稱(chēng)基向量)的加權(quán)和,而權(quán)重系數(shù)為右矩陣中對(duì)應(yīng)列向量中的元素。一般情況下,構(gòu)造文檔的“詞-文檔”關(guān)系矩陣,具有高維且稀疏的數(shù)據(jù)特性,而NMF算法不但可以降低矩陣維度,并且能夠挖掘出潛在的語(yǔ)義相關(guān)信息,很好地表達(dá)信息間局部相關(guān)性,具有更加直觀的語(yǔ)義解釋。另外,基于簡(jiǎn)單迭代計(jì)算的NMF方法具有收斂速度快、左右非負(fù)矩陣存儲(chǔ)空間小、語(yǔ)義解釋性強(qiáng)的特點(diǎn),適用于處理大規(guī)模數(shù)據(jù)、文本。

      設(shè)為任意一個(gè)非負(fù)矩陣,NMF算法就是尋找兩個(gè)非負(fù)矩陣和,使X可以近似分解成兩個(gè)矩陣的乘積。即有:

      2 基于NMF的情感傾向分類(lèi)方法

      基于NMF的情感傾向性分類(lèi)方法的系統(tǒng)結(jié)構(gòu)圖如下,總體上可以分為訓(xùn)練過(guò)程和測(cè)試分類(lèi)過(guò)程。

      1)文本預(yù)處理:使用現(xiàn)有的分詞系統(tǒng),對(duì)參加訓(xùn)練的評(píng)論文本數(shù)據(jù)進(jìn)行中文分詞、去除停用詞等預(yù)處理工作;

      2)選取特征詞集:通過(guò)對(duì)文檔中特征情感的詞篩選確定,特征詞的選取對(duì)分類(lèi)器分類(lèi)的準(zhǔn)確性有一定的影響;

      3)向量空間表示:利用“詞-文檔”關(guān)系矩陣,將文本數(shù)據(jù)進(jìn)行數(shù)據(jù)量化。一般使用TF-IDF(文檔-逆向文檔頻率)方法,將各個(gè)文本集都轉(zhuǎn)換成對(duì)應(yīng)的空間向量,構(gòu)建出“詞-文檔”向量空間模型;

      4)NMF特征變換:將初始“詞-文檔”向量空間模型進(jìn)行特征轉(zhuǎn)換,構(gòu)造出“詞-文檔”的向量空間模型;

      5)訓(xùn)練SVM分類(lèi)器:根據(jù)已標(biāo)注好的訓(xùn)練樣本集對(duì)SVM進(jìn)行訓(xùn)練,得到分類(lèi)器模型參數(shù),構(gòu)造最佳的分類(lèi)器。

      2.1 情感特征詞集的選取

      本文的情感特征詞集選取過(guò)程,依據(jù)中文分詞系統(tǒng),將評(píng)論文本中的詞性進(jìn)行標(biāo)注,具有情感表象的詞語(yǔ)一般都是句子中的名詞、副詞、形容詞等,將這類(lèi)詞語(yǔ)作為情感特征詞的候選詞集,具體選擇步驟如下:

      1)將評(píng)論文本集分詞后所有標(biāo)注的形容詞、副詞和名詞詞語(yǔ)構(gòu)成候選特征詞集。

      2)結(jié)合知網(wǎng)情感分析常用詞語(yǔ)集詞典,對(duì)候選特征詞集進(jìn)行篩選過(guò)濾,若候選特征詞包含在情感分析詞語(yǔ)集詞典中,則保留,否則,剔除該候選特征詞。

      3)對(duì)過(guò)濾后的候選特征詞集,對(duì)DF值(文檔頻率)設(shè)置一定的閾值,過(guò)濾小于閾值部分的情感詞,篩選出具有很大信息量的特征情感詞集。詞DF值表示包含該詞的文檔總數(shù)。公式如下:

      4)按照式(5)的計(jì)算方式,統(tǒng)計(jì)全部候選特征詞的DF值,篩選DF值大于某一預(yù)先設(shè)定值的詞,重新組建情感特征詞集。

      情感特征詞集的選取過(guò)程中,既有效表示文檔的情感傾向特征,又在一定程度上降低數(shù)據(jù)稀疏問(wèn)題。

      2.2 基于NMF-SVM情感傾向性分類(lèi)過(guò)程

      由圖1中描述的NMF-SVM算法結(jié)構(gòu),整體分為兩部分:第一部分是利用已知樣本數(shù)據(jù)對(duì)SVM模型進(jìn)行訓(xùn)練;第二部分根據(jù)建立的模型進(jìn)行測(cè)試數(shù)據(jù)分類(lèi),具體算法如下:

      算法模型中,輸出參數(shù)為交叉驗(yàn)證參數(shù)、懲罰因子參數(shù)和核函數(shù)參數(shù)。

      算法中k值表示潛在語(yǔ)義維度,步驟1中,利用分詞工具和程序?qū)χ形奈谋具M(jìn)行分詞進(jìn)行預(yù)處理,步驟2中,情感特征詞集利用2.1節(jié)中介紹的方法選取。步驟4中,通過(guò)TF-IDF(文檔-逆頻率)演算公式,計(jì)算出初始“詞-文檔”向量空間模型,用步驟5中的矩陣X表示。步驟7中,利用NMF方法將特征向量空間向低維語(yǔ)義空間映射,得到重塑的“詞-文檔”向量空間模型,步驟8是SVM分類(lèi)器模型參數(shù)確定過(guò)程。

      算法2 NMF-SVM模型分類(lèi)算法

      輸入:分類(lèi)測(cè)試文本集

      輸出:值

      K為NMF過(guò)程中選取的潛在語(yǔ)義維度,Tab(d)為文本類(lèi)別標(biāo)識(shí)函數(shù)。步驟1中,利用分詞工具和程序?qū)χ形奈谋具M(jìn)行分詞進(jìn)行預(yù)處理。步驟3通過(guò)TF-IDF(文檔-逆頻率)演算公式,計(jì)算情感特征詞在每個(gè)測(cè)試文檔中的TF-IDF值。步驟4中,構(gòu)建情感特征詞與測(cè)試分類(lèi)文本的“詞-文檔”的向量空間模型。步驟6中,利用NMF方法將特征向量空間向低維語(yǔ)義空間映射,得到重塑的“詞-文檔”向量空間模型。步驟7是利用訓(xùn)練好的SVM模型分類(lèi)器進(jìn)行文本分類(lèi),得到測(cè)試文本集的情感分類(lèi)結(jié)果。

      3 實(shí)驗(yàn)及分析

      3.1 實(shí)驗(yàn)環(huán)境及評(píng)價(jià)指標(biāo)

      在實(shí)驗(yàn)中,運(yùn)用Java語(yǔ)言編程,使用中科院譚松波老師整理的1000篇關(guān)于酒店類(lèi)的論壇評(píng)論作為實(shí)驗(yàn)語(yǔ)料,采用中科院的ICTC-LAS中文分詞系統(tǒng),SVM分類(lèi)器采用臺(tái)灣大學(xué)林智仁老師的lib-svm Java版本。不同研究領(lǐng)域的情感特征詞集不同,文中的酒店評(píng)論情感特征詞集按照3.1節(jié)的方法獲取,其中C(ti)值選取為3。酒店類(lèi)論壇評(píng)論的情感詞集共選取了40個(gè)情感特征詞如表1所示。

      本實(shí)驗(yàn)采用準(zhǔn)確率、召回率、F值最為衡量Web評(píng)論文本分類(lèi)算法的性能指標(biāo)。

      準(zhǔn)確率(),也稱(chēng)查準(zhǔn)率,主要反映了情感分類(lèi)器的準(zhǔn)確度。它主要是指經(jīng)過(guò)分類(lèi)實(shí)驗(yàn)之后,被正確分類(lèi)的文本數(shù)目與返回結(jié)果的文本數(shù)目的比值,計(jì)算公式如下:

      召回率(),也稱(chēng)查全率,主要反映情感分類(lèi)器的分析完全性。它主要是指經(jīng)過(guò)分類(lèi)實(shí)驗(yàn)后,被正確分類(lèi)的文本數(shù)目所占應(yīng)該被判別為該類(lèi)別的文本數(shù)目的比重,具體如公式所示:

      由上述計(jì)算公式可以看出,準(zhǔn)確率()和召回率()從兩個(gè)角度反映出分類(lèi)效果,為準(zhǔn)確評(píng)價(jià)文本分類(lèi)的效果,將兩者綜合考慮,即構(gòu)建F值對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià),具體公式如下所示:

      3.2 實(shí)驗(yàn)結(jié)果分析

      在對(duì)傳統(tǒng)的SVM情感分類(lèi)方法和NMF-SVM情感分類(lèi)方法進(jìn)行對(duì)比實(shí)驗(yàn)中,將1000篇酒店評(píng)論文檔(正負(fù)各為500篇)語(yǔ)料,隨機(jī)分成3份,其中2份作為樣本訓(xùn)練集,另外1份作為測(cè)試數(shù)據(jù),重復(fù)試驗(yàn)3次,最終取3組平均值作為結(jié)果。

      驗(yàn)證過(guò)程采用統(tǒng)一試驗(yàn)數(shù)據(jù)集,設(shè)SVM分類(lèi)器的參數(shù):c=1,g=1/k,其中k為情感特征詞集,k=40。本文基于NMF-SVM算法模型所得到參數(shù):c=0.1,g=0.0768,基于NMF-SVM算法的Web評(píng)論文本情感分類(lèi)的數(shù)據(jù)分析結(jié)果如表2所示。

      本實(shí)驗(yàn)中潛在語(yǔ)義維K值取10。從實(shí)驗(yàn)結(jié)果表2分析可知,本文提出的NMF-SVM方法的分類(lèi)比傳統(tǒng)SVM方法的準(zhǔn)確率平均提高2.86%,最高準(zhǔn)確率達(dá)到82.15%,最高召回率達(dá)到88.49%。通過(guò)同一數(shù)據(jù)集下的文本實(shí)驗(yàn)對(duì)比分析,應(yīng)用NMF算法對(duì)文本特征矩陣進(jìn)行降維,重新構(gòu)造潛在語(yǔ)義空間模型后,其分類(lèi)效果比傳統(tǒng)的SVM方法更具優(yōu)勢(shì),更有廣泛應(yīng)用價(jià)值。

      4 結(jié)束語(yǔ)

      本文基于傳統(tǒng)文本情感分類(lèi)的研究理論,對(duì)Web中文評(píng)論情感特征矩陣存在的數(shù)據(jù)高維和稀疏性問(wèn)題,提出一種基于NMF的Web評(píng)論情感分類(lèi)算法。算法通過(guò)文本情感特征詞集的篩選并與評(píng)論文本集間語(yǔ)義的關(guān)聯(lián),以“詞-文檔”關(guān)系矩陣作為SVM分類(lèi)器的輸入向量,這一過(guò)程中既解決機(jī)器學(xué)習(xí)中存在的數(shù)據(jù)稀疏問(wèn)題,又有效地保留了特征詞的語(yǔ)義信息。實(shí)驗(yàn)結(jié)果表明,這種方法在Web評(píng)論情感分類(lèi)的準(zhǔn)確率較傳統(tǒng)的SVM方法有一定的提高,但非負(fù)矩陣分解(NMF)過(guò)程中k值選取,即語(yǔ)義維度的確定對(duì)分類(lèi)效果可能會(huì)有一定影響,后續(xù)將會(huì)展開(kāi)研究。

      參考文獻(xiàn):

      [1] Wei Wei, Liu Hongyan, He Jun, et al. Extractiong Feature and Opinion Words Effectively from Chinese Product Reviews[C].In:Proceedings of the fifth International Conference on Fuzzy Systems and Knowledge Discovery(FSKD,2008).

      [2] 曹斌. 互聯(lián)網(wǎng)上旅游評(píng)論的情感分析及其有用性研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2008.

      [3] 肖芬. 面向Web文本的產(chǎn)品意見(jiàn)挖掘算法研究[D]. 北京:北京郵電大學(xué),2009.

      [4] 周城. 面向中文Web評(píng)論的情感分析技術(shù)研究[D]. 長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2011.

      [5] 孫瑩. 基于Web文本挖掘在企業(yè)口碑情感分類(lèi)模型研究[D]. 武漢:華中師范大學(xué),2013.

      [6] 黃勝. Web評(píng)論文本的細(xì)粒度意見(jiàn)挖掘技術(shù)[D]. 北京:北京理工大學(xué),2014.

      [7] 彭浩,徐健,肖卓. 基于比較句的網(wǎng)絡(luò)用戶(hù)評(píng)論情感分析[J]. 現(xiàn)在圖書(shū)情報(bào)技術(shù),2015(12):48-56..

      [8] 徐凱. 基于產(chǎn)品特征的用戶(hù)評(píng)論情感傾向分析研究[D]. 合肥:合肥工業(yè)大學(xué),2015.

      [9] 黃章義,劉懷亮. 一種基于語(yǔ)義的中文文本特征降維技術(shù)研究[J]. 情報(bào)雜志,2011,12(30):123-126.

      猜你喜歡
      支持向量機(jī)
      基于支持向量回歸機(jī)的電能質(zhì)量評(píng)估
      基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測(cè)
      數(shù)據(jù)挖掘技術(shù)在電廠(chǎng)經(jīng)濟(jì)性分析系統(tǒng)中的應(yīng)用Q
      基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
      基于SVM的煙草銷(xiāo)售量預(yù)測(cè)
      動(dòng)態(tài)場(chǎng)景中的視覺(jué)目標(biāo)識(shí)別方法分析
      論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
      基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      管理類(lèi)研究生支持向量機(jī)預(yù)測(cè)決策實(shí)驗(yàn)教學(xué)研究
      考試周刊(2016年53期)2016-07-15 09:08:21
      宁化县| 越西县| 太白县| 老河口市| 雷山县| 格尔木市| 凤翔县| 沾益县| 咸丰县| 唐海县| 普安县| 高唐县| 公主岭市| 磐安县| 通化市| 农安县| 黑水县| 余庆县| 婺源县| 崇文区| 洛阳市| 淮滨县| 清水县| 互助| 万载县| 阿克苏市| 金门县| 措美县| 巩留县| 太湖县| 海南省| 洪湖市| 绩溪县| 若尔盖县| 遂平县| 永定县| 商水县| 宜宾县| 蕉岭县| 偃师市| 黑河市|