• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于PU學習的建議語句分類方法

      2019-07-31 12:14:01張璞劉暢李逍
      計算機應用 2019年3期

      張璞 劉暢 李逍

      摘 要:建議挖掘作為一項新興研究任務,具有重要的應用價值。針對傳統(tǒng)建議語句分類方法所存在的規(guī)則復雜、標注工作量大、特征維度高、數(shù)據(jù)稀疏等問題,提出一種基于PU學習的建議語句分類方法。首先,使用簡單規(guī)則從無標注評論集合中選擇建議語句的正例集合;然后,為了降低特征維度,緩解數(shù)據(jù)稀疏性,在自編碼神經網絡(Autoencoder)特征空間中使用Spy技術劃分可靠反例集合;最后,利用正例集合和可靠反例集合來訓練多層感知機(MLP)對剩余的無標注樣例進行分類。該方法在中文數(shù)據(jù)集上的F1值和準確率值分別達到81.98%和82.67%,實驗結果表明,該方法能夠有效地對建議語句進行分類,且不需要對數(shù)據(jù)進行人工標注。

      關鍵詞:建議挖掘;建議語句分類;PU學習;自編碼神經網絡器;多層感知機

      中圖分類號: TP391

      文獻標志碼:A

      文章編號:1001-9081(2019)03-0639-05

      Abstract: As a new research task, suggestion mining has important application value. Since traditional suggestion sentence classification methods have problems like complex rules, large labeling workload, high feature dimension and data sparsity, a PU (Positive and Unlabeled)-based suggestion sentence classification method was proposed. Firstly, some suggestion sentences were selected from an unlabeled review set by using a simple rule to form a positive example set; then a reliable negative example set was constructed by Spy technique in the feature space of autoencoder neural network to reduce the feature dimension and alleviate data sparsity; finally, Multi-Layer Perceptron (MLP) was trained by the positive example set and the reliable negative example set to classify the remaining unlabeled samples. On a Chinese dataset, the F1 value and the accuracy of the proposed method, reached 81.98% and 82.67% respectively. The experimental results show that the proposed method can classify suggestion sentences effectively without manually labelling the data.

      Key words: suggestion mining; suggestion sentence classification; PU (Positive and Unlabeled) learning; autoencoder; Multi-Layer Perceptron (MLP)

      0 引言

      隨著互聯(lián)網的快速發(fā)展,網絡上出現(xiàn)了海量的用戶評論,人們不僅會在評論中傳達積極或消極的情緒,有時也會對產品、服務等提出相應的建議。例如,在“希望三星手機能支持谷歌應用商店”這條評論中雖然并未包含情感極性,但明確提出了對產品功能的改進建議。這類建議信息可以幫助廠家有效地提升產品質量,也有助于商家有針對性地制定銷售策略,具有重要的應用價值,建議挖掘[1]研究因此應運而生。

      進行建議挖掘,首先需要對建議語句進行分類,即將評論語句分為建議語句或非建議語句。但由于人們對建議的判定存在比較大的主觀性,導致建議語句的定義難以取得一致,這給語料標注和問題定義帶來了很多困難[1]。本文采用和文獻[1]類似的方案,將明確表達了期望或提出改進意見的語句定義為建議語句。目前,建議挖掘研究[2-7]雖然已經取得了一定的進展,但還存在以下問題:一方面,已有研究大多是在英文語料上開展的,在中文語料上的相關研究很少,而中文環(huán)境和英語環(huán)境中的網絡文化和建議語句的表達方式存在較大差異,因此需要深入研究中文環(huán)境下的建議語句分類方法。另一方面,在已有研究中,用于建議語句分類的方法主要有規(guī)則方法[2-3]和有監(jiān)督機器學習方法[4-7]。規(guī)則方法通過手工制定的規(guī)則來進行建議挖掘,需要提前建立復雜的規(guī)則模板,人工干預較多。而有監(jiān)督機器學習方法雖然模型的精度較高,但模型訓練過程中需要大量人工標注語料,標注工作量大,代價昂貴,并面臨特征維度高、數(shù)據(jù)稀疏等問題。

      針對以上問題,本文提出了一種綜合利用簡單語言規(guī)則和自編碼器(Autoencoder)特征提取[8]能力的PU(Positive and Unlabeled)學習[9]方法來對中文建議語句進行分類。PU學習方法是一類利用少量正例和無標注樣本進行學習的方法。該方法首先從無標注樣本中獲得部分可信反例,然后通過正例和可信反例訓練分類器,并對剩余無標注樣本進行分類,整個過程只需要少量標注的正例樣本,節(jié)省了收集和標注反例的工作,適用于缺乏標注數(shù)據(jù)集的建議挖掘任務。在PU學習框架下,本文結合中文建議語句的表達特點,通過制定簡單的語言規(guī)則,將滿足規(guī)則的語句劃分為正例集合,即建議語句集合,從而使得整個過程都不需要對數(shù)據(jù)進行手工標注。進一步地,本文使用自編碼神經網絡訓練文檔的Autoencoder特征向量并用在之后的學習過程中,與傳統(tǒng)PU學習方法使用的詞袋特征相比,Autoencoder特征包含了更深層次的語義信息,同時降低了特征維度,緩解了數(shù)據(jù)稀疏問題。在中文數(shù)據(jù)集上的實驗結果表明了本文方法的有效性。

      本文的主要貢獻有以下幾點:

      1)在中文語料上開展建議挖掘研究,并提出一種適用于建議語句分類的無監(jiān)督機器學習方法。就目前國內外文獻查閱情況而言,已有研究絕大多數(shù)為監(jiān)督學習方法,且主要在英文語料上開展研究。

      2)首次將PU學習方法應用于建議語句分類問題中,實驗結果驗證了本文方法的有效性。

      3)在PU學習框架下,綜合利用簡單語言規(guī)則和自編碼神經網絡特征提取能力,使整個過程不需要人工標注,并降低了特征維度并緩解了特征稀疏問題。

      1 相關工作

      1.1 建議挖掘

      建議挖掘近年來剛起步,相關的文獻還較少,主要方法分為基于規(guī)則的方法和有監(jiān)督機器學習方法。基于規(guī)則的方法中,文獻[2]利用語法、句法及情感極性詞典制定規(guī)則,對產品評論中提出改進建議的語句進行挖掘;文獻[3]基于“would”“should”等情態(tài)動詞以及“hope”“wish”“needs to”等特殊搭配制定了一系列規(guī)則,對用戶的購買意圖和用戶提出的改進建議同時進行挖掘,并將這兩類語句統(tǒng)稱為用戶希望語句。有監(jiān)督機器學習方法中,文獻[4]發(fā)現(xiàn)在網絡論壇中,通常由幾條連續(xù)的語句來共同表達建議,這意味著連續(xù)的句子之間存在很強的依賴關系,所以將用戶建議挖掘視為序列標注問題,并提出了一種改進的隱馬爾可夫模型來進行序列標注。文獻[5]在Twitter語料上使用詞袋特征、建議語句表達模板和因子分解機(Factorization Machine,F(xiàn)M)進行建議語句分類,緩解了Twitter語料中建議語句類別不平衡的問題。近年來,深度學習方法在自然語言處理領域得到了廣泛應用,文獻[6]使用預先訓練好的COMPOSES詞向量和LSTM模型進行建議挖掘,與支持向量機(Support Vector Machine, SVM)和卷積神經網絡(Convolutional Neural Network, CNN)相比,分類結果得到了進一步提升。文獻[7] 標注了用于建議挖掘研究的中文數(shù)據(jù)集,并提出一種基于特征融合和集成學習的建議語句分類模型。

      總體而言,基于規(guī)則的方法需要的人工干預較多,而有監(jiān)督機器學習方法則面臨標注工作量大、特征維度高、數(shù)據(jù)稀疏等問題。與已有研究不同,本文方法通過利用簡單語言規(guī)則,無需進行語料的手工標注,并在低維特征空間上進行建議語句分類,可看作一種無監(jiān)督機器學習方法。

      1.2 PU學習方法

      在使用有監(jiān)督學習算法時,每個類別都需要足量的標注數(shù)據(jù),標注通常需要手工完成,會耗費大量的人力和時間。因此,研究者們開始重視未標注數(shù)據(jù)來進行學習,而PU學習就是一種只使用少量正例樣本和大量未標注樣本進行學習的方法[9]。如今,PU學習方法已得到廣泛應用。文獻[10]中提出了一種整合LDA(Latent Dirichlet Allocation)、K-means和隱狄利克雷過程的PU學習框架來識別虛假評論,減小了錯誤標注造成的影響。文獻[11]著重研究了PU學習中劃分可信反例的方法,提出了一種基于聚類的半監(jiān)督主動分類方法,通過使正反例的共享特征盡可能少,從未標注數(shù)據(jù)集中盡可能多地移除正例,從而獲得更多的可信反例。文獻[12]中使用改進的特征詞權值提取方法和OB_PCZ算法劃分可信反例,再結合支持向量機和改進的Rocchio算法來構建文本分類器。盡管PU學習方法已被用于上述的諸多任務中,但是目前尚未見到有將其用于建議挖掘任務的相關研究。

      2 建議語句分類模型

      考慮到PU學習方法需要的標注數(shù)據(jù)少,在只給定標注正例的情況下仍然能有效分類等特點[9],本文將其引入建議語句分類任務。在傳統(tǒng)的PU學習方法中,一般是使用人工標注方式來標注正例集合P。不同于傳統(tǒng)方法,本文首先結合網絡上建議語句的表達特點,通過應用簡單的語言規(guī)則來確定正例集合P,節(jié)省降低了手工標注正例的成本,再在使用自編碼神經網絡訓練得到文檔的特征空間上,使用Spy技術[13]劃分出可信的反例集合RN,剩余的無標注集合記為Q。最后通過正例集合P、反例集合RN訓練多層感知機MLP并對Q進行分類,從而得到Q中的正例集合PQ、反例集合NQ,最終得到建議語句集合P+PQ,模型的整體框架見圖1。

      2.1 使用規(guī)則選取正例

      在傳統(tǒng)的PU學習方法中,使用手工標注的樣本作為正例集合,必然會耗費一定的人力和時間。由于目前缺乏可以用于建議挖掘的中文語料,本文通過編寫網絡爬蟲來采集網絡論壇中的評論數(shù)據(jù),構建數(shù)據(jù)集。通過對數(shù)據(jù)的觀察,發(fā)現(xiàn)建議語句通常會使用到“建議”“希望”等詞語。因此,本文將評論中包含“建議”或者“希望”的評論選擇出來,作為正例集合P,剩下的文檔作為無標注集合U,U中既包含建議語句也包含非建議語句。

      2.2 構建Autoencoder特征向量

      傳統(tǒng)PU方法使用詞袋模型來構建文檔的特征向量,而詞袋模型采用的文本特征大多以詞語特征為主,只是文本語義的表層形式,缺乏文本的深層語義信息,會面臨特征稀疏、維度災難等一系列問題,導致分類性能降低。

      自編碼網絡作為一種非監(jiān)督學習方法[8,14],通過設計編碼和解碼過程使輸入和輸出越來越接近,能通過具有隱藏層的神經網絡的逐層特征變換獲得原始數(shù)據(jù)的低維表示,從而顯著降低數(shù)據(jù)的維數(shù),并被廣泛應用于跨語言情感分類[15]、短文本分類[16]、入侵檢測[17]等任務中,因此,本文引入自編碼神經網絡來進行數(shù)據(jù)表示。

      自編碼神經網絡的網絡結構如圖2所示,原始數(shù)據(jù)x經過加權映射之后得到低維隱藏層h=f(x)=s(w1x+b1),再經反向加權映射到y(tǒng)=g(h)=s(w2h+b2),其中w2=w1,經過反復訓練使得誤差函數(shù)最小,即盡可能保證y近似于x,實現(xiàn)對x的重構,當誤差在限定范圍內時,可認為編碼過程是對原始數(shù)據(jù)的有效降維表達。圖2中的“+1”表示加入偏置。

      Autoencoder的目標函數(shù)如式(1)所示,M為樣本數(shù),N為輸入維度,xij表示輸入樣本i的第j個分量,yij表示樣本i對應的輸出向量的第j個分量。

      訓練過程中通過反向傳播梯度下降的方法更新參數(shù)w1、w2、b1、b2,使得目標函數(shù)減小。當輸出誤差L足夠小時,表明輸入樣本數(shù)據(jù)可以通過隱藏層重構表達,此時,隱藏層輸出即為提取的樣本特征[18]。利用全部文檔集合D訓練自編碼神經網絡,得到相應的正例集合P的Autoencoder特征向量集合PA,無標注集合U的Autoencoder特征向量集合UA。

      2.3 Spy劃分可信反例

      由于樣本空間中只包含正例樣本和未標注的樣本,模型需要從中抽取一些可信的反例。本文利用Spy技術從UA中劃分出可信反例RN,具體過程如下:首先從PA中隨機選出一定比例的樣本集合SP,這些選出來的樣本被稱為間諜樣本“spies”。然后將PA-SP作為正例,UA+SP作為反例,利用Autoencoder特征向量訓練邏輯回歸(Logistic Regression, LR)分類器LR,并使用LR計算出UA+SP中每個樣本屬于正類的概率p(1|x)。然后根據(jù)SP中樣本的p(1|x)確定一個閾值t,將UA中p(1|x)值小于t的樣本作為可信的反例劃入RN中,最后將UA中剩余的無標注樣本集合記為Q。

      算法1 Spy選取可信反例。

      輸入:正例集合P的Autoencoder特征向量集合PA,無標注集合U的Autoencoder特征向量集合UA;

      輸出:可信反例集合RN和剩余的無標注樣本集合Q。

      2.4 多層感知機分類

      多層感知機(Multi-Layer Perceptron, MLP)是一種常見的神經網絡模型,其前饋網絡結構能映射一組輸入向量到一組輸出向量,其中每一個神經元都帶有一個非線性激活函數(shù),并使用反向傳播算法來訓練MLP。將P作為正例集合,RN作為反例集合訓練MLP,然后使用訓練好的MLP對Q中的每個樣本分類,得到Q中的正例集合PQ、反例集合NQ,最終得到整個文檔集合D中的建議語句集合P+PQ。

      算法2 MLP分類。

      輸入:可信反例集合RN,正例集合P,剩余的無標注樣本集合Q;

      輸出:PQ,NQ。

      3 實驗與結果

      3.1 數(shù)據(jù)集

      已有研究中,只有文獻[5]公開了數(shù)據(jù)集,該數(shù)據(jù)集由3000條英文Tweet構成,其中屬于建議語句的只有238條,不足8%。文獻[7]中,本文作者發(fā)現(xiàn)在一般網絡平臺上的用戶評論中,建議語句的比例是比較低的,想要獲取一定量的建議語句所需要的數(shù)據(jù)量及標注工作量均比較大,而在部分網站專門設立的產品建議模塊中的建議語句比例會比較高,因而從三星蓋樂世社區(qū)(http://www.galaxyclub.cn)的產品建議模塊中爬取數(shù)據(jù)并標注了中文數(shù)據(jù)集。本文采用文獻[7]中的數(shù)據(jù)集,該數(shù)據(jù)集由15695條手機評論帖子構成,人工標注數(shù)據(jù)包括9000條評論,其中建議語句4513條,非建議語句4487條。

      3.2 實驗設置

      使用scikit-learn(http://scikit-learn.org/stable)工具包調用樸素貝葉斯(Nave Bayes, NB)、LR、SVM等傳統(tǒng)機器學習模型,使用gensim工具包(https://radimrehurek.com/gensim)調用Word2Vec和段落向量(Paragraph Vector, PV)[19]模型來訓練對比實驗的段落向量及詞向量,訓練過程中,PV模型及Word2Vec模型均使用默認參數(shù),在15695條評論數(shù)據(jù)上使用Word2Vec訓練得到128維詞向量,并使用段落向量的分布記憶模型(Distributed Memory model of Paragraph Vector, PV-DM)方式訓練得到128維的段落向量。自編碼神經網絡特征向量的維度為128維。實驗結果的評價指標采用文本分類中常用的精確率(Precision)、召回率(Recall)、F1值和準確率(Accuracy, Acc)。

      3.3 實驗結果和分析

      本節(jié)進行一系列實驗來驗證本文提出的建議語句分類方法的可行性和有效性。第1個實驗將本文提出的方法(表1中的PU-MLP)和以下四個基線方法進行比較。本文方法不需要標注數(shù)據(jù),可看成一種無監(jiān)督學習方法,下述實驗結果均指在整個數(shù)據(jù)集上進行一次實驗的結果。

      1)規(guī)則:使用2.1節(jié)中的簡單規(guī)則來進行分類,即將含有“希望”或“建議”的評論作為建議語句,其余語句作為非建議語句。

      2)S-EM:文獻[9]中提出的PU分類方法,該方法第一步中使用Spy技術劃分RN,第二步使用樸素貝葉斯分類器和期望最大化(Expectation-Maximum, EM)算法來進行分類。

      3)I-EM:文獻[9]中提出的PU分類方法,該方法第一步使用樸素貝葉斯分類器從未標注集合U中劃分出RN,第二步使用EM算法來進行分類。

      4)Roc-SVM:文獻[20]中提出的PU分類方法,該方法第一步使用Rocchio算法劃分出RN,第二步迭代使用SVM來進行分類。

      為了與本文方法進行對比,其中,S-EM、I-EM、Roc-SVM等方法均使用規(guī)則方法來劃分正例集合P,并用單詞作為特征。本文方法與其他基線方法的實驗結果見表1。

      表1中的實驗結果中,本文方法PU-MLP的F1值和準確率取得了最好效果,比S-EM的 F1值和準確率分別提升了6.85個百分點、13.9個百分點,比規(guī)則方法的 F1值和準確率則分別提升了4.17個百分點、2.01個百分點,驗證了本文方法的有效性。

      在S-EM 、I-EM、Roc-SVM等幾種方法中,S-EM方法的效果最好,其原因在于S-EM方法使用了Spy技術來劃分RN,因而結果明顯好于沒有使用Spy技術的I-EM和Roc-SVM方法。另一方面,S-EM、I-EM、Roc-SVM三個方法和本文方法相比而言,分類結果有較大差距,原因有如下兩點:一方面,S-EM、I-EM、Roc-SVM這三個方法均使用詞袋模型作為文本表示,特征維度高,數(shù)據(jù)稀疏問題嚴重。另一方面,上述三個方法在使用規(guī)則劃分正例集合P時,P中包含了一定量的噪聲數(shù)據(jù),在僅使用淺層的單詞特征進行分類時,可能受到噪聲的影響較大,導致之后的分類效果變差。

      為了驗證Autoencoder特征的有效性,第2個實驗對本文方法使用不同的文本特征來進行對比實驗,包括詞的Unigram特征、PV段落向量特征以及Word2Vec詞向量特征,實驗結果見表2。表2中Unigram指傳統(tǒng)的單詞特征,特征維度是20189維,PV指120維的段落向量特征,Word2Vec是指120維的詞向量求平均得到的文檔特征向量。

      表2的實驗結果表明,使用Autoencoder特征比使用另外三種特征向量的效果有明顯的提升,F(xiàn)1值比使用Unigram、PV、Word2Vec特征分別提升了4個百分點、5.11個百分點、0.38個百分點,Accuracy值則分別提升了1.92個百分點、10.68個百分點、2.51個百分點,這說明利用自編碼網絡方法對高維、非線性的原始數(shù)據(jù)進行特征降維后,能有效地利用學習過程中獲得最優(yōu)的低維特征向量進行建議語句識別。

      在傳統(tǒng)PU學習方法的第二步中,一般會選擇EM算法或者選擇其他分類器進行迭代,而本文方法在第二步選擇使用MLP的原因是由于EM算法對輸入要求嚴格,需要標稱型數(shù)據(jù),不適用于Autoencoder特征向量。第3個實驗將本文方法中的MLP分類器與其余迭代方法進行對比,其余步驟保持不變,實驗結果見表3。

      表3中SVM、LG是指在本文方法第二步中直接利用RN和P來分別訓練SVM和LR分類器并對Q分類;SVM-I則指迭代地訓練SVM分類器,每次訓練完成后對Q進行分類,并將Q中的反例劃分到RN中,然后進行下一次迭代,直至Q中分不出反例。LG-I則將迭代步驟中的分類器替換成邏輯回歸分類器,其余步驟與SVM-I相同。

      對比表3中SVM與SVM-I的結果可以發(fā)現(xiàn),迭代的分類效果并不一定比只分類一次的效果好,因為使用規(guī)則劃分正例集合P,導致P和RN中存在一些噪聲,如果在迭代過程中誤將Q中的正例劃分到RN中,會導致不斷迭代后的分類效果越來越差,而且很難確定迭代過程中表現(xiàn)最好的分類器,這也是使用迭代方法的一個缺點。MLP通過自身的網絡結構能夠實現(xiàn)對信息的記憶,而所記憶的信息存儲在神經元之間的權值中,這種分布式的信息存儲方式使得網絡具有良好的容錯性,根據(jù)表3中的分類結果,PU-MLP分類一次的效果比迭代使用SVM、LG和僅使用一次SVM、LG都要好,表明MLP更適用于本文任務。

      文獻[13]指出正例集合P的大小對PU學習方法的效果影響較大,為了分析P的大小對本文方法的影響,因此進行第4個實驗,通過修改規(guī)則來改變P集合的大小,并與使用不同數(shù)量標注正例的實驗結果進行對比,實驗結果見表4。表4中,20%~80%表示使用相應比例的手工標注正例作為P,Pos in P指P中包含的正例數(shù)量,Neg in U指U中包含的反例數(shù)量。

      觀察表4中使用標注正例的實驗結果,可以發(fā)現(xiàn)使用標注正例樣本(從20%變化到80%)時,隨著P集合的增大,分類效果逐步提升,而隨著P集合的減小,分類效果逐步降低。在單獨使用“建議”或者“希望”關鍵詞來選擇正例集合P時,P的規(guī)模明顯減小,F(xiàn)1值和準確率下降明顯,均下降了10%以上,與使用標注正例集合實驗結果的變化趨勢相同。此外,使用規(guī)則時的PU-MLP模型的分類效果介于使用20%~40%手工標注正例之間,其原因在于規(guī)則方法所選取的正例樣本中存在噪聲數(shù)據(jù),例如,“我的9350升級后2天,屏幕右有條紅線怎么處理,希望大神回復?!保叭嵌加心菐卓?,準備花4000~5500之間買個三星,求建議!”這兩條評論雖然符合本文所提的簡單語言規(guī)則,但卻是噪聲數(shù)據(jù),這些噪聲數(shù)據(jù)會對后續(xù)分類過程產生不利影響。

      4 結語

      本文在中文數(shù)據(jù)集上開展建議挖掘研究,提出了一種基于PU學習方法的無監(jiān)督建議語句分類方法。首先通過規(guī)則來選擇正例集合,接著使用Spy技術劃分出可信反例,然后利用選擇出來的正例集合和可信反例訓練多層感知機MLP,最后使用MLP進行分類。實驗結果表明本文方法具有良好的分類性能,能有效地進行建議語句分類任務。

      未來工作中,將探索新的可靠反例劃分方法,將其用于建議語句分類中。此外,本文實驗只是在手機評論領域下進行的探索研究,今后將在其他領域的語料上來分析本文方法的有效性。

      參考文獻 (References)

      [1] NEGI S. Suggestion mining from opinionated text [C] // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics-Student Research Workshop. Stroudsburg, PA: Association for Computational Linguistics, 2016: 7-12.

      [2] BRUN C, HAGEGE C. Suggestion mining: detecting suggestions for improvement in users comments [J]. Research in Computing Science, 2013, 70: 171-181.

      内丘县| 天长市| 沂南县| 靖宇县| 淮滨县| 铁力市| 桦甸市| 鄂州市| 大田县| 安顺市| 长沙市| 曲靖市| 贵阳市| 仙桃市| 广平县| 司法| 东光县| 集安市| 玉门市| 德惠市| 重庆市| 绵竹市| 衡南县| 调兵山市| 襄垣县| 巴彦淖尔市| 南江县| 东丽区| 大港区| 台前县| 中西区| 柯坪县| 河津市| 柘城县| 集安市| 泸西县| 五家渠市| 滦平县| 岑溪市| 太和县| 唐海县|