• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多特征融合的跨域情感分類模型研究

      2017-05-27 19:44:03琚春華鄒江波傅小康
      知識管理論壇 2016年6期
      關鍵詞:遷移學習

      琚春華+鄒江波+傅小康

      摘要:[目的/意義]跨領域情感分類仍是亟需重點研究的問題之一。[方法/過程]借助情感無關詞,通過譜聚類算法構建源領域與目標領域的跨域情感特征詞簇,將譜聚類得到的情感詞特征與位置特征、關鍵詞特征、詞性特征融入邏輯回歸分類算法中,實現(xiàn)基于多特征融合的跨領域情感分類算法;并以用戶評論數(shù)據(jù)進行驗證。[結果/結論]研究結果表明,CDFF(Cross Domain pulse Four Factor)算法可有效實現(xiàn)跨域用戶的情感分類,為跨領域情感分類研究提供借鑒。

      關鍵詞:跨域情感分類 多特征融合 譜聚類 遷移學習

      分類號:TP391

      引用格式:琚春華, 鄒江波, 傅小康. 基于多特征融合的跨域情感分類模型研究[J/OL]. 知識管理論壇, 2016, 1(6): 464-470[引用日期]. http://www.kmf.ac.cn/p/1/83/.

      1 引言

      互聯(lián)網(wǎng)用戶的交互行為產(chǎn)生了大量評論數(shù)據(jù),如客戶購買某商品后的評論、微博用戶針對熱點話題的評論等。這些交互數(shù)據(jù)中隱含著用戶對某類事物的情感傾向,它對構建用戶興趣模型、產(chǎn)生推薦結果具有重要實踐意義。情感分類即根據(jù)評論數(shù)據(jù)將用戶情感分為兩類:積極和消極,雖然人們可以很容易從某條評論數(shù)據(jù)中推測出當時評論者的情感,但對于機器來說并非易事,并且一些評論數(shù)據(jù)中并沒有顯性的表達出用戶情感,這更增大了機器學習的難度。

      國內(nèi)外已有許多學者通過半監(jiān)督學習的方法對情感分類問題進行了研究[1-3],有研究者為了更好地利用關鍵句和細節(jié)句之間的差異性和互補性,將抽取的關鍵句分別用于有監(jiān)督和半監(jiān)督的情感分類中[2],但如何準確判斷出評論的關鍵句仍是需要繼續(xù)深入研究的問題。有研究者使用大規(guī)模未標記數(shù)據(jù)和少量情緒詞實現(xiàn)了情感分類[3],雖然降低了人工標記數(shù)據(jù)的成本,但模型不能重復在其他領域中使用,仍需針對特定領域進行情感分類學習。在情感分類研究中也有針對如何計算情感詞的情感度,有學者針對情感詞的情感度確定問題進行研究[4],提出了模糊層次分析法來度量情感詞的情感度。這些方法的分類結果依賴于手工標識的訓練數(shù)據(jù),訓練數(shù)據(jù)好的分類準確率也高,但實際情況卻是每個領域中手工標識形成分類訓練數(shù)據(jù)的代價是很高的,如果對每個領域都進行手工數(shù)據(jù)標識也是不現(xiàn)實的,因此有研究者考慮到情感分類任務的領域相關性[5],通過跨領域學習減少情感分類的數(shù)據(jù)標記,提出一種基于評價對象類別的跨領域學習方法,但評價對象類別粒度較粗,不適合跨多個領域的情感分類[6]。由此可見,在某一個領域情感訓練產(chǎn)生的分類準確的分類器未必能在另一個領域中表現(xiàn)出同樣的準確性。為了解決情感分類算法領域依賴性高、人工數(shù)據(jù)標記成本大等問題,本文對跨域情感分類進行了深入研究,發(fā)現(xiàn)通過譜聚類可縮短不同領域間情感詞的距離,在已有研究的基礎上,本文希望借助情感無關詞來橋接源領域與目標領域,再利用譜聚類算法將不同領域的情感詞聚集到一起,并考慮相關特征進行融合,以此實現(xiàn)跨領域情感分類。

      2 概念定義與問題描述

      本節(jié)對領域、情感詞、跨域情感分類等相關概念做出了相關定義。

      定義1領域:一個領域D代表現(xiàn)實世界中一類實體或概念的集合。

      可理解為超市中不同的產(chǎn)品區(qū)域,有食品、文具、家電等,圖書館中不同學科領域,領域的粒度可抽象或細分,具體需根據(jù)實際情況而定。

      定義2情感詞:給定一個特定的領域,情感詞是那些能夠反映用戶情感傾向的詞語。

      這些情感詞與用戶短語表達出來,通過語句拆分可組成情感詞序列[w1,w2,w3…wn],本研究中沒有考慮情感詞在語句的排序對最終情感分類的影響,但考慮了情感詞在語句中的位置對最終情感分類的影響,每個特定的領域D有屬于本領域的情感詞庫W(wi?W),借鑒bag-of-words的思想,將c(wi,xj)表示為情感詞wi在語句xj中出現(xiàn)的頻率。

      定義3情感分類:給定領域,根據(jù)語句xi整體語義表達劃分情感類別yi(正面yi=1或負面yi=-1)將已標記情感類別的語句組成情感分類中的訓練數(shù)據(jù)(xi,yi),將未被標記情感類別的語句稱為預測數(shù)據(jù)。

      定義4跨域情感分類:給定兩個不同的領域,源領域(Dsrc)和目標領域(Dtar),假定源領域中含已標記數(shù)據(jù)集([xsrci,ysrci],i?1,2…nsrc),目標數(shù)據(jù)集含未標記數(shù)據(jù)集([xtarj],j?1,2…ntar),如果某個分類器能通過在源領域訓練學習準確預測目標領域中未標記的數(shù)據(jù)集,那么將這樣的分類稱為跨域情感分類。

      跨域情感分類需要解決領域依賴的問題,即相鄰領域情感詞的表達是相近的,而實際情況中,用戶通常會針對不同的領域發(fā)表與領域相關的評論語,如表1列舉了新浪微博中用戶對電影和社會兩大類別中相關熱點微話題的評論,用戶評語短語顯性或隱性地表達了評論主體的某些情感,由此看出用戶對當前話題的情感傾向,具有情感傾向的情感詞已在表中用黑體標出,如正面情感詞“激動”“激烈”“給力”等,負面情感詞“痛苦”“折磨”等。但每個領域中的情感詞卻存在區(qū)別,如電影領域中的負面情感詞 “俗套”“凌亂”等,社會領域中正面情感詞“合理” 等,其中的“俗套” “凌亂”“合理”屬于領域相關詞,“既然”“畢竟” 屬于領域無關詞。

      除此之外,位置特征、關鍵詞、詞性特征也是情感分類中需要考慮的問題,一般評論語句的最后幾個情感特征最能表達評論者的情感,其次,如果出現(xiàn)如“但是”“畢竟”“我認為”等轉折關鍵詞,評論者的情感表達可能發(fā)生轉變,最后,大多數(shù)能表達用戶情感的都是形容詞或副詞,因此在情感分類時,除情感特征外,也需要考慮上述特征因素對情感分類的影響。

      因此,結合國內(nèi)外相關研究,給出了跨領域的情感分類框架,如圖1所示:

      其中目標領域情感特征詞根據(jù)標識數(shù)據(jù)獲得,但實際情況是該標識數(shù)據(jù)量較少或沒有現(xiàn)成的標識數(shù)據(jù),或需要人工標識部分數(shù)據(jù)。借助情感無關詞,通過譜聚類算法構建了源領域與目標領域的跨域情感特征詞簇,將譜聚類得到的情感詞特征與位置特征、關鍵詞特征、詞性特征等4種因子融入邏輯回歸分類算法中,實現(xiàn)基于多特征融合的跨領域情感分類算法。

      3 跨域情感分類模型

      本文借鑒了林政等基于情感關鍵句抽取的情感分類方法[2],但不是為了抽取關鍵句,而是將文獻中的特征得分用于最終情感分類,考慮了情感特征(即領域情感詞)、位置特征、關鍵詞特征及詞性特征,其中的情感特征通過多領域譜聚類得到,詞性特征剔除與情感分類無關的詞,以此達到跨領域情感分類的目的。因此,考慮上述4個特征的情感分類可用公式(1)表示,此時每一條評論數(shù)據(jù)共4屬性特征,都是通過計算特征的得分進行分類,削弱了特征空間對跨領域分類的影響。p0是偏置項,p1、p2、p3、p4參數(shù),它們可通過訓練數(shù)據(jù)訓練得出。

      通過公式(1)計算的值并不能表達情感分類(正面或負面),因此加入公式(2),達到對跨領域情感分類的目的。

      此時函數(shù)?將f(xi)的值域映射到0和1上,這樣便可達到情感分類的目的。

      3.1 情感特征詞

      通過評論短語的情感特征詞大體可以判斷評論者的情感傾向,通常在情感分類時情感特征詞的權重較大,跨領域分類遇到的關鍵問題就是不同領域中的情感特征空間不同,最終導致源領域訓練的分類器不能很好的應用到目標領域中。因此本文借助領域無關詞作為橋梁[6],通過譜聚類方法實現(xiàn)跨領域的情感詞轉換,得到新的情感詞特征空間,在該空間里通過公式(3)計算評論短語xi的情感特征詞的得分。

      每條評論短語xi需要分詞并剔除停頓詞,其中positive(wij)表示第i條評論語句的第j個詞在譜聚類集中對應情感詞,該詞在聚類中代表正面情感特征傾向;negative(wij)表示第i條評論語句的第j個詞在譜聚類集中對應情感詞,該詞在聚類中代表負面情感特征傾向,n 是該評論短語中剔除停頓詞后的總詞數(shù)。

      3.2 詞性特征

      詞性特征屬于領域無關的特征,雖然每個領域都有其特定的特征空間,但這些特征空間的詞性都是相同的,有文獻指出形容詞和副詞往往最能代表了跨領域評論的情感傾向[7],而名詞則和領域相關,因此考慮目標領域的詞性特征進行情感分類,參照B. Pang等學者的方法[1]首先對評論短語進行 POS 詞性標注;再按照預定義的規(guī)則抽取目標領域評論短語中的形容詞和副詞詞語;最后使用公式(4)計算每條評論短語的詞性比重得分。

      其中wi等于按照預定義規(guī)則抽取的第i條評論短語中形容詞和副詞詞語總數(shù),n等于第i條評論短語中提出評論短語后的總詞數(shù)。該公式表示形容詞和副詞在評論短語中所占的比重,即形容詞和副詞對情感分類的影響程度。

      3.3 位置特征

      一條評論語句中可能包含多個正面情感詞和負面情感詞,但通常最可能表達評論者情感的情感詞出現(xiàn)在評論的開始或結尾,需考慮情感評論中的位置特征對情感分類的影響,因此,位置特征的得分可通過公式(5)計算得出。

      pos(wij)表示第j個詞在第i條評論語句中的位置,可看出位置特征服從一元二次函數(shù),即拋物線圖像,以此達到凸顯句前和句尾詞在情感分類中重要性的目的,但也不能與中間位置差異過大,因此拋物線的開口應該大,防止兩端值對情感分類的影響過大。

      其中滿足:

      M表示xi中的總字數(shù),中間位置是函數(shù)的最低點,此處計算的情感詞得分較低,而位于評論開頭和結尾的情感詞得分較高。由于針對短評數(shù)據(jù),句中特征詞數(shù)據(jù)較少,難以判斷情感分類,此時位置特征的影響力削弱,可適當調整c的取值,調整位置特征的得分。

      3.4 關鍵詞特征

      情感分類中,評價短語中的關鍵詞能夠反映出評論這情感傾向的變化,因此需考慮關鍵詞特征對情感傾向性的影響,本文歸納了多領域中的20個常用關鍵詞用于實驗,這些情感詞包括:總之、我認為、然而、畢竟、但是、既然等,這里不再一一列出。關鍵詞特征的計算如公式(6)所示:

      其中:

      3.5 基于多特征融合的跨域情感分類算法

      為了實現(xiàn)跨領域情感分類,本算法除了通過譜聚類算法將情感詞特征空間進行映射以外,還融入了詞性特征、位置特征、關鍵詞特征,在新的特征空間上訓練得到邏輯回歸分類器,具體算法步驟如下:

      算法1:基于多特征融合的跨域情感分類算法

      輸入:源領域訓練數(shù)據(jù),少量目標領域訓練數(shù)據(jù),聚類個數(shù)k;

      輸入:邏輯回歸分類器。

      算法步驟:

      步驟(1) 剔除訓練數(shù)據(jù)集停頓詞;

      步驟(2) 針對源領域訓練數(shù)據(jù)和少量目標領域訓練數(shù)據(jù)采用譜聚類算法得到k個聚類;

      步驟(3) 根據(jù)譜聚類結果通過公式(3)計算訓練數(shù)據(jù)集的情感特征詞的得分;

      步驟(4) 通過公式(4)計算詞性特征得分;

      步驟(5) 通過公式(5)計算訓練數(shù)據(jù)集的位置特征得分;

      步驟(6) 根據(jù)關鍵詞詞典通過公式(6)計算訓練數(shù)據(jù)集的關鍵詞特征得分;

      步驟(7) 對訓練數(shù)據(jù)集進行詞性標注,抽取訓練數(shù)據(jù)集中的副詞和形容詞;

      步驟(8) 將訓練數(shù)據(jù)集進行轉換,以情感詞、位置、關鍵詞、詞性、情感為特征,構建新的訓練數(shù)據(jù)集Dnew;

      步驟(9) 根據(jù)新的訓練數(shù)據(jù)集通過梯度下降法學習得到公式(1)中參數(shù)p0,p1,p2,p3,p4的值;

      步驟(10)將參數(shù)帶入公式(2)輸出邏輯回歸分類器。

      算法2:譜聚類算法[8]:

      輸入:源領域訓練數(shù)據(jù),目標領域訓練數(shù)據(jù),聚類個數(shù)k;

      輸出:k個聚類。算法步驟:

      步驟(1) 根據(jù)領域無關和領域相關詞語構造雙向圖G(VDS∪VDI,E),計算圖雙向圖的帶權領接矩陣WRn×n,如果i≠j,Wij=mij,否則Wij=0;

      步驟(2) 計算對角矩陣D,其中Dii=ΣjWij,構建圖的拉普拉斯矩陣L=D–1/2WD–1/2;

      步驟(3) 計算拉普拉斯矩陣L的前k個最大特征值對應的特征向量并構建成特征矩陣U=[u1, u2…uk]?Rn×k;

      步驟(4) 標準化特征矩陣U,

      步驟(5) 在矩陣U上使用K-means算法,將n個點聚類到k個聚類中;

      步驟(6) 返回k個聚類。

      4 實驗分析與結果

      4.1 實驗設置

      為了驗證模型的有效性,本文采用Java語言,基于weka的邏輯回歸源代碼實現(xiàn)了算法CDFF。針對了數(shù)據(jù)集,采用中國科學院計算技術研究所的分詞軟件接口ICTCLAS(http://ictclas.org)和開源項目IKAnalyzer,加入了搜狗實驗室中的互聯(lián)網(wǎng)詞庫(http://www.sogou.com/labs/resources.html)和本文搜集整理的停頓詞典,實現(xiàn)了對文本進行分詞及詞性附加操;SVM算法使用的是標準工具包light-SVM(http://svmlight.joachims.org)采用線性核函數(shù);通過譜聚類算法實現(xiàn)跨領域情感詞的轉換,由于情感特征的得分依賴于聚簇,因此實驗中會調整聚類參數(shù)k的值來比較跨領域情感分類的效果。

      4.2 實驗結果與分析

      本文用到的數(shù)據(jù)集來自網(wǎng)絡用戶對酒店、電腦(筆記本)與書籍3個領域的短評平衡數(shù)據(jù)(http://www.searchforum.org.cn/tansongbo/corpus-senti.htm),其中每個領域的正負類各2 000篇,共12 000條平衡評論數(shù)據(jù),數(shù)據(jù)集的具體組成如表2所示:

      數(shù)據(jù)集上領域的相關度并不是很大,為了驗證本算法的有效性,采用6個跨領域情感分類任務方案:酒店→電腦,酒店→書籍,電腦→酒店,電腦→書籍,書籍→酒店,書籍→電腦;其中箭頭前表示源領域,箭頭后表示目標領域。采用支持向量機(SVM)、SFA(Spectral Feature Alignment)、SCL(Structural Correspondence Learning)[13]3種算法與本文算法CDFF作對比,針對每個算法的實驗都采用五折交叉驗證,即隨機劃分每一領域數(shù)據(jù)為5份,每次取其中4份進行訓練,一份進行測試,然后把5次分類結果的平均結果作為最終結果。

      考慮到譜聚類中聚簇的個數(shù)會影響情感特征詞的得分,因此在實驗中分別設置簇的個數(shù)為5、10、15來度量其對情感分類的影響。具體如表3所示:

      從表3的跨領域平均準確值中可以看出本算法的實驗結果較SFA算法高,高出情感分類的準確率隨聚簇的個數(shù)增加而增加,但當k=15時,準確率增加的效果已不明顯,但從5個簇到10個簇時,分類準確率提高,由此可見譜聚類個數(shù)會影響跨領域情感分類的結果。

      本算法除考慮情感特征詞外還加入了位置特征、關鍵詞特征、詞性特征,為了驗證加入這些特征的有效性,通過固定聚簇的個數(shù)(k=10),逐次加入這些特征后對比算法準確性,來觀察不同特征對跨領域情感分類的影響,具體如表4所示:

      從表4中可以看出依次分別加入詞性特征、位置特征、關鍵詞特征后跨領域情感分類的準確率均有所提高,但是每個特征的貢獻率不同,從表4中可看出,位置特征和關鍵特征的貢獻率平均大于詞性特征的貢獻率。因此通過上述兩個實驗驗證了基于多特征融合的跨領域分類算法可提高情感分類準確率。

      5 總結與展望

      雖然人們可以很容易的從某條評論數(shù)據(jù)中推測出當時評論者的情感,但對于機器來說并非易事,本文借助情感無關詞搭建源領域與目標領域的橋梁,通過譜聚類算法將不同領域的情感詞聚集到一起,應用譜聚得到的特征集計算目標領域測試數(shù)據(jù)的情感得分,與傳統(tǒng)譜聚類算法不同,本文在跨領域情感分類時還考慮了位置特征、詞性特征、關鍵詞特征對最終情感分類的影響,將譜聚類得到聚類中的特征與位置、詞性、關鍵詞特征融合以此實現(xiàn)跨領域情感分類。通過在用戶評論數(shù)據(jù)上對本算法進行實驗,驗證了本算法在跨域用戶情感分類時的有效性。由于本文選擇的數(shù)據(jù)集較為標準,但微博評論數(shù)據(jù)中存在很大的隨意性,領域相關詞也比較新穎,因此針對微博數(shù)據(jù)特性的跨領域情感分類將是未來研究的重點。

      參考文獻:

      [1] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques[EB/OL].[2015-10-12].http://www.cs.cornell.edu/home/llee/papers/sentiment.pdf.

      [2] 林政, 譚松波, 程學旗. 基于情感關鍵句抽取的情感分類研究[J]. 計算機研究與發(fā)展, 2012, 9(11): 2376-2382.

      [3] 代大明,王中卿,李壽山,等. 基于情緒詞的非監(jiān)督中文情感分類方法研究[J]. 中文信息學報, 2012, 26(4): 103-108.

      [4] 李綱, 王忠義, 寇廣增. 情感分類中情感詞的情感傾向度的計算方法研究[J]. 情報學報, 2011, 28(3): 292-298.

      [5] 張慧, 李壽山, 李培峰,等. 基于評價對象類別的跨領域情感分類方法研究[J]. 計算機科學, 2013,40(1): 229-233.

      [6] Pan S J, NI X c, Sun J T, et al. Cross-domain sentiment classification via spectral feature alignment[EB/OL].[2015-10-18].https://www.microsoft.com/en-us/research/wp-content/uploads/2010/04/Cross-Domain-Sentiment-Classification-via-Spectral-Feature-Alignment.pdf.

      [7] Rui X, Cheng q Z. A POS-based ensemble model for cross-domain sentiment classification[EB/OL].[2015-10-26].https://www.researchgate.net/publication/228841203_A_POS-based_Ensemble_Model_for_Cross-domain_Sentiment_Classification.

      [8] 張志武. 跨領域遷移學習產(chǎn)品評論情感分析[J]. 現(xiàn)代圖書情報技術, 2013(6): 49-54.

      [9] 馬鳳閘, 吳江寧, 楊光飛. 基于雙重選擇策略的跨領域情感傾向性分析[J]. 情報學報, 2012, 31(11): 1202-1209.

      [10] 張迪. 基于跨領域分類學習的產(chǎn)品評論情感分析[D]. 上海:上海交通大學, 2010.

      [11] Danushka B, David W, John C. Cross-domain sentiment classification using a sentiment sensitive thesaurus[J]. IEEE transactions on knowledge and data engineering, 2013, 25(8): 1719-1731.

      [12] TAN S B,CHENG X Q, GHANEM M M,et al. A novel refinement approach for text categorization[EB/OL].[2015-11-02]. http://dl.acm.org/citation.cfm?id=1099554.1099687.

      [13] Blitzer J, Dredze M, Pereira F. Biographies, bollywood, boom-boxes and blenders: domain adaptation for sentiment classification[EB/OL].[2015-11-11].http://www.cs.jhu.edu/~mdredze/publications/sentiment_acl07.pdf.

      Cross-domain Emotion Classification Model Based on the Multi-feature Fusion

      Ju Chunhua1,2 Zou Jiangbo1,3 Fu Xiaokang2

      1School of Management Science & E-commerce, Zhejiang Gongshang University, Hangzhou 310018

      2Center for Studies of Modern Business, Hangzhou 310000

      3School of Business Administration,, Zhejiang Gongshang University, Hangzhou 310018

      Abstract: [Purpose/significance] The sentiment classification is still one of the cross-cutting issues needed to focused on. [Method/process] With the help of emotion unrelated words, by the spectral clustering algorithm, the authors constructed a cross-domain feature words emotion cluster in the source and target areas of the field. The position of the features and characteristics of emotional words, keyword features, and POS features were integrated into the logic of the regression classification algorithm to achieve a cross-cutting emotion classification algorithm based on the multi-feature fusion. [Result/conclusion] Research results show that CDFF (Cross-domain pulse Four Factors) algorithm is effective when the cross-domain user emotion is classified and its provide reference for same study.

      Keywords: cross-domain sentiment classification multi-feature fusion spectral clustering transfer learning

      猜你喜歡
      遷移學習
      基于遷移學習的交通場景車輛實時檢測算法
      《宋史·曾公亮傳》傳主形象論析
      文學教育(2018年7期)2018-07-17 18:50:52
      基于深度神經(jīng)網(wǎng)絡的人體動作識別研究
      威斯頓相互作用法在社會保險學課程教學中的實踐
      基于卷積神經(jīng)網(wǎng)絡的圖像分類技術
      科技視界(2017年32期)2018-01-24 17:54:40
      遷移學習在專業(yè)課程教學中的實踐研究
      遷移學習研究綜述
      從認知角度探討大學英語網(wǎng)絡教學模式
      奇異值分解與移移學習在電機故障診斷中的應用
      一種基于遷移極速學習機的人體行為識別模型
      固镇县| 唐海县| 鹤壁市| 澳门| 三原县| 安吉县| 永靖县| 清流县| 台江县| 东乡县| 太白县| 榆社县| 焦作市| 渭南市| 日照市| 纳雍县| 抚宁县| 旌德县| 丹凤县| 太保市| 青田县| 荆门市| 荣昌县| 衡南县| 怀集县| 韶山市| 信宜市| 阳东县| 永城市| 老河口市| 马山县| 祁阳县| 奎屯市| 梁平县| 华阴市| 德保县| 利津县| 杭锦后旗| 伊宁市| 温宿县| 社旗县|