• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于文本和網(wǎng)絡(luò)拓撲結(jié)構(gòu)的用戶立場檢測算法*

      2021-09-15 08:48:40尚義博劉笑影
      計算機與數(shù)字工程 2021年8期
      關(guān)鍵詞:立場節(jié)點特征

      方 冰 尚義博 劉笑影

      (上海大學管理學院 上海 200444)

      1 引言

      在當今時代,社交平臺已成為用戶獲取信息和表達觀點的主要渠道。龐大的社交媒體用戶量以及頻繁的社交活動形成了大量的以博文形式存在的用戶生成內(nèi)容[1]。因此,基于用戶生成內(nèi)容的意見挖掘[2]已成為熱門的研究領(lǐng)域。用戶立場檢測作為其中一個重要的新興研究課題,指的是檢測用戶對某一特定事件是否持有立場或立場是支持還是反對[3]。

      現(xiàn)有的用戶立場檢測工作可以分為兩類:一類是基于特征工程的機器學習立場檢測方法,通過挖掘豐富的文本語義特征結(jié)合特征融合的方法研究立場檢測問題;另一類是基于深度學習,借助CNN、RNN、LSTM等神經(jīng)網(wǎng)絡(luò)模型來開展立場檢測工作。兩類方法均以文本作為唯一研究對象通過機器學習算法來研究立場檢測問題。忽略了除博文信息外其他對于用戶立場檢測的影響因素。為了克服這一局限性,本文提出了一種新的基于文本和網(wǎng)絡(luò)拓撲結(jié)構(gòu)的立場檢測算法。該算法基于認知理論,認為用戶的立場是由其先驗立場和外界環(huán)境共同作用形成的,通過分析用戶文本語義特征提取先驗立場,通過分析用戶所處的社交網(wǎng)絡(luò)結(jié)構(gòu)特征提取外界影響力強度,最后由兩者共同作用確定用戶最終立場。

      2 相關(guān)工作

      現(xiàn)有的社交網(wǎng)絡(luò)用戶立場檢測算法研究主要分為以下兩類:基于特征工程的立場檢測方法和基于深度學習的立場檢測方法。兩類方法均通過機器學習算法來研究立場檢測問題。

      2.1 基于特征工程的立場檢測方法

      最初的立場檢測通過盡可能地挖掘文本特征來開展研究工作。Pang等[4]將文本n-gram、詞性特征置于立場檢測工作中,表明一元文法特征在立場檢測中效果更佳。Xu等[5]采用了更廣泛的文本語義特征,如Para2vec,LDA,LSA,LE,LPI等研究立場檢測中特征適用度與話題相關(guān)性問題。Liu等[6]則是在探究不同特征的基礎(chǔ)上將特征進行了融合。Dian等[3]將主題詞和立場標簽共現(xiàn)關(guān)系這一特征放入立場檢測研究中,探究微博文本隱含語義問題。

      2.2 基于深度學習的立場檢測方法

      一般基于深度學習的立場檢測方法大多借助CNN、RNN、LSTM等神經(jīng)網(wǎng)絡(luò)模型來開展立場檢測工作。

      Lecun等[7]利用CNN構(gòu)建了一個多層次的神經(jīng)網(wǎng)絡(luò)學習算法。Wei等[8]則通過谷歌新聞訓練文本詞向量,利用CNN進行特征提取并實現(xiàn)分類。CNN在輸入輸出方面表現(xiàn)優(yōu)異,但在處理連續(xù)序列的樣本時,卻很難將其劃分成獨立的單元進行訓練,所以在自然語言處理領(lǐng)域?qū)嶋H應(yīng)用比較廣泛的是基于RNN模型的一個特例LSTM[9]。MITRE[10]基于深度學習使用了一種基于RNN的兩層方法進行立場檢測研究。Augenstein等[11]采用了LSTM對文本以及描述文本的主體進行綜合建模。Yu等[12]使用雙層神經(jīng)網(wǎng)絡(luò),在CNN下嵌套LSTM開展立場檢測工作取得不錯的分類效果。

      綜上所述,基于特征工程的方法需要從復(fù)雜多變的大量信息中尋找更豐富的文本特征來提升整個實驗的表現(xiàn);基于深度學習的方法通過計算機自動習得模式特征并將特征融入到模型構(gòu)建中。這兩類研究都僅僅將微博文本作為唯一的研究對象,忽略了除博文信息外其他信息對于用戶立場檢測的影響。針對這個缺陷,本文提出一種基于文本分析技術(shù)和網(wǎng)絡(luò)拓撲結(jié)構(gòu)分析技術(shù)的立場檢測算法。該算法以認知理論為出發(fā)點,在基于特征工程的立場檢測方法的基礎(chǔ)上加入?yún)^(qū)別于微博文本信息的新特征。這既彌補了基于特征工程方法對于特征的豐富性要求,也為深度學習的特征輸入提供了新的補充,更為重要的是為立場檢測研究提供了一個新的研究方向。

      3 研究框架

      人類認知理論認為[13~14]人類在生活的過程中首先會形成對于不同事物的先驗認知,繼而通過先驗認知來處理事物,當事物攜帶信息與其先驗認知產(chǎn)生差異時便會出現(xiàn)認知失衡現(xiàn)象,接著人類通過判斷學習形成對于該事物的新認知,如圖1所示。

      圖1 人類認知過程

      根據(jù)人類認知理論,本文認為用戶最終立場的形成過程為首先用戶所處的社會經(jīng)濟地位決定其先驗立場,接著用戶所處的環(huán)境影響用戶的先驗立場,最后在這兩方面因素的共同作用下生成最終立場。如圖2所示。

      圖2 用戶立場形成過程

      因此用戶立場檢測的核心包含以下兩點:一個是確定用戶所處的社會經(jīng)濟地位,二是如何有效地選取和評估外界因素?;诖?,本文提出了新的立場檢測算法,如圖3所示。

      圖3 研究框架

      3.1 社區(qū)劃分

      為了更好地研究基于社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)影響的立場檢測,我們將大型的社會網(wǎng)絡(luò)劃分成多個獨立的社區(qū)。本文采用最大化整個數(shù)據(jù)模塊度的社區(qū)發(fā)現(xiàn)算法——Louvain算法[15]。

      3.2 特征提取

      本文從用戶發(fā)布內(nèi)容數(shù)據(jù)中提取了文本特征、從用戶社交網(wǎng)絡(luò)數(shù)據(jù)中提取了網(wǎng)絡(luò)拓撲結(jié)構(gòu)特征。

      3.2.1 基于用戶社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)特征

      本文將社區(qū)結(jié)構(gòu)特征以及用戶結(jié)構(gòu)特征作為立場檢測外界影響的具體反映。

      1)度中心性:一個節(jié)點的度中心性越高,其在網(wǎng)絡(luò)中就越重要。其計算如下:

      CD(Ei)表示節(jié)點的度中心性,cij表示用戶i與用戶j的聯(lián)系。

      2)中介中心性:通過一個結(jié)點與其他節(jié)點相連的最短路徑橋梁的次數(shù)來反映一個節(jié)點的重要性。其計算如下:

      其中CB(Ei)表示節(jié)點的中介中心性,bij(Ei)表示用戶i與用戶j連接的最短路徑長度。

      3)緊密中心性:通過計算該節(jié)點到其他節(jié)點的最短路徑和的倒數(shù)來衡量一個節(jié)點與網(wǎng)絡(luò)中其他節(jié)點的接近程度。其計算如下:

      其中CC(Ei)表示節(jié)點的緊密中心性,p(Ei,Ej)表示節(jié)點i到節(jié)點j的最短路徑。

      4)特征向量中心性:根據(jù)相鄰節(jié)點的中心性來計算該節(jié)點的中心性。其計算如下:

      其中Ce(Ei)表示節(jié)點的特征向量中心性。

      5)聚類分數(shù):聚類分數(shù)越高的節(jié)點,節(jié)點間的聯(lián)系越緊密。其計算如下:

      其中CC-S表示聚類分數(shù),S UM(F)表示與該節(jié)點有聯(lián)系的所有節(jié)點數(shù)。

      6)社區(qū)特征集:本文將基于社區(qū)特征的度中心勢、中介中心勢、緊密中心勢、聚類分數(shù)進行集合。其計算如下:

      Cmix表示特征聚合,Cmax表示網(wǎng)絡(luò)的最大中心性。

      7)社區(qū)歸屬指標:本文通過用戶互動數(shù)據(jù)來研究社區(qū)環(huán)境對用戶立場的影響。其表示如下:

      3.2.2 基于微博語義特征

      本文在先前研究的基礎(chǔ)上提取文本的兩類特征:

      1)基于詞頻統(tǒng)計特征

      本文選取基于Unigram的詞袋特征對微博進行詞袋化。同時采用最常見的TF-IDF算法[16]對詞袋化的向量進行加權(quán)。

      2)文本潛在語義特征

      (1)段落向量(para2vec)

      本文利用Gensim以及原始數(shù)據(jù)集,訓練了一個100維的word2vec模型。

      (2)文檔主題生成模型(LDA)

      本文將主題數(shù)量設(shè)置為50,將每一篇文檔轉(zhuǎn)化成易于建模的詞頻向量。

      (3)潛在語義分析(LSA)

      本文首先建立Term-Document矩陣,接著對矩陣進行奇異值分解并構(gòu)建潛在語義空間。

      (4)文本相似性(sim)

      本文將篩選后的博文分為11個主題,本文將文本相似性計算放在不同話題下。

      3.2.3 分類器選擇

      結(jié)合先前基于特征工程的立場檢測研究,本文采用支持向量機(SVM),邏輯回歸(LR),樸素貝葉斯(NB),Adaboost(ADA)以及隨機森林(RF)五種機器學習方法進行立場檢測實驗。

      4 實驗過程與結(jié)果討論

      4.1 數(shù)據(jù)收集

      本文基于新浪微博的真實數(shù)據(jù)集,將社區(qū)劃分為548個社區(qū)。數(shù)據(jù)包含40個社區(qū)共20730個原創(chuàng)用戶,116538條原創(chuàng)博文以及213450個轉(zhuǎn)發(fā)用戶?;贚DA對微博原始數(shù)據(jù)集進行主題詞提取分析,一共得到11個主題共8900條微博并完成數(shù)據(jù)標注工作。

      4.2 立場檢測實驗

      針對立場檢測研究,本文進行了三組實驗。

      實驗1:探究不同主題單體特征下文本特征與用戶社交網(wǎng)絡(luò)特征的優(yōu)劣性。其中所有單體特征相互對照。

      實驗2:在實驗1的基礎(chǔ)上探究文本所提出的特征的有效性。實驗2將實驗所需特征重新劃分為三部分,其中文本特征(TFIDF、Para2vec、LDA、LSA、SIM)、拓撲結(jié)構(gòu)特征(度中心性、中介中心性、緊密中心性、特征向量中心性、聚類分數(shù)、社區(qū)特征集、社區(qū)歸屬)分別作為對照組,(文本+拓撲結(jié)構(gòu)特征)作為實驗組。

      實驗3:在實驗1,實驗2的基礎(chǔ)上探究本文所提出的特征的話題適應(yīng)度。實驗3將特征劃分為兩部分,其中對照組包括(TFIDF、Para2vec、LDA、LSA),實驗組則包括所有的十二個特征。本文對以上所有特征依據(jù)如下公式進行特征歸一化。

      4.3 分類器選擇

      對于數(shù)據(jù)不均衡問題,本文采用欠采樣的方式進行處理。訓練集與測試集按4:1進行劃分。其中實驗1,實驗2采用支持向量機(SVM),樸素貝葉斯(NB),Adaboost(ADA)以及隨機森林(RF)四種機器學習方法進行分類實驗。實驗3在此基礎(chǔ)上增加了邏輯回歸(LR),使用五種機器學習方法進行實驗。所有實驗均采用5折交叉驗證。

      4.4 評價指標

      本文采用最常用的準確率、召回率和F1值作為評價標準。由于立場檢測更在乎有立場的信息。因此本文增加了支持和反對類的F1均值Favg作為綜合評價指標。

      4.5 結(jié)果分析

      4.5.1 探究不同主題單體特征下文本特征與用戶社交網(wǎng)絡(luò)特征的優(yōu)劣性

      本文首先研究不同主題下單一特征的分類情況。以“春晚”主題為例?;赑ara2vec的分類結(jié)果更好,均值達到72.8%,分別高于TFIDF、LDA、LSA、sim,10.5%、17.2%、11.9%、8.7%。這表明基于word2vec計算的Para2vec能更好地捕捉文本語義信息。反觀拓撲結(jié)構(gòu)特征在單一特征中表現(xiàn)不佳。這是因為在微博立場檢測中,用戶的信息特征更稀疏,在結(jié)果預(yù)測上圖4反映了基于“春晚”主題單一特征的整體情況。

      圖4“春晚”主題特征的情況

      4.5.2 探究拓撲結(jié)構(gòu)特征的有效性

      考慮到本文探究包含基于網(wǎng)絡(luò)拓撲結(jié)構(gòu)部分,因此判斷社區(qū)指標在加入立場檢測實驗后的分類表現(xiàn)就變得至關(guān)重要。本文將實驗1單一特征調(diào)整為三部分特征集:文本特征集(TFIDF、LDA、LSA、Para2vec、sim)、拓撲結(jié)構(gòu)特征集(度中心性、中介中心性、緊密中心性、特征向量中心性、聚類分數(shù)、社區(qū)特征集、社區(qū)歸屬)、(文本特征+拓撲結(jié)構(gòu))特征集。并將新特征組合放在十一個主題下進行立場檢測。樸素貝葉斯(NB)分類器下,十一個主題基于三個特征組的平均分別為60.45%、49.05%、70.27%。隨機森林(RF)下為62.80%、55.60%、70.00%。支持向量機(SVM)下為67.54%、62.89%、73.81%。Adaboost(ADA)下為61.40%、55.31%、71.34%。從圖5也可以看出不同主題下,基于文本+社區(qū)特征的表現(xiàn)最好。這表明本文加入的特征指標的有效性。圖6表明針對本文不同主題的分類實驗中支持向量機(SVM)表現(xiàn)更優(yōu)。

      圖5 多主題多分類器下特征分類情況

      圖6 十一個主題下分類器表現(xiàn)

      4.5.3 探究基于社交網(wǎng)絡(luò)拓撲特征立場檢測方法的話題適應(yīng)度

      實驗3用來探究忽略主題下的立場檢測。本文將采用上文所提出的對照組特征進行對比實驗。圖7~9呈現(xiàn)了實驗的實驗的準確率、召回率以及F1。數(shù)據(jù)結(jié)果表明基于五個機器學習方法的實驗組結(jié)果均優(yōu)于對照組。這表明不考慮特定主題,本文指標仍能夠有效地提高立場檢測結(jié)果。

      圖7 實驗3準確率

      圖8 實驗3召回率

      圖9 實驗3 F1

      5 結(jié)語

      本文基于先前立場檢測研究以及人類認知理論提出了基于文本和網(wǎng)絡(luò)拓撲結(jié)構(gòu)的用戶立場檢測算法。首先采用Louvain算法,將用戶社交網(wǎng)絡(luò)劃分成獨立社區(qū)。接著本文根據(jù)真實數(shù)據(jù)集,采用LDA方法進行主題詞提取分析,確定十一個實驗主題并完成數(shù)據(jù)標注,之后本文通過三個實驗開展立場檢測研究。實驗1研究在不同主題下單一特征的分類情況,結(jié)果表明基于文本的特征優(yōu)于基于拓撲結(jié)構(gòu)的特征。實驗2將原始特征集分為三部分:文本特征、拓撲結(jié)構(gòu)特征、(文本特征+拓撲結(jié)構(gòu))特征。結(jié)果表明基于(文本特征+拓撲結(jié)構(gòu))特征的立場分類表現(xiàn)最優(yōu),這表明本文所提出指標的有效性。實驗3選取基于詞頻統(tǒng)計的特征以及文本的潛在語義特征作為對照組特征。選取基于文本相似性指標以及基于基于用戶社交網(wǎng)絡(luò)的拓撲結(jié)構(gòu)的特征作為實驗組結(jié)果表明本文提出的特征能有效提升立場分類結(jié)果。

      本文開展的基于新浪微博的立場檢測研究,還需要借助其他數(shù)據(jù)來驗證模型的性能。此外本文采用人工標注的方法存在標注誤差。在未來的研究中,將繼續(xù)探索其他外界因素對于用戶立場的影響并挖掘更豐富的文本特征以及用戶畫像信息確定用戶先驗立場。

      猜你喜歡
      立場節(jié)點特征
      立場
      CM節(jié)點控制在船舶上的應(yīng)用
      Analysis of the characteristics of electronic equipment usage distance for common users
      基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
      武術(shù)研究的立場
      如何表達“特征”
      不忠誠的四個特征
      當代陜西(2019年10期)2019-06-03 10:12:04
      抓住特征巧觀察
      抓住人才培養(yǎng)的關(guān)鍵節(jié)點
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      潼关县| 北票市| 灵武市| 深泽县| 务川| 中西区| 鄂温| 武乡县| 龙山县| 仙桃市| 安福县| 永胜县| 揭东县| 昌平区| 舟曲县| 会泽县| 东源县| 沂水县| 神农架林区| 泰安市| 福安市| 达拉特旗| 永定县| 库尔勒市| 陇西县| 确山县| 彭阳县| 满洲里市| 兰西县| 封开县| 丰顺县| 武胜县| 洪湖市| 宣化县| 高台县| 宁蒗| 阿合奇县| 双江| 师宗县| 大石桥市| 巩留县|