• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于ALBERT-BiLSTM模型的微博謠言識別方法研究

      2020-09-15 16:30孫尉超陳濤
      計(jì)算機(jī)時(shí)代 2020年8期

      孫尉超 陳濤

      摘要:隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)上的信息劇增,如何識別網(wǎng)絡(luò)謠言也成為當(dāng)下研究熱點(diǎn)之一。針對謠言初期的傳播具有一定隱蔽性的特征,結(jié)合預(yù)訓(xùn)練語言模型ALBERT和雙向長短期記憶網(wǎng)絡(luò)設(shè)計(jì)了ALBERT-BiLSTM謠言識別模型,通過挖掘謠言內(nèi)容的深層文本特征進(jìn)行識別,使之在謠言初期也能應(yīng)用。五折交叉驗(yàn)證實(shí)驗(yàn)結(jié)果表明,ALBERT-BiLSTM模型在實(shí)驗(yàn)組中達(dá)到了最高的準(zhǔn)確率98.095%、召回率98.014%和F1值98.098%,能夠較好地識別微博謠言,對維護(hù)網(wǎng)絡(luò)信息安全具有重要意義。

      關(guān)鍵詞:謠言識別;預(yù)訓(xùn)練語言模型;ALBERT;雙向長短期記憶網(wǎng)絡(luò);ALBERT-BiLSTM

      中圖分類號:TP389.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-8228(2020)08-21-06

      0 引言

      科技和互聯(lián)網(wǎng)高速發(fā)展,大數(shù)據(jù)時(shí)代的來臨,越來越多的社交平臺如雨后春筍般出現(xiàn),提供給人們更多獲取和傳播信息的途徑,同時(shí),也產(chǎn)生大量謠言。謠言在擁有龐大用戶基數(shù)的社交平臺傳播,在一定時(shí)間內(nèi)必然會影響到部分用戶情緒,引起輿論風(fēng)波,威脅公民安全和社會穩(wěn)定,所以對謠言的識別在維護(hù)網(wǎng)絡(luò)信息安全工作中顯得十分關(guān)鍵。由于謠言初期的傳播特征具有一定的隱秘性,如何通過挖掘謠言文本內(nèi)容的深層語義特征來判斷信息真?zhèn)问侵{言識別工作中的重點(diǎn)之一。近年來隨著深度學(xué)習(xí)的興起,越來越多的研究者開始利用深度學(xué)習(xí)模型來分析文本。本文以標(biāo)注好的微博數(shù)據(jù)集MCG-FneWSⅢ為例,構(gòu)建了ALBERT-BiLSTM謠言識別模型,并設(shè)計(jì)了對比實(shí)驗(yàn)組,經(jīng)過五折交叉驗(yàn)證實(shí)驗(yàn)發(fā)現(xiàn)該模型在謠言識別精度達(dá)到了98.095%,能夠較好地識別微博謠言。

      1 研究現(xiàn)狀

      很多研究者在微博謠言識別工作中已取得一些成果。①Jin等[2]通過構(gòu)建主題模型來挖掘微博文本中的沖突觀點(diǎn)信息,并設(shè)計(jì)信用網(wǎng)絡(luò)進(jìn)行迭代學(xué)習(xí),實(shí)驗(yàn)發(fā)現(xiàn)該模型在性能上明顯優(yōu)于基線方法。②Shu等[3]認(rèn)為挖掘新聞發(fā)布者、新聞內(nèi)容和社交網(wǎng)絡(luò)用戶的內(nèi)在關(guān)系有助于提高對虛假新聞的檢測水平,設(shè)計(jì)了一個(gè)三關(guān)系嵌入框架,它可以同時(shí)對新聞發(fā)布者和新聞內(nèi)容的聯(lián)系、社交網(wǎng)絡(luò)用戶和新聞的交互作用進(jìn)行建模,用于識別虛假新聞。③Zhang等[4]首先通過大量數(shù)據(jù)挖掘作者、主題、帖子內(nèi)容和新聞?wù)鎮(zhèn)蔚穆?lián)系,并設(shè)計(jì)了一個(gè)深層的擴(kuò)散網(wǎng)絡(luò)模型學(xué)習(xí)顯式特征和潛在特征并生成新聞可信度。④林榮蓉等[5]構(gòu)建了謠言敏感詞庫,再通過Word2Vec模型提取詞向量,將經(jīng)過預(yù)處理后的文本中詞的平均向量作為語義特征并融合提取到的統(tǒng)計(jì)特征和敏感詞庫特征作為微博特征的向量表示,輸入到GBRT模型進(jìn)行訓(xùn)練,同時(shí)建立了長短期神經(jīng)網(wǎng)絡(luò)模型進(jìn)行二次識別,提高了謠言識別的精度。⑤楊真等[6]通過一系列機(jī)器學(xué)習(xí)方法在謠言識別比較研究中,對微博用戶的謠言識別能力劃分等級,并將謠言識別能力作為新特征引入模型,發(fā)現(xiàn)分類效果得到了提升。⑥曾子明等[7]定義了用戶可信度和微博影響力特征變量,基于2016年霧霾謠言提出結(jié)合了LDA和隨機(jī)森林的謠言識別模型。⑦王勤穎等[8]提取謠言識別的用戶、傳播和內(nèi)容的基本特征并融合信任因素的特征,構(gòu)建基于信任的微博謠言識別模型;同時(shí)將炸藥爆燃爆炸過程的原理應(yīng)用于微博謠言傳播中,提出了微博能量參數(shù)的新特征,并融合原有特征建立了微博謠言信息爆炸識別模型。

      過往的微博謠言識別模型的研究中,人們的關(guān)注點(diǎn)往往在整體特征的提取上,在文本深層語義特征的提取上并沒有較好探究。近年來隨著對自然語言處理領(lǐng)域研究的深入,在2017年Vaswan1等[9]提出了Self-Attention機(jī)制和Transformer框架,極大促進(jìn)了語言模型的發(fā)展,為后續(xù)BERT和ALBERT的誕生做好了鋪墊。本文結(jié)合了預(yù)訓(xùn)練語言模型ALBERT和雙向長短期記憶網(wǎng)絡(luò)模型,提出了ALBERT-BiLSTM模型,并將其應(yīng)用于微博謠言識別上,實(shí)驗(yàn)發(fā)現(xiàn)該模型能夠較好地提取文本深層語義特征并進(jìn)行謠言識別。

      2 微博謠言識別模型和方法設(shè)計(jì)

      2.1 識別方法流程

      微博謠言識別的流程分為四步,如圖1所示。①數(shù)據(jù)獲取;②數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清洗,數(shù)據(jù)分詞,文本向量化;③模型訓(xùn)練,構(gòu)建結(jié)合ALBERT和雙向長短期記憶網(wǎng)絡(luò)的模型,將經(jīng)過預(yù)處理后的數(shù)據(jù)輸入模型進(jìn)行訓(xùn)練;④對模型進(jìn)行整體評估。

      2.2 BERT和ALBERT

      BERT (Bidirectional Encoder Representationfrom Transformers)是google的Devlin J等[10]于2018年10月提出的新型預(yù)訓(xùn)練模型,在當(dāng)時(shí)11項(xiàng)自然語言處理任務(wù)中刷新了記錄。其結(jié)構(gòu)如圖2所示。

      BERT模型是采用了雙向Transformer編碼器,其訓(xùn)練方法分為兩步:一是通過隨機(jī)MASK訓(xùn)練集中15%的詞。其中被打上[MASK]標(biāo)記的詞有80%的概率直接替換為[MASK]標(biāo)簽,10%概率替換為任意單詞,10%概率保留原始Token,讓模型預(yù)測被MASK的單詞含義;二是通過從訓(xùn)練文本中挑選語句對,其中包括連續(xù)的語句對和非連續(xù)的語句對,讓模型來判斷語句對是否呈“上下句”關(guān)系。

      BERT模型中Transformer具體單元結(jié)構(gòu)如圖3所示。在輸入文本后先進(jìn)行詞嵌入(Embedding)處理,將文本詞向量化,再對其進(jìn)行位置信息編碼(Positional Encoding)。為了充分考慮每一個(gè)句子中不同詞語之間的語義和語法聯(lián)系,設(shè)計(jì)了自注意力層( Self-Attention),同時(shí)考慮到不同head中單詞的Attention(側(cè)重點(diǎn))不同,通過結(jié)合多個(gè)自注意力層形成多頭(Multi-Head)機(jī)制來使模型獲得更大容量?;诙囝^機(jī)制的自注意力層的輸出會經(jīng)過Add&Norm層,其中Add表示殘差連接(Residual Connection),Norm表示層歸一化(Layer Normalization),通過將經(jīng)過位置信息編碼后的輸出與多頭機(jī)制自注意力層的輸出相加,再進(jìn)行層歸一化操作,這樣可以做到僅關(guān)注差異部分并使模型更容易訓(xùn)練。Add&Norm層的輸出傳遞到前饋神經(jīng)網(wǎng)絡(luò)層(Feed Forward),再經(jīng)過Add&Norm層后輸出。

      ALBERT (AIITE BERT)是GOOLE公司基于BERT基礎(chǔ)上進(jìn)行了一系列改造后的預(yù)訓(xùn)練小模型[11],該模型參數(shù)量相比傳統(tǒng)BERT大幅度降低,運(yùn)行速度提高,在一定程度上突破了硬件的限制,并在許多自然語言處理任務(wù)上發(fā)揮出色。

      ALBERT相較于BERT的改進(jìn)點(diǎn)主要有以下幾點(diǎn)。

      (1) Factorized embedding parameterization(詞嵌入因式分解):降低Embedding層的詞嵌入維度,并在詞嵌入和隱藏層間再添加一個(gè)project層。假設(shè)詞表大小為L,隱藏層維度為H,詞嵌入維度為V。那么BERT模型參數(shù)P bert計(jì)算公式為:

      ALBERT模型參數(shù)P bert計(jì)算公式為:

      BERT模型中詞嵌入維度和隱藏層維度相同,在通常V很大,V遠(yuǎn)小于H的情況下,詞嵌入因式分解后的參數(shù)量將大幅度減小。

      (2) Cross-Layer Parameter Sharing(跨層參數(shù)共享):在ALBERT模型中結(jié)合了Transformer兩種參數(shù)共享的方式,將全連接層和attention層都實(shí)現(xiàn)了參數(shù)共享,達(dá)到減小參數(shù)量和提高模型訓(xùn)練速度的效果。

      (3) Inter-sentence coherence loss(句間連貫):改進(jìn)了BERT模型原有的連續(xù)句二分類訓(xùn)練任務(wù),提出了SOP( sentence-order prediction)的新型訓(xùn)練任務(wù),讓模型去識別給定兩個(gè)句子的先后順序。

      (4)移除dropout。

      2.3 LSTM與Bi-LSTM

      1996年Hochreiter等人[12]羽提出了一種新型循環(huán)神經(jīng)網(wǎng)絡(luò),長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),這種網(wǎng)絡(luò)相對于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)(RecurrentNeural Networks,RNN)解決了在長文本訓(xùn)練過程中易出現(xiàn)梯度消失與梯度爆炸的問題,它的細(xì)胞結(jié)構(gòu)如圖4所示。

      LSTM網(wǎng)絡(luò)通過堆疊這種細(xì)胞結(jié)構(gòu)來形成重復(fù)模鏈的結(jié)構(gòu)。在LSTM的基礎(chǔ)上,Graves等[13]提出了雙向長短記憶網(wǎng)絡(luò)(Bidirectional Long Short-TermMemory,Bi-LSTM),Bi-LSTM能夠更好的捕獲雙向語義的依賴。Bi-LSTM的具體結(jié)構(gòu)如圖5所示,其中LSTM,和LSTM。分別是前向傳遞模塊和后向傳遞模塊,XN表示N位置上的詞向量輸入,h LN和hRN分別是N位置的前向傳遞隱層輸出和N位置的后向傳遞隱層輸出。Bi-LSTM在分類問題最終輸出是[h LN,h RN]。

      2.4 ALBERT-BiLSTM謠言識別模型

      本文結(jié)合ALBERT模型和Bi-LSTM神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一種微博謠言識別模型,該模型的具體結(jié)構(gòu)如圖6所示。處理好的句子向量首先會經(jīng)過ALBERT模型進(jìn)行詞訓(xùn)練,再經(jīng)過Bi-LSTM神經(jīng)網(wǎng)絡(luò)層進(jìn)行特征提取,加入Dropout層為了防止過擬合的產(chǎn)生,最后進(jìn)入全連接層降維,在判別層輸出對應(yīng)標(biāo)簽。

      3 實(shí)驗(yàn)與分析

      3. 1實(shí)驗(yàn)數(shù)據(jù)集的獲取與處理策略

      本文采用智源研究院·中科院計(jì)算所開源的已標(biāo)注好的虛假新聞文本數(shù)據(jù)集(MCG-FNeWS)。該數(shù)據(jù)集共含有38471條微博新聞,其中包括真實(shí)新聞19186條,虛假新聞19285條。真實(shí)新聞標(biāo)簽為O,虛假新聞標(biāo)簽為1。

      本實(shí)驗(yàn)對數(shù)據(jù)的處理策略如圖7所示。①unicode編碼:將文本數(shù)據(jù)轉(zhuǎn)化為字符串。②奇怪字符處理:去除部分控制字符、替換字符,將多個(gè)空白字符轉(zhuǎn)化為空格處理。③中文處理:中文按字用空格分開,英文和數(shù)字不變。④空格分詞:去掉多余空白字符后按空格進(jìn)行切分,返回字符列表。⑤多余字符處理和標(biāo)點(diǎn)分詞:去除變音符號并根據(jù)標(biāo)點(diǎn)進(jìn)行切分。⑥再次空格分詞:操作同④。⑦二次切分:限制輸入長度,將多余詞標(biāo)記為[unk_token],從左到右拆分多個(gè)字詞,要求每個(gè)字詞盡可能長。⑧句子向量化:根據(jù)詞表的id轉(zhuǎn)化為句子向量。⑨padding處理:將句子向量填充到指定長度,保證輸入維度的一致性。

      實(shí)驗(yàn)采用五折交叉驗(yàn)證(5-fold)處理數(shù)據(jù)集,將樣本數(shù)據(jù)隨機(jī)分成五組數(shù)據(jù),每組數(shù)據(jù)與樣本集比例為1:4,每次訓(xùn)練都是取其中1組作為測試集,余下4組作為測試集,所得五組數(shù)據(jù)見表1。

      模型性能評價(jià)標(biāo)準(zhǔn)采用準(zhǔn)確率(Precision,P),召回率( Recall,R)和Fl值(Fl-score,F(xiàn)l),公式如下:

      3.2 模型構(gòu)建和具體參數(shù)設(shè)置

      本文采用Tensorflow框架進(jìn)行模型的構(gòu)建,Tensorflow是Google公司開發(fā)的并且廣泛應(yīng)用于深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等領(lǐng)域的開源計(jì)算庫。

      為了驗(yàn)證ALBERT語言模型能夠更好地捕獲語義特征,設(shè)置了結(jié)合Word2Vec語言模型的對比實(shí)驗(yàn)。Word2Vec預(yù)訓(xùn)練模型采用騰訊AI實(shí)驗(yàn)室漢字詞嵌入語料庫[14],并截取了其中45000個(gè)詞向量作為嵌入層(Embedding)的詞嵌入矩陣。Word2Vec預(yù)訓(xùn)練語言模型的詞向量輸出維度為200。對比實(shí)驗(yàn)的設(shè)置見表4。

      3.3 實(shí)驗(yàn)結(jié)果

      在MCG-FNeWS數(shù)據(jù)集上采用Word2Vec,Word2Vec-LSTM. Word2Vec-BiLSTM.ALBERT.ALBERT-LSTM.ALBERT-BiLSTM進(jìn)行實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果見表5。

      3.4 實(shí)驗(yàn)結(jié)果分析

      根據(jù)表5我們可以發(fā)現(xiàn):

      (1)基于ALBERT的模型性能都優(yōu)于基于Word2Vec的模型,并在評估指標(biāo)上提升幅度較大。其中在準(zhǔn)確率、召回率和Fl值上,ALBERT-BiLSTM模型相較于Word2Vec-BiLSTM模型分別提高了6.223%、7.778%、6.343; ALBERT-LSTM模型相較于Wor-d2Vec-LSTM分別提高了7.310%、8.665%、7.440%;ALBERT模型相較于Word2Vec模型分別提高了8.318%、10.174%、8.505%。傳統(tǒng)的Word2Vec語言模型訓(xùn)練出的詞向量是靜態(tài)的,雖然通用性較強(qiáng),但需要大量針對性的文本數(shù)據(jù)進(jìn)行訓(xùn)練,并且該模型在文本中出現(xiàn)同義詞、一詞多義的情況下效果不佳,無法在特定任務(wù)下進(jìn)行動態(tài)優(yōu)化。而ALBERT語言模型集成Transformer框架和Self-Attention機(jī)制,能夠更好地提取詞的文本語義特征,從而提升模型的性能。

      (2)在準(zhǔn)確率、召回率和Fl值上,ALBERT-BiLSTM模型分別達(dá)到了98.095%、98.014%、98.098%,是所有實(shí)驗(yàn)?zāi)P椭凶罡叩?,相較于ALBERT-LSTM模型和ALBERT模型有一定程度的提升,總體提升幅度不大。其中,ALBERT-BIL-STM模型相較于ALBERT-LSTM模型提升了0.161%、0.306%、0.164%; ALBERT-BILSTM模型相較于ALBERT模型分別提升了0.161%、0.202%、0.162%。實(shí)驗(yàn)表明,ALBERT-BiLSTM模型已經(jīng)能夠較好地識別微博謠言。

      4 結(jié)束語

      由于謠言初期的隱蔽性特征,人們很難根據(jù)謠言的傳播特征、謠言發(fā)布者用戶屬性特征來判斷內(nèi)容真?zhèn)巍1疚脑O(shè)計(jì)的謠言識別模型通過挖掘文本的深層語義特征來識別謠言,識別準(zhǔn)確率達(dá)到了98.095%。但由于模型自身的局限性和缺少海量數(shù)據(jù)支撐,無法通過挖掘不同內(nèi)容之間的復(fù)雜聯(lián)系來識別謠言。在大數(shù)據(jù)時(shí)代背景下,信息內(nèi)容復(fù)雜和多樣,信息傳播迅速,如何快速識別謠言仍然非常困難。

      參考文獻(xiàn)(References):

      [1]Cao J,Sheng Q,Qi P,et aL False News Detection onSocial Media[EB/OL]. arXiv preprint arXiv:1908.10818, 2019.

      [2]Jin Z,Cao J,Zhang Y,et aL News Verification byExploiting Conflicting Social Viewpoints in Microblogs[C]//Thir[ieth Aaai Conference on Artificial Intelligence.AAAI Press,2016.3.

      [3]Shu K,Wang S,Liu H.Beyond News Contents: The Roleof Social Context for Fake News Detection[C]. WSDM2019:312-320

      [4]Zhang J,Cui L'Fu Y,Gouza F.Fake News Detection withDeep Diffusive Net,^iork ModeI[EB/OL].arXiv:1805.08751,2018.5.https://arxiv.org/pdf/1805.087 5l.pdf.

      [5]林榮蓉.基于敏感詞庫的微博謠言識別研究[D].中南財(cái)經(jīng)政法大學(xué),2018.

      [6]曾子明,王睛.基于LDA和隨機(jī)森林的微博謠言識別研究——以2016年霧霾謠言為例[J].情報(bào)學(xué)報(bào),2019.38(1):89-96

      [7]楊真.新浪微博謠言識別研究[D].鄭州大學(xué),2018.

      [8]王勤穎.微博謠言識別模型研究[D].山東師范大學(xué),2019.

      [9] Vaswani A, Shazeer N, Parmar N, et aL Attention Is AllYou Need[C].Advances in Neural Information Process-ing Systems 30,2017:5998-6008

      [10] Jacob D, Ming-Wei C, Kenton L, Kristina T. BERT: Pre-training of Deep Bidirectional Transformers for Lan-guage Unde-rstanding[EB/OL], arXiv, 2018-10-11,https://arxiv.org/pdf/1810 .0480 5.pdf

      [11] Lan Z,Chen M, Goodman S,et al. ALBERT:A Lite BE-RT for Self-supervised Learning of Language Repre-sentations[EB/OL]arXiv,2 019. 11, https://arxiv.org/pdf/1909.11942.pdf.

      [12] Hochreiter S,Schmidhuber,J n rgen. Long Short-TermMem-onj[J].NeuralComputation,1997.9(8): 1735-1780

      [13] Graves A, Ju rgen Schmidhuber. Framewise phonemeclassi-fication with bidirectional LSTM and otherneural network arch-itectures[J]. Neural Networks,2005.18(5-6):602 -610

      [14] Yan S,Shi S,Li J,Zhang H. Directional Skip-Gram: Exp-Iicitly Distinguishing Left and Right Context forWord Embed-dings[C].NAACL,2018 (Short Paper).

      作者簡介:孫尉超(1996-),男,浙江紹興人,碩士研究生,主要研究方向:自然語言處理。

      通訊作者:陳濤(1970-),男,浙江淳安人,博士,副教授,碩士研究生導(dǎo)師,主要研究方向:人工智能審計(jì),模式識別等。

      中方县| 资中县| 太和县| 京山县| 扶绥县| 雅安市| 新平| 万荣县| 吐鲁番市| 沧州市| 穆棱市| 新龙县| 云阳县| 北安市| 都江堰市| 临西县| 清新县| 卓尼县| 博罗县| 邢台市| 墨玉县| 舒城县| 阿城市| 宾川县| 东阿县| 隆化县| 乐平市| 穆棱市| 融水| 白河县| 西城区| 镇巴县| 双城市| 南岸区| 扶余县| 城市| 杭锦后旗| 盐源县| 沈阳市| 双城市| 建阳市|