• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的謠言檢測(cè)

      2018-01-08 08:50:45衛(wèi)志華張韌弦
      計(jì)算機(jī)應(yīng)用 2017年11期
      關(guān)鍵詞:謠言卷積向量

      劉 政,衛(wèi)志華,張韌弦

      (1.同濟(jì)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,上海 201804; 2.嵌入式系統(tǒng)與服務(wù)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室(同濟(jì)大學(xué)),上海 201804)

      基于卷積神經(jīng)網(wǎng)絡(luò)的謠言檢測(cè)

      劉 政1,2,衛(wèi)志華1,2*,張韌弦1,2

      (1.同濟(jì)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,上海 201804; 2.嵌入式系統(tǒng)與服務(wù)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室(同濟(jì)大學(xué)),上海 201804)

      人工檢測(cè)謠言通常需要耗費(fèi)大量的人力物力,并且會(huì)有很長(zhǎng)的檢測(cè)延遲。目前現(xiàn)存的謠言檢測(cè)模型一般根據(jù)謠言的內(nèi)容、用戶屬性、傳播方式人工地構(gòu)造特征,而人工構(gòu)建特征存在考慮片面、浪費(fèi)人力等現(xiàn)象。為了解決這個(gè)問(wèn)題,提出了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的謠言檢測(cè)模型。將微博中的謠言事件向量化,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)隱含層的學(xué)習(xí)訓(xùn)練來(lái)挖掘表示文本深層的特征,避免了特征構(gòu)建的問(wèn)題,并能發(fā)現(xiàn)那些不容易被人發(fā)現(xiàn)的特征,從而產(chǎn)生更好的效果。實(shí)驗(yàn)結(jié)果表明,所提方法能夠準(zhǔn)確識(shí)別謠言事件,在準(zhǔn)確率、精確率與F1值指標(biāo)上優(yōu)于支持向量機(jī)(SVM)與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等對(duì)比算法。

      微博;謠言檢測(cè);謠言事件;卷積神經(jīng)網(wǎng)絡(luò)

      0 引言

      隨著在線社交媒體的迅速發(fā)展, 大量不可靠的信息得以快速和廣泛地在人群中傳播。社交媒體上謠言泛濫可能導(dǎo)致人們難以從紛繁的信息中甄別得到可信的信息, 進(jìn)而影響人們正常的生活秩序。 特別是在面臨突發(fā)公共事件 (自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件、社會(huì)安全事件、經(jīng)濟(jì)危機(jī)等)時(shí), 廣泛傳播的謠言可能會(huì)具有極大的破壞性。在微博中,信息內(nèi)容主要通過(guò)人與人之間建立的“關(guān)注-被關(guān)注”網(wǎng)絡(luò)進(jìn)行傳播。人與人之間的互聯(lián)、人與信息之間的互聯(lián)高度融合,人人參與到信息的產(chǎn)生與傳播過(guò)程,這種傳播方式使得一條信息能夠在短時(shí)間內(nèi)傳播到數(shù)百萬(wàn)計(jì)的用戶[1]。因此, 自動(dòng)高效地識(shí)別社交媒體中的謠言意義重大。

      社交媒體的自動(dòng)謠言檢測(cè)是基于推特信息的可靠性檢測(cè)而來(lái)的[2],Kwon等[3]介紹了一個(gè)基于時(shí)間屬性的時(shí)間序列適應(yīng)模型;Ma等[4]使用動(dòng)態(tài)時(shí)間序列擴(kuò)展了該模型;Zhao等[5]通過(guò)使用線索詞如“not true” “unconfirmed”等來(lái)進(jìn)行早期的謠言檢測(cè);Ma等[6]提出了利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)進(jìn)行謠言檢測(cè),實(shí)驗(yàn)結(jié)果表明RNN方法優(yōu)于現(xiàn)有的基于人工構(gòu)造特征的謠言檢測(cè)模型。

      近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在圖像處理、目標(biāo)檢測(cè)、圖像語(yǔ)義分割等領(lǐng)域取得了一系列突破性的研究成果,其強(qiáng)大的特征學(xué)習(xí)與分類能力引起了廣泛關(guān)注,具有重要的分析與研究?jī)r(jià)值。早期的CNN結(jié)構(gòu)相對(duì)簡(jiǎn)單,主要應(yīng)用在手寫字符識(shí)別、圖像分類等相對(duì)單一的計(jì)算機(jī)視覺應(yīng)用領(lǐng)域中[7]。隨著研究的不斷深入,CNN的結(jié)構(gòu)不斷優(yōu)化,其應(yīng)用領(lǐng)域也逐漸得到延伸。

      2012年,Krizhevsky等[8]提出的AlexNet在大型圖像數(shù)據(jù)庫(kù)ImageNet[9]的圖像分類競(jìng)賽中以準(zhǔn)確度超越第二名11%的巨大優(yōu)勢(shì)奪得了冠軍,使得CNN成為了學(xué)術(shù)界的焦點(diǎn);并且,CNN不斷與一些傳統(tǒng)算法相融合,加上遷移學(xué)習(xí)方法的引入,使得CNN的應(yīng)用領(lǐng)域獲得了快速的擴(kuò)展。一些典型的應(yīng)用包括:CNN與RNN結(jié)合圖像的摘要生成[10-11]; 自然語(yǔ)言處理方面,卷積神經(jīng)網(wǎng)絡(luò)模型在語(yǔ)義分析[12]、搜索結(jié)果提取[13]、句子分類[14]、句子建模[15]、句子預(yù)測(cè)[16]和其他的傳統(tǒng)自然語(yǔ)言處理任務(wù)[17]中都取得了很好的結(jié)果。

      由于CNN的良好表現(xiàn),所以本文應(yīng)用于微博自動(dòng)謠言檢測(cè)當(dāng)中。本文對(duì)Kim等[14]提出的句子分類模型進(jìn)行改進(jìn),使其適應(yīng)于微博謠言檢測(cè),實(shí)驗(yàn)表明本文模型的有效性。

      本文的主要貢獻(xiàn)如下:

      1) 提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的謠言檢測(cè)方法,將謠言事件向量化,通過(guò)自動(dòng)構(gòu)建謠言的特征來(lái)進(jìn)行模型訓(xùn)練,從而達(dá)到判斷謠言的目的;

      2) 提出了一種基于微博的謠言檢測(cè)框架,實(shí)現(xiàn)微博中的謠言檢測(cè)。

      1 本文模型

      1.1 基本定義

      本文的研究對(duì)象為謠言事件。所謂謠言事件,就新浪微博而言,本文需要關(guān)心的是某個(gè)最初始的不實(shí)微博(即源頭微博)是否是謠言,并不關(guān)心其傳播過(guò)程中所衍生出來(lái)的微博是否存在不實(shí),或者是否是謠言。最初始微博一經(jīng)判斷,則與其相關(guān)的微博也自然得到判斷。例如,“傳說(shuō)中麥當(dāng)勞全國(guó)通用無(wú)線上網(wǎng)密碼,真的嗎?”這條謠言以及其相關(guān)微博“真的么?”“假的”“存了多少次都找不到了”等就構(gòu)成了一個(gè)謠言事件,而本文判斷的僅是“傳說(shuō)中麥當(dāng)勞全國(guó)通用無(wú)線上網(wǎng)密碼,真的嗎?”這條微博是否是謠言,而其相關(guān)微博是否是謠言并不關(guān)心,或者說(shuō)其相關(guān)微博是作為判斷源頭微博是否是謠言的證據(jù)存在。因此,在詳細(xì)描述本文的模型之前,本文先給出一些基本的符號(hào)解釋和定義。

      定義1 謠言事件[6]。定義一個(gè)所有事件的集合E={Ei},其中每一個(gè)Ei={mij}包含與其相關(guān)的所有微博,mij表示謠言事件的某一條微博,本文的任務(wù)就是判斷Ei是不是謠言事件。

      表1 標(biāo)記與定義Tab. 1 Notations and definitions

      1.2 模型結(jié)構(gòu)

      本文的謠言檢測(cè)的流程框圖如圖1所示。首先,通過(guò)新浪微博官方的辟謠平臺(tái)——微博社區(qū)管理中心取得某條具體的謠言; 然后,對(duì)與其相關(guān)的微博進(jìn)行聚類,得到N個(gè)謠言事件,相應(yīng)地,為了便于分類訓(xùn)練,取得與謠言事件數(shù)目近似相同的M個(gè)非謠言事件,將每一個(gè)謠言事件作為一個(gè)整體,對(duì)其中的每一條微博向量化,組成一個(gè)輸入矩陣,依此類推,向量化完成之后,作為輸入矩陣,進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練。

      圖1 微博謠言檢測(cè)框架Fig. 1 Microblog rumor detection framework

      用于謠言檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)如圖2所示。

      圖2 基于卷積神經(jīng)網(wǎng)絡(luò)的謠言檢測(cè)模型Fig. 2 Rumor detection model based on convolutional neural network

      令mij∈Rk,其中mij表示某個(gè)謠言事件Ei的某條相關(guān)微博,用k維的句子向量表示。一個(gè)包含n條相關(guān)微博的謠言事件可以表示為:

      Ei=mi1⊕mi2⊕…⊕min

      其中⊕表示串聯(lián)操作。

      卷積層進(jìn)行卷積操作,卷積操作就是利用filterw∈Rh×k來(lái)產(chǎn)生新的特征。例如事件i中第j條相關(guān)微博到第j+h-1條微博所產(chǎn)生的特征ai的計(jì)算公式如下:

      ai=f(w·mij:i(j+h-1)+wb)

      其中:wb是filter的偏置項(xiàng),f是一個(gè)非線性函數(shù),比如ReLU激活函數(shù)。filter應(yīng)用于事件i的每一個(gè)窗口{mi1:ih,mi2:i(h+1),…,mi(n-h+1):in} 來(lái)生成一個(gè)特征矩陣:

      a=[a1,a2,…,an-h+1]

      池化層進(jìn)行池化操作。通常在卷積層之后會(huì)得到維度很大的特征,將特征切成幾個(gè)區(qū)域,取其最大值或平均值,得到新的、維度較小的特征。主要作用是下采樣,通過(guò)去掉特征矩陣中不重要的樣本來(lái)減少參數(shù)的數(shù)量。本文采用的是max pooling,即對(duì)特征矩陣a中的每一個(gè)ai取最大值,作為采樣后的樣本值。

      最后將池化后的特征矩陣傳入全連接層,進(jìn)行Softmax操作,最后輸出分類的概率。

      本文模型采用了多個(gè)filter來(lái)獲得多種特征。值得注意的是,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型filter遍歷每一種圖片的所有局部塊如圖3(a)所示。而在本文模型之中,filter遍歷每個(gè)謠言事件的長(zhǎng)度為h的所有窗口,而filter寬度通常等于輸入矩陣的寬度,如圖3(b)所示。這樣設(shè)置的理由如下:因?yàn)楸疚哪P偷妮斎刖仃嚸恳恍斜硎臼录哪骋粭l微博的微博向量,將微博向量當(dāng)作最小單位,有助于更好地挖取相關(guān)微博之間的特征,以及謠言的傳播特征;反之,若是filter掃描局部塊,則更注重的是謠言事件中所有詞之間的關(guān)系,不能從整體上把握謠言傳播的時(shí)序特點(diǎn)。因?yàn)镵im[14]的工作表明,對(duì)于文本分類任務(wù),含有一層卷積層的卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)表現(xiàn)得很好,所以本文模型僅采用一個(gè)卷積層與一個(gè)池化層。

      圖3 兩種模型過(guò)濾器遍歷輸入矩陣的方式Fig. 3 Way of filter traversing input matrix in two models

      2 實(shí)驗(yàn)與分析

      2.1 數(shù)據(jù)收集

      通過(guò)研究新浪微博發(fā)現(xiàn)數(shù)據(jù)獲取的方式可以通過(guò)以下步驟:

      1)首先在微博社區(qū)管理中心,找得到不實(shí)信息的微博,如圖4所示。

      圖4 微博社區(qū)管理中心Fig. 4 Microblog community management center

      2)根據(jù)不實(shí)微博的公示信息,獲得原文,如圖5所示。

      圖5 某條謠言微博的公示信息Fig. 5 Public information of a rumor microblog

      3)根據(jù)原文信息,進(jìn)行具體謠言事件的相關(guān)微博信息的抓取。

      為了便于本文模型與其他模型的比較,本文采用Ma等[6]公開的數(shù)據(jù)集。該數(shù)據(jù)集包含2 313個(gè)謠言事件與2 351個(gè)非謠言事件,共包含3 805 656條微博。由于微博本身含有很大的噪聲,包含@某某人、超鏈接等無(wú)關(guān)信息,所以本文通過(guò)正則表達(dá)式匹配的方法對(duì)該數(shù)據(jù)集進(jìn)行了降噪等預(yù)處理。

      2.2 實(shí)驗(yàn)設(shè)置

      本文將本文模型與Ma等[6]的工作進(jìn)行了對(duì)比:

      Ma等的模型 Ma等提出了采用循環(huán)神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行微博謠言的檢測(cè),分別實(shí)現(xiàn)了tanh-RNN(tanh-Recurrent Neural Network)、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)等模型,并取得了良好的效果。此外,Ma等基于本文所采用的數(shù)據(jù)集,重現(xiàn)了之前較經(jīng)典的謠言檢測(cè)的工作,便于進(jìn)行模型的比較。

      本文模型 本文的卷積神經(jīng)網(wǎng)絡(luò)模型,包含一個(gè)卷積層和一個(gè)池化層,且輸入矩陣是使用Doc2Vec訓(xùn)練好的向量矩陣。

      超參數(shù)設(shè)置 本文采用ReLU激活函數(shù),filter窗口高度分別采用3、4、5,dropout rate為0.5。每一條微博的維度k設(shè)置為50,由于不同的謠言事件或者非謠言事件含有的微博數(shù)目不同,所以本文對(duì)于微博數(shù)目小于最大微博數(shù)的事件,采用補(bǔ)充零向量的方式,使輸入矩陣的大小一致。

      預(yù)處理的句子向量 對(duì)于每一條微博,本文進(jìn)行預(yù)處理之后,進(jìn)行分詞,之后利用Doc2Vec方法,將微博轉(zhuǎn)化為句子向量。

      評(píng)價(jià)指標(biāo) 模型的評(píng)價(jià)指標(biāo)采用自然語(yǔ)言處理中常用的準(zhǔn)確率(accuracy)、召回率(recall)、精確率(precision),以及F1值,它們針對(duì)謠言的定義如下:

      本文的卷積神經(jīng)網(wǎng)絡(luò)是通過(guò)TensorFlow實(shí)現(xiàn)。為了便于與Ma等的模型作對(duì)比,本文同樣地分別選取10%的謠言事件與非謠言事件用于模型的調(diào)整;將剩下的數(shù)據(jù)的30%作為訓(xùn)練集,10%作為測(cè)試集。

      2.3 實(shí)驗(yàn)結(jié)果

      本文的模型CNN訓(xùn)練集和測(cè)試集比例為3∶1,與其他模型的實(shí)驗(yàn)結(jié)果比較如表2所示。其中,“- 1”“- 2”表示隱含層層數(shù),“- 1”表示一層,“- 2”表示兩層。

      表2 CNN模型與其他模型的實(shí)驗(yàn)結(jié)果比較Tab. 2 Result comparison of CNN model with other models

      從表2中可以看出:就人工構(gòu)造特征與模型自動(dòng)構(gòu)造特征而言,人工構(gòu)造特征中基于時(shí)間序列的支持向量機(jī)模型(Support Vector Machine based on Time-Series, SVM-TS)優(yōu)于決策樹模型DT-Rank,而本文模型與支持向量機(jī)模型相比,準(zhǔn)確率提高了10.9個(gè)百分點(diǎn),精確率提高了13.9個(gè)百分點(diǎn),召回率提高了6.6個(gè)百分點(diǎn),F(xiàn)1值提高了10.3個(gè)百分點(diǎn)。可以得出模型自動(dòng)構(gòu)造特征明顯優(yōu)于人工構(gòu)造的特征。

      就卷積神經(jīng)網(wǎng)絡(luò)模型與循環(huán)神經(jīng)網(wǎng)絡(luò)模型而言,可以看出,循環(huán)神經(jīng)網(wǎng)絡(luò)模型中,GRU- 2模型優(yōu)于其他模型,而本文的模型與GRU- 2模型相比,準(zhǔn)確率提高了5.6個(gè)百分點(diǎn),精確率提高了10.2個(gè)百分點(diǎn),召回率與LSTM- 1模型相比降低了1.7個(gè)百分點(diǎn),F(xiàn)1值提高了5個(gè)百分點(diǎn)。可以看出除了召回率略低以外,準(zhǔn)確率、精確率和F1值都優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型。所以本文認(rèn)為在謠言檢測(cè)當(dāng)中,卷積神經(jīng)網(wǎng)絡(luò)模型是通過(guò)謠言事件中發(fā)現(xiàn)微博之間的關(guān)系來(lái)構(gòu)造特征,而循環(huán)神經(jīng)網(wǎng)絡(luò)則是通過(guò)謠言事件中所有詞之間的關(guān)系來(lái)構(gòu)造特征,對(duì)于謠言而說(shuō),由于其傳播方式等的特點(diǎn),本文認(rèn)為按照相關(guān)微博來(lái)構(gòu)造特征比按照詞來(lái)構(gòu)造特征更合理,所以認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)模型優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò)模型。

      綜上所述,本文認(rèn)為就謠言檢測(cè)而言,模型自構(gòu)建特征優(yōu)于人工構(gòu)建特征,卷積神經(jīng)網(wǎng)絡(luò)模型優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò)模型。

      此外,本文將訓(xùn)練集與測(cè)試集按照9∶1的分割比例進(jìn)行了同樣的實(shí)驗(yàn),如表3所示。從表3中可以看出按照9∶1的分割比例時(shí),訓(xùn)練的模型實(shí)驗(yàn)結(jié)果略好于按照3∶1進(jìn)行分割的模型。

      表3 CNN模型不同分割比例之間的結(jié)果比較Tab.3 Rusult comparison of CNN models with different split ratios

      本文通過(guò)劉知遠(yuǎn)等[18]的工作了解到,新浪微博中一般人工檢測(cè)并確認(rèn)謠言的時(shí)間周期大約在一周左右,圖6是本文的CNN模型訓(xùn)練過(guò)程中的收斂情況,其中實(shí)線表示在訓(xùn)練集中的收斂情況,點(diǎn)線表示在測(cè)試集上的收斂情況。從圖中可以看出模型收斂的速度非???,當(dāng)訓(xùn)練到達(dá)10 000步時(shí),模型的準(zhǔn)確率就已經(jīng)達(dá)到了94.47%,這也正好彌補(bǔ)了人工檢測(cè)微博謠言存在較長(zhǎng)時(shí)間的延遲問(wèn)題。

      圖6 CNN模型訓(xùn)練過(guò)程Fig. 6 CNN model training process

      3 結(jié)語(yǔ)

      目前在大多數(shù)謠言檢測(cè)任務(wù)中,都是采用人工構(gòu)建特征的方式,本文提出將卷積神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于謠言檢測(cè)中,從實(shí)驗(yàn)中得出本文的模型優(yōu)于目前最好的謠言檢測(cè)方法,準(zhǔn)確率及F1值均高出5%左右。如何將謠言事件下的用戶評(píng)價(jià)信息加入,以及如何進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)的選取,將是接下來(lái)進(jìn)一步的研究工作。

      References)

      [1] 李洋,陳毅恒,劉挺.微博信息傳播預(yù)測(cè)研究綜述[J].軟件學(xué)報(bào),2016,27(2):247-263.(LI Y, CHEN Y H, LIU T. Survey on predicting information propagation in microblogs[J]. Journal of Software, 2016,27(2):247-263)

      [2] CASTILLO C, MENDOZA M, POBLETE B. Information credibility on twitter[C]// Proceedings of the 20th International Conference on World Wide Web. New York: ACM, 2011: 675-684.

      [3] KWON S, CHA M, JUNG K, et al. Prominent features of rumor propagation in online social media[C]// Proceedings of the 2013 IEEE 13th International Conference on Data Mining. Piscataway, NJ: IEEE, 2013: 1103-1108.

      [4] MA J, GAO W, WEI Z, et al. Detect rumors using time series of social context information on microblogging websites[C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1751-1754.

      [5] ZHAO Z, RESNICK P, MEI Q. Enquiring minds: early detection of rumors in social media from enquiry posts[C]// Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015: 1395-1405.

      [6] MA J, GAO W, MITRA P, et al. Detecting rumors from microblogs with recurrent neural networks[C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 2016: 3818-3824.

      [7] 李彥冬, 郝宗波, 雷航. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2016, 36(9): 2508-2515.(LI Y D, HAO Z B, LEI H. Survey of convolutional neural network[J]. Journal of Computer Applications, 2016, 36(9): 2508-2515.)

      [8] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press,2012: 1097-1105.

      [9] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 248-255.

      [10] DONAHUE J, HENDRICKS L A, GUADARRAMA S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE,2015: 2625-2634.

      [11] VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: a neural image caption generator[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3156-3164.

      [12] YIH W, HE X, MEEK C. Semantic parsing for single-relation question answering[C]// Proceedings of the 2014 Annual Meeting of the Association for Computational Linguistics. Stroudsburg: ACL, 2014: 643-648.

      [13] SHEN Y, HE X, GAO J, et al. Learning semantic representations using convolutional neural networks for Web search[C]// Proceedings of the 23rd International Conference on World Wide Web. New York: ACM, 2014: 373-374.

      [14] KIM Y. Convolutional neural networks for sentence classification[EB/OL].[2016- 11- 20]. http://www.aclweb.org/anthology/D14- 1181.pdf.

      [15] KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences[EB/OL].[2016- 11- 20].http://anthology.aclweb.org/P/P14/P14-1062.pdf.

      [16] COLLOBERT R, WESTON J. A unified architecture for natural language processing: deep neural networks with multitask learning[C]// Proceedings of the 25th International Conference on Machine Learning. New York: ACM, 2008: 160-167.

      [17] COLLOBERT R, WESTON J, KARLEN M, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(1):2493-2537.

      [18] 劉知遠(yuǎn), 張樂(lè), 涂存超, 等. 中文社交媒體謠言統(tǒng)計(jì)語(yǔ)義分析[J]. 中國(guó)科學(xué): 信息科學(xué), 2015, 45(12):1536-1546.(LIU Z Y, ZHANG L, TU C C, et al. Statistical and semantic analysis of rumors in Chinese social media[J]. Scientia China: Informationis Sciences, 2015, 45(12):1536-1546.)

      This work is partially supported by the National Natural Science Foundation of China (61573259, 61673301, 61573255, 61673299), the Program of Further Accelerating the Development of Chinese Medicine Three Year Action of Shanghai (ZY3-CCCX-3-6002), the Natural Science Foundation of Shanghai (15ZR1443800).

      LIUZheng, born in 1992, M. S. candidate. His research interests include natural language processing.

      WEIZhihua, born in 1979, Ph. D., associate professor. Her research interests include machine learning, text mining, image content analysis.

      ZHANGRenxian, born in 1976, Ph. D., associate professor. His research interests include natural language processing, social networking, data mining.

      Rumordetectionbasedonconvolutionalneuralnetwork

      LIU Zheng1,2, WEI Zhihua1,2*, ZHANG Renxian1,2

      (1.DepartmentofComputerScienceandTechnology,TongjiUniversity,Shanghai201804,China;2.KeyLaboratoryofEmbeddedSystemandServiceComputingofMinistryofEducation(TongjiUniversity),Shanghai201804,China)

      Manual rumor detection often consumes a lot of manpower and material resources, and there will be a long detection delay. At present, the existing rumor detection models construct features manually according to the content, user attributes, and pattern of the rumor transmission, which can not avoid one-sided consideration, waste of human and other phenomena. To solve this problem, a rumor detection model based on Convolutional Neural Network (CNN) was presented. The rumor events in microblog were vectorized. The deep features of text were mined through the learning and training in hidden layer of CNN to avoid the problem of feature construction, and those features that were not easily found could be found to produce better results. The experimental results show that the proposed method can accurately identify rumor events, and it is better than Support Vector Machine (SVM), Recurrent Neural Network (RNN) and other contrast algorithms in accuracy rate, precision rate and F1 score.

      microblog; rumor detection; rumor event; Convolution Neural Network (CNN)

      2017- 05- 16;

      2017- 06- 05。

      國(guó)家自然科學(xué)基金資助項(xiàng)目(61573259, 61673301, 61573255, 61673299);上海市中醫(yī)藥三年行動(dòng)計(jì)劃重點(diǎn)項(xiàng)目(ZY3-CCCX- 3- 6002);上海自然科學(xué)基金資助項(xiàng)目(15ZR1443800)。

      劉政(1992—),男,山東濟(jì)南人,碩士研究生,CCF會(huì)員,主要研究方向:自然語(yǔ)言處理; 衛(wèi)志華(1979—),女,山西晉中人,副教授,博士,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、文本挖掘、圖像內(nèi)容分析; 張韌弦(1976—),男,浙江鄞縣人,副教授,博士,主要研究方向:自然語(yǔ)言處理、社交網(wǎng)絡(luò)、數(shù)據(jù)挖掘。

      1001- 9081(2017)11- 3053- 04

      10.11772/j.issn.1001- 9081.2017.11.3053

      (*通信作者電子郵箱zhihua_wei@#edu.cn)

      TP391.41

      A

      猜你喜歡
      謠言卷積向量
      向量的分解
      中國(guó)使館駁斥荒謬謠言
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      聚焦“向量與三角”創(chuàng)新題
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      當(dāng)謠言不攻自破之時(shí)
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      謠言
      向量垂直在解析幾何中的應(yīng)用
      謠言大揭秘
      延庆县| 曲周县| 松潘县| 安图县| 杭锦旗| 玉山县| 惠水县| 顺平县| 隆尧县| 航空| 漯河市| 伊吾县| 甘德县| 延边| 镇原县| 清流县| 柯坪县| 龙游县| 高密市| 扶绥县| 遂平县| 东光县| 桃源县| 襄城县| 河曲县| 清镇市| 新泰市| SHOW| 岳普湖县| 曲麻莱县| 简阳市| 彰化县| 温宿县| 桐乡市| 馆陶县| 博湖县| 集贤县| 垣曲县| 元谋县| 突泉县| 诸城市|