• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向語(yǔ)義缺失場(chǎng)景的社交媒體中熱門(mén)新聞識(shí)別方法研究

      2019-10-06 02:40:31謝海濤肖倩
      現(xiàn)代情報(bào) 2019年9期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)社交媒體

      謝海濤 肖倩

      摘 要:[目的/意義]對(duì)社交媒體中熱門(mén)新聞的及時(shí)識(shí)別,有助于加速正面資訊的投送或抑制負(fù)面資訊的擴(kuò)散。當(dāng)前,基于自然語(yǔ)言處理的傳統(tǒng)識(shí)別方法正面臨社交媒體新生態(tài)的挑戰(zhàn):大量新聞內(nèi)容以圖片、音視頻形式存在,缺乏用于語(yǔ)義及情感分析的文本。[方法/過(guò)程]對(duì)此,本文首先將社交網(wǎng)絡(luò)劃分為眾多社群,并按其層次結(jié)構(gòu)組織為貝葉斯網(wǎng)絡(luò)。接著,面向社群構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的熱門(mén)新聞識(shí)別模型,模型綜合考慮新聞傳播的宏觀統(tǒng)計(jì)規(guī)律及微觀傳播過(guò)程,以提取社群內(nèi)熱門(mén)新聞傳播的特征。最后,利用貝葉斯推理并結(jié)合局部性的模型識(shí)別結(jié)果進(jìn)行全局性熱度預(yù)測(cè)。[結(jié)果/結(jié)論]實(shí)驗(yàn)表明,本方法在語(yǔ)義缺失場(chǎng)景下可有效識(shí)別熱門(mén)新聞,其準(zhǔn)確度強(qiáng)于基于語(yǔ)義信息的機(jī)器學(xué)習(xí)方法,模型具有良好的時(shí)效性、可擴(kuò)展性和適用性。該研究有助于社交媒體的監(jiān)管機(jī)構(gòu)及時(shí)識(shí)別出各類(lèi)不含語(yǔ)義信息且迅速擴(kuò)散的熱點(diǎn)內(nèi)容。

      關(guān)鍵詞:社交媒體;輿情分析;熱門(mén)新聞識(shí)別;卷積神經(jīng)網(wǎng)絡(luò)

      DOI:10.3969/j.issn.1008-0821.2019.09.004

      〔中圖分類(lèi)號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2019)09-0028-13

      Abstract:[Purpose/Significance]Recognition of hot news in social media is beneficial for interfering the dissemination of information.At present,the traditional recognition methods based on NLP are facing the new challenge,i.e.,many news are lack of texts for semantic and emotional analysis,such as pictures and videos.[Method/Process]To this end,this paper firstly divided social networks into communities and organized them as a Bayesian network according to their hierarchical structure.Then,a hot news recognition model based on convolutional neural network was constructed for each community.The model synthetically analysed the macro statistics and micro processes,so as to retrieve the features of hot news disseminations within the community.Finally,the global popularity prediction was carried out by Bayesian reasoning based on the local model recognition results.[Result/Conclusion]Experiments showed that our method could effectively recognize hot news without semantic data,and improve the speed and accuracy of hot news recognitions with certain extendibility.The research would help social media regulators identify hot topics that do not contain semantic information and spread rapidly.

      Key words:social media;public opinion analysis;hot news recognition;convolutional neural network

      近年來(lái),國(guó)內(nèi)外社交媒體(Social Media)產(chǎn)業(yè)發(fā)展迅猛。一方面,傳統(tǒng)巨頭(微博、微信、Twitter、Youtube等)深化著對(duì)大眾信息分享習(xí)慣的影響;另一方面,新入局者(抖音、喜馬拉雅FM、Instagram等)也在各自細(xì)分領(lǐng)域塑造著資訊傳播的新模式。面對(duì)社交媒體中由用戶(hù)生成的信息洪流,從中快速識(shí)別出熱門(mén)新聞既有利于社交媒體提升運(yùn)營(yíng)質(zhì)量,如發(fā)現(xiàn)優(yōu)質(zhì)內(nèi)容后推薦給更多受眾;也有助于政府機(jī)構(gòu)及時(shí)獲悉各類(lèi)輿情預(yù)警并進(jìn)行干預(yù),如由政治事件[1]、經(jīng)濟(jì)震蕩[2]、群體性事件[3]所引發(fā)的輿情波動(dòng)。因此,熱門(mén)新聞(Hot News)識(shí)別受到情報(bào)學(xué)、新聞傳播學(xué)、計(jì)算機(jī)科學(xué)等領(lǐng)域的廣泛關(guān)注并成為研究熱點(diǎn)[4]。

      熱門(mén)新聞可定義為在一定范圍的用戶(hù)群體內(nèi),在單位時(shí)間中受眾數(shù)量平均值較高的新聞。目前,針對(duì)社交媒體中熱門(mén)新聞的識(shí)別問(wèn)題已存在諸多方法[5]。其中,取得較好應(yīng)用效果的方法大多需要語(yǔ)義信息的支撐,包括:1)基于概率統(tǒng)計(jì)及機(jī)器學(xué)習(xí)的方法,需根據(jù)歷史數(shù)據(jù)對(duì)新聞關(guān)鍵詞(主題詞、敏感詞)與其熱度(點(diǎn)擊量、評(píng)論數(shù))之間的關(guān)聯(lián)關(guān)系進(jìn)行建模和學(xué)習(xí),進(jìn)而實(shí)現(xiàn)熱門(mén)新聞識(shí)別;2)針對(duì)富含情感詞的新聞文本、用戶(hù)評(píng)論、表情符號(hào)等進(jìn)行情感分析,根據(jù)新聞所引發(fā)公眾情緒的正負(fù)性及其激烈程度來(lái)甄別熱點(diǎn)。

      雖然已有研究成果豐碩,但社交媒體與新聞傳媒業(yè)態(tài)的飛速發(fā)展,正不斷催生出更具挑戰(zhàn)性的信息承載與傳播生態(tài),表現(xiàn)為:海量涌現(xiàn)的多媒體新聞內(nèi)容夾雜著語(yǔ)義模糊的“流行語(yǔ)”,以圖片、音視頻等形式在社交媒體中迅速傳播。由于從上述形態(tài)的新聞內(nèi)容中抽取語(yǔ)義信息較為困難,因此基于自然語(yǔ)言處理技術(shù)(NLP)的熱門(mén)新聞識(shí)別方法出現(xiàn)了較大局限性。本文力圖擺脫對(duì)語(yǔ)義數(shù)據(jù)的依賴(lài),將新聞的宏觀傳播態(tài)勢(shì)與微觀傳播過(guò)程(社交網(wǎng)絡(luò)節(jié)點(diǎn)間的信息傳播時(shí)序)相結(jié)合,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)抽取社群中熱門(mén)新聞的多層次傳播特征,并基于貝葉斯網(wǎng)絡(luò)構(gòu)建一種在社交媒體中識(shí)別熱門(mén)新聞的方法。該方法在語(yǔ)義數(shù)據(jù)缺失場(chǎng)景下具有良好的識(shí)別準(zhǔn)確度,也具有一定的時(shí)效性、可擴(kuò)展性和適用性。

      1 研究現(xiàn)狀

      針對(duì)熱門(mén)新聞識(shí)別、熱點(diǎn)話(huà)題發(fā)現(xiàn)(Topic Detection)、謠言監(jiān)測(cè)(Rumor Spread Detection)等輿情分析問(wèn)題已存在不少研究成果,其中應(yīng)用效果較好的方法往往需要語(yǔ)義分析(Semantic Analysis)技術(shù)的支撐[6]。根據(jù)所選語(yǔ)義要素的不同,可將相關(guān)研究分為基于情感詞和基于主題詞的兩類(lèi)方法。

      1)基于情感詞的方法。該類(lèi)方法基于情感詞典對(duì)包含情感詞匯的文本進(jìn)行情感分析(Sentiment Analysis),以判斷受眾對(duì)新聞的情感狀態(tài)[7-8]。在衡量受眾情感的激烈程度上,主要從兩個(gè)角度切入:第一,靜態(tài)統(tǒng)計(jì)分析角度。將新聞給受眾帶來(lái)的情感變化與社會(huì)網(wǎng)絡(luò)分析的已有研究結(jié)論相結(jié)合,得到新聞對(duì)整個(gè)社群情緒的正負(fù)性影響程度[9-10]。雖然該類(lèi)方法在實(shí)踐中取得了一定效果,例如首歡容等將其應(yīng)用于謠言識(shí)別問(wèn)題[11],但其只考慮了網(wǎng)絡(luò)所展現(xiàn)的靜態(tài)特性,未考慮信息的實(shí)際動(dòng)態(tài)傳播過(guò)程[12],存在缺陷;第二,傳播動(dòng)力學(xué)角度,如借鑒傳染病模型(SIR)等,使用微分方程對(duì)社交網(wǎng)絡(luò)中情緒傳播的速率進(jìn)行建模,從而預(yù)測(cè)新聞在網(wǎng)絡(luò)中引發(fā)的情緒擴(kuò)散態(tài)勢(shì)[13]。相比于靜態(tài)視角,動(dòng)力學(xué)視角的方法可在時(shí)間維度上提供了更為精細(xì)化的預(yù)測(cè)。不過(guò),網(wǎng)絡(luò)情感詞匯的表達(dá)具有相當(dāng)?shù)呢S富性和多變性,因此以上方法對(duì)用戶(hù)情感的判斷往往不準(zhǔn)確,很多研究缺乏對(duì)計(jì)算結(jié)果準(zhǔn)確率和召回率的驗(yàn)證[4]。雖然也有研究者試圖將支持向量機(jī)(SVM)與潛在語(yǔ)義分析(LSA)相結(jié)合,對(duì)情感詞在高維度空間中進(jìn)行分類(lèi),以期對(duì)用戶(hù)的情感狀態(tài)進(jìn)行較為精確的判定,但社交媒體中的情感詞過(guò)于靈活多變,模型的訓(xùn)練樣本需要頻繁更新,建模成本過(guò)高[14]。

      2)基于主題詞的方法。該類(lèi)方法旨在挖掘新聞的主題特征與其熱度之間的關(guān)聯(lián),根據(jù)歷史數(shù)據(jù)訓(xùn)練出熱門(mén)新聞識(shí)別模型。在抽取新聞的高維主題特征時(shí),該類(lèi)方法通常需要構(gòu)建主題模型(Topic Model)。常用的主題模型包括概率潛在語(yǔ)義分析(pLSA)和隱含主題分析模型(LDA)等。在識(shí)別出新聞主題的基礎(chǔ)上,利用無(wú)監(jiān)督機(jī)器學(xué)習(xí)(Unsupervised Learning),如K-means聚類(lèi)[5]、層次式聚類(lèi)[15],對(duì)待判定對(duì)象及其它樣本進(jìn)行聚類(lèi),進(jìn)而根據(jù)新聞所屬類(lèi)別來(lái)判斷其是否熱門(mén)。除無(wú)監(jiān)督學(xué)習(xí)外,有監(jiān)督學(xué)習(xí)(Supervised Learning)方法中的分類(lèi)模型也被用來(lái)實(shí)現(xiàn)熱點(diǎn)識(shí)別。例如,饒浩等用主成分分析法提取熱門(mén)事件中的主要主題特征,再通過(guò)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)學(xué)習(xí),實(shí)現(xiàn)熱度分類(lèi)模型[16]。隨后,饒浩等還嘗試將改進(jìn)的支持向量機(jī)用于微博熱門(mén)話(huà)題預(yù)測(cè)。該方法通過(guò)將高維特征空間中的內(nèi)積運(yùn)算轉(zhuǎn)變?yōu)榈途S空間的函數(shù)運(yùn)算,來(lái)擬合主題詞詞頻與話(huà)題熱度的關(guān)聯(lián),進(jìn)而生成熱門(mén)輿情預(yù)警模型[17]。相比于無(wú)監(jiān)督方法,有監(jiān)督方法具有更好的時(shí)效性,不需要在每次熱門(mén)新聞的判定中都執(zhí)行樣本空間上的整體計(jì)算,但其也存在分類(lèi)模型選擇和模型復(fù)雜度設(shè)置方面的困難。

      總之,以上兩類(lèi)方法均依賴(lài)于新聞包含的語(yǔ)義數(shù)據(jù)。然而,當(dāng)前社交媒體上大量的熱門(mén)新聞會(huì)以圖片、音視頻形式出現(xiàn),缺乏判斷其情感和主題的文本信息。因此,上述方法都不適用于此類(lèi)語(yǔ)義缺失的識(shí)別場(chǎng)景。如若采用成本高昂的人工標(biāo)記法對(duì)內(nèi)容進(jìn)行語(yǔ)義采集,也易造成監(jiān)管的滯后性,無(wú)法滿(mǎn)足輿情監(jiān)測(cè)的實(shí)時(shí)性需求[18]。對(duì)此,楊小平、葉川等通過(guò)將用戶(hù)評(píng)論作為新聞內(nèi)容的補(bǔ)充來(lái)提取新聞的情感特征[19]與主題特征[20],曾金等通過(guò)識(shí)別圖片的視覺(jué)特征來(lái)注釋圖片的語(yǔ)義[21],上述兩種方法都存在數(shù)據(jù)噪音大、實(shí)用范圍窄的問(wèn)題;魏靜、Liben-Nowell等依靠網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點(diǎn)相似性進(jìn)行信息傳播預(yù)測(cè),雖然不再依賴(lài)文本信息,但卻需要獲知額外的用戶(hù)屬性[22-23],由于數(shù)據(jù)缺失是社交網(wǎng)絡(luò)中的常見(jiàn)問(wèn)題[24],以致該方法的應(yīng)用受限。綜上所述,本文旨在面向較為嚴(yán)苛的場(chǎng)景,在假設(shè)沒(méi)有語(yǔ)義數(shù)據(jù)和用戶(hù)屬性信息的前提下,僅利用新聞傳播的宏觀統(tǒng)計(jì)量和微觀傳播時(shí)序信息,建立深度學(xué)習(xí)模型RHC以提取新聞多層次傳播特征與其熱度之間的關(guān)聯(lián)。

      2 社交網(wǎng)絡(luò)中熱門(mén)新聞的識(shí)別機(jī)制設(shè)計(jì)

      2.1 基于社群劃分的熱門(mén)新聞分析框架

      社交媒體中新聞的熱度具有“時(shí)間與空間”上的動(dòng)態(tài)變化性。一方面,新聞具有特定的生命周期,在其變成熱門(mén)之前,會(huì)經(jīng)過(guò)不同時(shí)間跨度的潛伏期;另一方面,社交網(wǎng)絡(luò)用戶(hù)基于興趣和社會(huì)屬性聚集成社群,特性主題的新聞通常僅在特定范圍的人群中流行。因此,僅通過(guò)新聞傳播的宏觀統(tǒng)計(jì)量來(lái)判斷其是否屬于熱門(mén),會(huì)存在較大偏差。

      為驗(yàn)證上述結(jié)論,本文分析了社交媒體領(lǐng)域公認(rèn)性高的公開(kāi)數(shù)據(jù)集“斯坦福網(wǎng)絡(luò)分析項(xiàng)目”(snap.stanford.edu),其選取Twitter中的局部社交網(wǎng)絡(luò),并對(duì)2008-2009年間的1 000條新聞進(jìn)行了128個(gè)時(shí)次的受眾跟蹤,共涉及3千萬(wàn)個(gè)用戶(hù)的轉(zhuǎn)發(fā)(Retweet)行為。基于Stanford數(shù)據(jù)集,按新聞在單位時(shí)間片中的受眾關(guān)注量均值排序,取排名前10%的熱門(mén)新聞繪制128個(gè)時(shí)次的關(guān)注量變化曲線,見(jiàn)圖1??芍?,關(guān)注量曲線在波峰位置、波峰數(shù)量、峰值時(shí)刻等方面均存在顯著差異,從曲線形態(tài)上無(wú)法直接區(qū)分熱門(mén)新聞。

      接著,對(duì)上述熱門(mén)新聞繪制關(guān)注量累積分布曲線,見(jiàn)圖2??芍?,相當(dāng)比例的熱門(mén)新聞在其傳播的最后階段,仍在線性地累積關(guān)注量,因此關(guān)注量的增長(zhǎng)率(激增率)也并不足以作為判定標(biāo)準(zhǔn)。

      最后,按排序結(jié)果由高到低取5組新聞,每組100條。按分組分別繪制新聞在單個(gè)時(shí)次中出現(xiàn)的關(guān)注量峰值,見(jiàn)圖3??芍?,有相當(dāng)比例的較冷門(mén)新聞的峰值也會(huì)高于較熱門(mén)的新聞。若以峰值作為熱門(mén)判定標(biāo)準(zhǔn),誤判率較高。

      基于上述考慮,本文旨在將新聞傳播的微觀過(guò)程納入考量,以彌補(bǔ)宏觀統(tǒng)計(jì)量的不足。同時(shí),借鑒“分治法”思想,將社交網(wǎng)絡(luò)分割為層次化組織的社群,以應(yīng)對(duì)熱門(mén)新聞的局部性特點(diǎn)。分析框架見(jiàn)圖4,基于卷積神經(jīng)網(wǎng)絡(luò)的熱門(mén)新聞識(shí)別模型針對(duì)每個(gè)處于“葉子節(jié)點(diǎn)”位置的社群進(jìn)行單獨(dú)構(gòu)建,以新聞的宏觀統(tǒng)計(jì)和微觀傳播特征為輸入,對(duì)受監(jiān)控下的新聞給出是否屬于熱門(mén)的判定。將整個(gè)社交網(wǎng)絡(luò)抽象并同構(gòu)于貝葉斯網(wǎng)絡(luò),在葉子節(jié)點(diǎn)給出判定結(jié)果后,基于反向推理得到新聞在全局范圍內(nèi)的熱度預(yù)測(cè)。

      2.2 基于介數(shù)的層次式社群劃分

      對(duì)社交網(wǎng)絡(luò)進(jìn)行層次式社群劃分,既有利于精確定位熱門(mén)新聞的波及范圍,也有助于保障深度學(xué)習(xí)模型在學(xué)習(xí)與監(jiān)測(cè)中的計(jì)算可行性。整體上,采用分裂法進(jìn)行劃分直至社群滿(mǎn)足終止條件,具體采用基于介數(shù)(Betweenness)的社群劃分(Community Detection)方法。介數(shù)又稱(chēng)中介中心性,用以衡量邊介于其他節(jié)點(diǎn)之間的程度。該方法是社群劃分領(lǐng)域的經(jīng)典算法,能割斷處在不同社群之間的邊,并將彼此連接較緊密的節(jié)點(diǎn)劃分到同一社群,其劃分結(jié)果符合“用戶(hù)基于興趣組成社群”的問(wèn)題場(chǎng)景。另外,相比于基于節(jié)點(diǎn)聚類(lèi)的方法,該方法具有更好的可計(jì)算性,適用于大規(guī)模社交網(wǎng)絡(luò)。

      基于上述操作,得到以s為源節(jié)點(diǎn)時(shí)的邊介數(shù)。接下來(lái)需分別以所有節(jié)點(diǎn)為源節(jié)點(diǎn)進(jìn)行輪詢(xún),最終將所有中間結(jié)果求和得到邊的介數(shù)。在得到所有邊的介數(shù)之后,基于GN算法進(jìn)行社群劃分[25],算法具體步驟不再贅述。GN算法的核心思想是按照邊的介數(shù)由高到低進(jìn)行剔除,剔除過(guò)程中會(huì)形成獨(dú)立的社群,其終止條件是社群劃分結(jié)果具有較高的模塊度Q值(Modularity)。模塊度用來(lái)衡量社群劃分質(zhì)量,是社群內(nèi)部總邊數(shù)與網(wǎng)絡(luò)總邊數(shù)的比值減去一個(gè)期望值,該期望值是假設(shè)網(wǎng)絡(luò)為隨機(jī)圖時(shí),在同樣的社群劃分下社群內(nèi)部邊數(shù)和網(wǎng)絡(luò)邊數(shù)的比值。計(jì)算公式如式(1),其中Avw為鄰接矩陣中對(duì)應(yīng)于節(jié)點(diǎn)v和w的元素,kv、kw是節(jié)點(diǎn)的度,m為網(wǎng)絡(luò)中邊的數(shù)量,θvw是指示函數(shù),其值依賴(lài)于v、w是否在同一社群,若在則為1,否則為0最后,根據(jù)社交網(wǎng)絡(luò)的結(jié)構(gòu)特征并結(jié)合主觀觀察,通過(guò)設(shè)置合適的Q閾值,得到理想的社群劃分結(jié)果。

      2.3 新聞熱度的貝葉斯推理

      社交網(wǎng)絡(luò)經(jīng)劃分會(huì)形成一棵“社群層次樹(shù)”,其根節(jié)點(diǎn)代表整個(gè)網(wǎng)絡(luò),葉子節(jié)點(diǎn)代表最終劃分后的社群,父節(jié)點(diǎn)(父群)會(huì)劃分形成一組子節(jié)點(diǎn)(子群)。由于實(shí)際中的社交網(wǎng)絡(luò)通常具有較大的用戶(hù)規(guī)模,對(duì)所有葉子節(jié)點(diǎn)進(jìn)行監(jiān)控并無(wú)必要。因此通過(guò)對(duì)社群層次樹(shù)進(jìn)行剪枝來(lái)降低計(jì)算復(fù)雜度,剪枝方法為按特定比例刪除父群下屬的子群,刪除的優(yōu)先級(jí)反比于子群的規(guī)模。將剪枝后的社群層次樹(shù)抽象為貝葉斯網(wǎng)絡(luò)[26],并基于貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)與推理機(jī)制,能從歷史數(shù)據(jù)中提取新聞在父群與子群中呈現(xiàn)出熱門(mén)的條件概率,并在監(jiān)測(cè)到子群出現(xiàn)熱門(mén)新聞的情況下反向推理出該新聞在父群中屬于熱門(mén)的概率,具體如下:

      最后,新聞熱度推理機(jī)制按照固定的時(shí)間間隔,輪詢(xún)?nèi)~子節(jié)點(diǎn)所對(duì)應(yīng)模型的最新識(shí)別結(jié)果,并重新推理被監(jiān)測(cè)新聞在上一層各父群范圍內(nèi)的熱門(mén)概率,若概率超過(guò)閾值則認(rèn)為新聞在父群中屬于熱門(mén)。依次類(lèi)推,自底向上逐層推理出新聞的各層次判定結(jié)果。

      3 基于卷積神經(jīng)網(wǎng)絡(luò)的熱門(mén)新聞識(shí)別模型

      3.1 面向傳播統(tǒng)計(jì)量的宏觀特征構(gòu)建

      新聞傳播的宏觀統(tǒng)計(jì)量是判斷熱門(mén)新聞的重要指標(biāo),如:點(diǎn)擊量、轉(zhuǎn)發(fā)量、評(píng)論數(shù),但通過(guò)2.1節(jié)分析已知,簡(jiǎn)單的統(tǒng)計(jì)量難以有效刻畫(huà)新聞傳播的宏觀特征。因此,本文采用了基于時(shí)間片的向量描述形式,如Stanford數(shù)據(jù)集中128個(gè)時(shí)次的關(guān)注量可用128維的向量描述,向量元素是單個(gè)時(shí)間片對(duì)應(yīng)的關(guān)注量數(shù)值。相比于簡(jiǎn)單統(tǒng)計(jì)量,向量能刻畫(huà)統(tǒng)計(jì)量的變化曲線,其可能隱含著新聞主題類(lèi)別、新聞傳播路徑、新聞爆發(fā)形式等信息。

      為驗(yàn)證本方法的合理性,再次針對(duì)Stanford數(shù)據(jù)集進(jìn)行分析,隨機(jī)選擇一定數(shù)量的樣本數(shù)據(jù)。考慮到新聞間的關(guān)注量差異較大,對(duì)樣本集128個(gè)時(shí)次的關(guān)注量監(jiān)測(cè)值xt按照式(4)進(jìn)行歸一化處理(Normalization)。對(duì)歸一化后的關(guān)注量變化曲線進(jìn)行K-means聚類(lèi),當(dāng)聚類(lèi)數(shù)量設(shè)置為6時(shí),會(huì)形成聚類(lèi)內(nèi)部較一致、聚類(lèi)之間較不同的結(jié)果,見(jiàn)圖6。各類(lèi)別均呈現(xiàn)相對(duì)特異的傳播曲線,其主要特征總結(jié)見(jiàn)表1。

      對(duì)于存在顯著形態(tài)差異的曲線聚類(lèi)背后的形成機(jī)制,本文假設(shè)聚類(lèi)與新聞主題存在關(guān)聯(lián),即:不同主題的新聞會(huì)經(jīng)過(guò)不同的傳播路徑,形成了差異性的關(guān)注量變化曲線。若該假設(shè)得到驗(yàn)證,則說(shuō)明曲線形態(tài)確實(shí)蘊(yùn)含著豐富的信息,向量描述形式更加合理。為驗(yàn)證該假設(shè),本文對(duì)每條新聞進(jìn)行類(lèi)別標(biāo)注,類(lèi)別設(shè)置為10個(gè),包括:政治、經(jīng)濟(jì)、社會(huì)、文化、體育、娛樂(lè)、教育、軍事、健康、科技。新聞對(duì)類(lèi)別的隸屬關(guān)系使用10維向量表示,隸屬度取值范圍是[0,1],若干示例見(jiàn)表2所示。

      對(duì)標(biāo)注后的新聞進(jìn)行K-means聚類(lèi),聚類(lèi)數(shù)量設(shè)置為6,可得到基于主題的聚類(lèi)結(jié)果。結(jié)合上文中的基于曲線形態(tài)的聚類(lèi)結(jié)果,可得R×C列聯(lián)表,見(jiàn)表3。對(duì)列聯(lián)表按照式(5)進(jìn)行R×C表卡方檢驗(yàn)(獨(dú)立性檢驗(yàn)),其中A為實(shí)際觀察頻數(shù),n為樣本總數(shù),nR、nC分別為各行、各列的合計(jì),自由度為(R-1)×(C-1)。計(jì)算得到Fisher精確檢驗(yàn)值121.623,P值<0.01,由此拒絕獨(dú)立性假設(shè),可知曲線形態(tài)與主題類(lèi)別之間存在關(guān)聯(lián),可知向量描述形式能保留更多的知識(shí)。

      3.2 面向傳播時(shí)序過(guò)程的微觀特征構(gòu)建

      3.2.1 基于節(jié)點(diǎn)中心性及權(quán)重的社交網(wǎng)絡(luò)采樣

      由于對(duì)社群中所有節(jié)點(diǎn)進(jìn)行傳播過(guò)程監(jiān)控的計(jì)算復(fù)雜度過(guò)高,因此需要進(jìn)一步簡(jiǎn)化社群,簡(jiǎn)化方法是基于節(jié)點(diǎn)中心性(Centrality)對(duì)網(wǎng)絡(luò)生成摘要。由于中心性較高的節(jié)點(diǎn),其行為也較有代表性[27],因此新聞在該類(lèi)節(jié)點(diǎn)上的傳播時(shí)序,也更具挖掘價(jià)值。本文采用了3種主流的節(jié)點(diǎn)中心性(見(jiàn)表4)生成網(wǎng)絡(luò)摘要,中心性越高的節(jié)點(diǎn)被保留的概率越大。另外,由于社交網(wǎng)絡(luò)中節(jié)點(diǎn)屬性及權(quán)重差異較大,高權(quán)重節(jié)點(diǎn)(意見(jiàn)領(lǐng)袖)對(duì)信息傳播存在重要影響。因此網(wǎng)絡(luò)采樣中要優(yōu)先保留高權(quán)重節(jié)點(diǎn),要設(shè)置節(jié)點(diǎn)的保留概率正比于其權(quán)重。

      3.2.2 微觀傳播特征的熱力圖表示

      新聞傳播的微觀特征蘊(yùn)含在受眾參與傳播的時(shí)序信息之中,如社交網(wǎng)絡(luò)中用戶(hù)轉(zhuǎn)發(fā)某新聞的早晚順序。若利用時(shí)序信息表征熱門(mén)新聞的微觀特征,需對(duì)兩點(diǎn)加以驗(yàn)證:1)網(wǎng)絡(luò)簡(jiǎn)化后的高中心性用戶(hù)在參與熱門(mén)和非熱門(mén)新聞傳播時(shí),是否存在時(shí)間差異;2)熱門(mén)新聞相對(duì)于非熱門(mén)新聞的傳播過(guò)程,是否存在更加顯著的時(shí)序模式可供學(xué)習(xí)。

      針對(duì)第一點(diǎn),基于Stanford數(shù)據(jù)集展開(kāi)分析。隨機(jī)選取數(shù)據(jù)記錄,將用戶(hù)參與新聞轉(zhuǎn)發(fā)的時(shí)間片、新聞熱度、用戶(hù)中心性繪制見(jiàn)圖8。可知,高中心性的用戶(hù)在高熱度新聞傳播中,呈現(xiàn)較早參與的趨勢(shì)。

      針對(duì)第二點(diǎn),使用頻繁序列模式(Frequent Sequential Pattern)來(lái)描述用戶(hù)群體參與新聞傳播

      所展現(xiàn)出的顯著時(shí)序模式。頻繁序列模式常被用來(lái)描述海量的數(shù)據(jù)庫(kù)事務(wù)中高頻率存在的信息關(guān)聯(lián),如長(zhǎng)度為3的模式“A→B→C”可表示如下規(guī)律在數(shù)據(jù)集中高頻顯現(xiàn),即:“先出現(xiàn)A,再出現(xiàn)B,最后出現(xiàn)C”。本文使用PrefixSpan算法來(lái)進(jìn)行頻繁模式挖掘[28],模式的支持度(出現(xiàn)頻率)閾值設(shè)置為0.1。對(duì)熱門(mén)新聞與非熱門(mén)新聞分別挖掘后,可得到兩類(lèi)新聞中不同長(zhǎng)度的模式及其支持度。對(duì)兩類(lèi)別中相同長(zhǎng)度模式的支持度進(jìn)行方差分析,得到顯著性數(shù)值(P值)見(jiàn)表5。從表5可知,熱門(mén)新聞相比于非熱門(mén)新聞存在更加顯著的時(shí)序模式,時(shí)序模式也具有更高的支持度。

      基于上述分析,可知使用時(shí)序模式來(lái)描述新聞傳播的微觀特征具備合理性。因此,本文構(gòu)建了一種既能容納時(shí)序信息,又能被卷積神經(jīng)網(wǎng)絡(luò)處理的熱力圖來(lái)描述新聞的傳播過(guò)程,并基于熱力圖對(duì)特定社群中的新聞傳播歷史數(shù)據(jù)進(jìn)行重新表述,以期從中挖掘到多層次的新聞傳播規(guī)律。對(duì)于每條新聞傳播數(shù)據(jù),共構(gòu)建3組熱力圖,分別對(duì)應(yīng)于上述3種社會(huì)網(wǎng)絡(luò)抽樣。每組生成M張熱力圖,每張熱力圖由N個(gè)區(qū)域順次排列組合而成,每個(gè)區(qū)域包含D×B個(gè)像素,D為生成的傳播鏈條長(zhǎng)度,B為寬度。具體生成流程見(jiàn)圖9。

      某社區(qū)中一則新聞傳播的熱力圖,見(jiàn)圖10。該熱力圖共有5個(gè)區(qū)域,生成的傳播鏈長(zhǎng)度為30,寬度為6。該圖中的一個(gè)像素對(duì)應(yīng)一個(gè)用戶(hù)節(jié)點(diǎn),像素顏色代表該用戶(hù)參與該新聞傳播的時(shí)間早晚,藍(lán)色為較早、紅色為較晚??梢?jiàn),圖10不但表征了參與傳播的用戶(hù)數(shù)量、增長(zhǎng)率等特征,也涵蓋了若干微觀時(shí)序特征,如黑色小方框區(qū)域所展示的若干節(jié)點(diǎn)參與傳播的相對(duì)時(shí)間順序。

      3.3 基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建熱門(mén)新聞識(shí)別模型RHC

      深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種機(jī)器學(xué)習(xí)模型,被廣泛用于各類(lèi)模式識(shí)別問(wèn)題中,它通過(guò)有深度的卷積操作提取不同抽象層次的高維特征;通過(guò)池化技術(shù)(Pooling)有效控制學(xué)習(xí)規(guī)模,加速參數(shù)收斂,并使模型具有泛化能力;通過(guò)多層感知機(jī)部件靈活解決分類(lèi)、回歸等問(wèn)題[29]。本文以熱力圖的形式重新表述新聞的傳播過(guò)程,使所要解決的熱門(mén)新聞識(shí)別問(wèn)題適合用CNN來(lái)解決?;贑NN的RHC(Recognition of Hot News Based on CNN)模型結(jié)構(gòu),見(jiàn)圖11。

      RHC模型分為兩部分:第一,新聞傳播特征抽取,即從信息傳播過(guò)程中抽取傳播特征;第二,熱門(mén)新聞識(shí)別,基于新聞傳播特征,判斷新聞是否熱門(mén)。下面對(duì)兩部分進(jìn)行介紹。

      第一部分,新聞傳播特征抽取:

      1)輸入信號(hào)(Channel)是某條新聞傳播過(guò)程的3組熱力圖,共3×M張。由于熱力圖可用二維矩陣表示,因此任何一個(gè)熱力圖均可表示為f(x,y),函數(shù)數(shù)值均歸一化到[0,1]區(qū)間。

      2)對(duì)輸入信號(hào)進(jìn)行C1、C2、S1、S2 4個(gè)過(guò)程的特征映射(Feature Map)。其中,C1、C2是卷積層,S1、S2是池化層。

      卷積操作是將兩個(gè)函數(shù)通過(guò)加權(quán)求和來(lái)進(jìn)行疊加。若操作發(fā)生在二維平面上,輸入特征f(x,y)與卷積核g(x,y)是如下映射函數(shù)R2→R,則卷積結(jié)果c(x,y)為:

      在本文中,與一般情況不同的是卷積核要考慮輸入特征的厚度,即熱力圖的層數(shù)3×M。因此,新聞的一系列熱力圖輸入可表達(dá)為fz(x,y)函數(shù),z∈{1,…,3×M}。輸入特征需要與多個(gè)卷積核進(jìn)行計(jì)算,卷積核均為gz(x,y)形式。卷積方法為按層對(duì)每個(gè)熱力圖同一區(qū)域分別進(jìn)行二維卷積,最后按區(qū)域?qū)Ω鲗佣S卷積結(jié)果求和生成三維卷積結(jié)果。例如,I表示一系列熱力圖輸入,厚度為2,兩個(gè)熱力圖分別記為I1、I2。K與I相對(duì)應(yīng),為3×3×2(厚度)卷積核,則卷積結(jié)果為:((1×1)+(3×4))+((2×3)+(4×1))=23。池化操作用以進(jìn)行特征采樣。由于卷積后會(huì)生成大量特征,為提升模型泛化能力并降低計(jì)算量,故用池化操作保留概要特征。本文采用的是最大池化(Max Pooling)方法,保留采樣范圍內(nèi)的最大值,例如,對(duì)4×4的特征矩陣,進(jìn)行2×2面積的池化。

      實(shí)際設(shè)計(jì)時(shí),通常會(huì)將卷積結(jié)果再代入激活函數(shù),對(duì)特征進(jìn)行非線性映射,并壓縮值域范圍。本文采用的是ReLU(Rectified Linear Unit)激活函數(shù),該函數(shù)將在下文介紹。

      3)將經(jīng)過(guò)上述特征映射后的結(jié)果進(jìn)行光柵化,即將矩陣元素一字排開(kāi)變成向量形式,并與基于時(shí)間片的宏觀統(tǒng)計(jì)向量拼接成一個(gè)向量,稱(chēng)為新聞傳播向量,該向量作為第二部分(熱門(mén)新聞識(shí)別)的輸入。

      第二部分,熱門(mén)新聞識(shí)別:

      該部分由兩個(gè)部件構(gòu)成,前一個(gè)部件是全連接的多層感知機(jī),后一個(gè)部件是熱門(mén)新聞識(shí)別分類(lèi)器。

      1)多層感知機(jī)類(lèi)似于神經(jīng)網(wǎng)絡(luò),用以進(jìn)行多個(gè)輸入的累加與非線性映射,具體結(jié)構(gòu)如下:

      其中,Input=(Input1,…,Inputn)是輸入向量,w=(w1,…,wn)是權(quán)重向量,b是偏置量,ReLU激活函數(shù)的表達(dá)式為f(x)=max(0,x)。該激活函數(shù)有兩個(gè)優(yōu)點(diǎn):第一,梯度不飽和,在模型參數(shù)調(diào)優(yōu)的反向傳播(Back Propagation)中,減輕了梯度彌散的問(wèn)題;第二,極大地加快了參數(shù)收斂的速度。以上從輸入到輸出的計(jì)算公式如下:

      2)熱門(mén)新聞識(shí)別分類(lèi)器用來(lái)做出最終判斷。由于判斷新聞是否熱門(mén)屬于分類(lèi)問(wèn)題,故此處采用Softmax多分類(lèi)模型,損失函數(shù)(Loss Function)用均方誤差法(Mean Squared Error,MSE)。它們的公式分別為:

      為確定上述模型中的大量參數(shù),本文采用神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)常用的反向傳播算法進(jìn)行參數(shù)學(xué)習(xí)。該標(biāo)準(zhǔn)化算法較為成熟,具體實(shí)現(xiàn)可參見(jiàn)卷積神經(jīng)網(wǎng)絡(luò)相關(guān)文獻(xiàn),本文不再贅述。

      綜上,RHC模型將針對(duì)特定社群上的熱門(mén)識(shí)別問(wèn)題進(jìn)行訓(xùn)練,訓(xùn)練數(shù)據(jù)為社群中非語(yǔ)義的新聞傳播歷史數(shù)據(jù),其中的熱門(mén)新聞為在全局范圍內(nèi)某統(tǒng)計(jì)量排序靠前的一定比例的新聞,訓(xùn)練后模型可對(duì)社群中的非語(yǔ)義新聞傳播數(shù)據(jù)進(jìn)行監(jiān)控,從而發(fā)現(xiàn)熱門(mén)新聞。

      4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      4.1 實(shí)驗(yàn)內(nèi)容設(shè)計(jì)

      實(shí)驗(yàn)針對(duì)上文所述的“斯坦福網(wǎng)絡(luò)分析項(xiàng)目”(snap.stanford.edu)公開(kāi)數(shù)據(jù)集展開(kāi),數(shù)據(jù)集對(duì)2008-2009年間Twitter局部網(wǎng)絡(luò)中的1 000條新聞進(jìn)行了128個(gè)時(shí)次的受眾跟蹤,涉及的社交網(wǎng)絡(luò)有節(jié)點(diǎn)3千萬(wàn)個(gè)。本實(shí)驗(yàn)截取其中的子網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),涉及網(wǎng)絡(luò)節(jié)點(diǎn)25 000個(gè),邊121 720條。將1 000條原始數(shù)據(jù)按照單位時(shí)間中的關(guān)注量均值由高到低排序,將排名前20%的個(gè)體標(biāo)注為熱門(mén)新聞。隨機(jī)取其中80%作為訓(xùn)練集,剩余作為測(cè)試集,形成“熱門(mén)新聞識(shí)別數(shù)據(jù)集”。

      本文使用Keras(https://keras.io)實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)模型RHC。Keras是構(gòu)建CNN的高層API,由Python實(shí)現(xiàn),并基于Tensorflow等后端運(yùn)行。本文采用適用于科學(xué)計(jì)算的Python發(fā)行版Anaconda。所用計(jì)算機(jī)內(nèi)存16G、SSD硬盤(pán)256G、CPU為英特爾酷睿i7。RHC關(guān)鍵代碼如下:

      本文共設(shè)計(jì)4個(gè)實(shí)驗(yàn)來(lái)驗(yàn)證基于RHC模型的熱門(mén)新聞識(shí)別機(jī)制(以下簡(jiǎn)稱(chēng)RHC)的工作情況:1)RHC有效性實(shí)驗(yàn),看其在非語(yǔ)義場(chǎng)景中的熱門(mén)新聞的識(shí)別率相比于基于語(yǔ)義信息的機(jī)器學(xué)習(xí)方法的優(yōu)劣;2)RHC時(shí)效性實(shí)驗(yàn),看其能否較早地識(shí)別出熱門(mén)新聞;3)RHC可擴(kuò)展性實(shí)驗(yàn),看能否通過(guò)增加卷積神經(jīng)網(wǎng)絡(luò)復(fù)雜度來(lái)提升識(shí)別準(zhǔn)確度;4)RHC適用性實(shí)驗(yàn),用仿真實(shí)驗(yàn)設(shè)計(jì)各類(lèi)新聞傳播場(chǎng)景,看RHC方法的適應(yīng)能力。

      4.2 RHC方法的有效性與時(shí)效性實(shí)驗(yàn)

      為了對(duì)比,本文實(shí)現(xiàn)了基于語(yǔ)義信息的邏輯回歸方法LR。首先對(duì)1 000條新聞進(jìn)行4.1節(jié)中的主題類(lèi)別標(biāo)注,語(yǔ)義標(biāo)注由多人完成并進(jìn)行了一致性驗(yàn)證。然后LR基于訓(xùn)練集的10維主題向量和熱門(mén)與否的標(biāo)簽進(jìn)行訓(xùn)練。最后LR基于10維主題向量對(duì)測(cè)試集進(jìn)行二元分類(lèi)。用RHC與LR方法分別進(jìn)行識(shí)別,統(tǒng)計(jì)結(jié)果見(jiàn)表6??芍猂HC在非語(yǔ)義場(chǎng)景中識(shí)別熱門(mén)新聞上的表現(xiàn)強(qiáng)于基于語(yǔ)義的邏輯回歸方法,熱門(mén)新聞識(shí)別率良好。

      由于每條新聞的傳播數(shù)據(jù)都存在128個(gè)時(shí)次的“快照”,因此在實(shí)驗(yàn)中通過(guò)按時(shí)間早晚順序復(fù)現(xiàn)傳播過(guò)程讓RHC執(zhí)行128次識(shí)別,并記錄正確識(shí)別出熱門(mén)新聞時(shí)的用戶(hù)關(guān)注量。將識(shí)別出的30條熱門(mén)新聞按最終關(guān)注量由高到低分5組,統(tǒng)計(jì)其被正確識(shí)別為熱門(mén)新聞時(shí)的用戶(hù)關(guān)注量均值,結(jié)果見(jiàn)表7??芍?,RHC方法能較早地識(shí)別出正在擴(kuò)散的熱門(mén)新聞,且新聞熱度越高,相對(duì)識(shí)別速度越快。

      4.3 RHC方法的可擴(kuò)展性與適用性實(shí)驗(yàn)

      為驗(yàn)證RHC方法的可擴(kuò)展性,對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型做兩方面擴(kuò)展:1)擴(kuò)展模型的深度,深度體現(xiàn)為各類(lèi)特征映射層、全連接層等的數(shù)量之和;2)提高訓(xùn)練集在數(shù)據(jù)集中的比例。對(duì)各情況下的RHC識(shí)別F值統(tǒng)計(jì)見(jiàn)圖12。

      隨著樣本數(shù)據(jù)集的擴(kuò)大、模型復(fù)雜度的提升,雖然模型的學(xué)習(xí)時(shí)間延長(zhǎng),但其識(shí)別能力也隨之上升,可見(jiàn),模型有一定可擴(kuò)展性。因此,在具有高性能計(jì)算環(huán)境的情況下,可在該模型中應(yīng)用大規(guī)模數(shù)據(jù)集,從而提升模型的精度。

      為驗(yàn)證RHC模型在不同場(chǎng)景中識(shí)別能力的適用性,本文實(shí)現(xiàn)了一種基于元胞自動(dòng)機(jī)的社會(huì)網(wǎng)絡(luò)中新聞傳播仿真工具RHC-Sim[30]。在該工具中,用戶(hù)節(jié)點(diǎn)分布在二維網(wǎng)絡(luò)中,節(jié)點(diǎn)與4個(gè)相鄰節(jié)點(diǎn)為鄰居節(jié)點(diǎn)(若節(jié)點(diǎn)為黑色,則表示不存在此鄰居)。紅色表示已分享某條新聞的節(jié)點(diǎn),綠色表示未分享該新聞的節(jié)點(diǎn)。在該工具中,主要配置項(xiàng)見(jiàn)表8,工具可直接輸出仿真測(cè)試數(shù)據(jù),其運(yùn)行時(shí)的可視化結(jié)果見(jiàn)圖13。為保證仿真貼近于真實(shí)情況,本文將模型所依據(jù)的新聞傳播規(guī)律納入了仿真工具的配置與編碼中。

      為驗(yàn)證RHC模型的適用性,使用仿真工具RHC-Sim創(chuàng)建不同結(jié)構(gòu)特征的社交網(wǎng)絡(luò)。在同一輪實(shí)驗(yàn)中,固定網(wǎng)絡(luò)結(jié)構(gòu),用戶(hù)被設(shè)置為不同的屬性。每輪實(shí)驗(yàn)進(jìn)行100次仿真,其中熱度高的新聞?wù)?0%,普通新聞?wù)?0%。所生成數(shù)據(jù)80%用于訓(xùn)練集、20%用于測(cè)試集,在每次仿真中新聞的波及范圍和傳播源頭數(shù)量均被設(shè)置為不同數(shù)值,見(jiàn)圖14左圖。針對(duì)得到的測(cè)試數(shù)據(jù)集,統(tǒng)計(jì)RHC識(shí)別精確度均值見(jiàn)圖14右圖。

      可知,RHC模型在多種社交網(wǎng)絡(luò)結(jié)構(gòu)中,對(duì)多種傳播模式的熱門(mén)新聞都有較高識(shí)別精確度,且隨著傳播源頭數(shù)量的增長(zhǎng)、傳播范圍的增大,識(shí)別精度逐漸提高并最終穩(wěn)定。精度的提高與傳播源頭多、傳播范圍廣的熱門(mén)新聞具有更多的傳播時(shí)序信息和宏觀統(tǒng)計(jì)特征可供模型學(xué)習(xí)存在相關(guān)性。

      5 結(jié)論與展望

      本文面向語(yǔ)義信息缺失的場(chǎng)景,提出了一種用于社交媒體的熱門(mén)新聞識(shí)別方法。該方法將新聞傳播過(guò)程用熱力圖重新表征,利用卷積神經(jīng)網(wǎng)絡(luò)從宏觀統(tǒng)計(jì)特征及微觀傳播過(guò)程的時(shí)序信息中提取多層次特征,擺脫了對(duì)語(yǔ)義的依賴(lài),識(shí)別精度強(qiáng)于基于語(yǔ)義信息的機(jī)器學(xué)習(xí)方法,且具有一定時(shí)效性、可擴(kuò)展性和適用性。本研究有助于在社交網(wǎng)絡(luò)的輿情監(jiān)管、情報(bào)分析、個(gè)性化推薦、謠言探測(cè)、惡意傳播等問(wèn)題中,更有效地捕捉各類(lèi)不含語(yǔ)義的新媒體熱門(mén)內(nèi)容,包括:數(shù)據(jù)、圖片、音頻、視頻、鏈接、加密文件等。另外,由于深度學(xué)習(xí)模型的設(shè)計(jì)較依賴(lài)研究者的主觀知識(shí),因此如何將模型設(shè)計(jì)與傳播學(xué)、情報(bào)學(xué)的傳統(tǒng)分析方法有機(jī)融合以形成設(shè)計(jì)更加合理的模型,有待進(jìn)一步探索。

      參考文獻(xiàn)

      [1]Tumasjan A,Sprenger T O,Sandner PG,et al.Predicting Elections with Twitter:What 140 Characters Reveal About Political Sentiment[C]Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media.The AAAI Press,2010:178-185.

      [2]Bollen J,Mao H,Zeng X.Twitter Mood Predicts the Stock Market[J].Journal of Computational Science,2011,2(1):1-8.

      [3]安璐,歐孟花.突發(fā)公共衛(wèi)生事件利益相關(guān)者的社會(huì)網(wǎng)絡(luò)情感圖譜研究[J].圖書(shū)情報(bào)工作,2017,61(20):120-130.

      [4]紀(jì)雪梅,王芳.SNA視角下的在線社交網(wǎng)絡(luò)情感傳播研究綜述[J].情報(bào)理論與實(shí)踐,2015,38(7):139-144.

      [5]王晰巍,邢云菲,王楠,等.媒體環(huán)境下突發(fā)事件網(wǎng)絡(luò)輿情信息傳播及實(shí)證研究——以新浪微博“南海仲裁案”話(huà)題為例[J].情報(bào)理論與實(shí)踐,2017,40(9):1-7.

      [6]張艷豐,李賀,彭麗徽,等.基于語(yǔ)義隸屬度模糊推理的網(wǎng)絡(luò)輿情監(jiān)測(cè)預(yù)警實(shí)證研究[J].情報(bào)理論與實(shí)踐,2017,40(9):82-89.

      [7]Bermingham A,Smeaton A F.Classifying Sentiment in Microblogs:Is Brevity an Advantage?[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.ACM,2010:1833-1836.

      [8]趙曉航.基于情感分析與主題分析的“后微博”時(shí)代突發(fā)事件政府信息公開(kāi)研究——以新浪微博“天津爆炸”話(huà)題為例[J].圖書(shū)情報(bào)工作,2016,60(20):104-111.

      [9]Symeonidis P,Tiakas E,Manolopoulos Y.Transitive Node Similarity for Link Prediction in Social Networks with Positive and Negative Links[C]//Proceedings of the Fourth ACM Conference on Recommender Systems.ACM,2010:183-190.

      [10]王丹,張海濤,劉雅姝,等.微博輿情關(guān)鍵節(jié)點(diǎn)情感傾向分析及思想引領(lǐng)研究[J].圖書(shū)情報(bào)工作,2019,63(4):15-22.

      [11]首歡容,鄧淑卿,徐健.基于情感分析的網(wǎng)絡(luò)謠言識(shí)別方法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(7):44-51.

      [12]葉騰,韓麗川,邢春曉,等.基于復(fù)雜網(wǎng)絡(luò)的虛擬社區(qū)創(chuàng)新知識(shí)傳播機(jī)制研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016,32(7-8):70-77.

      [13]Cole W D.An Information Diffusion Approach for Detecting Emotional Contagion in Online Social Networks[D].Tempe,AZ:Arizona State University,2011.

      [14]田世海,呂德麗.改進(jìn)潛在語(yǔ)義分析和支持向量機(jī)算法用于突發(fā)安全事件輿情預(yù)警[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(2):11-18.

      [15]丁晟春,龔思蘭,李紅梅.基于突發(fā)主題詞和凝聚式層次聚類(lèi)的微博突發(fā)事件檢測(cè)研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016,32(7-8):12-20.

      [16]饒浩,陳海媚.主成分分析與BP神經(jīng)網(wǎng)絡(luò)在微博輿情預(yù)判中的應(yīng)用[J].現(xiàn)代情報(bào),2016,36(7):58-62.

      [17]饒浩,文海寧,林育曼,等.改進(jìn)的支持向量機(jī)在微博熱點(diǎn)話(huà)題預(yù)測(cè)中的應(yīng)用[J].現(xiàn)代情報(bào),2017,37(3):46-51.

      [18]李真,丁晟春,王楠.網(wǎng)絡(luò)輿情觀點(diǎn)主題識(shí)別研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(8):18-30.

      [19]楊小平,馬奇鳳,余力,等.評(píng)論簇在網(wǎng)絡(luò)輿論中的情感傾向代表性研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016,32(7-8):51-59.

      [20]葉川,馬靜.多媒體微博評(píng)論信息的主題發(fā)現(xiàn)算法研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2015,31(11):51-59.

      [21]曾金,陸偉,丁恒,等.基于圖像語(yǔ)義的用戶(hù)興趣建模[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(4):76-83.

      [22]魏靜,朱恒民,宋瑞曉,等.個(gè)體視角下的網(wǎng)絡(luò)輿情傳遞鏈路預(yù)測(cè)分析[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016,32(1):55-64.

      [23]Liben-Nowell D,Kleinberg J.The Link-Prediction Problem for Social Networks[J].Journal of the American Society for Information Science and Technology,2007,58(7):1019-1031.

      [24]柯昊,李天,周悅,等.數(shù)據(jù)缺失時(shí)基于BP神經(jīng)網(wǎng)絡(luò)的作者重名辨識(shí)研究[J].情報(bào)學(xué)報(bào),2018,37(6):600-609.

      [25]Girvan M,Newman M E.Community Structure in Social and Biological Networks[J].Proceedings of the National Academy of Sciences of the United States of America,2002,99(12):7821-7826.

      [26]Koller D,F(xiàn)riedman N.Probabilistic Graphical Models:Principles and Techniques-Adaptive Computation and Machine Learning[M].Probabilistic Graphical Models-Principles and Techniques,2009.

      [27]張凌,羅曼曼,朱禮軍.基于社交網(wǎng)絡(luò)的信息擴(kuò)散分析研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(2):46-57.

      [28]Pei J,Han J,Mortazaviasl B,et al.PrefixSpan:Mining Sequential Patterns Efficiently By Prefix-projected Pattern Growth[C]//International Conference on Data Engineering,2001:215-224.

      [29]朱娜娜,景東,薛涵.基于深度神經(jīng)網(wǎng)絡(luò)的微博圖書(shū)名識(shí)別研究[J].圖書(shū)情報(bào)工作,2016,60(4):102-106.

      [30]楊晶,羅守貴.基于元胞自動(dòng)機(jī)的網(wǎng)絡(luò)謠言傳播仿真研究[J].現(xiàn)代情報(bào),2017,37(6):86-90.

      (責(zé)任編輯:孫國(guó)雷)

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)社交媒體
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      社交媒體視域下弱勢(shì)群體輿情表達(dá)研究
      移動(dòng)互聯(lián)網(wǎng)時(shí)代用戶(hù)在線社交變遷及動(dòng)因分析
      知識(shí)零售變現(xiàn)模式的問(wèn)題與思考
      基于社交媒體的廣告學(xué)專(zhuān)業(yè)教學(xué)改革與實(shí)踐
      大學(xué)生社交媒體的使用特征、傳播趨向及其對(duì)高校傳播生態(tài)的挑戰(zhàn)
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      “雙微時(shí)代”的危機(jī)傳播趨勢(shì)和影響因素研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      彭水| 台中县| 扎鲁特旗| 六盘水市| 名山县| 富平县| 乌鲁木齐市| 吉林省| 舒城县| 成都市| 韩城市| 邮箱| 米泉市| 仁布县| 嘉黎县| 郴州市| 婺源县| 信丰县| 广昌县| 云安县| 扶沟县| 耒阳市| 肇庆市| 宁津县| 资中县| 婺源县| 溧阳市| 聂拉木县| 鹤山市| 南昌县| 乌审旗| 岳池县| 蛟河市| 贺州市| 嘉善县| 梁河县| 长兴县| 芜湖县| 仪陇县| 方山县| 泗水县|