饒潔
摘要:隨著移動互聯(lián)網(wǎng)的飛速發(fā)展以及社會化網(wǎng)絡(luò)的出現(xiàn),微信等移動社交類應(yīng)用在生活的各個(gè)層面為人們帶來便利,但同時(shí)也帶來了謠言、泄密等網(wǎng)絡(luò)安全問題。傳統(tǒng)的基于字符串匹配的關(guān)鍵詞過濾審計(jì)引擎已經(jīng)不能滿足人們的需求。針對傳統(tǒng)特征項(xiàng)權(quán)重算法在處理變異短文本方面的不足,提出了改進(jìn)的TF-IDF算法,同時(shí)將社會網(wǎng)絡(luò)計(jì)算的相關(guān)技術(shù)應(yīng)用到審計(jì)引擎中,實(shí)現(xiàn)了基于內(nèi)容的事件抽取和表達(dá)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法具有較高的準(zhǔn)確率和召回率。
關(guān)鍵詞:社會計(jì)算;內(nèi)容審計(jì);TF-IDF;事件分析
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)10-2423-05
Abstract: With the rapid development of Mobile Internet and Social Networking, convenience is brought by mobile social networking applications, such as WeChat, in all aspects. Thus rumors, leaks and other network security issues are brought as well as convenient. However, the traditional audit engine based on string matching and keyword filtering didnt meet people's needs any more. The improved TF-IDF algorithm is proposed based on its inadequate in dealing with abnormal short texts. The relevant social network computing technologies are applied in audit engine to realize the analysis of event situation based on content. Result shows that the improved algorithm has higher recall rate and accurate rate, compared with the traditional TF-IDF algorithm.
Key words: social computing; content audit;TF-IDF; event analysis
隨著智能手機(jī)、手持游戲機(jī)、平板電腦以及許多工業(yè)級別PAD(Portable Digital Assistant,便攜式數(shù)字助理)等的普及,微信、Facebook以及Twitter等SNS(Social Networking Services,社會性網(wǎng)絡(luò)服務(wù))應(yīng)用在社會的各個(gè)層面為人們提供越來越多的便利。微信是騰訊公司于推出的一款通過移動網(wǎng)絡(luò)快速發(fā)送語音短信、視頻、圖片和文字,支持多人群聊的社交信息平臺。2013年10月23日,微信宣布其注冊用戶超過6億。由此可見,以微信為代表的移動社交網(wǎng)絡(luò)類應(yīng)用正受到越來越多網(wǎng)民的喜愛。
移動社交網(wǎng)絡(luò)類應(yīng)用縮短了交友的距離,節(jié)省了社交成本,但是同時(shí)也帶來了一系列服務(wù)和管理的問題。在移動互聯(lián)網(wǎng)中,虛擬社會與現(xiàn)實(shí)有著強(qiáng)烈的聯(lián)系,如何在海量的數(shù)據(jù)中挖掘用戶的消費(fèi)傾向性和意圖、更好的服務(wù)大眾以及提升商業(yè)智能是當(dāng)下亟需解決的問題。同時(shí),由于缺乏有效的監(jiān)督和管理,網(wǎng)絡(luò)中摻雜著許多不健康甚至惡意的內(nèi)容,帶來了不安定的因素。企業(yè)和政府人員通過互聯(lián)網(wǎng)進(jìn)行泄密獲活動;不法分子發(fā)布“食鹽抵御核輻射”、“服貿(mào)協(xié)議是黑箱作業(yè)”、“食物傳染艾滋病”等網(wǎng)絡(luò)謠言,這些非法信息、反動言論給社會秩序的安定有序甚至國家的發(fā)展帶來不可忽視的威脅。因此,基于統(tǒng)計(jì)特征和內(nèi)容特征解決網(wǎng)絡(luò)內(nèi)容所引起的安全問題已經(jīng)迫在眉睫。
本文設(shè)計(jì)和實(shí)現(xiàn)了一種基于內(nèi)容的移動社交網(wǎng)絡(luò)審計(jì)分析引擎,針對微信等移動社交網(wǎng)絡(luò)類應(yīng)用的數(shù)據(jù)內(nèi)容進(jìn)行審計(jì)分析,并將其與社會網(wǎng)絡(luò)計(jì)算結(jié)合起來,以實(shí)現(xiàn)對移動互聯(lián)網(wǎng)信息內(nèi)容傳播的有效監(jiān)控,防止內(nèi)部機(jī)密或敏感數(shù)據(jù)非法泄露和傳送,提供有關(guān)網(wǎng)絡(luò)通信手段濫用的有力證據(jù)。
1 相關(guān)研究
傳統(tǒng)的基于內(nèi)容的網(wǎng)絡(luò)審計(jì)分析系統(tǒng)主要針對日志、電子郵件、博客、短信和微博等進(jìn)行審計(jì)。這些審計(jì)系統(tǒng)又分為兩大類:電子郵件、日志和博客這類具有一定的結(jié)構(gòu)和規(guī)范的普通文本,以及短信、即時(shí)消息、微博等語法格式不規(guī)范,形式比較隨意的變異短文本。
針對電子郵件的審計(jì)系統(tǒng)通常通過捕獲和還原網(wǎng)絡(luò)數(shù)據(jù)包獲取數(shù)據(jù),同時(shí)基于預(yù)先定義好的規(guī)則,利用單?;蛘叨嗄Fヅ渌惴ǚ謩e對郵件頭或者正文部分進(jìn)行關(guān)鍵詞過濾[1, 2]。在傳統(tǒng)的互聯(lián)網(wǎng)中,很多人喜歡使用博客分享自己的各種信息,博文以及評論的內(nèi)容都可以作為審計(jì)的對象。通過建立人物關(guān)系模型,描述群體的結(jié)構(gòu)關(guān)系,實(shí)現(xiàn)用戶興趣的快速發(fā)現(xiàn),進(jìn)行個(gè)性化推薦[3]。
與傳統(tǒng)互聯(lián)網(wǎng)相比,微信等移動互聯(lián)網(wǎng)通訊消息的內(nèi)容以網(wǎng)絡(luò)流行語言為主,動作更加實(shí)時(shí)化,行為更加碎片化,同時(shí)往往還附帶有地理位置信息。因此,直接采用普通文本的處理方式效果不佳,黃永光等將微博、短信、聊天記錄這類表述不規(guī)范的文本稱為變異短文本[4],不少國內(nèi)外學(xué)者針對變異短文本的審計(jì)分析系統(tǒng)進(jìn)行了相關(guān)研究,并取得了一定的進(jìn)展。
Theus Hossmann等[5]人針對Facebook的Stumbl(一種日常會議記錄類應(yīng)用)、Twitter和Gowalla(可以在朋友間分享地點(diǎn)、活動、旅行線路等信息的地理位置服務(wù)類應(yīng)用),對機(jī)會網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行收集和分析,研究其社會關(guān)系,移動關(guān)系和通信關(guān)系,以及他們之間的相互影響。其成果有助于SNS應(yīng)用設(shè)計(jì)者進(jìn)一步了解機(jī)會網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),推出更符合用戶社交習(xí)慣的應(yīng)用。
M. Oussalah等人[6]提出了針對twitter的數(shù)據(jù)采集、查詢和位置服務(wù)的軟件框架。該框架將通過twitter的API采集數(shù)據(jù),并存儲在MySQL數(shù)據(jù)庫中,使用Lucene分詞框架和WordNet詞義網(wǎng)絡(luò)對自然語言進(jìn)行分詞和處理,然后使用PostGIS平臺對采集到的數(shù)據(jù)進(jìn)行語義分析和空間分析。與傳統(tǒng)的方法相比,該框架綜合利用相關(guān)技術(shù),同時(shí)考慮了語義數(shù)據(jù)和空間數(shù)據(jù)這兩方面的因素,實(shí)驗(yàn)表明,該方法具有較好的容錯(cuò)能力。
Cui等[7]綜合利用用戶配置文件和復(fù)雜網(wǎng)絡(luò)的知識,使用相似度匹配的原則來尋找Facebook郵件通信網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)。算法使用Jaro–Winkler距離來計(jì)算用戶配置文件中字符串的相似度,使用模糊Jaccard算法來計(jì)算圖中節(jié)點(diǎn)的相似度,最后通過引入平滑因子r,將這兩種因素結(jié)合起來計(jì)算綜合相似度。實(shí)驗(yàn)使用真實(shí)網(wǎng)絡(luò)以及Facebook的數(shù)據(jù)證明該算法的可行性和效率。Yang等人[8]提出了一個(gè)基于微博數(shù)據(jù)流的觀點(diǎn)挖掘模型,利用相關(guān)微博API從騰訊、新浪等網(wǎng)站實(shí)時(shí)抓取微博數(shù)據(jù),針對文本內(nèi)容構(gòu)建情感詞典,進(jìn)行情感傾向性分析,最后對原型系統(tǒng)進(jìn)行了實(shí)現(xiàn),能夠?qū)崿F(xiàn)實(shí)時(shí)的熱點(diǎn)事件發(fā)現(xiàn)和情感分析,并且可以對結(jié)果進(jìn)行可視化查詢。
基于變異短文本的內(nèi)容審計(jì)分析系統(tǒng)主要圍繞文本處理、話題檢測、情感分析這幾個(gè)方面展開,通過引入信息抽取、文本聚類、知識挖掘、語義分析等算法分析用戶行為以及社交網(wǎng)絡(luò)結(jié)構(gòu),有利于促進(jìn)電子商務(wù)、信息監(jiān)控、商業(yè)智能以及企業(yè)管理等。盡管相關(guān)的研究已經(jīng)取得了一定的進(jìn)展,但仍存在如數(shù)據(jù)稀疏性問題、不規(guī)范文法問題、大規(guī)模文本處理問題等。
2 審計(jì)分析引擎總體設(shè)計(jì)與實(shí)現(xiàn)
本文設(shè)計(jì)和實(shí)現(xiàn)一種基于內(nèi)容的移動社交網(wǎng)絡(luò)審計(jì)分析引擎,其典型的應(yīng)用場景如圖1所示。
用戶通過手機(jī)、pad或者其他移動設(shè)備連接基站或者無線路由器,經(jīng)過Internet、運(yùn)營商網(wǎng)關(guān),登錄到應(yīng)用服務(wù)器以使用特定的服務(wù)。用戶也可以通過PC端登錄網(wǎng)頁版客戶端,但是需要手機(jī)客戶端的認(rèn)證。采用旁路監(jiān)聽的方式抓取網(wǎng)絡(luò)數(shù)據(jù)流量包,存儲在分布式Cassandra數(shù)據(jù)庫中,具體的數(shù)據(jù)包獲取方式不在本文的研究范圍內(nèi),這里不做詳細(xì)介紹。
內(nèi)容審計(jì)引擎的總體模型主要分為四個(gè)子模塊,系統(tǒng)框架結(jié)構(gòu)從下到上依次為:數(shù)據(jù)預(yù)處理模塊、多模態(tài)信息處理模塊、事件分析模塊以及用戶搜索模塊。各個(gè)模塊相互獨(dú)立,協(xié)同工作,如圖2所示。
1) 數(shù)據(jù)預(yù)處理模塊
數(shù)據(jù)采集模塊獲得的數(shù)據(jù)就是審計(jì)引擎的數(shù)據(jù)來源,但是在實(shí)際的工作中仍需要根據(jù)需要從數(shù)據(jù)源中抽取數(shù)據(jù),而不是直接使用采集到的數(shù)據(jù),這樣做的好處是能夠縮小待處理數(shù)據(jù)的范圍,使審計(jì)具有更強(qiáng)的目的性并且提高效率。然后對數(shù)據(jù)進(jìn)行清洗、集成、去停用詞和分詞等處理,最后根據(jù)分詞的結(jié)果建立索引,提高查詢效率。
2) 多模態(tài)數(shù)據(jù)處理模塊
微信等移動社交網(wǎng)絡(luò)應(yīng)用的通訊消息中,除了占主導(dǎo)地位的文本信息外,越來越多的圖像、多媒體、位置等信息也需要受到審計(jì)系統(tǒng)的關(guān)注。因此多模態(tài)數(shù)據(jù)處理模塊負(fù)責(zé)識別和處理圖像、文本和位置等多模態(tài)的信息。使用經(jīng)典的SIFT[9](Scale-invariant feature transform,尺度不變特征轉(zhuǎn)換)算法提取圖片的關(guān)鍵特征,位置數(shù)據(jù)使用haversine公式計(jì)算球面上兩點(diǎn)之間的距離。其中,重點(diǎn)是文本數(shù)據(jù)處理中特征項(xiàng)權(quán)重算法的實(shí)現(xiàn),將在下一節(jié)詳細(xì)介紹。
3) 事件分析模塊
該模塊首先通過人工輸入或者機(jī)器學(xué)習(xí)的方式獲取目標(biāo)事件的特征項(xiàng)及權(quán)重,然后通過計(jì)算余弦相似度從數(shù)據(jù)集中匹配與目標(biāo)事件相關(guān)的數(shù)據(jù)消息集,相似度大于閾值的可以認(rèn)為描述的是同一事件。同時(shí),統(tǒng)計(jì)并顯示某段時(shí)間內(nèi)事件發(fā)生的頻率和發(fā)展態(tài)勢,為進(jìn)一步的輿情分析墊定基礎(chǔ)。
4) 用戶搜索模塊
用戶能夠通過用戶搜索模塊自定義搜索策略,根據(jù)自己的需要對內(nèi)容和事件進(jìn)行搜索,結(jié)果使用可視化界面顯示。例如搜索出的消息原文使用鏈接的形式顯示,并且搜索關(guān)鍵詞在原文中高亮顯示;使用以時(shí)間為橫坐標(biāo),事件頻數(shù)為縱坐標(biāo)的條形圖來描述事件的發(fā)展態(tài)勢。
3 改進(jìn)的TF-IDF算法
文本消息數(shù)據(jù)經(jīng)過預(yù)處理后轉(zhuǎn)化為詞和詞頻的組合形式,通常情況下使用TF-IDF算法將詞和詞頻轉(zhuǎn)化為關(guān)鍵詞和權(quán)重的向量表示,提取特征項(xiàng),然而,在處理微信等移動互聯(lián)網(wǎng)通訊消息的過程中,TF-IDF算法存在以下不足:
l移動互聯(lián)網(wǎng)SNS數(shù)據(jù)內(nèi)容分散,語法不規(guī)范,形式隨意,同時(shí)包含大量網(wǎng)絡(luò)新興流行詞匯。如果使用傳統(tǒng)文本的處理方式處理,勢必會造成特征向量維數(shù)過高,處理效率低下等問題。
l逆文檔頻率因子能夠弱化一些在文檔集合中普遍出現(xiàn)的特征項(xiàng)的重要程度。但是由于移動互聯(lián)網(wǎng)消息集合是不斷增長的,即文檔總數(shù)N是不斷變化的;同時(shí),網(wǎng)絡(luò)話題具有實(shí)時(shí)性和匯聚性,一段時(shí)間內(nèi)的文本特征項(xiàng)的重要度具有相似性,因此不能直接使用IDF的計(jì)算公式。也就是說在同類中大量出現(xiàn)而在其他類中較少出現(xiàn)的這樣一類具有代表性的特征詞,其權(quán)重在TF-IDF算法中不但沒有得到加強(qiáng),反而減弱[10]。
基于以上不足,該文提出了改進(jìn)的TF-IDF算法,算法增加了文本預(yù)處理階段(數(shù)據(jù)預(yù)處理階段完成),并且改進(jìn)了逆文檔因子的計(jì)算公式。具體的流程如圖3所示。
1)文本預(yù)處理。該階段的目的是去除信息量極少的內(nèi)容并對消息進(jìn)行集成。設(shè)定閾值θ,去掉長度小于θ的內(nèi)容,如:“切”、“啊”、“在不”等,因?yàn)橐粭l有用的信息是無法用極少量的文字表達(dá)清楚的,而移動社交網(wǎng)絡(luò)中大多是這樣的信息,影響處理效率而無實(shí)際意義。同時(shí),由于采集到的數(shù)據(jù)信息具有碎片化的特點(diǎn),單條信息的信息量太小,不適合特征量提取。該文將某個(gè)通訊時(shí)間段內(nèi),相同發(fā)送者和接收者的消息合成一個(gè)文檔,作為統(tǒng)一的特征提取單位,方便后續(xù)處理。
2) 分詞和去停用詞。使用ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System,漢語詞法分析系統(tǒng))的API進(jìn)行分詞,結(jié)果使用空間向量模型表示。分詞結(jié)果是詞D=(d1,d2,...,dn)和詞頻T=(t1,t2,...,tn)。另外,需要根據(jù)自定義的停用詞表去掉語氣詞、特殊符號等無實(shí)際意義的停用詞。
3) 計(jì)算權(quán)值。特征項(xiàng)的權(quán)值代表了特征項(xiàng)對文本的重要程度,其中,對于權(quán)值的計(jì)算使用改進(jìn)的TF-IDF算法,具體流程如圖4所示。
初始化的過程包括取Nt個(gè)同時(shí)段消息集、取Nt個(gè)不相關(guān)消息集以及各項(xiàng)參數(shù)的初始化。在介紹改進(jìn)的算法之前先介紹傳統(tǒng)的TF-IDF特征項(xiàng)權(quán)重算法,其計(jì)算公式如下:
其中,[Nt]表示同時(shí)段內(nèi)文檔集合中的文檔總數(shù),Nt表示不相關(guān)文檔集合的文檔總數(shù)。[N(d1,t)]表示同時(shí)段內(nèi)文檔集合中出現(xiàn)特征項(xiàng)的文檔數(shù),[N(d1,t')]表示不相關(guān)文檔集合中出現(xiàn)特征項(xiàng)的文檔數(shù)。在極端條件下,該特征項(xiàng)在兩個(gè)文檔集合中均未出現(xiàn),就會導(dǎo)致被除數(shù)[N(d1,t)]+[N(d1,t')]的值為零,因此這里使用[N(d1,t)]+[N(d1,t')]+1代替原來的分母。
由于同時(shí)段內(nèi)的文檔的話題重復(fù)度較高,具有同類文檔的特征,特征詞d1頻繁出現(xiàn)的可能性更高。乘以[N(d1,t)Nt]是為了消除同段時(shí)間內(nèi)文檔總數(shù)量的不同取值對計(jì)算結(jié)果的影響。其中,Nt和Nt為常量,因此,當(dāng)d1在同時(shí)段內(nèi)文檔集合中出現(xiàn)次數(shù)增多,而在不相關(guān)文檔集合中出現(xiàn)次數(shù)不變時(shí),WIDF的值將會增加,彌補(bǔ)了算法的不足。
接下來為了消除文本本身的長度對特征項(xiàng)權(quán)值的影響,需要對權(quán)值進(jìn)行歸一化處理:
[Wi=WTF?W'IDFi=1nWTF?W'IDF2]
4)特征降維。使用特征向量直接表示文檔可能會使特征向量空間維數(shù)非常高,因此需要對向量空間進(jìn)行降維,即去掉權(quán)值極小的特征值。設(shè)定閾值i,將特征向量的權(quán)重從大到小排列,取前i個(gè)對應(yīng)的特性項(xiàng)作為該文本的特征項(xiàng)。
因此,使用向量空間模型表示學(xué)習(xí)語料,結(jié)果可以表示為特征項(xiàng)D=(d1,d2,...,di)以及權(quán)重W=(w1,w2,...,wi)。然后使用余弦相似度計(jì)算實(shí)際文本數(shù)據(jù)與學(xué)習(xí)語料之間的距離,確定是否與學(xué)習(xí)語料屬于同種文本。
4 實(shí)驗(yàn)測試
本文的實(shí)驗(yàn)數(shù)據(jù)來源于真實(shí)的網(wǎng)絡(luò)流量數(shù)據(jù)包,考慮到用戶的隱私問題,僅使用模擬的通訊內(nèi)容。具體的實(shí)驗(yàn)過程中,創(chuàng)建了微信公眾開發(fā)平臺的賬號,模擬與該賬號之間的通訊,數(shù)據(jù)采集模塊定向采集與該公共賬號相關(guān)的通訊消息。采集到的通訊消息共有33,239條,其中文本消息18,322條,圖片消息4,622,語音消息3,102條,視頻消息4,099條,位置消息3,094條,以上消息均為有效消息,可以直接進(jìn)行內(nèi)容審計(jì)。
這里我們以熱門事件“啤酒和炸雞”為例進(jìn)行事件分析,審計(jì)分析引擎首先需要導(dǎo)入事件的學(xué)習(xí)語料。實(shí)驗(yàn)中以“炸雞和啤酒”事件為例,分別選擇10篇相關(guān)新聞報(bào)道和10篇無關(guān)新聞報(bào)道作為學(xué)習(xí)語料進(jìn)行學(xué)習(xí)。接下來將學(xué)習(xí)到的事件與數(shù)據(jù)集進(jìn)行相似度匹配,并顯示結(jié)果,如圖5所示。
使用廣泛用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的兩個(gè)度量值召回率和準(zhǔn)確率來評價(jià)實(shí)驗(yàn)結(jié)果,計(jì)算公式如下:
假設(shè)文檔集總數(shù)為N,其中有N1篇相關(guān)文檔和N2篇不相關(guān)文檔,即N=N1+N2。事件分析模塊匹配到的數(shù)據(jù)集個(gè)數(shù)為N,其中有N1個(gè)是相關(guān)的,N2個(gè)是不相關(guān)的,即N=N1+N2。因而召回率可以表示為N1/ N1,而準(zhǔn)確率可以表示為N1/ N。這兩個(gè)指標(biāo)分別用來表示查全率和查準(zhǔn)率,該文中分別使用改進(jìn)的TF-IDF算法和原算法對事件進(jìn)行特征權(quán)重的計(jì)算,其召回率和準(zhǔn)確率如圖6所示。
從實(shí)驗(yàn)結(jié)果中我們可以看到,“炸雞和啤酒”事件的相關(guān)通訊消息從2013年10月到2014年2月之間呈不斷增長的趨勢,11月到1月之間數(shù)量比較均衡,到2月份有突發(fā)的趨勢。隨著事件相關(guān)消息的增多,審計(jì)分析引擎的召回率和準(zhǔn)確率總體上是增長的趨勢,但是由于實(shí)驗(yàn)環(huán)境的限制導(dǎo)致數(shù)據(jù)集較小,實(shí)驗(yàn)結(jié)果可能存在一定的誤差。
5 總結(jié)與展望
本文針對移動互聯(lián)網(wǎng)SNS應(yīng)用的內(nèi)容安全問題,對國內(nèi)外安全審計(jì)分析引擎以及社交網(wǎng)絡(luò)的現(xiàn)狀及關(guān)鍵技術(shù)進(jìn)行了深入研究。并且以微信為例,設(shè)計(jì)和實(shí)現(xiàn)了基于內(nèi)容的移動社交網(wǎng)絡(luò)審計(jì)分析引擎的原型系統(tǒng),根據(jù)不同的搜索策略,分別針對內(nèi)容和事件這兩個(gè)方面的數(shù)據(jù)進(jìn)行分析和搜索,并將結(jié)果可視化表達(dá),挖掘事件的發(fā)展態(tài)勢。同時(shí),針對微信中常見的多模態(tài)數(shù)據(jù),包括文本、圖片、位置等分別進(jìn)行整理和分析。進(jìn)一步的工作將在海量數(shù)據(jù)的基礎(chǔ)上進(jìn)行事件態(tài)勢分析,統(tǒng)計(jì)詞頻的變化特征以實(shí)現(xiàn)突發(fā)事件的檢測。同時(shí),基于已有的事件數(shù)據(jù)對事件進(jìn)行建模,從而對事件的發(fā)展趨勢進(jìn)行分析和預(yù)測,達(dá)到提前預(yù)警的效果。
參考文獻(xiàn):
[1] 朱隨江, 王澤東, 劉宇, 等. 基于模板的WebMail 審計(jì)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2011,28(9):67-69.
[2] 吳剛, 王旭仁, 張信杰. 高速郵件監(jiān)控審計(jì)研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2010(6):1195-1197.
[3] 許迎迎. 社會網(wǎng)絡(luò)中關(guān)聯(lián)用戶的挖掘與分析[D]. 中國海洋大學(xué), 2011.
[4] 張劍峰, 夏云慶, 姚建民. 微博文本處理研究綜述[J]. 中文信息學(xué)報(bào), 2012,26(4): 21-27.
[5] Theus Hossmann, Nomikos George, Spyropoulos Thrasyvoulos, et al. Collection and analysis of multi-dimensional network data for opportunistic networking research[J]. Computer Communications, 2012, 35(13): 1613-1625.
[6] M. Oussalah, Bhat F., Challis K., et al. A software architecture for Twitter collection, search and geolocation services[J]. Knowledge-Based Systems, 2013(37):105-120.
[7] Yi Cui, Pei Jian, Tang Guanting, et al. Finding email correspondents in online social networks[J]. World Wide Web, 2013,16(2):195-218.
[8] 陽鋒, 馮時(shí), 王琳,等. MICA: 一個(gè)面向微博數(shù)據(jù)流的觀點(diǎn)挖掘原型系統(tǒng)[J]. 計(jì)算機(jī)研究與發(fā)展, 2011,48(z2):405-409.
[9] David G Lowe. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004,60(2):91-110.