• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)環(huán)境下基于MapReduce的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)

      2015-12-25 14:28:08王書(shū)夢(mèng)吳曉松
      軟件 2015年7期
      關(guān)鍵詞:大數(shù)據(jù)

      王書(shū)夢(mèng) 吳曉松

      摘要:大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)輿情分析更側(cè)重于在海量數(shù)據(jù)的采集、存儲(chǔ)、清洗和文本聚類(lèi),因此傳統(tǒng)的僅依據(jù)數(shù)據(jù)統(tǒng)計(jì)的輿情分析方法不再適用。文章對(duì)大數(shù)據(jù)網(wǎng)絡(luò)輿情分析的相關(guān)文獻(xiàn)進(jìn)行總結(jié)研究,歸納出網(wǎng)絡(luò)輿情分析的基本流程框架,并闡明了在大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情分析中文本聚類(lèi)的各個(gè)階段如何運(yùn)用MapReduce進(jìn)行分布式計(jì)算,以此提高網(wǎng)絡(luò)輿情分析的準(zhǔn)確度與及時(shí)性。

      關(guān)鍵詞:大數(shù)據(jù);輿情熱點(diǎn);MapReduce;文本聚類(lèi)

      中圖分類(lèi)號(hào):TP391.1

      文獻(xiàn)標(biāo)識(shí)碼:A

      DOI: 10.3969/j.issn.1003-6970.2015.07.022

      0 引言

      輿情是一定時(shí)期一定范圍內(nèi)社會(huì)民眾對(duì)社會(huì)現(xiàn)實(shí)的主觀反映,是群體性的態(tài)度、思想、情緒和要求的綜合表現(xiàn)。大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),大數(shù)據(jù)下的網(wǎng)絡(luò)輿情分析已經(jīng)成為當(dāng)前政府和科研機(jī)構(gòu)研究的熱點(diǎn)問(wèn)題。2011年,經(jīng)濟(jì)學(xué)人發(fā)表“Building with big data”指出在數(shù)據(jù)極度膨脹的時(shí)代,要掌握數(shù)據(jù)分析的能力,成為數(shù)據(jù)的主人,而不要成為數(shù)據(jù)的奴隸。

      在大數(shù)據(jù)時(shí)代,如何及時(shí)的收集、分析處理海量數(shù)據(jù),并為決策者提供有用的信息是當(dāng)前研究的熱點(diǎn)與難點(diǎn)。相較于傳統(tǒng)的輿情分析,大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)輿情分析更側(cè)重于在海量數(shù)據(jù)的采集、存儲(chǔ)、清洗和文本聚類(lèi),因此傳統(tǒng)的僅依據(jù)數(shù)據(jù)統(tǒng)計(jì)的輿情分析方法不再適用。

      文章對(duì)大數(shù)據(jù)網(wǎng)絡(luò)輿情分析的相關(guān)文獻(xiàn)進(jìn)行總結(jié)研究,歸納出網(wǎng)絡(luò)輿情分析的基本流程框架,并提出了在大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情分析各個(gè)階段的解決方案,構(gòu)建大數(shù)據(jù)網(wǎng)絡(luò)輿情分析的基礎(chǔ)模型,以此提高網(wǎng)絡(luò)輿情分析的準(zhǔn)確度與及時(shí)性。

      1 網(wǎng)絡(luò)輿情分析發(fā)展概述

      從已有的輿情分析的相關(guān)文獻(xiàn)中不難發(fā)現(xiàn),社會(huì)輿情分析大致經(jīng)歷了以下幾個(gè)階段,簡(jiǎn)單的社會(huì)輿情分析,網(wǎng)絡(luò)輿情分析和大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)輿情分析三個(gè)階段。簡(jiǎn)單的社會(huì)輿情分析主要分析當(dāng)下熱點(diǎn)事件、政府頒布的法令法規(guī)與社會(huì)輿情之間的關(guān)系。簡(jiǎn)單的社會(huì)輿情分析主要通過(guò)問(wèn)卷調(diào)查取得原始數(shù)據(jù)進(jìn)行分析,例如MacLennan等通過(guò)抽樣調(diào)查的方式研究新西蘭民眾對(duì)于酒精政策的態(tài)度,Alan等使用蓋洛普世界民意調(diào)查數(shù)據(jù)研究了恐怖襲擊與民眾態(tài)度之間的關(guān)系。網(wǎng)絡(luò)輿情分析伴隨著Facebook、微博、微信、人人、Twitter等社交網(wǎng)絡(luò)平臺(tái)的興起應(yīng)用而生,例如著名的Ceron通過(guò)分析2012年Twitter上的法國(guó)大選時(shí)網(wǎng)民的情感取向數(shù)據(jù)預(yù)測(cè)大選的結(jié)果。大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)輿情分析是在海量、多樣性網(wǎng)絡(luò)數(shù)據(jù)的背景下利用大數(shù)據(jù)分析技術(shù)進(jìn)行的網(wǎng)絡(luò)輿情分析。

      目前大數(shù)據(jù)時(shí)代的數(shù)據(jù)具有規(guī)模性、多樣性、變化快速性特征,首先由于網(wǎng)絡(luò)的開(kāi)放性每天產(chǎn)生大量的信息,其次多媒體的發(fā)展使得數(shù)據(jù)有多種形態(tài)比如文本、視頻、圖片、音頻等?;谀壳熬W(wǎng)絡(luò)輿情分析的大數(shù)據(jù)特征,出現(xiàn)了以下幾種網(wǎng)絡(luò)輿情分析方法:基于網(wǎng)絡(luò)日志數(shù)據(jù)挖掘的輿情分析、基于社會(huì)網(wǎng)絡(luò)分析的輿情主體關(guān)系發(fā)現(xiàn)、網(wǎng)絡(luò)輿情熱點(diǎn)分析、關(guān)聯(lián)不同領(lǐng)域的數(shù)據(jù)輿情分析。

      大數(shù)據(jù)網(wǎng)絡(luò)輿情分析是一個(gè)熱點(diǎn)問(wèn)題,從現(xiàn)有的研究文獻(xiàn)來(lái)看,對(duì)于大數(shù)據(jù)網(wǎng)絡(luò)輿情分析更多的是體現(xiàn)在大數(shù)據(jù)輿情分析的機(jī)遇與挑戰(zhàn)、以及研究方法的概述與總結(jié)上,從技術(shù)層面對(duì)大數(shù)據(jù)網(wǎng)絡(luò)輿情分析的研究較少。

      2 大數(shù)據(jù)網(wǎng)絡(luò)輿情分析技術(shù)

      2.1 大數(shù)據(jù)技術(shù)

      大數(shù)據(jù)時(shí)代的到來(lái)對(duì)現(xiàn)有的數(shù)據(jù)處理技術(shù)帶來(lái)了巨大的挑戰(zhàn),目前針對(duì)大數(shù)據(jù)的多樣性等特征,在數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理方面都提出了相應(yīng)的解決方案。在數(shù)據(jù)存儲(chǔ)方面,目前網(wǎng)絡(luò)輿情分析的數(shù)據(jù)存儲(chǔ)方法主要還是將獲取的熱點(diǎn)數(shù)據(jù)直接存儲(chǔ)在傳統(tǒng)的SQLServer、ORACLE、Sybase等數(shù)據(jù)庫(kù)中,大數(shù)據(jù)的出現(xiàn)導(dǎo)致數(shù)據(jù)結(jié)構(gòu)多樣性,傳統(tǒng)的結(jié)構(gòu)性數(shù)據(jù)庫(kù)遠(yuǎn)不能滿(mǎn)足當(dāng)下快速多樣的大數(shù)據(jù)存儲(chǔ)的要求,對(duì)此目前出現(xiàn)了三種大數(shù)據(jù)的存儲(chǔ)技術(shù):針對(duì)海量的非結(jié)構(gòu)化數(shù)據(jù)的分布式文件存儲(chǔ)系統(tǒng)、針對(duì)海量半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的NoSQL數(shù)據(jù)庫(kù)、針對(duì)海量結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的分布式并行數(shù)據(jù)庫(kù)。在數(shù)據(jù)計(jì)算處理方面,目前并行處理和云計(jì)算是解決大數(shù)據(jù)計(jì)算的比較有效率的方式,Hadoop是當(dāng)前學(xué)術(shù)界和企業(yè)用來(lái)解決大數(shù)據(jù)存儲(chǔ)和分析的一個(gè)主要技術(shù)手段,它是Apache開(kāi)源分布系統(tǒng)的架構(gòu)基礎(chǔ),由HDFS、MapReduce和HBase組成,其運(yùn)行環(huán)境如圖1所示。

      (l)HDFS(Hadoop分布式文件系統(tǒng))

      HDFS是整個(gè)Hadoop體系結(jié)構(gòu)中處于最基礎(chǔ)的地位,分為三個(gè)部分:客戶(hù)端、主控節(jié)點(diǎn)(Namenode)和數(shù)據(jù)節(jié)點(diǎn)(Datanode)。Nanenode是分布式文件系統(tǒng)的管理者,主要負(fù)責(zé)文件系統(tǒng)的命名空間、集群的配置信息和數(shù)據(jù)塊的復(fù)制信息等,并將文件系統(tǒng)的元數(shù)據(jù)存儲(chǔ)在內(nèi)存中;Datanode是文件實(shí)際存儲(chǔ)的位置,它將數(shù)據(jù)塊(Block)信息存儲(chǔ)在本地文件系統(tǒng)中,并且通過(guò)周期性的心跳報(bào)文將所有數(shù)據(jù)塊信息發(fā)送給Namenode。

      (2)MapReduce

      MapReduce分布式計(jì)算模型,封裝了并行運(yùn)算、容錯(cuò)處理、本地化計(jì)算、負(fù)載均衡等細(xì)節(jié),提供了簡(jiǎn)單而強(qiáng)大的接口。通過(guò)這個(gè)接口,可以把大數(shù)據(jù)量的計(jì)算自動(dòng)地并發(fā)和分布執(zhí)行,其運(yùn)行模型如圖2所示。

      (3) HBase

      HBase即Hadoop Database,是一個(gè)構(gòu)建在HSFS上,面向列的開(kāi)源分布式數(shù)據(jù)庫(kù)系統(tǒng),是GoogleBigtable的開(kāi)源實(shí)現(xiàn)。HBase不是關(guān)系型數(shù)據(jù)庫(kù),不支持SQL,HBase提供了一組簡(jiǎn)單的API接口,用于存儲(chǔ)和管理數(shù)據(jù)。

      2.2 網(wǎng)絡(luò)輿情分析技術(shù)

      網(wǎng)絡(luò)輿情分析主要涉及數(shù)據(jù)采集、文本分詞、文本向量表示、文本聚類(lèi)分類(lèi)幾個(gè)方面。

      (1)向量空間模型

      向量空間模型(VSM)起源于信息檢索,簡(jiǎn)單說(shuō)來(lái)VSM是一種將非結(jié)構(gòu)化的文本表示成向量形式的模型,網(wǎng)絡(luò)文本用VSM向量空間模型來(lái)表示:

      v(d)=(t1,w1(t1);…;ti,wi(ti);…tIl,wn(tn))

      其中,ti為網(wǎng)絡(luò)文本d的關(guān)鍵詞,wi(ti)為關(guān)鍵詞的權(quán)值。

      如何確定關(guān)鍵詞和關(guān)鍵詞的權(quán)重是網(wǎng)絡(luò)輿情分析是否有效的關(guān)鍵因素,文章采用TF.IDF指標(biāo)來(lái)確定網(wǎng)絡(luò)文本的關(guān)鍵詞和權(quán)值。詞頻(TF)指的是某一文檔中給定單詞出現(xiàn)的頻次,規(guī)范化的表示一般用給定單詞的頻數(shù)除以文檔總的單詞數(shù)。IDF是指逆向文件頻率,是一個(gè)詞語(yǔ)普遍性的度量,規(guī)范性的表示一般由包含此單詞的文檔的數(shù)量除以文檔的總數(shù),然后取對(duì)數(shù)得到。

      (2)文本相似度計(jì)算

      相似度計(jì)算方式目前有海明距離(Hamming Distance)、歐幾里得距離(Euclidean Distance)、余弦距離(Cosine Distance),其中文本相似度計(jì)算比較常用的是余弦距離,其計(jì)算公式1如下

      其中,ai、bi是文本A和B的項(xiàng)。余弦距離的取值區(qū)間是[0,1],“0”代表兩個(gè)文本完全一樣,“1”代表兩個(gè)文本完全不相似。

      (3)文本聚類(lèi)算法

      文本聚類(lèi)算法有很多,比較常用的有四種,基于層次的聚類(lèi)、基于密度的聚類(lèi)、基于網(wǎng)格的聚類(lèi)、基于劃分的聚類(lèi)。文章選用在文本聚類(lèi)中應(yīng)用比較多的基于劃分的聚類(lèi)中的K-Means算法,其流程如表1所示。

      3 實(shí)驗(yàn)方案

      文章對(duì)大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)提出了基本的技術(shù)路線(xiàn)如圖3所示

      3.1 數(shù)據(jù)采集

      網(wǎng)絡(luò)信息的采集可以利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在特定的網(wǎng)站上進(jìn)行數(shù)據(jù)收集也可以利用網(wǎng)站的API接口直接對(duì)網(wǎng)站的信息進(jìn)行采集,獲得的網(wǎng)站數(shù)據(jù)存儲(chǔ)在Hbase中。傳統(tǒng)的基于網(wǎng)絡(luò)爬蟲(chóng)的網(wǎng)頁(yè)解析方式抓取速度較慢,在大數(shù)據(jù)環(huán)境下基于某網(wǎng)站API的分布式數(shù)據(jù)抓取具有更快的速度。

      文章采用了基于Mapreduce的文本采集技術(shù)對(duì)網(wǎng)站信息進(jìn)行采集,將普通的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)部署在hadoop平臺(tái)上,文本采集由主節(jié)點(diǎn)和若干分節(jié)點(diǎn)組成,主節(jié)點(diǎn)作為爬蟲(chóng)系統(tǒng)的NameNode和Jobtracker,負(fù)責(zé)文件管理及任務(wù)調(diào)度;分節(jié)點(diǎn)作為DataNode和TaskTracker,負(fù)責(zé)存儲(chǔ)文件及運(yùn)行任務(wù)。Jobtracker作為主節(jié)點(diǎn)負(fù)責(zé)分發(fā)任務(wù)給各分節(jié)點(diǎn),在Map階段分節(jié)點(diǎn)TaskTracker通過(guò)網(wǎng)站API進(jìn)行信息抓取,抓取的數(shù)據(jù)分布存儲(chǔ)在各個(gè)DataNode中。

      3.2 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)的預(yù)處理主要是對(duì)原始數(shù)據(jù)的清洗、抽取元數(shù)據(jù),對(duì)于網(wǎng)絡(luò)的文本信息預(yù)處理主要是文本的分詞、去停用詞(主要是一些標(biāo)點(diǎn)、單字和一些沒(méi)有具體意義的詞,如:的、了等重復(fù)出現(xiàn)的詞)、文本的特征向量提取、詞頻統(tǒng)計(jì)、文本的模型化表示等操作。

      文章采用基于MapReduce的文本預(yù)處理技術(shù),MapReduce以函數(shù)的方式提供了Map和Reduce操作來(lái)進(jìn)行分布式計(jì)算,利用一個(gè)輸入key/value集合來(lái)產(chǎn)生一個(gè)輸出的key/value集合。在文本預(yù)處理過(guò)程中,Map函數(shù)主要完成文本的分詞,將輸入的文本進(jìn)行中文分詞,形成詞語(yǔ)序列(X1、x2、x3、x4……、Xn)將文本用key/value的形式表示,輸出的形式為:(xl、1),(x2、1),(x3、1),……,(xn、1),當(dāng)所有的Map任務(wù)完成后,由主程序?qū)ap函數(shù)的輸出作為Reduce函數(shù)的輸入即Reduce函數(shù)的輸人為(k,[vl、v2、……、vn]),其中(k,V1),(k,v2)……,,(k,vn)Map函數(shù)輸出結(jié)果中鍵為k的key/value值,如表2所示Map處理過(guò)程。

      Reduce函數(shù)需要計(jì)算出特定某個(gè)詞的IDF值,通過(guò)IDF的計(jì)算公式 可知需要知道文本數(shù)據(jù)大小和詞語(yǔ)在文本中出現(xiàn)的頻率,此時(shí)Map輸出的Value值為詞語(yǔ)的頻率,N在文本預(yù)處理時(shí)可以直接計(jì)算得到,經(jīng)過(guò)Reduce計(jì)算過(guò)后可得到詞語(yǔ)的IDF值,將之與Value中的TF值相乘可得到詞語(yǔ)的TF.IDF值,將其存儲(chǔ)在HBase中的TF.IDF表中。

      對(duì)于每個(gè)文檔,保留排列在前面的10個(gè)TF.IDF值,識(shí)別其對(duì)應(yīng)的主題,以向量空間模型(VSM)表示,行表示主題數(shù),列表示文檔數(shù),通過(guò)VSM與單位列向量的乘積統(tǒng)計(jì)出每個(gè)主題所包含的文檔數(shù),從而發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)。以上的主題識(shí)別和VSM矩陣向量的乘法,同樣可以通過(guò)Map和Reduce分布式計(jì)算得到,在此就不再贅述。

      4 實(shí)驗(yàn)結(jié)果

      文章的實(shí)驗(yàn)環(huán)境總共有四臺(tái)主機(jī),其中每臺(tái)機(jī)器搭載CORE 15雙核處理器,1G內(nèi)存,500G硬盤(pán),選擇其中一臺(tái)主機(jī)作為master節(jié)點(diǎn),剩余3臺(tái)作為slaves節(jié)點(diǎn),配置Hadoop,配置Linux和Eclipse。文章通過(guò)新浪微博的網(wǎng)站API收集了170萬(wàn)條數(shù)據(jù),利用上述數(shù)據(jù)分析方法,對(duì)數(shù)據(jù)進(jìn)行分析處理得到的分析結(jié)果如表3所示:

      實(shí)驗(yàn)結(jié)果與2014年新浪微博熱點(diǎn)話(huà)題分析報(bào)告里的結(jié)果有很大程度上的相似,說(shuō)明了并行分析的準(zhǔn)確性,而實(shí)驗(yàn)用時(shí)比起傳統(tǒng)的分析方法節(jié)約了很多時(shí)間。

      5 結(jié)論與展望

      隨著互聯(lián)網(wǎng)的快速發(fā)展,每天都會(huì)產(chǎn)生巨大的網(wǎng)絡(luò)數(shù)據(jù),如何快速有效的分析處理數(shù)據(jù)而不是讓數(shù)據(jù)成為災(zāi)難,是在大數(shù)據(jù)環(huán)境下迫切需要解決的問(wèn)題,在海量的網(wǎng)絡(luò)數(shù)據(jù)中快速的獲得準(zhǔn)確的輿情信息是當(dāng)前研究的熱點(diǎn)和重點(diǎn)。文章結(jié)合網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)的基本理論方法和大數(shù)據(jù)處理技術(shù),提出了在大數(shù)據(jù)環(huán)境下分布式輿情分析的解決方案,重點(diǎn)對(duì)網(wǎng)絡(luò)輿情分析中數(shù)據(jù)的分布式預(yù)處理做了詳述,最后利用K-means聚類(lèi)算法進(jìn)行網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)。

      當(dāng)然文章還存在很多不足,只是對(duì)網(wǎng)絡(luò)輿情分析的基本過(guò)程使用了分布式的處理方法,關(guān)于輿情分析過(guò)程中的情感傾向分析以及語(yǔ)義分析并未進(jìn)行研究。

      猜你喜歡
      大數(shù)據(jù)
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶(hù)端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      高要市| 华亭县| 托克托县| 日土县| 江川县| 岳阳县| 金寨县| 修武县| 鸡东县| 清水河县| 房产| 宁陵县| 达尔| 茌平县| 城市| 米脂县| 大新县| 抚远县| 达州市| 石狮市| 亚东县| 巴彦县| 镇康县| 上高县| 普定县| 商都县| 缙云县| 平武县| 佛坪县| 历史| 大渡口区| 伽师县| 晋中市| 鹤峰县| 南江县| 雷山县| 玛曲县| 定南县| 岱山县| 宝清县| 浦江县|