• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情文本挖掘技術(shù)研究

      2020-10-23 09:54:02許戈靜
      關(guān)鍵詞:文檔輿情網(wǎng)民

      許戈靜

      (泉州信息工程學(xué)院 軟件學(xué)院,福建 泉州 362000)

      《中共中央關(guān)于全面深化改革的若干重大問題的決定》要求加大網(wǎng)絡(luò)管理的力度,推動互聯(lián)網(wǎng)管理體制的完善,保證國家網(wǎng)絡(luò)與信息的安全。隨著現(xiàn)代社會信息技術(shù)的大面積應(yīng)用,在輿情監(jiān)控與分析過程中,傳統(tǒng)的方法已不能高效地應(yīng)對突發(fā)事件的管理需要,同時由于網(wǎng)絡(luò)輿情在現(xiàn)實社會中的涉及程度不斷加深,互聯(lián)網(wǎng)中反映了現(xiàn)實社會的發(fā)展?;ヂ?lián)網(wǎng)、云技術(shù)的發(fā)展迅速,面對新環(huán)境下的公共安全事件,運用大數(shù)據(jù)實現(xiàn)網(wǎng)絡(luò)輿情中具有價值信息的挖掘,實現(xiàn)網(wǎng)絡(luò)輿情的監(jiān)測與預(yù)警能夠有助于社會秩序的穩(wěn)定,大數(shù)據(jù)的運用更是現(xiàn)代社會發(fā)展的需求。

      一、大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情主體特征

      (一)大數(shù)據(jù)與網(wǎng)絡(luò)輿情

      大數(shù)據(jù)涉及到的數(shù)據(jù)規(guī)模龐大,難以在適當(dāng)?shù)臅r間范圍內(nèi)由人工完成數(shù)據(jù)的搜集、管理與處理并且將其轉(zhuǎn)化成人類能夠讀取的信息,大數(shù)據(jù)有著規(guī)?;⒍鄻踊约案咚倩?、價值化的特點。網(wǎng)絡(luò)輿情并非直接存在于網(wǎng)絡(luò)中的數(shù)據(jù)信息,而是需要借助有關(guān)技術(shù)實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的分析與處理,從而得到價值性的結(jié)論。所以通過分析可知,網(wǎng)絡(luò)輿情數(shù)據(jù)渠道符合大數(shù)據(jù)的相關(guān)定義,大數(shù)據(jù)四個特點及其與網(wǎng)絡(luò)輿情關(guān)聯(lián)性特征詳細(xì)如表1所示。

      表1 大數(shù)據(jù)4V特征及網(wǎng)絡(luò)輿情的相似特征

      兩者的共性在于從數(shù)量巨大的數(shù)據(jù)中快速、精確的找出具有價值的信息內(nèi)容,且在數(shù)據(jù)基礎(chǔ)上進(jìn)行相關(guān)的分析和研究。大數(shù)據(jù)與網(wǎng)絡(luò)輿情的共性說明了大數(shù)據(jù)的思維和技術(shù)能夠用于網(wǎng)絡(luò)輿情數(shù)據(jù)的處理,可行性較高且易操作。

      (二)大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情主體特征

      網(wǎng)絡(luò)輿情通常要經(jīng)過三個環(huán)節(jié)才能夠形成,分別為突發(fā)事件的發(fā)生、政府或者網(wǎng)民信息的發(fā)布、媒體信息的傳播。因此,網(wǎng)絡(luò)輿情的主體不僅有政府,同時還包含事件、媒體以及網(wǎng)民。移動客戶端的普及導(dǎo)致大量突發(fā)事件被曝光,且在短時間內(nèi)實現(xiàn)大范圍的傳播,同時還將網(wǎng)民的觀點、態(tài)度反饋到網(wǎng)絡(luò)中。在此背景下,網(wǎng)民對于某一個話題熱議進(jìn)而產(chǎn)生的網(wǎng)絡(luò)輿情形成了大數(shù)據(jù),網(wǎng)絡(luò)輿情的主體特征具體如圖1所示。

      圖1 大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情主體特征

      1.事件特征?;诖髷?shù)據(jù)的環(huán)境下,網(wǎng)絡(luò)輿情的特點能夠歸納為四個方面,分別為輿情事件的種類多、發(fā)布的主體多、信息的格式多、上網(wǎng)的速度快。目前,我國社會處于轉(zhuǎn)型階段,突發(fā)事件相對較多,且曝光概率高,發(fā)生后基于網(wǎng)絡(luò)發(fā)展會出現(xiàn)不同規(guī)模的網(wǎng)絡(luò)輿情。與此同時,隨著網(wǎng)絡(luò)的普及,信息發(fā)布的主體從單一的政府逐漸轉(zhuǎn)變成政府與網(wǎng)民共存的主體,且網(wǎng)民發(fā)布的信息數(shù)量將遠(yuǎn)超于政府發(fā)布的信息。網(wǎng)絡(luò)的普及以及技術(shù)的發(fā)展,事件發(fā)生后信息格式也多種多樣,從以往的單一文字信息發(fā)展成為圖片結(jié)合文字的方式,更有文字、圖片、視頻綜合性的信息,網(wǎng)民借助于網(wǎng)絡(luò)信息進(jìn)行事件的還原、事件發(fā)展的預(yù)測。另外,由于移動寬帶、移動客戶端的發(fā)展普及,事件發(fā)生后有關(guān)信息能夠在極短的時間內(nèi)上傳到網(wǎng)絡(luò)上,更有甚者,事件在網(wǎng)絡(luò)端口實現(xiàn)同步發(fā)展。

      2.網(wǎng)民特征。目前,我國網(wǎng)民在年齡、學(xué)歷、職業(yè)以及收入等結(jié)構(gòu)方面非常復(fù)雜,具體情況如表2所示。由于網(wǎng)民結(jié)構(gòu)的復(fù)雜,網(wǎng)民在網(wǎng)絡(luò)上發(fā)表的信息和言論是基于不同角度進(jìn)行的,內(nèi)容文化水平有高有低,還有少部分網(wǎng)民發(fā)表各種過激言論。另外,由于網(wǎng)民的心理呈現(xiàn)出多樣化的特征,他們中有跟風(fēng)的、有好奇的、有宣泄的、有學(xué)習(xí)的,這些心理因素都會對網(wǎng)民輿情造成嚴(yán)重的影響。

      表2 我國網(wǎng)民結(jié)構(gòu)

      3.媒體特征。在大數(shù)據(jù)環(huán)境下,媒體數(shù)量非常多,導(dǎo)致網(wǎng)絡(luò)輿情的信息傳播渠道越來越廣,而移動客戶端的普及,手機(jī)APP以及媒體平臺成為了網(wǎng)絡(luò)輿情信息傳播的重要載體。國內(nèi)廣泛應(yīng)用的微博、網(wǎng)絡(luò)新聞、社交、視頻網(wǎng)站、論壇等多種網(wǎng)絡(luò)媒體均能夠?qū)崿F(xiàn)信息的互動傳播,提供了信息的轉(zhuǎn)發(fā)以及共享,進(jìn)而導(dǎo)致網(wǎng)絡(luò)輿情信息量大增。根據(jù)相關(guān)統(tǒng)計數(shù)據(jù)可知,我國網(wǎng)民每天發(fā)布、轉(zhuǎn)發(fā)的微博信息高達(dá)2.5億條,若加上評論以及其他功能產(chǎn)生的信息量,將遠(yuǎn)超過3億信息。

      基于上述分析不難發(fā)現(xiàn),大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情的主體特征可以歸納為三點,分別為信息源頭多、網(wǎng)民數(shù)量大、傳播渠道多。僅僅依賴傳統(tǒng)的文本挖掘?qū)㈦y以科學(xué)引導(dǎo)和監(jiān)控網(wǎng)絡(luò)輿情,因此,要能夠基于大數(shù)據(jù)的特點構(gòu)建出高質(zhì)量的網(wǎng)絡(luò)輿情文本挖掘技術(shù),實現(xiàn)網(wǎng)絡(luò)輿情的合理管控。

      (三) 大規(guī)模并行處理引擎 MapReduce技術(shù)

      谷歌開發(fā)的MapReduce模型是一種分布式計算模型,主要用于分析處理海量數(shù)據(jù),可借助于大規(guī)模的、廉價的服務(wù)器集群進(jìn)行海量數(shù)據(jù)的并行處理,其可靠性較高、擴(kuò)展性良好。該模型運行中,主要環(huán)境為客戶端、主節(jié)點、工作節(jié)點。其中,客戶端部分將用戶所需處理的作業(yè)傳輸?shù)街鞴?jié)點,之后進(jìn)入到作業(yè)分解的環(huán)節(jié),細(xì)化成Map與Reduce任務(wù),最后主節(jié)點將所有任務(wù)發(fā)放到工作節(jié)點。而工作節(jié)點需要執(zhí)行任務(wù),開發(fā)人員在上傳程序到模型時,只需要定義Map函數(shù)與Reduce函數(shù)。其中,Map操作主要處理輸入數(shù)據(jù),進(jìn)而形成一組中間的鍵值對集;Reduce操作要合并擁有相同鍵的鍵值數(shù)據(jù)。Map Reduce模型的具體運算流程如圖2所示。

      圖2 MapReduce計算過程

      Map Reduce模型是一種并行計算模型,這一技術(shù)的使用較好地解決了系統(tǒng)層的容錯性、可拓展性等關(guān)鍵的問題,能夠通過Map函數(shù)以及Reduce函數(shù)的編寫,實現(xiàn)數(shù)量巨大的數(shù)據(jù)的并行操作,進(jìn)而提升數(shù)據(jù)分析與處理的效率。

      綜上所述,雖然傳統(tǒng)的技術(shù)能夠準(zhǔn)確的實現(xiàn)數(shù)據(jù)處理,但處理效率較低,耗用時間較長,而網(wǎng)絡(luò)輿情的預(yù)警要能夠在準(zhǔn)確的基礎(chǔ)上及時發(fā)現(xiàn)且管控輿情。因此,網(wǎng)絡(luò)輿情的處理首先要能夠有效、及時、準(zhǔn)確處理數(shù)據(jù),而Map Reduce技術(shù)能夠滿足這一需求。

      二、大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情文本挖掘模塊構(gòu)建

      (一)構(gòu)建混合型數(shù)據(jù)庫

      數(shù)據(jù)庫與網(wǎng)絡(luò)數(shù)據(jù)處理技術(shù)是網(wǎng)絡(luò)輿情文本挖掘模塊的重要構(gòu)成,分布式數(shù)據(jù)庫具備多樣化數(shù)據(jù)存儲和高擴(kuò)展性等優(yōu)點,同時還能夠在后期數(shù)據(jù)查詢中發(fā)揮出重要的作用。因此,當(dāng)建立網(wǎng)絡(luò)輿情文本挖掘模塊的數(shù)據(jù)庫模塊時,可綜合使用關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS)與分布式數(shù)據(jù)庫管理系統(tǒng)(HDFS)這種混合型數(shù)據(jù)庫。在混合型數(shù)據(jù)庫中,系統(tǒng)清楚地分成上下兩層,其中,上層運用RDBMS完成數(shù)據(jù)的查詢和處理,下層則運用HDFS完成任務(wù)的分解與調(diào)度工作。混合型數(shù)據(jù)庫的優(yōu)點明顯,主要于運用HDFS完成任務(wù)的調(diào)度技術(shù)提升網(wǎng)絡(luò)輿情文本挖掘模塊系統(tǒng)的擴(kuò)展性以及容錯性,進(jìn)而在面向海量網(wǎng)絡(luò)數(shù)據(jù)的分析時能夠解決橫向擴(kuò)展的問題,便于不同部分間實現(xiàn)信息共享,運用RDBMS完成數(shù)據(jù)的存儲和查詢功能提升查詢分析的性能。網(wǎng)絡(luò)輿情文本挖掘模塊能夠借助于網(wǎng)絡(luò)爬蟲技術(shù)在特定的或者數(shù)個網(wǎng)站上收集網(wǎng)絡(luò)數(shù)據(jù),將獲取的數(shù)據(jù)存儲在混合型數(shù)據(jù)庫的下層,由于此類數(shù)據(jù)塊未經(jīng)預(yù)處理,為非結(jié)構(gòu)化的數(shù)據(jù),如果將此類數(shù)據(jù)放置于數(shù)據(jù)庫上層,將會影響后期數(shù)據(jù)的查詢和使用。HDFS數(shù)據(jù)的處理中,其能夠?qū)⒂嬎阃葡驍?shù)據(jù),明顯優(yōu)于傳統(tǒng)的數(shù)據(jù)推向計算。數(shù)據(jù)塊存儲于磁盤中,如果將數(shù)據(jù)塊傳輸?shù)絻?nèi)存將耗費大量的時間,將會嚴(yán)重影響系統(tǒng)的處理效率。而將海量數(shù)據(jù)存儲在分布式數(shù)據(jù)庫的下層,能夠在數(shù)據(jù)的預(yù)處理過程中運用將計算推向數(shù)據(jù)的方法縮短系統(tǒng)的處理時間。在經(jīng)過預(yù)處理后,數(shù)據(jù)塊能夠根據(jù)向量空間模型的方式(VSM)存儲在混合型數(shù)據(jù)庫。向量空間模型在運用MapReduce技術(shù)處理后,得出的數(shù)據(jù)存儲在數(shù)據(jù)庫的上層,能夠幫助用戶快速高效地查詢與分析,處理過的向量空間模型為無用數(shù)據(jù),可進(jìn)行壓縮存儲操作或者是直接刪除處理。完整的混合型數(shù)據(jù)庫運行流程如圖3所示。

      圖3 混合型數(shù)據(jù)庫的運行流程

      在此生態(tài)系統(tǒng)中,HDFS對數(shù)據(jù)進(jìn)行分析,隨后將分析的結(jié)果以及匯總的數(shù)據(jù)提交到RDBMS中,而RDBMS則更加適用于OLTP類應(yīng)用,能夠為網(wǎng)絡(luò)輿情的分析提供數(shù)據(jù)源,從而可供用戶進(jìn)行觀察與查詢。MapReduce有著極好的擴(kuò)展性,能夠滿足海量歷史數(shù)據(jù)同時在線的需求,即便是再久的數(shù)據(jù)也能夠隨時進(jìn)行分析,運用新數(shù)據(jù)與新算法有助于網(wǎng)絡(luò)輿情的高效挖掘。

      (二)基于的文本特征向量提取

      Map Reduce是該模塊中處理大量網(wǎng)絡(luò)數(shù)據(jù)的核心技術(shù)。根據(jù)Map Reduce的特點,文本特征向量的提取是數(shù)據(jù)預(yù)處理的核心與關(guān)鍵。文本特征的提取也是基于該模型實現(xiàn)的。其中,Map函數(shù)主要作用為對上傳的文檔開展分詞操作,隨后形成詞語的序列:w1,w2,…,wn,在這一序列中,key值代表文檔詞語,Value值均為1,也就是輸出的形式表示為(w1,1),(w2,1),…,(wn,1)。在MAP完成任務(wù)后,輸出內(nèi)容為(k,v1),(k,v2),…,(k,vn),經(jīng)Map Reduce框架處理后,根據(jù)Key值進(jìn)行整合,之后將其作為任務(wù)遞交到Reduce,對于鍵k而言,Reduce函數(shù)中的輸入表達(dá)形式記為:(k,[v1,v2,…,vn])。Reduce函數(shù)將上述輸入值(k,[v1,v2,…,vn])結(jié)合實際需求進(jìn)行組合,得到最終結(jié)果且儲存到下層的分布式存儲系統(tǒng)(GFS或者HDFS)中。Map Reduce中的Map和Reduce任務(wù)以嵌套的形式進(jìn)行運行,同時在原系統(tǒng)基礎(chǔ)上優(yōu)化,進(jìn)而得到了Map Reduce的組合器。優(yōu)化后的Map Reduce模型,其具體工作流程表示為圖4。

      圖4 改進(jìn)的模型工作流程圖

      上述模型的工作過程中,其中Map任務(wù)是實現(xiàn)輸入信息的轉(zhuǎn)化,將其轉(zhuǎn)為中間key-value對序列;Reduce1的任務(wù)為統(tǒng)計某一篇文檔dj中指定的詞匯wi,得出數(shù)量fi,j;Reduce2的任務(wù)是合并文檔中的鍵,且統(tǒng)計出Reduce1任務(wù)中計算出的value,最終得到所有的文檔dj中特定詞匯出現(xiàn)的所有次數(shù);另外,借助于去重任務(wù)能夠?qū)alue值設(shè)為1,從而對一篇文檔中詞匯數(shù)量進(jìn)行計算,避免重復(fù)記錄,影響計算的結(jié)果;對按鍵進(jìn)行分組,是為了合并相同鍵的key-value,進(jìn)而變?yōu)?k,[v1,v2,…,vn]),繼而成為Reduce3任務(wù)的輸入;Reduce3任務(wù)是計算key值的綜合,從而核算文檔中含有詞匯wi的總數(shù)ni;最后,對于沒有意義、或者不常用的詞匯進(jìn)行篩除,將對于結(jié)果影響意義不大或者沒有影響的詞匯篩除。

      運用優(yōu)化的Map Reduce模型,在相關(guān)的處理后能夠得到需要的網(wǎng)絡(luò)數(shù)據(jù),保留每篇文檔中的前十個TF-IDF值,滿足主題的識別需求。但為更加精確地測量主題中的輿情指數(shù),僅通過TF-IDF值難以實現(xiàn)衡量,可以計算主題相對應(yīng)的文檔數(shù)量進(jìn)而用于測量。在本文中,可在Map Reduce的基礎(chǔ)上運用矩陣與向量相乘的方法進(jìn)行分析,先借助向量空間模型(VSM)的形式代表主題和文檔的信息,分別運用VSM的行與列表示,最后在選擇VSM與單位列向量的乘積,進(jìn)而得出與之相應(yīng)的文檔數(shù)量,但向量的維數(shù)要能夠結(jié)合實際的數(shù)據(jù)信息確定。VSM相關(guān)向量是通過對大量網(wǎng)絡(luò)數(shù)據(jù)的處理操作后生成的,其涉及到的范圍遠(yuǎn)遠(yuǎn)大于傳統(tǒng)的計算范圍。由于網(wǎng)絡(luò)數(shù)據(jù)的數(shù)量非常巨大,以往的方法處理大量數(shù)據(jù)時需要耗費大量的時間且效率較低,因此難以滿足輿情預(yù)警對于精準(zhǔn)性和快速性的要求。所以本文中采用Map Reduce模型的矩陣—向量乘法,有效地實現(xiàn)了大量數(shù)據(jù)的高效處理。Map Reduce模型的矩陣—向量乘法的工作流程為:第一步,假定矩陣M為維m*n;第二步,在矩陣M中,元素mij用于代表第i行、第j列的元素;第三步,n維向量v中,元素vj表示第j個元素。綜上,矩陣M與列向量v的乘積用x表示,在向量X中,第i個元素表示如下:

      公式中,矩陣M中的元素mij,在Map任務(wù)輸出后的key-value對為(i,mij),隨后與列向量V相乘得出n個mijvj。綜上,key值是一致的,在MapReduce模型中,合并且計算出key值,在Reduce任務(wù)中輸入結(jié)果,在使用加法對n個mijvj相加得出(i,xi)。通過上述分析了解到,任務(wù)在流程的最后步驟輸出的向量x就是最終結(jié)果,通常用于體現(xiàn)網(wǎng)民對于網(wǎng)絡(luò)輿情事件所關(guān)注的重點在輿情事件相關(guān)范圍中的占比,比重越高,說明此事件受到的關(guān)注越多,但此數(shù)值僅能夠用于分析輿情事件在網(wǎng)絡(luò)中受到的關(guān)注熱度,不可對關(guān)注產(chǎn)生的影響性質(zhì)進(jìn)行辨別。若影響結(jié)果為壞,有關(guān)政府部門就要重點關(guān)注此次輿情事件,對網(wǎng)絡(luò)輿情的情感特征以及強度進(jìn)行分析,進(jìn)而制定出高效、及時的應(yīng)急措施,實現(xiàn)網(wǎng)絡(luò)輿情的預(yù)警。

      三、大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情預(yù)警模型構(gòu)建及運用

      (一)系統(tǒng)功能架構(gòu)

      網(wǎng)絡(luò)輿情預(yù)警模型的系統(tǒng)功能架構(gòu)運用了三層結(jié)構(gòu)的設(shè)計理念,邏輯方面依照“數(shù)據(jù)服務(wù)層、數(shù)據(jù)處理層以及數(shù)據(jù)查詢層”三層結(jié)構(gòu)完成設(shè)計,模型的架構(gòu)圖如圖5所示。數(shù)據(jù)服務(wù)層與數(shù)據(jù)處理層獨立設(shè)計,能夠有效的屏蔽網(wǎng)絡(luò)數(shù)據(jù)采集與存儲的細(xì)節(jié),滿足網(wǎng)絡(luò)輿情數(shù)據(jù)的共享,進(jìn)而在全國范圍內(nèi)實現(xiàn)相關(guān)數(shù)據(jù)的橫向組合。數(shù)據(jù)查詢層獨立設(shè)計能夠優(yōu)化模型的使用,還能夠提高查詢的靈活程度,有利于不同地區(qū)、不同部門實現(xiàn)信息的共享與個性化。

      圖5 網(wǎng)絡(luò)輿情預(yù)警模型功能架構(gòu)

      (二)系統(tǒng)主要功能模塊設(shè)計

      網(wǎng)絡(luò)輿情預(yù)警模型的構(gòu)成主要分為三部分,分別是數(shù)據(jù)采集與存儲層、輿情分析層、決策支持層,功能模塊具體如圖6所示。

      圖6 網(wǎng)絡(luò)輿情預(yù)警模型功能架構(gòu)

      網(wǎng)絡(luò)輿情預(yù)警模型中,輿情信息數(shù)據(jù)采集模塊的主要功能為通過大量網(wǎng)頁的查閱獲取數(shù)據(jù),滿足模型中輿情分析的數(shù)據(jù)需求。模型主要的監(jiān)控對象有大型的門戶網(wǎng)站、新浪微博、騰訊微博、論壇、貼吧等流量較大的網(wǎng)站。為提升數(shù)據(jù)搜集的效率,系統(tǒng)根據(jù)Map Reduce的多任務(wù)進(jìn)程理念,設(shè)計多個采集器任務(wù),每一個任務(wù)負(fù)責(zé)單個網(wǎng)頁數(shù)據(jù)的采集,單個采集器任務(wù)獲取的數(shù)據(jù)構(gòu)成一個數(shù)據(jù)塊。此類設(shè)計有著顯著的優(yōu)勢,數(shù)據(jù)服務(wù)層采集數(shù)據(jù)后傳輸?shù)綌?shù)據(jù)處理層,不再需要對數(shù)據(jù)進(jìn)行重新分配,節(jié)約了大量的時間。數(shù)據(jù)處理模塊主要對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理操作、基于Map Reduce的文本特征向量進(jìn)行提取操作、完成輿情參數(shù)的計算、輿情詞庫的更新操作。其中,數(shù)據(jù)的清洗功能是為了消除網(wǎng)頁中的無意義數(shù)據(jù),主要方法是對搜集到的網(wǎng)頁采用DOM樹進(jìn)行解析操作,隨后對DOM樹中的HTML標(biāo)記進(jìn)行處理,最后得出清洗后的網(wǎng)頁,保存成文本格式。在提取文本特征向量時運用Map Reduce方法,而網(wǎng)絡(luò)話題中網(wǎng)絡(luò)輿情指數(shù)是通過Map Reduce的矩陣—向量乘法實現(xiàn)。輿情詞庫的更新不僅僅是為實現(xiàn)數(shù)據(jù)的備份,同時還能夠為后期輿情判斷提供數(shù)據(jù)依據(jù)。輿情分析與查詢模塊是最為關(guān)鍵的模塊,主要是借助于Map Reduce的矩陣—向量乘法計算數(shù)據(jù)處理模塊中的向量空間模型(VSM),完成網(wǎng)絡(luò)輿情信息的挖掘和分析,從而進(jìn)行輿情熱點的識別與追蹤,進(jìn)而及時的預(yù)警。

      (三)系統(tǒng)仿真分析

      為了驗證大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情預(yù)警模型的可靠性與可行性,本文以2020年1月的網(wǎng)絡(luò)輿情數(shù)據(jù)為例進(jìn)行仿真分析,而選擇全年的數(shù)據(jù)是為分析本模型對于海量網(wǎng)絡(luò)數(shù)據(jù)的處理能力。在仿真實驗中,網(wǎng)頁數(shù)據(jù)的采集對象為新浪微博、天涯論壇、百度貼吧,此三個網(wǎng)站具有較強代表性,且其網(wǎng)絡(luò)流量非常大,實驗的目標(biāo)是為得到2020年1月網(wǎng)絡(luò)輿情熱點事件的前十位。數(shù)據(jù)采集模塊共采集到的數(shù)據(jù)也為3.8條,數(shù)據(jù)在數(shù)據(jù)庫中所占容量為273G,在數(shù)據(jù)清洗后共得出數(shù)據(jù)430萬,為提升實驗的效率,數(shù)據(jù)不僅運用遍歷DOM樹的方法進(jìn)行清洗,同時還過濾掉字符數(shù)小于100字節(jié)的網(wǎng)頁,最后每一個網(wǎng)頁均形成一個數(shù)據(jù)塊。

      在完成基于Map Reduce的文本特征向量提取后,得出矩陣M(主題-文檔VSM),矩陣M中,行1萬、列430萬,矩陣M每行可包含1-10個非零元素,由于一篇文檔可涉及到多個主題,但僅提取10個特征詞的TF.IDF值,也就是最大主題數(shù)為10.矩陣M是非常稀疏的,每行最多10個非零元素。矩陣M部分?jǐn)?shù)據(jù)與單位列向量V的乘積X計算的具體過程如圖7所示。

      圖7 基于Map Reduce 的矩陣-向量乘法

      單位列向量V的維數(shù)為430萬,存儲空間約為4MB,向量V能夠完整的存入內(nèi)存,無需重復(fù)輸入Map任務(wù)中。表示在實驗中,要能夠獲得第個主題中包含的文檔樹,通過歸一化的處理,得出的結(jié)果能夠理解為主題輿情指數(shù),排名前10位的輿情熱點事件就是指輿情指數(shù)前10的網(wǎng)絡(luò)話題。為了讓結(jié)果更加的形象,運用百分制的方式表示歸一化的結(jié)果,輿情指數(shù)組成的向量VX為:

      VX=(100.0,96.9,91.7,90.3,90.1,88.9,87.1,83.2,81.1,79.3)

      2020年1月前10位輿情熱點事件如表3所示。

      表3 2020年1月年前10輿情熱點事件

      四、結(jié)語

      大數(shù)據(jù)模型的復(fù)雜程度相對較低,具備良好的擴(kuò)展性,能夠用于網(wǎng)絡(luò)輿情預(yù)警處理,且效果較好。本文通過運用優(yōu)化后的Map Reduce組合器模型對網(wǎng)絡(luò)大量數(shù)據(jù)的特征向量進(jìn)行提取,同時基于Map Reduce的矩陣—向量乘法實現(xiàn)高維度VSM計算,大數(shù)據(jù)技術(shù)處理能夠縮短大量時間,保證其時效性。同時,還能夠?qū)崿F(xiàn)熱點事件的主觀與客觀分析,為企業(yè)、政府對了解熱點事件的關(guān)注情況提供科學(xué)數(shù)據(jù)依據(jù),從而做出相應(yīng)的應(yīng)對措施。但該模型在精確度方面對熱點事件的主觀與客觀情感進(jìn)行分析,有助于企業(yè)、政府更好的掌握人們對熱點事件的關(guān)注度,進(jìn)而制定出合理的策略與措施,維護(hù)社會的穩(wěn)定。但該模型在精確性方面存在一定的偏差,在數(shù)據(jù)的采集以及關(guān)鍵詞的設(shè)定方面存在不足,會對數(shù)據(jù)分析時的模型產(chǎn)生影響,今后的研究需要注重此方面的優(yōu)化。

      猜你喜歡
      文檔輿情網(wǎng)民
      有人一聲不吭向你扔了個文檔
      網(wǎng)民低齡化 “小網(wǎng)蟲”的明天誰來守護(hù)
      遵義(2018年20期)2018-10-19 07:15:06
      有關(guān)公路,網(wǎng)民有話說
      中國公路(2017年9期)2017-07-25 13:26:38
      基于RI碼計算的Word復(fù)制文檔鑒別
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      微博的輿情控制與言論自由
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      阳泉市| 仙桃市| 元谋县| 阿瓦提县| 稻城县| 于都县| 望谟县| 邓州市| 宁都县| 都匀市| 绿春县| 洛阳市| 泾源县| 宁德市| 微博| 泌阳县| 修文县| 太原市| 荆州市| 祁连县| 延寿县| 尼木县| 交口县| 柳林县| 武乡县| 海宁市| 寿光市| 台南县| 桃江县| 盐源县| 陆河县| 马龙县| 平安县| 咸阳市| 苍溪县| 历史| 凤山市| 宣城市| 福清市| 博湖县| 永胜县|