于茜 大連科技學院 數(shù)字技術(shù)學院
國務(wù)院《國家突發(fā)公共事件總體應(yīng)急預(yù)案》和國家科技部《國家“十二五”科學和技術(shù)發(fā)展規(guī)劃》中指出當前我國社會公共安全體系建設(shè)過程中迫切需要發(fā)展社會公共安全應(yīng)急管控與指揮技術(shù),重點突破應(yīng)急指揮與處置、輿情監(jiān)控和預(yù)測、圖像處理等關(guān)鍵技術(shù),提升社會公共安全的信息預(yù)警、應(yīng)急處置、社會管控能力和水平。
當前大數(shù)據(jù)環(huán)境下突發(fā)公共安全事件網(wǎng)絡(luò)輿情研究中亟待解決的問題有:(1)缺少針對突發(fā)公共安全事件網(wǎng)絡(luò)輿情的有效分析方法;(2)缺少大數(shù)據(jù)環(huán)境下的突發(fā)公共安全事件網(wǎng)絡(luò)輿情知識庫。本文研究的大數(shù)據(jù)環(huán)境下突發(fā)公共安全事件網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)關(guān)鍵技術(shù)將解決網(wǎng)絡(luò)輿情數(shù)據(jù)特征提取、網(wǎng)絡(luò)輿情知識庫構(gòu)建等問題。
Map/Reduce是面向大數(shù)據(jù)分析和處理的并行計算模型,是實現(xiàn)大數(shù)據(jù)背景下突發(fā)公共安全事件網(wǎng)絡(luò)輿情分析的工具。本文通過網(wǎng)絡(luò)爬蟲等軟件獲得與突發(fā)公共安全事件相關(guān)的網(wǎng)頁信息,將網(wǎng)址和網(wǎng)頁內(nèi)容作為Map函數(shù)參數(shù)傳遞進去,計算得到中間鍵值對<突發(fā)公共安全事件詞匯,所在網(wǎng)頁段落文字>,再以該中間鍵值對為輸入,使用Reduce函數(shù)計算得到該詞匯的特征及特征值。通過Map和Reduce函數(shù)的定義使得網(wǎng)絡(luò)輿情中雜亂無章的數(shù)據(jù)得到有效整理,得到含有突發(fā)公共安全事件特征及特征值列表的有效數(shù)據(jù)。
Map/Reduce從網(wǎng)絡(luò)輿情數(shù)據(jù)中抽取出的突發(fā)公共安全事件數(shù)據(jù)特征及特征值列表封裝成Web服務(wù)的形式發(fā)布服務(wù)器上進行下一步分析。下面給出Web服務(wù)定義及Web服務(wù)約減算法。
(1)Web服務(wù)定義
服務(wù)由若干輸入構(gòu)成,輸入是數(shù)據(jù)特征及特征值列表類型序?qū)?。具體定義如下:
(2)Web服務(wù)約減算法
由于網(wǎng)絡(luò)輿情中數(shù)據(jù)量過大,產(chǎn)生的服務(wù)過多,冗余也較多,影響計算速度,所以在正是計算之前先進行服務(wù)約減?;舅惴ㄈ缦拢?/p>
for i=1 to n do
for j=1 to n do
delete sjfrom S.
end
買車、全家海外旅行,這些大宗消費可能一下子就花掉家庭幾個月的收入,在相關(guān)的規(guī)劃上要審慎。新婚夫妻最容易出現(xiàn)的就是被甜蜜沖昏頭腦,想到就做,結(jié)果在真正需要用錢的時候卻陷入困境。針對家庭的大宗消費,不妨多溝通多商量,看看是否真正需要再作決定。
siand sjkeep only one.
end
end
end
按照上述方法得到的服務(wù)隊列是最簡化的服務(wù)隊列。
當前各領(lǐng)域成型知識庫已有50多種,但在突發(fā)公共安全事件領(lǐng)域還未構(gòu)建出知識庫,由于突發(fā)公共安全事件具有其獨特的特性,與其他領(lǐng)域知識概念完全不同,所以該領(lǐng)域的知識庫需要單獨構(gòu)建。本文采用手工構(gòu)建和半監(jiān)督自動構(gòu)建相結(jié)合的方法構(gòu)建突發(fā)公共安全事件知識庫。
(1)建立突發(fā)公共安全事件概念模型
構(gòu)建突發(fā)公共安全事件概念模型的幾個基本構(gòu)成要素,包括抽取概念、實例、特征和關(guān)系。突發(fā)公共安全事件概念模型:,是突發(fā)公共安全事件對象集合;
(2)手工構(gòu)建突發(fā)公共安全事件知識庫技術(shù)
依據(jù)已有突發(fā)公共安全事件網(wǎng)絡(luò)輿情數(shù)據(jù),通過Map/Reduce模型計算得到網(wǎng)絡(luò)輿情數(shù)據(jù)的特征和特征值,依據(jù)突發(fā)公共安全事件概念模型得到知識,添加到知識庫,完成手工構(gòu)建知識庫。
(3)基于LCRF的半監(jiān)督知識庫構(gòu)建技術(shù)
將捕獲的網(wǎng)絡(luò)輿情實時數(shù)據(jù)通過Map/Reduce模型計算得到特征和特征值,輸入LCRF(lined conditional random field,LCRF)模型進行學習,識別出來的是新的突發(fā)公共安全事件需要進行預(yù)警,同時加入知識庫,否則繼續(xù)監(jiān)控。由于LCRF模型訓練時需要標注好的數(shù)據(jù),而學習過程使用非標注數(shù)據(jù)所以屬于半監(jiān)督學習過程。
break;
next
next
本文提出了基于Map/Reduce的網(wǎng)絡(luò)輿情數(shù)據(jù)特征及特征值提取方法用于從海量網(wǎng)絡(luò)數(shù)據(jù)中提取網(wǎng)絡(luò)輿情數(shù)據(jù)及其特征,提出基于Web服務(wù)的突發(fā)公共安全事件數(shù)據(jù)封裝技術(shù)用于封裝數(shù)據(jù)并進行約減從而減少計算量,提出大數(shù)據(jù)環(huán)境下手工和半監(jiān)督相結(jié)合的突發(fā)公共安全事件知識庫構(gòu)建技術(shù)構(gòu)建專門的突發(fā)公共安全事件知識庫,彌補這方面的空白。以上關(guān)鍵技術(shù)能夠解決當前突發(fā)公共安全事件網(wǎng)絡(luò)輿情研究中亟待解決的缺少分析方法、缺少知識庫等問題,為后續(xù)網(wǎng)絡(luò)輿情分析奠定基礎(chǔ)。