梁翠萍++胡慶寶
摘 要:2011年麥肯錫發(fā)布了《大數(shù)據(jù),下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿》研究報(bào)告之后,大數(shù)據(jù)概念開始風(fēng)靡全球。近年來(lái),隨著國(guó)內(nèi)微博、微信、娛樂(lè)網(wǎng)站等新媒體的興起和發(fā)展,越來(lái)越多的民眾通過(guò)互聯(lián)網(wǎng)參與到熱點(diǎn)話題和熱門事件中。所以,通過(guò)大數(shù)據(jù)對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)和分析,并對(duì)民眾的態(tài)度和傾向做出準(zhǔn)確的定位顯得非常重要。該文主要通過(guò)對(duì)大數(shù)據(jù)論述、網(wǎng)絡(luò)輿情篩選、輿情捕獲存儲(chǔ)以及數(shù)據(jù)分析,來(lái)探究大數(shù)據(jù)在輿情分析中的應(yīng)用及其價(jià)值。
關(guān)鍵詞:大數(shù)據(jù) 網(wǎng)絡(luò)輿情 數(shù)據(jù)抓取 數(shù)據(jù)存儲(chǔ) 輿情分析
中圖分類號(hào):G206 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2017)01(c)-0108-02
隨著新興媒體的發(fā)展,互聯(lián)網(wǎng)輿情已經(jīng)在社會(huì)發(fā)展中扮演著重要的角色,它已不僅僅局限于個(gè)別范圍的使用和拓展,而是演變?yōu)槿窕?dòng)型的參與和討論,所以如何在眾多信息中獲取最全面的輿情數(shù)據(jù),并將輿情數(shù)據(jù)以最快的速度和最靈活的方式展現(xiàn)出來(lái),使輿情在可控的范圍內(nèi)實(shí)現(xiàn)最大的社會(huì)和商業(yè)價(jià)值,顯得尤為重要。
1 網(wǎng)絡(luò)輿情
網(wǎng)絡(luò)輿情不同于傳統(tǒng)輿情,傳統(tǒng)輿情是民意理論中的一個(gè)概念,是民意的一種綜合反映。該文所提到的網(wǎng)絡(luò)輿情,是未經(jīng)任何中介包裝和驗(yàn)證,直接發(fā)布于網(wǎng)上的社會(huì)輿情,并以互聯(lián)網(wǎng)為載體,以輿論事件為核心,集民眾情感、態(tài)度、意見、建議、傳播互動(dòng)和影響力于一身的集合。
因?yàn)榫W(wǎng)絡(luò)輿情的傳播介質(zhì)是網(wǎng)絡(luò),網(wǎng)絡(luò)既具有公開性又具有隱蔽性,同時(shí)需要事件、網(wǎng)民、網(wǎng)民情感,以及通過(guò)網(wǎng)絡(luò)介質(zhì)的傳播和互動(dòng),所以在既公開又隱蔽的環(huán)境中,從眾多的信息中捕獲并抽取出復(fù)雜的網(wǎng)民情緒和態(tài)度非常重要。
2 輿情捕獲
由于輿情具有自由性、交互性、多元性、偏差性和突發(fā)性,所以如何從眾多輿情中獲取實(shí)時(shí)數(shù)據(jù)并服務(wù)于大眾,是新興媒體所面臨的嚴(yán)峻挑戰(zhàn)和考驗(yàn)。
2.1 關(guān)鍵詞確定
在互聯(lián)網(wǎng)上傳播的信息可以用海量來(lái)形容,如果針對(duì)輿情盲目進(jìn)行檢索,猶如大海撈針,不僅得不到我們想要的數(shù)據(jù),還會(huì)浪費(fèi)大量的人力、物力和財(cái)力來(lái)投入到數(shù)據(jù)的分析中。所以如何在海量的信息中獲取用戶想要的數(shù)據(jù),“關(guān)鍵詞”就顯得非常重要,它不僅可以讓我們精確地捕獲到想要的數(shù)據(jù),而且還可以減少臟數(shù)據(jù)的捕獲,大大縮短了輿情分析的時(shí)間,提升了輿情分析的反應(yīng)速率,下面就介紹幾種關(guān)鍵詞確定的方法。
(1)定制關(guān)鍵詞。關(guān)鍵詞的確定可以從輿情分析的發(fā)出者來(lái)反向提出,輿情分析的發(fā)出者一定是希望從網(wǎng)絡(luò)輿情中得到某種相關(guān)信息,那么我們可以從需求提出者和需求分析者的角度來(lái)確定關(guān)鍵詞,即關(guān)鍵詞由用戶提出,并通過(guò)需求分析將用戶的表述發(fā)展為定制詞語(yǔ),并將其定義為用戶定制關(guān)鍵詞。根據(jù)用戶定制的關(guān)鍵詞來(lái)捕獲數(shù)據(jù),是最直接明了的數(shù)據(jù)捕獲方式。
(2)熱門輿情關(guān)鍵詞。很多網(wǎng)站如百度、搜狐、Facebook、新浪等幾乎所有的交互網(wǎng)站都會(huì)有熱門指數(shù),我們可以借助這些網(wǎng)站自身攜帶的熱門指數(shù),來(lái)確定關(guān)鍵詞。因?yàn)橥ㄟ^(guò)熱門輿情關(guān)鍵詞來(lái)捕獲數(shù)據(jù),一定是網(wǎng)站熱門數(shù)據(jù),這樣不僅可以節(jié)省我們分析確定關(guān)鍵詞的時(shí)間,而且還可以用最短的時(shí)間獲取最多的分析數(shù)據(jù),提高大數(shù)據(jù)在輿情分析中的反應(yīng)速率。
(3)熱搜輿情關(guān)鍵詞。熱搜輿情關(guān)鍵詞不同于熱門關(guān)鍵詞,由于輿情具有廣泛傳播性,很多人參與到輿情探討中,都是通過(guò)網(wǎng)絡(luò)搜索并定位的,所以熱搜關(guān)鍵詞就是根據(jù)搜索引擎的熱搜排行榜,來(lái)確定輿情關(guān)鍵詞,通過(guò)熱搜排行榜,我們可以第一時(shí)間知道并了解網(wǎng)民想要了解的輿論事件。
(4)參考輿情發(fā)布網(wǎng)站。想要找到網(wǎng)絡(luò)事件的發(fā)展?fàn)顩r和原由,最簡(jiǎn)單也是最直接的方式,就是找到輿情發(fā)布的網(wǎng)站,很多網(wǎng)站就是網(wǎng)絡(luò)輿情事件的源泉。
2.2 數(shù)據(jù)抓取
當(dāng)我們通過(guò)各種方式獲取并確定了關(guān)鍵詞之后,如何把關(guān)鍵詞變成我們想要的精確數(shù)據(jù),就顯得非常重要。我們可以通過(guò)網(wǎng)絡(luò)爬蟲技術(shù)來(lái)獲取輿情數(shù)據(jù)。
當(dāng)前主流的數(shù)據(jù)抓取模式主要包含4個(gè)主要部分:網(wǎng)絡(luò)爬蟲技術(shù)(Spider)、數(shù)據(jù)處理技術(shù)(Data Process)、爬取URL隊(duì)列(URL Queue)和數(shù)據(jù)。爬蟲主要是從互聯(lián)網(wǎng)上捕捉網(wǎng)頁(yè)內(nèi)容,并從中抽取出需要的內(nèi)容。數(shù)據(jù)處理:對(duì)爬蟲抓取的內(nèi)容進(jìn)行處理。URL隊(duì)列:為爬蟲提供需要抓取數(shù)據(jù)網(wǎng)站的URL。數(shù)據(jù)包含3個(gè)方面:(1)Site URL:需要抓取數(shù)據(jù)網(wǎng)站的URL信息;(2)Spider Data:爬蟲從網(wǎng)頁(yè)中抽取出來(lái)的數(shù)據(jù);(3)Dp Data:經(jīng)過(guò)dp處理之后的數(shù)據(jù)。
2.3 數(shù)據(jù)存儲(chǔ)
因?yàn)榫W(wǎng)絡(luò)輿情具有及時(shí)更新和海量的特性,所以我們?nèi)绾螌⒆ト〉降臄?shù)據(jù)實(shí)時(shí)保存起來(lái),是非常關(guān)鍵的,它決定了最后輿情分析的全面性和精確性。一般通過(guò)IT技術(shù)可以將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,下面介紹一下當(dāng)前主流的3種數(shù)據(jù)庫(kù)及其區(qū)別。
Oracle數(shù)據(jù)文件都是采用二進(jìn)制編碼的文件,而且它可以對(duì)SQL在執(zhí)行過(guò)程中的解析和優(yōu)化指定統(tǒng)一標(biāo)準(zhǔn),其中包括RBO、CBO以及HTNT規(guī)則,這些都會(huì)使在Oracle數(shù)據(jù)庫(kù)中執(zhí)行的SQL擁有極大的優(yōu)化自由,同時(shí)也對(duì)CPU、內(nèi)存、IO資源方面進(jìn)行優(yōu)化。
MySQL最大的特點(diǎn)應(yīng)該屬自由選擇存儲(chǔ)引擎。它的每一個(gè)表都是一個(gè)文件,都可以選擇合適的存儲(chǔ)引擎。但由于它的存儲(chǔ)引擎是開放式的插件引擎,所以文件的一致性大大降低,并且在SQL優(yōu)化方面,也會(huì)有一些不可避免的瓶頸,例如多表關(guān)聯(lián)、子查詢優(yōu)化、統(tǒng)計(jì)函數(shù)等都是它的弱項(xiàng),并且MySQL只支持極簡(jiǎn)單的HINT。
SQL Server的數(shù)據(jù)架構(gòu)基本是縱向劃分,分為:Protocol Layer、Relational Engine、Storage Engine、SQLOS。SQL執(zhí)行都是逐層,其中Relational Engine中的優(yōu)化器,是基于成本的,其工作過(guò)程跟Oracle是非常相似的。同時(shí)它也支持豐富的HINT,包括:連接提示、查詢提示、表提示。
雖然,這3個(gè)數(shù)據(jù)庫(kù)各具特色,但是,如果對(duì)數(shù)據(jù)安全、存儲(chǔ)等特性沒(méi)有特殊要求,通常我們會(huì)選取MySQL數(shù)據(jù)庫(kù),因?yàn)殚_源而且操作相對(duì)簡(jiǎn)單。
3 輿情分析
如果說(shuō)輿情數(shù)據(jù)的抓取和存儲(chǔ)目的是在數(shù)據(jù)獲取方面下工夫,那么輿情分析就是通過(guò)比較、論證等方法把數(shù)據(jù)通過(guò)圖形報(bào)表等更加簡(jiǎn)潔的方式呈獻(xiàn)給用戶。
每一個(gè)輿情事件的本身都有自己的特點(diǎn),分析設(shè)計(jì)人員可以根據(jù)不同的特點(diǎn)選擇輿情分析的方法或報(bào)表。通常輿情分析方法有連續(xù)接近法、舉例說(shuō)明法、比較分析法和流程圖法等。通常圖形報(bào)表也有很多種,如趨勢(shì)圖、比例餅圖、百分比柱圖、流程圖、表格等,分析設(shè)計(jì)人員根據(jù)輿情的特點(diǎn)選擇合適的圖形呈獻(xiàn)給用戶。
4 結(jié)語(yǔ)
通過(guò)大數(shù)據(jù)相關(guān)技術(shù)對(duì)輿情進(jìn)行全方位收集、存儲(chǔ)和分析的過(guò)程中,我們既不修飾、篡改輿情事件的真實(shí)性,也不隱藏輿情事件的丑陋性,大數(shù)據(jù)的智能捕獲分析,只是將網(wǎng)絡(luò)輿情更加清晰形象地呈現(xiàn)給用戶,使用戶在第一時(shí)間獲取民眾態(tài)度,掌握民眾意見或建議,并根據(jù)輿情報(bào)告的精準(zhǔn)分析反饋,及時(shí)對(duì)輿情事件做出相應(yīng)的政策,調(diào)整相關(guān)的策略,實(shí)現(xiàn)商業(yè)和政治利益最大化,創(chuàng)造更多的社會(huì)價(jià)值,并使網(wǎng)絡(luò)輿情健康良性發(fā)展。
參考文獻(xiàn)
[1] 王博.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)輿情與社會(huì)治理研究[D].云南財(cái)經(jīng)大學(xué),2016.
[2] 楊旭東.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)關(guān)鍵技術(shù)研究[J].信息網(wǎng)絡(luò)安全,2016(9):251-256.
[3] 李麗清.網(wǎng)絡(luò)輿情監(jiān)控與分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].西安電子科技大學(xué),2014.
[4] 唐勇.互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué),2013.