尉譯心
摘要 在互聯(lián)網(wǎng)時(shí)代之下,以新浪微博為代表的自媒體平臺(tái)受到了較為廣泛的關(guān)注,并且在不斷發(fā)展過程中也一躍成為廣播、電視、報(bào)紙之后的第四大媒體,在現(xiàn)如今成為網(wǎng)絡(luò)輿情主要傳播媒介以及手段。在網(wǎng)絡(luò)發(fā)展初期,在進(jìn)行輿情監(jiān)控的過程中主要是借助于人工的方式來(lái)開展,而在網(wǎng)絡(luò)數(shù)據(jù)不斷發(fā)展的環(huán)境下,人工這一監(jiān)控方式已經(jīng)很難再滿足現(xiàn)實(shí)需求,這時(shí)自動(dòng)化網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)也就受到了較多的關(guān)注,而為了能夠?qū)崿F(xiàn)網(wǎng)絡(luò)輿情的有效監(jiān)督,本文也就網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)關(guān)鍵技術(shù)進(jìn)行了相關(guān)研究。
【關(guān)鍵詞】網(wǎng)絡(luò) 輿情監(jiān)控系統(tǒng) 關(guān)鍵技術(shù)
相關(guān)數(shù)據(jù)調(diào)查顯示,我國(guó)早在2014年就已經(jīng)成為了世界上網(wǎng)民人數(shù)最多的國(guó)家,互聯(lián)網(wǎng)的普及率在14年就已經(jīng)達(dá)到了46.9%,而到現(xiàn)今更是得到了顯著的提升。相比較于傳統(tǒng)媒體而言,網(wǎng)絡(luò)媒體能夠在第一時(shí)間內(nèi)將所發(fā)生的重大事件傳遞給人們,而人們?cè)谕ㄟ^網(wǎng)絡(luò)獲得相關(guān)信息的時(shí)候,也能借助于各種新型的媒體平臺(tái)來(lái)表達(dá)出自身的意見以及看法,比如說(shuō)微博、論壇、貼吧、微信等等,在這種開放網(wǎng)絡(luò)環(huán)境之下網(wǎng)絡(luò)輿情形成速度也就會(huì)變得越發(fā)的迅速。此外,網(wǎng)絡(luò)本身就是一個(gè)十分開放且自由的平臺(tái),人們可以在網(wǎng)絡(luò)上隨意發(fā)表自身的觀點(diǎn),同時(shí)也有部分不良分子會(huì)借助于網(wǎng)絡(luò)傳播一些暴力、色情或者是公布的信息,這個(gè)時(shí)候網(wǎng)絡(luò)輿情監(jiān)控就顯得尤為的重要,對(duì)于網(wǎng)絡(luò)健康發(fā)展有著非常顯著的價(jià)值。
1 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)相關(guān)概述
1.1 網(wǎng)絡(luò)輿情相關(guān)概述
網(wǎng)絡(luò)輿情(IPO)主要指的是互聯(lián)網(wǎng)中的一些輿情信息,是人們?cè)诰W(wǎng)絡(luò)上對(duì)各類時(shí)事熱點(diǎn)發(fā)表自身想法以及意見的表現(xiàn),就拿現(xiàn)如今網(wǎng)絡(luò)當(dāng)中所存在的各種信息都會(huì)有較多的網(wǎng)民來(lái)對(duì)其進(jìn)行分析和討論,而這些所發(fā)表出來(lái)的意見以及討論出來(lái)的信息都可以稱之為網(wǎng)絡(luò)輿情的一部分,現(xiàn)如今這些輿情主要的傳播方式則是微博、網(wǎng)站、微信等平臺(tái)。網(wǎng)絡(luò)開放性較強(qiáng),所以也就存在較多的數(shù)據(jù)信息,可是并不是每一條信息我們都能夠?qū)⑵浞Q之為輿情,要想被稱之為輿情必然要具備幾個(gè)特點(diǎn),分別是模糊性、沖突性以及典型性,因?yàn)橹挥写嬖谳^為一定的沖突性才能夠有效的影響到社會(huì)不同群體,而模糊性以及典型性信息也是輿情必不可少的特征之一。對(duì)網(wǎng)絡(luò)輿情進(jìn)行有效的監(jiān)控,就能很好的掌握群眾對(duì)于時(shí)事熱點(diǎn)的想法,這樣就能更好地了解群眾政治意見以及文化傾向,從而更好的把握住社會(huì)大體的發(fā)展趨勢(shì),對(duì)群眾以及社會(huì)態(tài)度進(jìn)行及時(shí)且正確的引導(dǎo),這樣才能真正形成較為良好的社會(huì)風(fēng)氣。網(wǎng)絡(luò)本身最為顯著的特點(diǎn)就是開放性、虛擬性、隱蔽性等,而人們?cè)诰W(wǎng)絡(luò)上則能隨意發(fā)表自身言論參與到各項(xiàng)熱點(diǎn)互動(dòng)交流當(dāng)中,雖然這些信息能夠很好的反映出群眾本身的想法和觀點(diǎn),可是在大量網(wǎng)絡(luò)信息環(huán)境之下還是會(huì)存在一些無(wú)效或者是有害的信息,這個(gè)時(shí)候也就很容易形成不好的網(wǎng)絡(luò)環(huán)境,所以說(shuō),網(wǎng)絡(luò)輿情監(jiān)控就顯得尤為的重要。
1.2 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)相關(guān)概述
就現(xiàn)如今各大搜索引擎發(fā)展趨勢(shì)來(lái)看,他們都是按照某一用戶所需求的特定內(nèi)容來(lái)提取出用戶所需要的信息反饋給用戶,這種設(shè)計(jì)方式?jīng)]有很好的將用戶所關(guān)注的輿情信息進(jìn)行有效的處理,而輿情監(jiān)控系統(tǒng)的存在則能實(shí)現(xiàn)輿情信息數(shù)據(jù)采集、分析等功能,以此來(lái)更加及時(shí)有效的幫助用戶掌握輿情的動(dòng)態(tài)。在對(duì)網(wǎng)絡(luò)輿情進(jìn)行檢索的過程中,其主要有兩種檢索方式,一種是人工檢索一種是機(jī)器檢索,其中人工檢索主要就是按照用戶對(duì)某一熱點(diǎn)或者是問題的態(tài)度傾向來(lái)為其進(jìn)行聚類分析;而機(jī)器檢索則是向用戶提供某一輿情信息屬性亦或者是向用戶提供輿情熱點(diǎn)排行榜,在這其中網(wǎng)絡(luò)輿情分析系統(tǒng)主要的作用就是為了能夠更好地掌握群眾思想動(dòng)態(tài),以此來(lái)作出正確的引導(dǎo)??偟膩?lái)說(shuō),輿情監(jiān)控系統(tǒng)所涉及的技術(shù)領(lǐng)域較為廣泛,其中就包含了自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、文本挖掘、趨勢(shì)分析、語(yǔ)義集成分析以及主題分類等等;而其所存在的功能則主要包含了熱點(diǎn)識(shí)別、事件分析、主題跟蹤、傾向性分析、統(tǒng)計(jì)報(bào)告等等。
2 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)關(guān)鍵技術(shù)分析
輿情監(jiān)測(cè)這一項(xiàng)工作本身就存在較為久遠(yuǎn)的歷史,最開始的人工監(jiān)控到現(xiàn)在的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)都是為了能夠更好地對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè),而就現(xiàn)如今我國(guó)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)發(fā)展情況來(lái)看,還是有待遇提升,再加上中西方文本挖掘、分詞等方面本身就存在較大的差異性,這也致使我國(guó)漢語(yǔ)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)起步速度較晚,而為了能夠更好地促進(jìn)我國(guó)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的發(fā)展,本文也就網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)關(guān)鍵技術(shù)進(jìn)行了相關(guān)研究。從網(wǎng)絡(luò)輿情監(jiān)測(cè)過程來(lái)看,其本質(zhì)就是要從網(wǎng)絡(luò)上獲得相應(yīng)的數(shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行分析處理按照用戶需求將分析結(jié)果呈現(xiàn)給用戶,所以說(shuō),在實(shí)現(xiàn)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的時(shí)候,要從數(shù)據(jù)流向角度來(lái)講該系統(tǒng)劃分成不同的模塊(具體如圖1),這幾個(gè)模塊也就是網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)關(guān)鍵技術(shù),而筆者也對(duì)其分別進(jìn)行了分析:
2.1 數(shù)據(jù)獲取
在網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)當(dāng)中,數(shù)據(jù)獲取就屬于較為關(guān)鍵的技術(shù)之一,其主要的功能就是全天候自動(dòng)從整個(gè)網(wǎng)絡(luò),亦或者是一些特定的網(wǎng)絡(luò)上獲得相應(yīng)的輿情信息數(shù)據(jù),然后對(duì)其進(jìn)行分析。在獲取輿情信息數(shù)據(jù)的過程中,其主要存在兩個(gè)方面的需求,一方面是要獲得相關(guān)輿情數(shù)據(jù)對(duì)于整個(gè)數(shù)據(jù)的覆蓋率,也就是說(shuō)要盡可能的得到最為原始且全面的數(shù)據(jù)信息;而另一方面則需要確保數(shù)據(jù)信息的準(zhǔn)確性,也就是說(shuō)所獲得的數(shù)據(jù)信息最好是用戶真正關(guān)心的輿情信息,只有達(dá)到這兩點(diǎn)要求才能更好地對(duì)網(wǎng)絡(luò)輿情進(jìn)行有效的預(yù)測(cè)和分析。就目前而言,在獲取數(shù)據(jù)的過程中,其主要有以下兩種手段
2.1.1 網(wǎng)絡(luò)爬蟲
互聯(lián)網(wǎng)本身就已經(jīng)存在一項(xiàng)最為基本的HTML協(xié)議,因?yàn)榇嬖谶@一協(xié)議網(wǎng)絡(luò)當(dāng)中所存在的各項(xiàng)數(shù)據(jù)資源才能真正以統(tǒng)一資源定位符(URL)相互聯(lián)系在一起而構(gòu)成了一個(gè)有機(jī)的整體。在獲取數(shù)據(jù)的時(shí)候,借助于這一手段網(wǎng)絡(luò)爬蟲就會(huì)從一個(gè)預(yù)先定義好的URL列表開始,然后再以此對(duì)這一列表上所存在的頁(yè)面數(shù)據(jù)進(jìn)行訪問以及信息獲取,同時(shí)還會(huì)對(duì)當(dāng)前訪問頁(yè)面當(dāng)中所存在的其它URL來(lái)進(jìn)行分析,進(jìn)而選擇出符合相關(guān)需求的URL加入待訪問隊(duì)列當(dāng)中,通過這樣的方式來(lái)對(duì)限定范圍網(wǎng)絡(luò)來(lái)進(jìn)行訪問,最終就能有效的獲得這一網(wǎng)絡(luò)當(dāng)中所存在的所有信息。
2.1.2 元搜索采集技術(shù)
我們?cè)谠L問網(wǎng)絡(luò)的過程中入口大多是搜索引擎,所以現(xiàn)如今也存在較多的搜索引擎服務(wù)提供商,而不同的搜索引擎服務(wù)提供商所提供的入口在搜索過程中所側(cè)重的方式也存在不同,搜索出來(lái)的結(jié)果也就會(huì)存在差異性。而為了能夠更好地實(shí)現(xiàn)網(wǎng)絡(luò)輿情監(jiān)測(cè),我們可以在不同的搜索引擎上部署元搜索引擎,以此來(lái)對(duì)下層引擎進(jìn)行調(diào)用,這樣就能返回不一樣的搜索結(jié)果,同時(shí)還能基于不一樣的算法來(lái)對(duì)不同結(jié)果進(jìn)行選擇。借助于這一種手段就能最大程度提升數(shù)據(jù)獲取的準(zhǔn)確率以及覆蓋率,而且系統(tǒng)構(gòu)建相對(duì)而言也較為簡(jiǎn)單。
2.2 數(shù)據(jù)預(yù)處理
Web頁(yè)面上所存在的數(shù)據(jù)大多存在其自身的特點(diǎn),主要表現(xiàn)為半結(jié)構(gòu)化數(shù)據(jù)上,而整個(gè)數(shù)據(jù)主要包含兩個(gè)部分,其分別是內(nèi)容以及描述這兩個(gè)部分混合在一起,在獲取數(shù)據(jù)的時(shí)候要想直接借助于數(shù)據(jù)獲取這一模塊來(lái)獲得頁(yè)面內(nèi)容是十分困難的,因?yàn)槠浔旧砭痛嬖谳^大的噪音、文本內(nèi)容也不是結(jié)構(gòu)化的,所以也就很難直接進(jìn)行分析處理,這個(gè)時(shí)候就需要對(duì)原始頁(yè)面進(jìn)行數(shù)據(jù)預(yù)處理,所以說(shuō),數(shù)據(jù)預(yù)處理也是網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)當(dāng)中較為關(guān)鍵的一項(xiàng)技術(shù)。數(shù)據(jù)預(yù)處理主要流程有以下兩個(gè)方面:
2.2.1 網(wǎng)頁(yè)內(nèi)容提取
這一方面主要就是用用戶較為關(guān)心的內(nèi)容從噪音上照出來(lái),比如說(shuō)將新聞內(nèi)容或者是主題討論等信息從頁(yè)面上的導(dǎo)航以及廣告等連接當(dāng)中找出來(lái),然后將頁(yè)面轉(zhuǎn)化成一個(gè)HTML標(biāo)簽樹,并且按照已經(jīng)具備的知識(shí)來(lái)構(gòu)建出相應(yīng)法規(guī)則體系,之后就可以按照相關(guān)規(guī)則來(lái)對(duì)頁(yè)面上的內(nèi)容進(jìn)行提取。在提取網(wǎng)頁(yè)內(nèi)容的時(shí)候,要怎么去構(gòu)建出一個(gè)合適的規(guī)則是其中較為重要的一點(diǎn),我們可以按照某一種特定的網(wǎng)站來(lái)構(gòu)建出一個(gè)專屬的規(guī)則,也可以結(jié)合一般頁(yè)面所存在的結(jié)構(gòu)特點(diǎn)來(lái)構(gòu)建出較為通用的規(guī)則體系。
2.2.2 中文文本分詞
在所有自然語(yǔ)言當(dāng)中,詞可以說(shuō)是最小且能夠獨(dú)立活動(dòng)的語(yǔ)言成分,在網(wǎng)絡(luò)輿情監(jiān)控過程中需要對(duì)頁(yè)面進(jìn)行提取,以此來(lái)獲得非結(jié)構(gòu)化連續(xù)文本,之后再對(duì)文本來(lái)進(jìn)行相應(yīng)的處理,而在處理過程中最為首要的工作就是中文文本分詞。分詞這一項(xiàng)工作主要是將已經(jīng)輸入的一段文本進(jìn)行分解,將其分解成為能夠符合邏輯的一組單詞,比如說(shuō),我們?cè)谒阉饕娈?dāng)中輸入“羽毛球拍”的時(shí)候,如果按照某一種分詞算法我們就可以將其分解成為羽毛球、球拍以及羽毛等詞匯,這就是我們所說(shuō)的中文文本分詞。在分詞算法當(dāng)中詞典是最為基礎(chǔ)也是最為簡(jiǎn)單的算法,這一種分詞手法主要是對(duì)字符串匹配完成初步工作,然后再加上少量的語(yǔ)法、詞法以及語(yǔ)義等規(guī)則;而另一種分詞手法則是基于統(tǒng)計(jì)來(lái)進(jìn)行分詞,也就是對(duì)文本當(dāng)中所存在的相鄰字同時(shí)出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),而出現(xiàn)頻率越高的詞構(gòu)成一個(gè)詞的可能性也就越高。除此之外,還有另外一些基于規(guī)則的分詞算法,比如說(shuō)通過模擬人對(duì)句子的理解而產(chǎn)生的詞匯,亦或者是對(duì)當(dāng)前這個(gè)句子詞法、語(yǔ)法來(lái)進(jìn)行適當(dāng)?shù)耐评砗头治?,這樣也能夠自動(dòng)獲得一些沒有登錄詞條,在現(xiàn)如今我們搜索輸入法當(dāng)中也是經(jīng)常會(huì)出現(xiàn)的。
2.3 數(shù)據(jù)分析
在網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)當(dāng)中數(shù)據(jù)分析十分的關(guān)鍵,可以說(shuō)是整個(gè)系統(tǒng)的智能核心,而數(shù)據(jù)分析本質(zhì)上來(lái)說(shuō)就是對(duì)數(shù)據(jù)進(jìn)行挖掘的過程,所以需要在前期來(lái)對(duì)所搜集到的網(wǎng)頁(yè)內(nèi)容來(lái)進(jìn)行一次深度的挖掘,以此來(lái)尋找其中所存在的新的輿情熱點(diǎn),同時(shí)還會(huì)對(duì)之前就存在的輿情趨勢(shì)進(jìn)行相應(yīng)的分析。通常情況下,一個(gè)較為典型的數(shù)據(jù)分析系統(tǒng)大多會(huì)存在以下幾點(diǎn)功能:
2.3.1 主題聚類
這一功能的存在能夠讓我們?cè)诒O(jiān)測(cè)過程中直接從大量數(shù)據(jù)信息當(dāng)中發(fā)現(xiàn)新的主題,其會(huì)將已經(jīng)處理了的網(wǎng)頁(yè)內(nèi)容自動(dòng)規(guī)劃到某一類或者是特征空間當(dāng)中,而在這個(gè)特征空間當(dāng)中就會(huì)通過某一種方式來(lái)將一些特征較為接近的頁(yè)面內(nèi)容進(jìn)行類別區(qū)分,而在這一過程中相應(yīng)類別的聚類中心我們就可以將其稱之為新的主題。
2.3.2 熱點(diǎn)發(fā)現(xiàn)
在現(xiàn)如今這個(gè)網(wǎng)絡(luò)發(fā)展迅猛的時(shí)代下,每天所產(chǎn)生的輿情主題是十分多的,而在這其中部分輿情主題能夠迅速成為當(dāng)下熱點(diǎn),輿情監(jiān)控系統(tǒng)則需要將這些熱點(diǎn)準(zhǔn)確的篩選出來(lái),并且將其推送給數(shù)據(jù)分析人員。在進(jìn)行熱點(diǎn)篩選的過程中需要注意的是,可以就這一主題在某一時(shí)間段內(nèi)所出現(xiàn)的頻次以及這一主題所產(chǎn)生的影響力和發(fā)展速度等方面來(lái)進(jìn)行分析。
2.3.3 話題追蹤
網(wǎng)絡(luò)話題也有其生命周期,而其生命周期則是從事件主題發(fā)生而開始,之后再經(jīng)過一段時(shí)間之后就會(huì)發(fā)展演化成為輿情熱點(diǎn),而后就會(huì)開始降低熱度直至消散。在話題追蹤過程中,話題會(huì)出現(xiàn)編譯或者是分支,而這些因素都可以在開展網(wǎng)絡(luò)輿情決策分析的時(shí)候進(jìn)行考慮和分析,在話題追蹤過程中其本身會(huì)對(duì)較多的話題生命周期進(jìn)行分析,而我們則可以在這一過程中總結(jié)出一定的規(guī)律,這樣就能對(duì)某一個(gè)話題的下一個(gè)階段進(jìn)行預(yù)測(cè)。
2.3.4 情感識(shí)別
網(wǎng)絡(luò)話題不僅會(huì)對(duì)某一個(gè)話題事件進(jìn)行客觀描述,其本身有時(shí)還會(huì)存在一定的情感傾向,尤其是網(wǎng)民在對(duì)某一個(gè)話題進(jìn)行回復(fù)的時(shí)候情感傾向會(huì)變得越發(fā)的明顯。從整體上來(lái)分析的話,情感傾向一般情況下有三種方向,其分別是反對(duì)、贊成和中立,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)如果能夠很好的展示出網(wǎng)民對(duì)于該話題的情感傾向,就能更好地以此作為決策分析依據(jù)。
2.4 結(jié)果呈現(xiàn)
網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)主要的目的還是為了能夠提供更加有效且合理的決策依據(jù),所以說(shuō),系統(tǒng)分析結(jié)果在呈現(xiàn)的時(shí)候最好是簡(jiǎn)單直觀,這樣決策分析人員就能更好地對(duì)其進(jìn)行分析和挖掘。為此,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)結(jié)果呈現(xiàn)這一部分最好是能夠動(dòng)態(tài)圖形化來(lái)展示出相應(yīng)的結(jié)果,同時(shí)對(duì)于一些重大拐點(diǎn)以及輿情熱點(diǎn)進(jìn)行主動(dòng)推送警告,而這一技術(shù)所需要實(shí)現(xiàn)的功能最好包括以下幾個(gè)方面:輿情熱點(diǎn)、拐點(diǎn)的警告;針對(duì)所有主題的查詢;新主題的推送以及輿情發(fā)展態(tài)勢(shì)圖。
3 結(jié)語(yǔ)
綜上所述,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)對(duì)于網(wǎng)絡(luò)健康和諧發(fā)展有著顯著的作用,而一個(gè)輿情監(jiān)控系統(tǒng)的形成,不管存在任何細(xì)節(jié)差異,其關(guān)鍵技術(shù)還是體現(xiàn)在數(shù)據(jù)獲取、預(yù)處理、數(shù)據(jù)分析、結(jié)果呈現(xiàn)等方面,所以說(shuō),要想有效的發(fā)揮出網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的價(jià)值,還是要不斷對(duì)其進(jìn)行完善,著重于數(shù)據(jù)采集以及輿情智能分析決策等方面,以此來(lái)不斷提高網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的價(jià)值,促進(jìn)網(wǎng)絡(luò)健康發(fā)展。
參考文獻(xiàn)
[1]唐勇.互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué),2013.
[2]陳濤,基于Hadoop的農(nóng)業(yè)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)研究與實(shí)現(xiàn)
以農(nóng)產(chǎn)品安全為例[J].中國(guó)農(nóng)業(yè)科學(xué)院,2017.
[3]楊旭東,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)關(guān)鍵技術(shù)研究[J].信息網(wǎng)絡(luò)安全,2016 (09): 251-256.
[4]王寧,王曉峰,面向網(wǎng)絡(luò)輿情監(jiān)測(cè)的關(guān)鍵技術(shù)研究[J].經(jīng)濟(jì)管理:全文版:00143-0014 3.
[5]王靜,面向互聯(lián)網(wǎng)輿情分析的海量數(shù)據(jù)檢索模型關(guān)鍵技術(shù)研究[D],首都師范大學(xué),2013.