呂波
(雅安職業(yè)技術(shù)學(xué)院 四川省雅安市 625000)
據(jù)最新統(tǒng)計(jì)結(jié)果顯示,截止2020年3月,中國(guó)網(wǎng)民規(guī)模達(dá)到了驚人的9.04 億,普及率上升到64.5%,并且伴有延展之勢(shì)。宏觀信息化時(shí)代生態(tài)下,互聯(lián)網(wǎng)技術(shù)不斷發(fā)展成熟,并日益深入到人們生產(chǎn)生活的各個(gè)領(lǐng)域,甚至成為了不可分割的一部分。在高度開(kāi)放的互聯(lián)網(wǎng)虛擬空間,用戶的身份角色發(fā)生了巨大變化,有了更加廣闊的發(fā)聲渠道,更是加劇了不同國(guó)家之間的跨文化傳播,日益成為復(fù)雜意見(jiàn)的集散地、輿論的溫床,給相關(guān)監(jiān)管工作提出了嚴(yán)峻挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)在其中的應(yīng)用發(fā)揮了重要作用。
在當(dāng)前信息化引領(lǐng)的社會(huì)發(fā)展新潮下,技術(shù)創(chuàng)新達(dá)到了一個(gè)新的頂峰,包括互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等,進(jìn)一步便捷了人們的生產(chǎn)生活,并產(chǎn)出了巨大的應(yīng)用價(jià)值。數(shù)據(jù)挖掘技術(shù)作為現(xiàn)代科技創(chuàng)新的重要成果,是一種數(shù)據(jù)處理的技術(shù),從大量的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中提取有用信息和知識(shí)的過(guò)程。綜合來(lái)講,數(shù)據(jù)挖掘是一個(gè)循環(huán)往復(fù)的過(guò)程,其中的每個(gè)步驟如若沒(méi)有達(dá)成預(yù)期目標(biāo),則需重回前面的步驟調(diào)整并執(zhí)行。尤其是知識(shí)經(jīng)濟(jì)時(shí)代,各學(xué)科之間的交叉滲透趨勢(shì)明顯,信息總量激增,且更新速度加快,人們的需求取向已由簡(jiǎn)單的獲取發(fā)展為個(gè)性化、專業(yè)化,網(wǎng)絡(luò)輿情亦是由此變得更加個(gè)性化、專業(yè)化。面對(duì)海量數(shù)據(jù)的淹沒(méi),人們卻仍然感到知識(shí)饑渴,數(shù)據(jù)挖掘技術(shù)則由此應(yīng)運(yùn)而生,并蓬勃發(fā)展而來(lái),應(yīng)用范圍不斷延展,顯示出了強(qiáng)勁的生命力。從某種意義上講,數(shù)據(jù)挖掘技術(shù)被視作為是知識(shí)發(fā)現(xiàn)技術(shù)在數(shù)據(jù)庫(kù)領(lǐng)域中的應(yīng)用。在現(xiàn)實(shí)的技術(shù)創(chuàng)新語(yǔ)境下,數(shù)據(jù)挖掘的技術(shù)支柱愈加繁多,包括數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)等,均能輔助人們進(jìn)行更為合理、準(zhǔn)確且富有針對(duì)性的判斷,從而提高了網(wǎng)絡(luò)熱點(diǎn)輿情信息的處置效率。
根據(jù)百度百科的相關(guān)釋義,所謂網(wǎng)絡(luò)輿情即是指在互聯(lián)網(wǎng)上流行的對(duì)社會(huì)問(wèn)題不同看法的網(wǎng)絡(luò)輿論,是社會(huì)輿論的一種表現(xiàn)形式,通過(guò)互聯(lián)網(wǎng)傳播的公眾對(duì)現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問(wèn)題所持有的較強(qiáng)影響力、傾向性的言論觀點(diǎn)。有學(xué)者對(duì)此進(jìn)行了較為科學(xué)的總結(jié),認(rèn)為“網(wǎng)絡(luò)輿情以網(wǎng)絡(luò)為載體,以事件為核心,廣大網(wǎng)民情感、態(tài)度、意見(jiàn)、觀點(diǎn)的表達(dá)、傳播與互動(dòng),以及后續(xù)影響力的集合”。在如今互聯(lián)網(wǎng)絡(luò)高度發(fā)展的社會(huì)情態(tài)下,網(wǎng)絡(luò)輿情的表現(xiàn)形式趨于多樣,包括新聞評(píng)論,BBS 論壇、微博、轉(zhuǎn)帖等,其本身龐大的受眾基礎(chǔ),使之對(duì)政治生活和社會(huì)穩(wěn)定的影響與日俱增,并深刻影響著人們的認(rèn)知結(jié)構(gòu),一旦處理不當(dāng),很有可能引起民眾的負(fù)面情緒甚至過(guò)激反應(yīng),是威脅社會(huì)穩(wěn)定、和諧的重要因子。尤其是全球一體化生態(tài)格局下,互聯(lián)網(wǎng)高度的開(kāi)放性,打開(kāi)了世界各國(guó)的信息交互通道,網(wǎng)絡(luò)輿論成為了西方資本主義攻擊中國(guó)特色社會(huì)主義的一大“利器”,是國(guó)家和人民關(guān)注的焦點(diǎn)。互聯(lián)網(wǎng)與生俱來(lái)的開(kāi)放性和虛擬性,使得網(wǎng)絡(luò)輿情呈現(xiàn)出了直接性、隨意性、多元化、突發(fā)性、隱蔽性、偏差性等特點(diǎn),亦是給相關(guān)治理造成了較大的難度。
在數(shù)據(jù)挖掘領(lǐng)域,R.Agrawal 率先提出了關(guān)聯(lián)規(guī)則,即兩個(gè)或以上變量的取值之間存在某種規(guī)律性。作為數(shù)據(jù)挖掘最成熟的技術(shù)之一,關(guān)聯(lián)分析可以發(fā)現(xiàn)一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,并通過(guò)其內(nèi)在的隱含特征建立關(guān)聯(lián)。事實(shí)上,多數(shù)關(guān)聯(lián)規(guī)則挖掘算法都能夠毫無(wú)遺漏的發(fā)現(xiàn)所隱藏在對(duì)象數(shù)據(jù)中的關(guān)聯(lián)關(guān)系,并總結(jié)出一類重要的知識(shí),其目的就在于找出隱藏在數(shù)據(jù)庫(kù)中的關(guān)聯(lián)網(wǎng)。一般來(lái)講,按照其運(yùn)行機(jī)理的差異,關(guān)聯(lián)規(guī)則又可分為簡(jiǎn)單關(guān)聯(lián)、因果關(guān)聯(lián)、時(shí)序關(guān)聯(lián)等幾類,核心參數(shù)指標(biāo)包括可信度、支持度、作用度以及期望可信度。與此同時(shí),當(dāng)用前兩項(xiàng)參數(shù)度量關(guān)聯(lián)規(guī)則的相關(guān)性時(shí),一般還涉及興趣度、相關(guān)性等參數(shù),作為一種補(bǔ)充限定條件,可最大限度滿足數(shù)據(jù)挖掘需求。當(dāng)支持度越高時(shí),關(guān)聯(lián)規(guī)則的重要性愈加突出,應(yīng)用則更加廣泛,折射出了其在所有事務(wù)中的代表性。基于關(guān)聯(lián)規(guī)則技術(shù)的網(wǎng)絡(luò)熱門輿情分析,可以幫助人們從紛雜的數(shù)據(jù)信息以及行為現(xiàn)象中找出其所產(chǎn)生、變化的內(nèi)在影響因素,最終得出網(wǎng)絡(luò)熱門輿情變動(dòng)規(guī)律與影響因素之間的相互關(guān)系,對(duì)于其更加深層次的引導(dǎo)處置有著重要的現(xiàn)實(shí)意義。
所謂聚類即是指把相似的對(duì)象通過(guò)靜態(tài)分類的方法分成不同的組別或者更多的子集,從而使同一子集中的成員對(duì)象具有一些相似的屬性,其并非一種特定的算法,而是一個(gè)大體上需要解決的任務(wù),即探索性數(shù)據(jù)挖掘的主要任務(wù)。面對(duì)復(fù)雜多變的網(wǎng)絡(luò)熱門輿情,聚類分析可在不預(yù)先知道目標(biāo)數(shù)據(jù)庫(kù)到底有多少類的情況下,盡可能將所有記錄劃分為不同的類,并以某種度量為標(biāo)準(zhǔn)的相似性,在同一聚類內(nèi)最小化、不同聚類內(nèi)最大化,從而建立數(shù)據(jù)屬性之間的相互關(guān)系。在商業(yè)領(lǐng)域,通過(guò)聚類分析,市場(chǎng)分析人員可以從龐雜的消費(fèi)數(shù)據(jù)庫(kù)中提取不同的消費(fèi)者信息,并總結(jié)概括具有相似習(xí)慣的消費(fèi)群體,針對(duì)性地輸出服務(wù),實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。而正是基于數(shù)據(jù)挖掘技術(shù)的這一優(yōu)勢(shì)功能,網(wǎng)絡(luò)熱門輿情分析中,可以對(duì)復(fù)雜多變的大數(shù)據(jù)系統(tǒng)進(jìn)行聚類,亦可對(duì)網(wǎng)絡(luò)用戶進(jìn)行聚類,從而得出相似的特征,以便于進(jìn)一步的研究和應(yīng)對(duì)。在此過(guò)程中,聚類的度量標(biāo)準(zhǔn)既可以是信息的使用情況,又可以是信息內(nèi)容的特征。在數(shù)據(jù)挖掘技術(shù)高速發(fā)展的今天,聚類分析的方法有很多種,包括根據(jù)數(shù)據(jù)類型、聚類目的、應(yīng)用情況的方法,亦有基于密度、基于網(wǎng)格、基于模型的方法等。
作為數(shù)據(jù)挖掘的主要任務(wù)之一,分類分析是找出一個(gè)類別的內(nèi)涵描述,其代表了該類數(shù)據(jù)的整體信息,并與其他數(shù)據(jù)區(qū)別開(kāi)來(lái),從而構(gòu)造規(guī)則或決策樹(shù)模型,現(xiàn)今發(fā)展已然相當(dāng)成熟。對(duì)此,知名學(xué)者李志聰認(rèn)為,“分類的目的是分析輸出數(shù)據(jù),通過(guò)在訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出的特性,為每一個(gè)類找出一種準(zhǔn)確的描述或模型,由此生成的類描述用來(lái)對(duì)未來(lái)的測(cè)試數(shù)據(jù)進(jìn)行分類”。從這個(gè)層面意義上來(lái)看,分類與聚類有著較高的相似性,均附帶有明顯的數(shù)據(jù)分類分組功能屬性,并根據(jù)一定條件對(duì)海量數(shù)據(jù)庫(kù)信息進(jìn)行篩選分組。但是兩者有存在明顯的差別,分類主要是根據(jù)預(yù)先設(shè)定好的特征參數(shù)對(duì)數(shù)據(jù)對(duì)象進(jìn)行分組?;诜诸惖木W(wǎng)絡(luò)熱門輿情分析,可以需求為導(dǎo)向,對(duì)海量數(shù)據(jù)信息進(jìn)行初步篩選,并根據(jù)設(shè)定的需求核心,如民生問(wèn)題、突發(fā)事件、公共安全等進(jìn)行分組,為下一步的工作展開(kāi)鋪墊了基礎(chǔ)。正是基于此,可進(jìn)一步有效縮小數(shù)據(jù)挖掘的范圍,從而避免了盲目搜索,對(duì)提高網(wǎng)絡(luò)熱門輿情分析的效率和質(zhì)量作用顯著,從而抽離出更加精準(zhǔn)、有意義的價(jià)值信息,是迎接海量、碎片化干擾的重要技術(shù)方法。
時(shí)序模式可視作為關(guān)聯(lián)規(guī)則在考慮時(shí)間因素后衍生出的產(chǎn)物,是根據(jù)數(shù)據(jù)信息發(fā)生的時(shí)間序列進(jìn)行升序或降序排列,并整合分析出重復(fù)發(fā)生概率較高的事件?;跀?shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)熱門輿情分析,可充分運(yùn)用時(shí)序功能,并搭配預(yù)測(cè)功能,實(shí)現(xiàn)更好地監(jiān)控預(yù)警,繼而對(duì)社會(huì)運(yùn)行接近負(fù)向變質(zhì)的臨界值的程度所做出初步確定的早期預(yù)報(bào)。在現(xiàn)實(shí)生活中,一些危害社會(huì)公共安全、穩(wěn)定、和諧的不良事件發(fā)生整個(gè)過(guò)程,從發(fā)生之前到最終結(jié)束,都會(huì)伴隨有一定的現(xiàn)象,并可通過(guò)海量網(wǎng)絡(luò)數(shù)據(jù)信息的收集分類,針對(duì)性地預(yù)判。基于此,可結(jié)合分類分析反饋的數(shù)據(jù)結(jié)果,對(duì)該類數(shù)據(jù)進(jìn)行有規(guī)律的預(yù)測(cè)或優(yōu)先等級(jí)排序,繼而制定更為詳盡、可行的網(wǎng)絡(luò)熱門輿情處置計(jì)劃,有所側(cè)重的逐級(jí)推進(jìn),可達(dá)到最佳的不良事件預(yù)防和控制效果。與此同時(shí),數(shù)據(jù)挖掘中的時(shí)序功能,還有利于及時(shí)掌握網(wǎng)絡(luò)熱門輿情的發(fā)展動(dòng)態(tài),推動(dòng)著網(wǎng)絡(luò)熱門輿情處理從即時(shí)處置向事前預(yù)警模式的轉(zhuǎn)變,有助于進(jìn)一步遏制很多事件向消極面的演變發(fā)展,相對(duì)精準(zhǔn)地預(yù)測(cè)網(wǎng)絡(luò)用戶的傾向和意愿,及時(shí)封堵各類有害信息傳播。通過(guò)網(wǎng)絡(luò)熱門輿情的時(shí)序分析,在其大規(guī)模爆發(fā)之前,充分發(fā)揮官方網(wǎng)站的先發(fā)優(yōu)勢(shì),快速應(yīng)對(duì),以正視聽(tīng)。
在整個(gè)數(shù)據(jù)挖掘系統(tǒng)中,偏差分析是探測(cè)數(shù)據(jù)現(xiàn)狀、歷史記錄或標(biāo)準(zhǔn)之間的顯著變化和偏離,包括很大一類潛在的有趣知識(shí)。通過(guò)偏差分析,可及時(shí)查找出數(shù)據(jù)庫(kù)中的異常信息,通過(guò)尋找觀察結(jié)果與參照之間的差別,發(fā)現(xiàn)網(wǎng)絡(luò)熱門輿情中的異常情況,繼而予以處置。早在2008年發(fā)生的“3.14 事件”中,西方媒體不約而同地刊載了一張西藏公安武警解救被襲擊民眾的照片,并將之生硬地說(shuō)成是抓捕行動(dòng),完全忽視了照片中救護(hù)車上大大的“急救”二字。這種張冠李戴的現(xiàn)象在西方媒體的報(bào)道中比比皆是,明顯的偏差,造成了惡意炒作、蓄意煽動(dòng)輿論的影響,顯示出了其明確的反華立場(chǎng)。偏差分析在網(wǎng)絡(luò)熱門輿情研究中的應(yīng)用,其核心價(jià)值就在于識(shí)別虛假信息和不良信息,并進(jìn)行及時(shí)的批判,從而糾正其中存在的偏差,讓造假、誹謗等不攻自破。由此看來(lái),基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)熱門輿情分析,在偏差分析的功能輔助下,不僅可以治理既已發(fā)展的不良輿論,引導(dǎo)正確的走向,且有助于及時(shí)、準(zhǔn)確地海量數(shù)據(jù)中與網(wǎng)絡(luò)熱點(diǎn)事件相關(guān)的真實(shí)信息,包括權(quán)威發(fā)布、相關(guān)評(píng)論、網(wǎng)絡(luò)論壇等,從而形成正面輿論,通過(guò)多樣化手段或多種渠道予以引導(dǎo)。
所謂預(yù)測(cè)即是利用歷史數(shù)據(jù)中找出的變化規(guī)律,建立專用模型,并藉此來(lái)預(yù)測(cè)未來(lái)數(shù)據(jù)的種類及特征等,繼而總結(jié)出未來(lái)可能出現(xiàn)的結(jié)果。在此過(guò)程中,通過(guò)對(duì)歷史數(shù)據(jù)的分析,找出其中隱藏的、未來(lái)可能發(fā)生的進(jìn)行提前預(yù)判,為網(wǎng)絡(luò)熱點(diǎn)輿情的后續(xù)處理做充足準(zhǔn)備,其核心關(guān)鍵在于精度和不確定性,一般可利用預(yù)測(cè)方差進(jìn)行度量?;陬A(yù)測(cè)的網(wǎng)絡(luò)熱門輿情分析,應(yīng)當(dāng)是一個(gè)系統(tǒng)化的組織過(guò)程,在具體的工作踐行中要事先做好組織和指導(dǎo),明確導(dǎo)向目標(biāo),并成立專門的參加專家團(tuán)隊(duì),其帶表面要廣泛,一般包括設(shè)計(jì)、生產(chǎn)、管理和決策等多層面的人員,他們本身有著豐富的實(shí)踐經(jīng)驗(yàn)和理論知識(shí)。在此基礎(chǔ)上,對(duì)其所反饋的意見(jiàn)信息進(jìn)行匯總、梳理、統(tǒng)計(jì)和分析,最終得出預(yù)測(cè)結(jié)論。從某種維度視角上,預(yù)測(cè)即是趨勢(shì)分析,根據(jù)德?tīng)柗品☉?yīng)當(dāng)組織四輪征詢調(diào)查和反饋。其中,第一輪的調(diào)查并不限制條件,只提出需要預(yù)測(cè)的問(wèn)題。第二輪調(diào)查則對(duì)上一輪提出的事件發(fā)生時(shí)間、空間、規(guī)模等進(jìn)行詳細(xì)預(yù)測(cè),并給出相應(yīng)的理由。第三輪與第二輪內(nèi)容相似,只是加以修訂,給出更加詳盡的理由及相關(guān)理由。第四輪得出最終較為精準(zhǔn)的結(jié)果。
總而言之,基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)熱門輿情分析十分重要和必要,是現(xiàn)實(shí)語(yǔ)境下的必然選擇,作為一項(xiàng)龐雜的系統(tǒng)化工程,包括關(guān)聯(lián)、聚類、分類、時(shí)序、偏差、預(yù)測(cè)等,以便于進(jìn)一步穩(wěn)固社會(huì)基礎(chǔ)。作者希望學(xué)術(shù)界大家持續(xù)關(guān)注此類課題研究,結(jié)合實(shí)際情況,立足現(xiàn)實(shí)社會(huì)發(fā)展語(yǔ)境,從不同維度視角提出更多有效基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)熱門輿情分析策略。