(川北醫(yī)學(xué)院,四川 南充 637000)
網(wǎng)絡(luò)輿情主要是廣大網(wǎng)民對(duì)于社會(huì)中的各種熱點(diǎn)事件提出的意見(jiàn)、闡述的觀點(diǎn)和發(fā)表的看法等。網(wǎng)絡(luò)輿情同時(shí)也是新時(shí)期社會(huì)輿論的全新形式,其主要以網(wǎng)絡(luò)作為基礎(chǔ)載體,主要特征包括匿名性和開(kāi)放性,全面聚合廣大網(wǎng)民,形成一種多元多變、較高分散度和較強(qiáng)傾向性的網(wǎng)絡(luò)言論,因此擁有影響力較大、傳播力強(qiáng)、速度快和時(shí)間短等特征。
立足于數(shù)據(jù)分析角度層面,機(jī)器學(xué)習(xí)主要將探索人學(xué)習(xí)機(jī)制作為主要任務(wù),傾向于科學(xué)性而非技術(shù)性,主要利用機(jī)器算法,聯(lián)系語(yǔ)意分析技術(shù),實(shí)施關(guān)鍵字匹配,深入挖掘網(wǎng)絡(luò)輿情信息,有效還原事件原貌。
借助機(jī)器學(xué)習(xí),對(duì)19年阿聯(lián)酋亞洲杯的網(wǎng)絡(luò)輿情走向和趨勢(shì)進(jìn)行對(duì)比分析,例如在1月20日的1/8決賽中,泰國(guó)和中國(guó)對(duì)抗賽中,網(wǎng)絡(luò)輿論下PP 體育和新浪微博信息量遠(yuǎn)遠(yuǎn)超出傳統(tǒng)足球報(bào)和體育報(bào),而其中信息量最多的便是新浪微博,同時(shí)于亞洲杯專欄中,國(guó)足得到了較高點(diǎn)贊量,特別是在發(fā)布比分被扳平的新聞中,轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù)呈直線上升趨勢(shì),廣大網(wǎng)民形成了強(qiáng)烈反響。評(píng)論內(nèi)容以正能量詞語(yǔ)居多,縱觀亞洲杯階段,網(wǎng)絡(luò)輿情內(nèi)和國(guó)足相關(guān)的內(nèi)容占據(jù)74.1%,同時(shí)占據(jù)主流輿論的是支持態(tài)度。
研究網(wǎng)絡(luò)輿情的主要目的便是為了能夠在短時(shí)間內(nèi)快速得到具體的輿情內(nèi)容,同時(shí)對(duì)整個(gè)事件的發(fā)展過(guò)程進(jìn)行分析,準(zhǔn)確預(yù)測(cè)發(fā)展趨勢(shì)和走向。在結(jié)束機(jī)器學(xué)習(xí)后,便需要詳細(xì)分析具體內(nèi)容,準(zhǔn)確發(fā)現(xiàn)其中的深層原因。在內(nèi)容分析中融入大數(shù)據(jù)技術(shù),可以合理設(shè)置多重關(guān)鍵詞,針對(duì)概念進(jìn)行合理引申,進(jìn)一步提升了內(nèi)容篩選準(zhǔn)確性,同時(shí)于編碼中還可以實(shí)時(shí)監(jiān)測(cè)編碼結(jié)果。比如政府推出某項(xiàng)政策,網(wǎng)民的意見(jiàn)各不相同,為此需要針對(duì)政策內(nèi)容和范圍進(jìn)行持續(xù)細(xì)化,同時(shí)詳細(xì)劃分網(wǎng)民不同態(tài)度,包括完全反對(duì)、大體反對(duì)、保持中立、大體認(rèn)同和完全認(rèn)同五種層次,如此能夠更為清晰掌握網(wǎng)民想法[1]。
大數(shù)據(jù)和網(wǎng)絡(luò)輿情在特點(diǎn)層面存在對(duì)應(yīng)特征。大數(shù)據(jù)涵蓋海量數(shù)據(jù)和部分的數(shù)據(jù)處理方法和技術(shù)。網(wǎng)絡(luò)輿情也不是網(wǎng)絡(luò)內(nèi)直接存在直接應(yīng)用的數(shù)據(jù),而是通過(guò)挖掘、提取數(shù)據(jù)得到的信息。網(wǎng)絡(luò)輿情采集分析工作和大數(shù)據(jù)正好互相契合。
大數(shù)據(jù)技術(shù)是網(wǎng)絡(luò)輿情管理數(shù)據(jù)的基礎(chǔ)性內(nèi)容,大數(shù)據(jù)輿情分析也是以數(shù)據(jù)挖掘和分析為基礎(chǔ),網(wǎng)絡(luò)輿情相關(guān)數(shù)據(jù)整體價(jià)值密度較低,只有對(duì)其進(jìn)行大數(shù)據(jù)詳細(xì)分析才能夠順利達(dá)到更加準(zhǔn)確、詳細(xì)和全面的網(wǎng)絡(luò)輿情。大數(shù)據(jù)也為采集海量數(shù)據(jù)信息提供了基礎(chǔ)工具,可以選擇的數(shù)據(jù)采集技術(shù)包括全文檢索系統(tǒng)、社交網(wǎng)站信息采集、RSS(簡(jiǎn)易信息聚合)摘要搜集等。借助上述技術(shù)能夠針對(duì)知乎、豆瓣、天涯論壇等各種知名論壇實(shí)施數(shù)據(jù)采集。
全文檢索系統(tǒng)是借助全文搜索引擎,通過(guò)協(xié)議接口針對(duì)某個(gè)網(wǎng)站內(nèi)的多樣數(shù)據(jù)類型實(shí)施合理檢索和采集。以大數(shù)據(jù)技術(shù)為基礎(chǔ)的全文檢索系統(tǒng)還可以借助特定協(xié)議接口,創(chuàng)建動(dòng)態(tài)化的全文檢索中間庫(kù),符合非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)檢索采集需求。在網(wǎng)絡(luò)中針對(duì)某個(gè)事件出現(xiàn)討論熱潮后,借助系統(tǒng)自身搜集能力,可以直接掃描、抓取和搜索網(wǎng)站內(nèi)的文件和數(shù)據(jù)庫(kù),促進(jìn)網(wǎng)絡(luò)輿情實(shí)現(xiàn)有效的信息采集。
社交網(wǎng)絡(luò)信息采集,主要是面向提供社交網(wǎng)絡(luò)服務(wù)的媒體平臺(tái)進(jìn)行信息的實(shí)時(shí)采集和抓取。比如新浪微博相關(guān)API(Application Programming Interface,應(yīng)用程序編程接口)借助分布式微博爬蟲(chóng)程序,能夠利用社交網(wǎng)絡(luò)服務(wù)API 采集信息,同時(shí)對(duì)微博中的個(gè)人評(píng)論、微博和用戶之間關(guān)系等信息數(shù)據(jù)實(shí)施爬取。進(jìn)一步擴(kuò)展了網(wǎng)民社交信息采集的廣度,提高了采集效率,為下一階段輿情分析提供有效數(shù)據(jù)來(lái)源。
RSS 摘要搜集即借助RSS 種子摘要信息針對(duì)博客類網(wǎng)站和新聞?lì)惥W(wǎng)站實(shí)施數(shù)據(jù)采集工作。同時(shí)還可以針對(duì)和采集目標(biāo)密切聯(lián)系的各種種子聚合,能夠全面、快速感知某個(gè)事件的發(fā)展動(dòng)態(tài)。
在借助大數(shù)據(jù)技術(shù)針對(duì)海量原始數(shù)據(jù)信息實(shí)施抓取后,需要實(shí)施創(chuàng)建索引、轉(zhuǎn)換、過(guò)濾、去重、聚類等初步處理,同時(shí)針對(duì)采集的數(shù)據(jù)信息實(shí)施有效補(bǔ)充和清洗。為下一階段的數(shù)據(jù)挖掘、輿情研究分析和研究奠定良好基礎(chǔ)。
大數(shù)據(jù)技術(shù)下的信息處理技術(shù)主要是以HDFS(Hadoop Distributed File System,Hadoop 分布式文件系統(tǒng))存儲(chǔ)為基礎(chǔ)支持,借助數(shù)據(jù)倉(cāng)庫(kù)工具以及關(guān)系型分布式數(shù)據(jù)庫(kù)完成。通過(guò)創(chuàng)建關(guān)鍵詞匯庫(kù)和數(shù)據(jù)索引,形成輿情數(shù)據(jù)倉(cāng)庫(kù),將全部的數(shù)據(jù)信息儲(chǔ)存到數(shù)據(jù)庫(kù)內(nèi)。大數(shù)據(jù)內(nèi)涵蓋了集成技術(shù)和數(shù)據(jù)分類技術(shù),能夠針對(duì)網(wǎng)絡(luò)輿情實(shí)施分類分析、聚類分析。
聚類分析針對(duì)數(shù)據(jù)集內(nèi)全部數(shù)據(jù)信息根據(jù)相似性進(jìn)行合理劃分,分解成多種類別過(guò)程。借助該種操作,能夠針對(duì)擁有較高相似性的數(shù)據(jù)實(shí)施有效聚集,幫助不同數(shù)據(jù)集合理劃分界限。當(dāng)下的聚類方式主要包括兩種形式。過(guò)程聚類能夠呈現(xiàn)出網(wǎng)民的觀點(diǎn)態(tài)度和情緒變化,合理把握整個(gè)輿情變化過(guò)程,避免產(chǎn)生突然性的輿情危機(jī)。觀點(diǎn)聚類主要是聚集網(wǎng)絡(luò)中的同類觀點(diǎn),對(duì)主體意見(jiàn)和態(tài)度之間的比例分布進(jìn)行合理分析。分類分析則是針對(duì)聚類分析后所得的數(shù)據(jù)信息,根據(jù)事先設(shè)定好的管理指標(biāo)實(shí)施科學(xué)分類。比如可以立足于當(dāng)下的工作需求,針對(duì)原始數(shù)據(jù)信息實(shí)施有效篩選后進(jìn)行合理分類。具體可以分成醫(yī)療衛(wèi)生、教育、司法、環(huán)境保護(hù)等類型,為下一階段網(wǎng)絡(luò)輿情分析奠定良好基礎(chǔ)。
數(shù)據(jù)挖掘技術(shù)屬于大數(shù)據(jù)技術(shù)中的核心,即在隨機(jī)、零碎、殘缺和海量數(shù)據(jù)信息中,挖掘出尚未被發(fā)現(xiàn)的價(jià)值信息值。統(tǒng)計(jì)技術(shù)、人工智能和數(shù)據(jù)庫(kù)屬于數(shù)據(jù)挖掘技術(shù)中的主要組成內(nèi)容,擁有關(guān)聯(lián)分析、研判、預(yù)測(cè)以及誤差分析等功能。能夠進(jìn)一步提升數(shù)據(jù)利用、提取效率,從最大程度出發(fā),分析數(shù)據(jù)中所隱含的輿情走勢(shì),準(zhǔn)確把握網(wǎng)絡(luò)輿情的最佳處理時(shí)機(jī),提升網(wǎng)絡(luò)輿情處理速度。此外,還可以在以往數(shù)據(jù)信息中合理總結(jié)適合相同類型事件的發(fā)展規(guī)律,借助專業(yè)模型,對(duì)未來(lái)該種事件輿情演變進(jìn)行合理把握。
數(shù)據(jù)挖掘技術(shù)和網(wǎng)絡(luò)輿情緊密聯(lián)合的便是意見(jiàn)挖掘法,該種措施通過(guò)對(duì)特定領(lǐng)域創(chuàng)建文本本體,提取其中的主題觀點(diǎn)。隨后通過(guò)創(chuàng)建極性詞典,分析關(guān)鍵詞的情感傾向,考慮多種方法,最終了解目標(biāo)文本情感傾向性。大數(shù)據(jù)技術(shù)條件下,情感詞匯相關(guān)獲取工作以及極性定量分析進(jìn)一步從人工判定轉(zhuǎn)化成借助語(yǔ)料庫(kù)計(jì)算詞匯傾向相似度。同時(shí)還可以借助語(yǔ)言學(xué)知識(shí),針對(duì)詞匯構(gòu)成特征實(shí)施定量分析。
預(yù)測(cè)和時(shí)序功能即在出現(xiàn)某個(gè)事件后,能夠快速梳理熱門(mén)話題和討論,掌握當(dāng)下的民心和民意,及時(shí)發(fā)現(xiàn)各種不良輿情苗頭和輿情危機(jī)導(dǎo)火線。通過(guò)準(zhǔn)確把握網(wǎng)絡(luò)輿情實(shí)時(shí)走向,對(duì)各種虛假信息進(jìn)行合理封堵,避免出現(xiàn)二次輿情問(wèn)題。促進(jìn)管理工作順利從事中處置轉(zhuǎn)化為事前預(yù)警,進(jìn)行快速應(yīng)對(duì)。
將大數(shù)據(jù)技術(shù)融入網(wǎng)絡(luò)輿情報(bào)告當(dāng)中,可以在傳統(tǒng)模式下的文字?jǐn)⑹龌A(chǔ)上,合理選擇應(yīng)用其他更加直觀、生動(dòng)的圖片、表現(xiàn)呈現(xiàn)出事件全貌。比如輿情走勢(shì)分析圖、熱度直方圖、分布散點(diǎn)圖、評(píng)論百分比餅狀圖、關(guān)系網(wǎng)狀圖等多樣的圖表工具。促進(jìn)輿情報(bào)告和大數(shù)據(jù)技術(shù)融合,能夠全面解釋整個(gè)社會(huì)關(guān)系。為后期的研判決策處置提供較為直觀的參考信息。
從網(wǎng)絡(luò)輿情數(shù)據(jù)相關(guān)發(fā)送呈報(bào)層面分析,可以促進(jìn)大數(shù)據(jù)和多種網(wǎng)絡(luò)媒體全面聯(lián)合,不但能夠提升信息安全性,同時(shí)還可以借助APP 智能推送、RSS 訂閱和郵件等方式進(jìn)行呈報(bào)。準(zhǔn)確上報(bào)整合后的輿情信息。借助大數(shù)據(jù)技術(shù)還可以提供定制輿情報(bào)送、個(gè)性化推送等服務(wù)。
綜上所述,國(guó)內(nèi)的輿情環(huán)境相對(duì)而言十分復(fù)雜,借助先進(jìn)的大數(shù)據(jù)技術(shù),能夠針對(duì)網(wǎng)絡(luò)輿情實(shí)施科學(xué)分析與有效管理,幫助順利化解各種輿情危機(jī),提升整體輿情控制能力,創(chuàng)造良好的輿情環(huán)境。