王晨妮 王宇晨 張超 劉藍(lán)靜
摘 ?要:針對(duì)目前熱點(diǎn)焦點(diǎn)問(wèn)題更新頻率高,企業(yè)對(duì)自身輿情監(jiān)測(cè)不到位的情況,設(shè)計(jì)開(kāi)發(fā)出一套完整體系性的企業(yè)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)。該系統(tǒng)可針對(duì)企業(yè)的相關(guān)信息進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)處理,同時(shí)利用情感分析及個(gè)性化處理技術(shù),形成可視化的輿情分析報(bào)告,為企業(yè)分析預(yù)測(cè)自身輿情提供了完善的渠道。
關(guān)鍵詞:數(shù)據(jù)抓取;非結(jié)構(gòu)化數(shù)據(jù)處理;輿情分析;監(jiān)測(cè)
中圖分類號(hào):TP391.7 ? ? ? 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2019)13-0038-03
Abstract: In view of the high update frequency of hot focus issues and the fact that enterprises are not in place to monitor their own public opinion, a complete and systematic enterprise network public opinion monitoring system is designed and developed. The system can deal with the unstructured data of the relevant information of the enterprise, and at the same time use the emotional analysis and personalized processing technology to form a visual public opinion analysis report, which provides a perfect channel for the enterprise to analyze and predict its own public opinion.
Keywords: data capture; unstructured data processing; public opinion analysis; monitoring
目前,許多企業(yè)在進(jìn)行輿情把控時(shí),未能做到有效處理輿情信息并針對(duì)輿情做出及時(shí)的應(yīng)對(duì)對(duì)策。通常企業(yè)內(nèi)部鮮有專門設(shè)立的應(yīng)對(duì)輿情的部門,而是其媒體部門負(fù)責(zé)對(duì)企業(yè)輿情進(jìn)行分析并對(duì)外給出有效的回答。在此基礎(chǔ)上,輿情分析系統(tǒng)成為了企業(yè)內(nèi)部進(jìn)行輿情應(yīng)對(duì)的一大工具,其可幫助分析調(diào)研數(shù)據(jù),給出統(tǒng)計(jì)結(jié)論,并根據(jù)分析結(jié)果給出具有一定參考性的預(yù)警預(yù)測(cè),這在當(dāng)今信息爆炸的時(shí)代背景下具有鮮明的商業(yè)可拓展性。而本文所述的研究具有更實(shí)際的意義,從技術(shù)層面對(duì)目前的輿情技術(shù)進(jìn)行革新。網(wǎng)絡(luò)輿情形式多元化,信息量級(jí)十分龐大,且大多均為圖片、文段等非結(jié)構(gòu)化的數(shù)據(jù)類型。目前市面上對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理還較為薄弱,而本研究針對(duì)這一市場(chǎng)痛點(diǎn),對(duì)文本處理的技術(shù)進(jìn)行了深度優(yōu)化,有效解決企業(yè)對(duì)輿情的情感判別問(wèn)題。從而企業(yè)可以直觀地了解輿情情況,并針對(duì)系統(tǒng)分析得到的統(tǒng)計(jì)結(jié)果得出應(yīng)對(duì)方案。
1 網(wǎng)絡(luò)輿情系統(tǒng)的相關(guān)技術(shù)
1.1 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
在爬蟲(chóng)算法的基礎(chǔ)上進(jìn)行改進(jìn),主要包含網(wǎng)絡(luò)請(qǐng)求模塊、流程控制模塊、內(nèi)容解析模塊和鏈接去重模塊。其中網(wǎng)絡(luò)請(qǐng)求模塊主要負(fù)責(zé)根據(jù)URL鏈接向服務(wù)器發(fā)送http請(qǐng)求,并獲取響應(yīng)內(nèi)容;流程控制模塊負(fù)責(zé)組織調(diào)度各個(gè)功能模塊和控制URL列表的爬取順序;內(nèi)容解析模塊負(fù)責(zé)處理網(wǎng)絡(luò)請(qǐng)求獲得的響應(yīng),其中大部分響應(yīng)為JSON格式的數(shù)據(jù),本文采用BeautifulSoup庫(kù)對(duì)返回的響應(yīng)進(jìn)行解析;鏈接去重模塊主要負(fù)責(zé)對(duì)待爬取的URL進(jìn)行選擇,去掉重復(fù)的URL,同時(shí)對(duì)解析之后的響應(yīng)內(nèi)容進(jìn)行文本去重化處理。
本文使用Scrapy框架具體實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)。Scrapy使用了Twisted異步網(wǎng)絡(luò)框架來(lái)處理網(wǎng)絡(luò)通訊,加快數(shù)據(jù)下載速度,并包含各種中間件接口,可以靈活地實(shí)現(xiàn)各種需求(圖1)。
1.2 非結(jié)構(gòu)化文本數(shù)據(jù)挖掘技術(shù)
文本挖掘的主要目的是獲得文本的主要內(nèi)容特征,如文本設(shè)計(jì)的主題、文本主題的類屬、文本內(nèi)容的濃縮等。本系統(tǒng)采用互信息,信息增益,文本證據(jù)權(quán)和x2統(tǒng)計(jì)法等評(píng)價(jià)函數(shù)進(jìn)行獨(dú)立評(píng)估,對(duì)每一個(gè)特征按照給定的權(quán)值大小進(jìn)行排序,選擇最佳特征子集作為特征提取的結(jié)果[1]。
對(duì)于文本特征數(shù)高,特征相互關(guān)聯(lián),冗余嚴(yán)重的特點(diǎn),本系統(tǒng)采用基于支持向量機(jī)的文本分類技術(shù)[2]。
而在中文信息處理的過(guò)程中,分詞是中文信息處理從字符處理水平向語(yǔ)義處理水平邁進(jìn)的關(guān)鍵,本系統(tǒng)主要采用基于詞典的分詞方法[5]。
基于Trie樹(shù)結(jié)構(gòu)實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖(DAG),采用了動(dòng)態(tài)規(guī)劃查找較大概率路徑, 找出基于詞頻的較大切分組合。對(duì)于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法。
1.3 數(shù)據(jù)庫(kù)技術(shù)
數(shù)據(jù)庫(kù)存儲(chǔ)技術(shù)在網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)中非常重要,在數(shù)據(jù)爬取和Web建站過(guò)程中都要用到數(shù)據(jù)庫(kù)。在數(shù)據(jù)庫(kù)中,數(shù)據(jù)一般以表的形式進(jìn)行數(shù)據(jù)的存儲(chǔ)和管理。
1.4 Web建站技術(shù)
本文采用的MTV模式與傳統(tǒng)的MVC模式有所不同。MTV模式包括模型(Model)、模板(Template)和視圖(View),其中,模型同樣負(fù)責(zé)業(yè)務(wù)對(duì)象與數(shù)據(jù)庫(kù)的映射關(guān)系,模版負(fù)責(zé)如何把頁(yè)面展示,而視圖負(fù)責(zé)業(yè)務(wù)邏輯,并在適當(dāng)時(shí)候調(diào)用模型和模版。在工作過(guò)程中,Django框架接收用戶的請(qǐng)求和參數(shù)后,通過(guò)正則表達(dá)式匹配URL,轉(zhuǎn)發(fā)給對(duì)應(yīng)的視圖進(jìn)行處理,視圖再調(diào)用模型處理數(shù)據(jù),最后調(diào)用模版返回界面給瀏覽器。
2 系統(tǒng)關(guān)鍵模塊實(shí)現(xiàn)
結(jié)巴分詞改進(jìn):jieba分詞在處理中文文本分析是比較常用的工具,實(shí)現(xiàn)文本jieba分詞的常用流程是加載自定義詞典、獲取關(guān)鍵詞、去除停用詞、數(shù)據(jù)處理。jieba分詞自帶詞典,但是由于具體應(yīng)用領(lǐng)域的不同,可能不能包括一些專業(yè)詞匯,會(huì)造成分詞結(jié)果不準(zhǔn)確,本系統(tǒng)通過(guò)自定義詞典解決這一問(wèn)題。改進(jìn)專業(yè)詞匯識(shí)別準(zhǔn)確率。獲取關(guān)鍵詞主要借助jieba.cut()和jieba.lcut()兩個(gè)函數(shù)完成,兩個(gè)函數(shù)生成的對(duì)象不同,前者生成字符串而后者生成list。Jieba分詞還提供了去除停用詞功能,去除停用詞后可以更精準(zhǔn)的進(jìn)行文本分析。停用詞詞表可以借鑒網(wǎng)上的中文停用詞詞表,需要加載本地停用詞表,然后針對(duì)不同的對(duì)象采用特定的方法進(jìn)行停用詞去除。
本系統(tǒng)核心功能模塊使用Python實(shí)現(xiàn),詞法分析接口可向用戶提供分詞、詞性標(biāo)注等功能;能夠識(shí)別出文本串中的基本詞匯(分詞), 對(duì)這些詞匯的詞性進(jìn)行識(shí)別標(biāo)注。分別建立名詞、動(dòng)詞、形容詞的詞典, 識(shí)別詞性后保存到詞典中, 記錄數(shù)量。
3 系統(tǒng)測(cè)試
3.1 核心功能測(cè)試
本系統(tǒng)分詞功能模塊的測(cè)試數(shù)據(jù)為摘自新浪新聞的25篇企業(yè)新聞,總字?jǐn)?shù)為6683字,使用用戶詞典,通過(guò)計(jì)算準(zhǔn)確率(Precision),召回率(Recall)和兩者的加權(quán)調(diào)和平均(F-Measure)來(lái)衡量模塊質(zhì)量,計(jì)算方法詳見(jiàn)表5。
分詞部分結(jié)果如圖2。
3.2 測(cè)試環(huán)境使用結(jié)果
我們使用BosonNLP實(shí)現(xiàn)了對(duì)企業(yè)輿情的部分分析。上述新聞文本數(shù)據(jù)經(jīng)過(guò)情感分析模塊處理后計(jì)算得到了相關(guān)負(fù)面系數(shù),見(jiàn)圖3。
此外,我們還測(cè)試了文本關(guān)鍵詞提取的功能,該模塊可找出和目標(biāo)企業(yè)相關(guān)性較強(qiáng)的關(guān)鍵詞以及新聞數(shù)據(jù)的主題詞,并實(shí)現(xiàn)對(duì)關(guān)鍵詞的自動(dòng)加權(quán)。見(jiàn)圖4。
4 結(jié)束語(yǔ)
本系統(tǒng)基于非結(jié)構(gòu)化數(shù)據(jù)處理實(shí)現(xiàn)的網(wǎng)絡(luò)輿情分析系統(tǒng),通過(guò)對(duì)網(wǎng)絡(luò)上大量的非結(jié)構(gòu)化信息的處理與分析,將雜亂無(wú)章的,冗余的、無(wú)意義的內(nèi)容進(jìn)行提取、分析從中獲取有意義的,有價(jià)值的內(nèi)容。對(duì)各個(gè)領(lǐng)域的發(fā)展提供數(shù)據(jù)支持,針對(duì)各大企業(yè)對(duì)于網(wǎng)絡(luò)輿情獲取的需要,設(shè)計(jì)企業(yè)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),針對(duì)網(wǎng)絡(luò)上不同的企業(yè)相關(guān)信息進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)處理,同時(shí)利用情感分析及個(gè)性化處理技術(shù),形成可視化的輿情分析,以便企業(yè)將輿情分析運(yùn)用到生產(chǎn)實(shí)踐中。
參考文獻(xiàn):
[1]李志堅(jiān).基于數(shù)據(jù)挖掘的文本分類算法[J].長(zhǎng)春師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,36(6):47-51,56.
[2]莊世芳,林世平,陳旭暉,等.基于概念集和粗集的中文Web文本挖掘特征提取的研究[J].福建電腦,2006(2):31-32.
[3]賴娟.基于數(shù)據(jù)挖掘的文本自動(dòng)分類仿真研究[J].計(jì)算機(jī)仿真,2011,28(12):195-198.
[4]張脂平,林世平.Web文本挖掘中特征提取算法的分析及改進(jìn)[J].福州大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,32(z1):63-66.
[5]周程遠(yuǎn),朱敏,楊云.基于詞典的中文分詞算法研究[J].計(jì)算機(jī)與數(shù)字工程,2009,37(3):68-71,87.