杜曉黎,錢嶺,張海文,楊希
(中移(蘇州)軟件技術(shù)有限公司/中國移動蘇州研發(fā)中心,蘇州 215163)
基于數(shù)據(jù)融合的互聯(lián)網(wǎng)輿情分析系統(tǒng)*
杜曉黎,錢嶺,張海文,楊希
(中移(蘇州)軟件技術(shù)有限公司/中國移動蘇州研發(fā)中心,蘇州 215163)
本文提出了一種基于數(shù)據(jù)融合的互聯(lián)網(wǎng)輿情分析系統(tǒng)。系統(tǒng)使用網(wǎng)絡(luò)爬蟲采集互聯(lián)網(wǎng)新聞、微信公眾號、博客、論壇、APP、微博、報紙、視頻等信息,結(jié)合中國移動自有DPI數(shù)據(jù),采用情感分析等多種自然語言處理算法實現(xiàn)數(shù)據(jù)融合分析處理,建立不同類型數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,挖掘更多數(shù)據(jù)價值,且系統(tǒng)使用多租戶模式實現(xiàn)底層數(shù)據(jù)共享和用戶輿情信息隔離,大量節(jié)省硬件存儲成本,也讓用戶體驗個性化輿情。
互聯(lián)網(wǎng)采集;數(shù)據(jù)融合;輿情;多租戶;自然語言
工業(yè)3.0是信息化的時代,信息的快速傳播和發(fā)展推進了互聯(lián)網(wǎng)的廣泛應(yīng)用,也讓大數(shù)據(jù)成為這一時代的最熱主題之一,互聯(lián)網(wǎng)以及大數(shù)據(jù)給人們生活帶來前所未有的體驗,人們在享受互聯(lián)網(wǎng)帶來的便捷生活時,也面臨著海量激增的信息,為了實施有效數(shù)據(jù)治理,實時監(jiān)測輿論傾向,引導(dǎo)正確輿論走向,大量輿情系統(tǒng)涌現(xiàn)。
本文提出了一種基于數(shù)據(jù)融合的互聯(lián)網(wǎng)輿情分析系統(tǒng),系統(tǒng)實現(xiàn)了互聯(lián)網(wǎng)新聞、微信公眾號信息、博客、論壇、APP、微博以及中國移動脫敏DPI(Deep Packet Inspection)等數(shù)據(jù)的融合,利用自然語言處理算法,挖掘出融合數(shù)據(jù)更多價值,且提出了一種多租戶架構(gòu)實現(xiàn)數(shù)據(jù)共享和用戶信息隔離,大量節(jié)省硬件存儲成本,且讓用戶體驗個性化輿情。
2.1 系統(tǒng)架構(gòu)
基于數(shù)據(jù)融合的互聯(lián)網(wǎng)輿情分析系統(tǒng),是蘇研自研基于大數(shù)據(jù)平臺的“移智”系列產(chǎn)品。系統(tǒng)基于大數(shù)據(jù)平臺采集互聯(lián)網(wǎng)新聞、論壇、微博等信息,也可融合移動DPI數(shù)據(jù)等第三方應(yīng)用數(shù)據(jù),因此系統(tǒng)具有數(shù)據(jù)采集層;將采集到的數(shù)據(jù)放入消息通道,系統(tǒng)實時監(jiān)測消息通道是否有最新未處理數(shù)據(jù),如果有則進行情感分析、垃圾信息過濾、專題匹配、預(yù)警推送等數(shù)據(jù)處理,同時將信息建立索引,因此系統(tǒng)應(yīng)該具備業(yè)務(wù)邏輯層;系統(tǒng)將處理后數(shù)據(jù)存入數(shù)據(jù)庫,并進行日志記錄、配置文件管理,因此需要具備數(shù)據(jù)存儲層;系統(tǒng)需要實現(xiàn)輿情預(yù)警、輿情報告、輿情分析、用戶畫像等功能,因此系統(tǒng)應(yīng)該具備應(yīng)用展示層。由于系統(tǒng)面向互聯(lián)網(wǎng)用戶,需要進行統(tǒng)一用戶管理、角色權(quán)限管理、套餐管理、多租戶管理等功能,因此系統(tǒng)需要具備運營管理平臺。根據(jù)以上的需求,本文提出了如圖1所示的系統(tǒng)架構(gòu)圖。
從圖1可以看出,本文設(shè)計的系統(tǒng)架構(gòu)分為:數(shù)據(jù)采集層、數(shù)據(jù)存儲層、業(yè)務(wù)邏輯層、應(yīng)用展示層、運營管理。數(shù)據(jù)采集層負責(zé)互聯(lián)網(wǎng)數(shù)據(jù)的采集,通過使用爬蟲調(diào)度機制實時調(diào)度通用網(wǎng)絡(luò)爬蟲、定制化網(wǎng)絡(luò)爬蟲、元搜索技術(shù)實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)的實時爬取,將爬取后的數(shù)據(jù)放入消息通道(Kafka)中;業(yè)務(wù)邏輯層主要進行數(shù)據(jù)處理、信息檢索,數(shù)據(jù)處理使用Spark技術(shù),將熱點分析、情感分析、輿情預(yù)警、垃圾信息過濾等算法以及專題匹配、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)存取等處理邏輯模塊獨立運行在Spark中,實時從消息通道讀取數(shù)據(jù)進行處理,將處理后數(shù)據(jù)存入數(shù)據(jù)庫;信息檢索使用solr作為底層技術(shù),實現(xiàn)索引建立、關(guān)鍵字搜索和信息篩選等功能;數(shù)據(jù)存儲層負責(zé)數(shù)據(jù)的存儲,使用hbase存儲原數(shù)據(jù)、日志數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等,mysql存儲用戶信息、關(guān)系邏輯數(shù)據(jù),使用redis實現(xiàn)緩存、去重等內(nèi)存存儲,以及日志信息、配置信息的存儲;應(yīng)用展示層主要實現(xiàn)系統(tǒng)功能可視化,包括輿情預(yù)警、輿情推送、輿情上報以及分析、溯源、用戶畫像等;運營管理主要負責(zé)對用戶的角色權(quán)限、應(yīng)用套餐、使用日志、用戶信息進行管理,實現(xiàn)多租戶管理,不同用戶可共享底層數(shù)據(jù),從而節(jié)省硬件存儲和運維,用戶輿情數(shù)據(jù)隔離,從而實現(xiàn)用戶輿情個性化展示。這樣的系統(tǒng)結(jié)構(gòu),使得系統(tǒng)層次清晰,模塊獨立,易于擴展與維護。
2.2 系統(tǒng)功能
本文使用基于互聯(lián)網(wǎng)大數(shù)據(jù)的爬蟲進行數(shù)據(jù)采集,將采集到的數(shù)據(jù)進行清洗、過濾以及數(shù)據(jù)處理后存入數(shù)據(jù)庫;用戶通過賬號密碼登陸系統(tǒng)后,可以根據(jù)自己關(guān)注的輿情類型進行專題設(shè)置,每個專題中需要設(shè)置關(guān)注輿情的關(guān)鍵詞、不希望看到的信息的排除詞、信息來源類型、以及關(guān)注輿情的區(qū)域網(wǎng)址等,系統(tǒng)根據(jù)用戶設(shè)置的輿情專題將采集到的互聯(lián)網(wǎng)信息進行匹配與過濾,將符合用戶需求的信息放入用戶設(shè)置的輿情專題中,如果有些信息對用戶可能產(chǎn)生不好的負面影響,將及時進行輿情預(yù)警;另外系統(tǒng)可以進行輿情上報、輿情推送、實時熱點分析、輿情傳播分析、自動輿情報告以及可結(jié)合DPI數(shù)據(jù)得出用戶畫像等功能。
圖1 系統(tǒng)架構(gòu)圖
根據(jù)上述設(shè)計思想,本文設(shè)計了如圖2所示的功能模塊圖。
輿情預(yù)警:根據(jù)用戶設(shè)置的輿情專題,如果發(fā)現(xiàn)對用戶可能產(chǎn)生較嚴重負面影響的信息,及時通過Web平臺、短信、郵件進行實時預(yù)警,用戶可自定義預(yù)警級別(即信息對用戶的負面影響是輕微、較重、嚴重)和預(yù)警方式(Web平臺、短信、郵件)。預(yù)警分為智能預(yù)警和關(guān)鍵詞預(yù)警。智能預(yù)警用戶只需要設(shè)置專題,系統(tǒng)會自動根據(jù)用戶設(shè)置的專題實現(xiàn)預(yù)警;關(guān)鍵詞預(yù)警需要用戶設(shè)置的專題中設(shè)置預(yù)警關(guān)鍵詞,只要該專題中的信息包含設(shè)置的預(yù)警關(guān)鍵詞,將實時自動預(yù)警。
輿情上報:系統(tǒng)實現(xiàn)了用戶分級別,下級用戶可以在系統(tǒng)中將緊急信息實時上報上級。
輿情推送:上級用戶可以在系統(tǒng)中通過V網(wǎng)通和短信方式將重要信息下發(fā)給特定的下級用戶。
實時熱點:根據(jù)用戶設(shè)置的專題,實時進行熱點信息分析、熱詞分析、熱門網(wǎng)站分析。
專題分析:分析每個輿情專題發(fā)展趨勢、信息情感分布、來源分布。
輿情傳播分析:分析每篇信息在互聯(lián)網(wǎng)上傳播溯源、傳播熱力圖以及在每個區(qū)域上的瀏覽量分析。
用戶畫像:結(jié)合DPI信息,實現(xiàn)輿情專題在每個區(qū)域中的用戶性別分布、年齡結(jié)構(gòu)、區(qū)域分布等用戶畫像。
輿情報告:系統(tǒng)可自動生成輿情分析報告,報告分為日報、周報、月報,包括每個專題重點輿情信息、輿情信源統(tǒng)計、情感分布、每日信息發(fā)展趨勢、主要媒體分布、區(qū)域分布、熱詞、熱門信息、預(yù)警新聞、預(yù)警微博等信息。
3.1 數(shù)據(jù)融合
數(shù)據(jù)融合是本系統(tǒng)的亮點,也是中國移動脫敏DPI數(shù)據(jù)的重要應(yīng)用。n維的信息產(chǎn)生n量級的價值,然而n維的信息融合則可以產(chǎn)生n2量級的價值。
用戶在系統(tǒng)中設(shè)置關(guān)注輿情的關(guān)鍵詞等信息,系統(tǒng)利用大數(shù)據(jù)平臺進行互聯(lián)網(wǎng)新聞、微博、論壇、博客、APP、微信公眾號、報紙、視頻等數(shù)據(jù)的采集,將采集后的信息與用戶輿情專題進行匹配,匹配得到的數(shù)據(jù)以及中國移動脫敏DPI數(shù)據(jù)進行融合分析和統(tǒng)計,挖掘更深的信息價值。用戶畫像即互聯(lián)網(wǎng)數(shù)據(jù)與中國移動脫敏DPI數(shù)據(jù)緊密融合的最佳應(yīng)用,可以幫助用戶更深入的了解所關(guān)注輿情中的事件傳播模型、區(qū)域分布、人員分布等情況。
用戶畫像是互聯(lián)網(wǎng)輿情信息結(jié)合中國移動脫敏DPI數(shù)據(jù)分析所得。用戶畫像描繪了在每個輿情專題中的信息在網(wǎng)絡(luò)上的傳播模型、對專題信息感興趣的用戶的性別分布和占比、用戶年齡結(jié)構(gòu)以及專題在每個區(qū)域中用戶數(shù)量。
用戶畫像算法與用戶設(shè)置業(yè)務(wù)緊密相關(guān),首先用戶需要設(shè)置專題,建立專題關(guān)鍵詞、專題匹配和過濾規(guī)則,根據(jù)用戶設(shè)置好的專題進行信息的匹配。
傳播模型和熱力圖:結(jié)合中國移動脫敏DPI信息,查看專題中每篇信息的瀏覽等操作日志,從而分析出每篇信息在互聯(lián)網(wǎng)上的傳播模型以及互聯(lián)網(wǎng)中的閱讀瀏覽熱度。
3.2 多租戶管理
多租戶管理主要實現(xiàn)數(shù)據(jù)共享和用戶信息隔離。輿情應(yīng)用雖然越來越個性化,但是每個用戶的底層數(shù)據(jù)來源、數(shù)據(jù)類型以及數(shù)據(jù)詳情基本相同,不同的是上層應(yīng)用展示,而底層數(shù)據(jù)往往數(shù)量巨大,每個用戶都存儲獨立的數(shù)據(jù)需要大量的硬件存儲資源以及系統(tǒng)維護,因此本文在數(shù)據(jù)存儲中實現(xiàn)了數(shù)據(jù)共享,將所有的互聯(lián)網(wǎng)信息、中國移動脫敏DPI信息使用共同的存儲系統(tǒng)。
圖2 系統(tǒng)功能模塊圖
系統(tǒng)使用共享數(shù)據(jù)庫和共享數(shù)據(jù)架構(gòu)的模式實現(xiàn)多租戶管理。不同的租戶可擁有獨立的個性化的輿情應(yīng)用,用戶信息隔離,互不影響。且系統(tǒng)實現(xiàn)了根據(jù)每個用戶實際的信息量計算資源使用量,大大減少了用戶成本。
3.3 核心處理算法:情感分析
輿情預(yù)警是基于互聯(lián)網(wǎng)大數(shù)據(jù)的輿情分析系統(tǒng)最核心的功能,信息的情感分析判別是輿情預(yù)警的最重要組成部分。有效的對信息的情感傾向進行分析判別,能夠更好的向用戶預(yù)警信息情報。
文本情感分析也即文本情感傾向衡量,情感傾向衡量包括:情感傾向方向和情感傾向度。無論哪種情感分析方法,其基本原理都是先進行文本切割轉(zhuǎn)換,然后情感定位,再聚合。
常見的情感分析分為兩種:基于詞典的情感分析方法和機器學(xué)習(xí)情感分析方法。
基于詞典的情感分析方法過渡依賴詞典,而中文詞典并沒有類似于英文SentiWordNet完善而開源的情感詞典,且中文具有可以單字、多字成詞的特殊性,導(dǎo)致建立完善的中文情感詞典的難度非常大。所以單純基于中文情感詞典的情感分析算法效果都不是很理想。
使用機器學(xué)習(xí)方法進行情感分析,無論是全監(jiān)督還是半監(jiān)督方法都需要人工標注的語料作為訓(xùn)練模型,人工標注的效果因人而異,無法統(tǒng)一判斷,且如果語料覆蓋面不全(一般而言,對于層出不窮的新聞來說,無法做到覆蓋面全)模型將無法適用于新的信息情感分析;機器學(xué)習(xí)的方法也存在可擴展性差、適應(yīng)新詞能力較差的特點,因此需要頻繁的對模型進行訓(xùn)練與更新。
由于以上問題,本文提出了一種融合詞典和機器學(xué)習(xí)的中文信息情感分析算法,算法由預(yù)處理模塊、詞典與統(tǒng)計計算模塊、機器學(xué)習(xí)分類模塊、特征融合模塊構(gòu)成,圖3為情感分析算法總體流程圖。
3.3.1 新聞預(yù)處理:情感詞典的擴展
詞典算法依賴于情感詞典,而互聯(lián)網(wǎng)新詞每天都有更新,因此現(xiàn)有情感詞典并不是很有效且準確性不高,需要對詞典進行擴展。情感詞典通常包括:基礎(chǔ)情感詞典、拓展情感詞典、領(lǐng)域情感詞典?;A(chǔ)情感詞典通常使用知網(wǎng)情感詞典和臺灣大學(xué)簡體中文情感極性詞典;拓展情感詞典其實就是把基礎(chǔ)情感詞典通過同義詞詞典找到情感詞的同義詞,可以使用哈工大的同義詞詞林;領(lǐng)域詞典即某個領(lǐng)域特有的感情詞,該部分即為情感詞典擴展的重點。詞典擴展通常有兩種方法:一,互信息方法,所謂互信息是指,如果在文本中詞A與正向情感詞共現(xiàn)的頻率比與負向情感詞共現(xiàn)的頻率大,則認為詞A為正向情感詞。二,通過計算相似度,即如果詞A與正向情感詞的相似度大于與負向情感詞的相似度,則認為詞A為正向情感詞。相似度算法更傾向于字面的相似性,而互信息方法更重于統(tǒng)計和語義理解,因此本文使用互信息的方法來對情感詞典進行擴展。
3.3.2 預(yù)測時預(yù)處理:文本切分處理
預(yù)處理模塊將新聞文本進行預(yù)處理,為詞典模塊以及機器學(xué)習(xí)模塊提供有效的輸入數(shù)據(jù)。
詞典算法預(yù)處理:通過標點符號對新聞?wù)Z料進行切分,分別對每一句話進行解析形成規(guī)范語料:通過檢查文本中的換行符,中文標點符號(比如句號,感嘆號等)進行分句。對每一個分句進行中文分詞,標注詞性。
機器學(xué)習(xí)算法預(yù)處理:對已有規(guī)范語料剔除一些垃圾詞(也即對情感分析沒有作用的詞語,以減少機器學(xué)習(xí)算法的特征維度):在詞典算法預(yù)處理的基礎(chǔ)上,根據(jù)詞性篩選掉一些地名,人名以及一些沒有情感屬性的名詞、副詞。
3.3.3 總體流程
如圖3所示,算法按以下流程處理:
(1)對新聞進行預(yù)處理,獲得分句sentence。
(2)對每一個分句進行分詞,獲得單詞及其詞性。
(3)利用詞典算法對分句后的單詞進行處理獲得詞典特征D1。
(4)利用統(tǒng)計方法對已有分詞結(jié)果進行統(tǒng)計獲得統(tǒng)計特征S1、S2、S3。
(5)利用LR算法分詞結(jié)果轉(zhuǎn)換成的詞向量進行預(yù)測獲得 LR1﹑LR2、LR3。
(6)利用SVM算法對分詞結(jié)果轉(zhuǎn)換成的詞向量進行預(yù)測獲得SVM1、SVM2、SVM3。
(7)利用以上算法得到的所有特征作為輸入,利用RF算法對情感值進行預(yù)測,獲得新聞在正中負3個情感上的概率,得到最終情感分析結(jié)果。
3.3.4 測試結(jié)果
算法準確率:本算法已經(jīng)實際應(yīng)用于輿情系統(tǒng)中,采用開放的數(shù)據(jù)和方法進行測試,準確率已經(jīng)達到80%以上,并且成功申請專利。
圖3 情感分析算法總體流程圖
基于數(shù)據(jù)融合的互聯(lián)網(wǎng)輿情分析系統(tǒng)是本公司基于大數(shù)據(jù)平臺自研的“移智”系列產(chǎn)品,實現(xiàn)了對互聯(lián)網(wǎng)輿情信息進行收集、追蹤、監(jiān)控、溯源和預(yù)警的功能。平臺利用實時數(shù)據(jù)采集和精準的自然語言處理技術(shù),幫助各級政府以及大型企業(yè)對網(wǎng)絡(luò)輿情信息及時監(jiān)控預(yù)警,實現(xiàn)對影響面大、可能導(dǎo)致事件升級的網(wǎng)絡(luò)輿情信息第一時間獲知、第一時間上報、第一時間處理。為政府、企業(yè)、或者新聞媒體等機構(gòu)提供輿情的實時監(jiān)測、多維度圖表分析展示、實時預(yù)警、報告生成等功能。
[1] 李光敏, 張行文, 張磊, 等. 面向網(wǎng)絡(luò)輿情的評論文本情感分析研究[J]. 情報雜志, 2014.
[2] 陸文星, 王燕飛. 中文文本情感分析研究綜述[J]. 計算機應(yīng)用研究, 2012.
[3] 葉強, 張紫瓊, 羅振雄. 面向互聯(lián)網(wǎng)評論情感分析額中文主觀性自動判別方法研究[J]. 信息系統(tǒng)學(xué)報, 2007.
An internet public sentiment analysis system based on data fusion
DU Xiao-li, QIAN Ling, ZHANG Hai-wen, YANG Xi
(China Mobile (Suzhou) Software Technology Co., Ltd./China Mobile Suzhou R & D Center, Suzhou 215163, China)
This paper proposes an Internet public sentiment analysis system based on data fusion. The news, WeChat public information, blog, forum, APP, micro-blog, newspapers, video which collected from the Internet by web crawler and DPI which from the China Mobile had been used to achieve data fusion and data analysis by using multiple Natural Language Processing algorithms such as the sentiment analysis algorithm. Multi-tenant had been used to achieve the data sharing and information isolation, which can improve resource utilization and allow user to experience personalized public opinion.
internet Web crawler; data fusion; public sentiment; multi-tenant; natural language processing
TN929.5
A
1008-5599(2017)07-0026-05
2017-06-21
* 中國移動集團級一類科技創(chuàng)新成果,原成果名稱為《互聯(lián)網(wǎng)輿情分析系統(tǒng)》。