李網(wǎng)燦 趙 勇
中國電信股份有限公司江蘇分公司
互聯(lián)網(wǎng)信息技術(shù)和移動通信技術(shù)的發(fā)展,使網(wǎng)絡(luò)媒體進入人們的日常生活,每個人都可能是信息的提供者、傳播者和閱讀者。與此同時,網(wǎng)絡(luò)輿論也隨之產(chǎn)生,人們通過微博、論壇、博客等發(fā)表著自己的看法、轉(zhuǎn)發(fā)自己關(guān)注的消息、關(guān)注熱點及自己關(guān)心的內(nèi)容。輿情已成為當前社會和諧度和穩(wěn)定度的標志,成為社會各界的關(guān)注焦點?;ヂ?lián)網(wǎng)輿情監(jiān)測以及相關(guān)的大數(shù)據(jù)分析已經(jīng)成為各級政府與大型品牌企業(yè)的一項基本工作。由開始的人工搜索、自建系統(tǒng)到購買相關(guān)輿情公司的云服務(wù),這些都為政府和企業(yè)提供決策輔助。當然,無論是自建系統(tǒng)或是輿情公司建設(shè)的輿情云服務(wù)平臺,傳統(tǒng)購買服務(wù)器方式使系統(tǒng)的建設(shè)與運維成本越來越高。
中國電信天翼云從數(shù)據(jù)層、中間層、Web 層、服務(wù)層、安全與監(jiān)測層、彈性負載層幾個方面提供全方位的服務(wù),能夠大大降低輿情大數(shù)據(jù)系統(tǒng)的建設(shè)成本。如何利用天翼云建設(shè)一套高效、先進的輿情大數(shù)據(jù)分析系統(tǒng)是本文研究的內(nèi)容。
當前各級政府和企業(yè)對互聯(lián)網(wǎng)輿情的監(jiān)測,基本采用自己投資建設(shè),或向?qū)I(yè)輿情服務(wù)商購買類似江蘇電信輿情云這樣的云服務(wù)。這些自建系統(tǒng)或輿情服務(wù)商在進行系統(tǒng)建設(shè)中,往往采用購買物理機或租用普通云主機的形式。隨著互聯(lián)網(wǎng)應(yīng)用的日新月異以及大數(shù)據(jù)分析的需要,系統(tǒng)在建設(shè)和運維過程中,采集系統(tǒng)、存儲系統(tǒng)、分析系統(tǒng)以及應(yīng)用系統(tǒng),都需要不斷進行硬件擴充和各類支撐服務(wù)系統(tǒng)的建設(shè),造成運營成本越來越高,開發(fā)效率日益低下。
中國電信天翼云提供云主機,是一種可實時獲取、彈性可擴展的計算服務(wù)。天翼云采用BS 三層架構(gòu),能夠有效降低建設(shè)和維護成本,同時也簡化了系統(tǒng)的運維和管理。對于像輿情大數(shù)據(jù)分析系統(tǒng)這類大規(guī)模和復(fù)雜的應(yīng)用系統(tǒng)部署,能夠快速、低廉、安全的部署與實施。
本文根據(jù)江蘇電信輿情云系統(tǒng)建設(shè)經(jīng)驗,結(jié)合中國電信天翼云的服務(wù),對互聯(lián)網(wǎng)輿情大數(shù)據(jù)系統(tǒng)框架進行了重新研究與定義,研究如何利用天翼云提供數(shù)據(jù)層、服務(wù)層、中間層Web層、彈性負載層、安全與監(jiān)測層,對采集子系統(tǒng)、存儲子系統(tǒng)、大數(shù)據(jù)子系統(tǒng)以及應(yīng)用子系統(tǒng)進行重構(gòu)與設(shè)計。
從輿情系統(tǒng)的整個業(yè)務(wù)流程來分析,網(wǎng)絡(luò)輿情系統(tǒng)需要從互聯(lián)網(wǎng)上進行海量數(shù)據(jù)抓取,進行分析打簽并入庫,再根據(jù)用戶及業(yè)務(wù)需求,對數(shù)據(jù)進行加工分析,通過應(yīng)用系統(tǒng)進行展示。在系統(tǒng)設(shè)計與實現(xiàn)時,可以把一個輿情系統(tǒng)功能模塊分為采集子系統(tǒng)、存儲子系統(tǒng)、大數(shù)據(jù)分析子系統(tǒng)、應(yīng)用系統(tǒng),該系統(tǒng)業(yè)務(wù)功能如下圖所示。
圖1 輿情云系統(tǒng)功能圖
采集子系統(tǒng)是整個輿情系統(tǒng)的基石,為后面大數(shù)據(jù)分析提供數(shù)據(jù)來源?;谳浨闃I(yè)務(wù)的特點,該子系統(tǒng)要求能夠?qū)崿F(xiàn)數(shù)據(jù)的全面性與實時性。數(shù)據(jù)全面性取決于站點的覆蓋面,實時性則取決于采集子系統(tǒng)資源的快速與動態(tài)擴展性。江蘇電信輿情云系統(tǒng)數(shù)據(jù)采集方式主要通過兩種方式實現(xiàn)。
2.2.1 元搜索技術(shù)
一種是根據(jù)用戶指定的關(guān)鍵字在互聯(lián)網(wǎng)引擎服務(wù)提供商所提供的搜索引擎上進行搜索,并自動采集搜索到的目標網(wǎng)頁內(nèi)容數(shù)據(jù)。
2.2.2 Spider 技術(shù)
再有是通過各種Web 協(xié)議對站點庫中各站點進行輪詢?nèi)静杉?、入庫,大?shù)據(jù)子系統(tǒng)再根據(jù)用戶需求,將用戶需要數(shù)據(jù)進行分析并推送展現(xiàn)給用戶。
采集資源使用部署在全國各地的天翼云主機,能夠快速地采集各網(wǎng)站數(shù)據(jù),并根據(jù)目標網(wǎng)站的更新頻率智能調(diào)整采集策略。高速的帶寬、可靠的環(huán)境、智能的策略共同保證數(shù)據(jù)的及時性。
2.2.3 站點庫的自我完善
采集子系統(tǒng)以元搜索為基礎(chǔ)起點,通過元搜索獲取數(shù)據(jù)及站點,并將站點存入站點數(shù)據(jù)庫。同時Spider 模塊對站點上超鏈接進行分析,發(fā)現(xiàn)目標信息URL 時均可識別之前未納入監(jiān)測系統(tǒng)的新網(wǎng)站,二者互補即可完成新站點的添加,保證站點庫自我補充與完善。該系統(tǒng)流程如圖2 所示。
圖2 采集子系統(tǒng)站點庫自我完善流程圖
2.2.4 采集子系統(tǒng)的部署
部署實施中,系統(tǒng)對資源的需求是一個動態(tài)擴展過程,這些資源包括CPU、內(nèi)存、存儲、IP 歸屬等資源的彈性擴展。
(1)傳統(tǒng)部署方式
若采用傳統(tǒng)物理機方式進行部署,前期需要預(yù)估系統(tǒng)最大峰值資源需求,當資源沒有達到峰值時,資源處于浪費狀態(tài);再有,后期服務(wù)器運維也需要投入大量成本。當出現(xiàn)超出預(yù)估資源需求時,從采購到部署周期較長。采用傳統(tǒng)云主機方式,雖然可以臨時進行資源動態(tài)擴充,但其部署與運維成本也較大。
(2)天翼云部署方式
江蘇電信輿情云,如圖3 所示,通過部署在全國各地的中國電信天翼云,提供彈性云主機,它由CPU、內(nèi)存、鏡像、云硬盤等組成,根據(jù)采集子系統(tǒng)業(yè)務(wù)使用量配置和策略,在滿足業(yè)務(wù)需求的前提下,減少資源投入。
圖3 天翼云主機彈性擴充示意圖
通過為采集子系統(tǒng)提供全國不同區(qū)域的IP 資源,基于不同類型站點Spider 采集模塊,可以配置私有ECS 實例上的OS選擇和應(yīng)用系統(tǒng)配置,私有鏡像創(chuàng)建云主機,將原來部署單臺采集模板主機需要花費的時間從數(shù)小時縮短到幾分鐘。
該子系統(tǒng)在處理互聯(lián)網(wǎng)上海量非結(jié)構(gòu)化數(shù)據(jù)時,通過數(shù)據(jù)分析、數(shù)據(jù)挖掘,將海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為用戶需要的結(jié)構(gòu)化數(shù)據(jù),并提供原始鏈接,保存內(nèi)容摘要。同時需要根據(jù)輿情系統(tǒng)業(yè)務(wù)特點,設(shè)計與搭建一套分布式數(shù)據(jù)存儲系統(tǒng),使該系統(tǒng)具有冗余與備份功能。
為提高用戶體驗,以索引查詢服務(wù)的方式對信息進行高效查詢,同時為應(yīng)對海量信息,本系統(tǒng)需要設(shè)計與搭建分布式索引服務(wù)器。
(1)傳統(tǒng)部署方式
為實現(xiàn)以上功能,傳統(tǒng)系統(tǒng)除了硬件投資外,還需要大量技術(shù)人員的投入,需搭建分布式索引系統(tǒng)、異地數(shù)據(jù)備份與同步等設(shè)計與部署,而在系統(tǒng)部署后,需要投入大量運維資源。
(2)天翼云部署方式
天翼云提供如下圖的一系列PaaS 服務(wù),只需直接使用分布式存儲、異地備份、分布式索引等服務(wù),還可以按需動態(tài)調(diào)整。
圖4 天翼云PaaS 服務(wù)示意圖
大數(shù)據(jù)子系統(tǒng)是輿情系統(tǒng)的核心部分,它是在采集子系統(tǒng)采集數(shù)據(jù)的基礎(chǔ)上,對存儲數(shù)據(jù)進行分類與分析。系統(tǒng)采用的是分布式實時計算框架Storm,Storm 是目前流行的分布式實時流計算框架之一,它提供了可容錯分布式計算所要求的基本需求和保障機制,可以滿足高吞吐,實時滿足關(guān)鍵業(yè)務(wù)應(yīng)用的需求。該技術(shù)對計算資源的彈性要求較高,要能夠支持分布式計算系統(tǒng),同時支持快速進行資源調(diào)整。
基于自然語言AI 的機器學(xué)習系統(tǒng)的搭建,可用于實現(xiàn)輿情數(shù)據(jù)正負面信息的學(xué)習判斷。采用數(shù)據(jù)建模和數(shù)據(jù)挖掘技術(shù)和“數(shù)據(jù)清洗=>特征,標注數(shù)據(jù)生成=>模型學(xué)習=>模型應(yīng)用”的步驟,基于數(shù)據(jù)倉庫模型對數(shù)據(jù)進行分類,清洗掉無用數(shù)據(jù),推送真正有用、準確的數(shù)據(jù)。
(1)傳統(tǒng)部署方式
以上技術(shù)在實施時,對資源的需求是動態(tài)的,特別是情感分析模型訓(xùn)練完成之后,需要對云計算資源進行回收,傳統(tǒng)方式需要購置大量云主機,在完成這些計算后相當長一段時間內(nèi)會造成資源閑置與浪費。除此之外,還需設(shè)計計算資源的調(diào)度系統(tǒng),增加系統(tǒng)成本和系統(tǒng)故障點。
(2)天翼云部署方式
天翼云提供彈性伸縮(CT-EAS ,Elastic Auto Scaling)服務(wù),能夠自行定義業(yè)務(wù)使用量配置和策略,靈活進行下發(fā)和配置,并且按需調(diào)用資源。如圖5 所示。
圖5 彈性伸縮服務(wù)任務(wù)下發(fā)示意圖
應(yīng)用子系統(tǒng)直接面向用戶層,這里的用戶不僅包括輿情系統(tǒng)的最終使用人員,也包括系統(tǒng)運維人員。輿情系統(tǒng)展現(xiàn)給最終用戶的內(nèi)容包括信息展示模塊、圖表分析模塊、移動服務(wù)模塊。系統(tǒng)運維人員需要對系統(tǒng)進行管理,進行軟硬件性能監(jiān)測、系統(tǒng)安全防護以及其他增值服務(wù)的接口管理等。
(1)傳統(tǒng)部署方式
運維人員在搭建和部署業(yè)務(wù)系統(tǒng)時,傳統(tǒng)方式和天翼云方式差別不大,但在實施系統(tǒng)監(jiān)測、安全防護等工作時,傳統(tǒng)方式需要投入昂貴的軟件和硬件系統(tǒng)。
(2)天翼云部署方式
天翼提供的云監(jiān)測(CT-CW, CloudWatch)服務(wù),針對用戶各種虛擬化資源,從不同維度不同指標項的數(shù)值進行收集聚合,幫助用戶實時監(jiān)測其資源的動態(tài),包括彈性云主機、云硬盤、彈性負載均衡、虛擬私有云、RDS、彈性伸縮組等相關(guān)指標。天翼云為用戶提供安全檢測、DDoS 防護服務(wù),使得運維人員可以完全從系統(tǒng)安全的防護中解脫出來,通過這些增值服務(wù)不僅提高了輿情系統(tǒng)的安全防護能力,還能節(jié)省人員和設(shè)備的投資。
本文從輿情大數(shù)據(jù)系統(tǒng)的整體架構(gòu)設(shè)計,結(jié)合中國電信天翼云的服務(wù)內(nèi)容、江蘇電信輿情云系統(tǒng)的建設(shè)經(jīng)驗,分別從輿情采集子系統(tǒng)、存儲子系統(tǒng)、大數(shù)據(jù)子系統(tǒng)、應(yīng)用子系統(tǒng)幾個方面,提出如何利用中國電信天翼云進行系統(tǒng)建設(shè)。
目前該研究成果正在江蘇電信輿情云系統(tǒng)實施,初步測試結(jié)果證明,搭建在中國電信天翼云上的輿情系統(tǒng)與傳統(tǒng)私有部署方式有以下優(yōu)勢:
(1)直接投資成本低。由于采用彈性云計算,使得系統(tǒng)建設(shè)不需要一次性投資,后期根據(jù)業(yè)務(wù)拓展動態(tài)投資,大大提高了資金利用率。初期能夠節(jié)省60%左右的投資,到中期預(yù)計也將節(jié)省35%的投資,資金利用率達到95%以上。
(2)研發(fā)運維成本降低?;谔煲碓铺峁┑亩囝悢?shù)據(jù)層及中間層服務(wù),使得輿情云研發(fā)團隊不需要投入相應(yīng)的研發(fā)人員進行系統(tǒng)開發(fā),后期維護人員的數(shù)量、技術(shù)要求也大大降低。
(3)可靠性安全性更強?;谶\營商級的硬件和安全防護,其穩(wěn)定性、防護能力與性價比是傳統(tǒng)模式所無法比擬的。
(4)分析效率更高?;谧匀徽Z言AI 情感分析模型的訓(xùn)練不定時地需要海量計算資源,天翼云靈活地彈性計算能力快速擴展,使得分析效率和準確性也不斷提高?;谔煲碓茝姶箪`活的計算能力,江蘇電信輿情云針對政府行業(yè)敏感類數(shù)據(jù)判斷準確率在85%以上,非敏感判斷準確率在95%以上,目前在業(yè)界處于領(lǐng)先位置。