何國(guó)鋒/He Guofeng
(中國(guó)電信股份有限公司上海分公司 上海200120)
隨著云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、智慧城市的快速發(fā)展,人們需要收集、處理和管理的各種數(shù)據(jù)呈爆炸性增長(zhǎng),大數(shù)據(jù)概念也應(yīng)運(yùn)而生。2011年,美國(guó)總統(tǒng)科技顧問(wèn)委員會(huì)指出,大數(shù)據(jù)技術(shù)蘊(yùn)含著重要的戰(zhàn)略意義,聯(lián)邦政府應(yīng)當(dāng)加大投資研發(fā)力度[1]。2012年3月22日,美國(guó)政府宣布投資2 億美元拉動(dòng)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,把大數(shù)據(jù)定義為“未來(lái)的新石油”,并上升為國(guó)家戰(zhàn)略。維克托·舍恩伯格在《大數(shù)據(jù)時(shí)代》中說(shuō)道:“未來(lái)數(shù)據(jù)會(huì)像土地、石油和資本一樣,成為經(jīng)濟(jì)運(yùn)行中根本性的資源?!?/p>
作為“戰(zhàn)略性資源”,大數(shù)據(jù)的概念并不是最近才出現(xiàn)的,只是隨著信息化和互聯(lián)網(wǎng)不斷發(fā)展,才越來(lái)越被大家重視。1980年,著名未來(lái)學(xué)家阿爾文托夫勒在《第三次浪潮》中將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂(lè)章”。大數(shù)據(jù)顧名思義就是“數(shù)量”很大的數(shù)據(jù),由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多的數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合。業(yè)內(nèi)一般認(rèn)為其有4V 特征:Volume(數(shù)據(jù)量大)、Velocity(輸入和處理速度快)、Variety(數(shù)據(jù)多樣性)、Veracity(價(jià)值密度低)[2]。所謂數(shù)據(jù)量大,是指從TB 級(jí)別躍升到PB 級(jí)別。美國(guó)互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年增長(zhǎng)50%,而且速度越來(lái)越快。目前,世界上90%以上的數(shù)據(jù)都是最近幾年才產(chǎn)生的。國(guó)際數(shù)據(jù)公司(IDC)報(bào)告指出,2008年全球數(shù)據(jù)量為0.5 ZB,2010年為1.2 ZB,預(yù)計(jì)2020年將突破35 ZB。輸入和處理速度快是指現(xiàn)在產(chǎn)生的數(shù)據(jù)越來(lái)越多、越來(lái)越快,全世界人民每時(shí)每刻都在互聯(lián)網(wǎng)上發(fā)布信息,出現(xiàn)各種基于互聯(lián)網(wǎng)應(yīng)用而留下的行為痕跡。數(shù)據(jù)多樣性是指各種各樣的數(shù)據(jù),包括全球的工業(yè)設(shè)備、汽車(chē)、電表的傳感器,各種電子商務(wù)、政務(wù)產(chǎn)生的交易日志等,并且類型也從單一的結(jié)構(gòu)化數(shù)據(jù)擴(kuò)展到半結(jié)構(gòu)化甚至自然語(yǔ)言(如聊天記錄)等。價(jià)值密度低則指的是數(shù)量龐大,雖然價(jià)值很大,但密度較低,通過(guò)傳統(tǒng)人工檢索的方式不可行,因此必須發(fā)展相應(yīng)的大數(shù)據(jù)挖掘技術(shù)。大數(shù)據(jù)之所以備受業(yè)界重視,是因?yàn)閮r(jià)值大是大數(shù)據(jù)的靈魂所在,數(shù)據(jù)成為一種資產(chǎn)或者生產(chǎn)資料,可以為企業(yè)或社會(huì)帶來(lái)巨大的價(jià)值。
毋庸置疑,大數(shù)據(jù)正在由技術(shù)熱詞變成一股社會(huì)浪潮,影響社會(huì)生活的方方面面,給我們帶來(lái)更大的視野和更新的發(fā)現(xiàn),進(jìn)而改變我們的生活、工作和思維方式。在這個(gè)進(jìn)程中,大數(shù)據(jù)所引發(fā)的革命在企業(yè)界尤為突出,特別是電信運(yùn)營(yíng)商企業(yè)。身處信息化時(shí)代,所有的服務(wù)、生產(chǎn)經(jīng)營(yíng)都已經(jīng)數(shù)字化,在為客戶提供網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)倪^(guò)程中,自然可獲得大量的數(shù)據(jù),如何發(fā)揮這些數(shù)據(jù)的作用是運(yùn)營(yíng)商下階段發(fā)展的重要命題。任何技術(shù)發(fā)展都具有兩面性,大數(shù)據(jù)在帶來(lái)機(jī)遇的同時(shí)也帶來(lái)了巨大的挑戰(zhàn)。大數(shù)據(jù)時(shí)代的數(shù)據(jù)體量巨大、增長(zhǎng)快速,有些數(shù)據(jù)甚至關(guān)系國(guó)家安全、企業(yè)競(jìng)爭(zhēng)力等敏感信息,如政府情報(bào)、金融數(shù)據(jù)、醫(yī)療信息等。其次,大數(shù)據(jù)也會(huì)帶來(lái)用戶隱私泄露問(wèn)題,必須要切實(shí)做好客戶信息保護(hù)工作,消除客戶擔(dān)憂。如果不能做好這些信息安全工作,必然會(huì)遭到政府、客戶的反對(duì),大數(shù)據(jù)必然是短命的。因此,必須充分保障大數(shù)據(jù)時(shí)代的信息安全,才能使大數(shù)據(jù)長(zhǎng)效發(fā)揮作用。
國(guó)外相關(guān)機(jī)構(gòu)對(duì)大數(shù)據(jù)安全也非常關(guān)注,CSA BDWG 在2013年6月16日發(fā)布 《Expanded Top Ten Big Data Security and Privacy Challenges》完整版[3],將大數(shù)據(jù)安全劃分為基礎(chǔ)架構(gòu)安全、數(shù)據(jù)隱私、數(shù)據(jù)管理、誠(chéng)信和無(wú)保障4 類。2013年7月18日至8月18日發(fā)布了《Big Data Analytics for Security Intelligence》白皮書(shū),給出數(shù)據(jù)隱私與管理、網(wǎng)絡(luò)安全監(jiān)控、企業(yè)活動(dòng)分析、流量監(jiān)控來(lái)識(shí)別僵尸網(wǎng)絡(luò)、高級(jí)持續(xù)性威脅檢測(cè)以及大數(shù)據(jù)分析實(shí)驗(yàn)平臺(tái)等最佳實(shí)踐。
大數(shù)據(jù)是社會(huì)高度信息化的必然產(chǎn)物,其安全風(fēng)險(xiǎn)是信息安全的組成部分。在大數(shù)據(jù)環(huán)境下,體量龐大、類型繁多的數(shù)據(jù)在收集、存儲(chǔ)、管理、分析、傳輸以及共享等各個(gè)環(huán)節(jié)都可能存在信息安全風(fēng)險(xiǎn)和隱患。人們所熟悉的信息安全問(wèn)題,從計(jì)算機(jī)病毒到網(wǎng)絡(luò)黑客、從技術(shù)性故障到有組織攻擊,從個(gè)人隱私破壞到大規(guī)模數(shù)據(jù)泄露等,在大數(shù)據(jù)時(shí)代依然存在。由于大數(shù)據(jù)新的特性,給信息安全帶來(lái)新的挑戰(zhàn)。
一方面,大數(shù)據(jù)平臺(tái)本身存在脆弱性。當(dāng)前大數(shù)據(jù)存儲(chǔ)和處理技術(shù)通常采用分布式和大規(guī)模并行處理方式,導(dǎo)致其被攻擊面擴(kuò)大;同時(shí),由于各個(gè)分布式處理節(jié)點(diǎn)中存儲(chǔ)的是“碎片化”數(shù)據(jù),難以采取集中式安全模型統(tǒng)一部署安全機(jī)制。另一方面,大數(shù)據(jù)缺乏內(nèi)生性安全保障機(jī)制。目前,主流的大數(shù)據(jù)相關(guān)技術(shù)普遍沒(méi)有內(nèi)生性的安全機(jī)制設(shè)計(jì),大多需要采用外部安全技術(shù)保障,然而在實(shí)際部署時(shí)普遍采用缺省配置,缺乏最基本的安全防護(hù)。
大數(shù)據(jù)存儲(chǔ)帶來(lái)新的安全問(wèn)題。數(shù)據(jù)大量集中的后果是復(fù)雜多樣的數(shù)據(jù)存儲(chǔ)在一起,給數(shù)據(jù)管理帶來(lái)挑戰(zhàn)。另外,大數(shù)據(jù)的規(guī)模也會(huì)影響安全措施能否正確運(yùn)行。安全防護(hù)手段的更新升級(jí)無(wú)法跟上數(shù)據(jù)量非線性增長(zhǎng)的步伐。
顯然,大數(shù)據(jù)是更容易被關(guān)注的大目標(biāo)。一方面,大數(shù)據(jù)意味著大規(guī)模的數(shù)據(jù),也意味著更復(fù)雜、更敏感的數(shù)據(jù),這些數(shù)據(jù)會(huì)吸引更多的潛在攻擊者;另一方面,數(shù)據(jù)的大量匯集提高了攻擊的性價(jià)比,使得黑客成功攻擊一次就能獲得更多的數(shù)據(jù)。2012年的CSDN 賬號(hào)泄露以及2013年酒店記錄泄露也證實(shí)了這樣的趨勢(shì)。
大數(shù)據(jù)所提供的強(qiáng)大資源是“雙刃劍”,很有可能被黑客組織和敵對(duì)勢(shì)力利用,實(shí)施攻擊和破壞活動(dòng)。第一方面是大數(shù)據(jù)技術(shù)使得黑客攻擊更精準(zhǔn)。黑客可以通過(guò)大數(shù)據(jù)分析技術(shù)獲得更多有價(jià)值的信息,如從社交網(wǎng)絡(luò)、郵件、微博、電子商務(wù)中利用大數(shù)據(jù)技術(shù)搜集企業(yè)或個(gè)人的電話、家庭地址、企業(yè)信息防護(hù)措施等信息,使其攻擊行為和目標(biāo)更加精準(zhǔn)、更具有針對(duì)性;第二方面是大數(shù)據(jù)技術(shù)放大黑客攻擊效果。黑客可以充分利用大數(shù)據(jù)平臺(tái)所具備的強(qiáng)大運(yùn)算、存儲(chǔ)和傳輸資源放大攻擊效果,造成更大的損害(類似于利用僵尸網(wǎng)絡(luò)攻擊的方式); 第三方面是大數(shù)據(jù)技術(shù)使得黑客攻擊更隱蔽。由于大數(shù)據(jù)規(guī)模大、復(fù)雜性高,黑客可以通過(guò)大數(shù)據(jù)掩護(hù)使其攻擊更加分散,使得安全分析工具難以定位;同時(shí),黑客可以使用APT(高級(jí)可持續(xù)攻擊),讓木馬等長(zhǎng)期潛伏在大數(shù)據(jù)平臺(tái)中,定期或不定期地對(duì)有價(jià)值的信息進(jìn)行跟蹤竊取,更加難以防范。傳統(tǒng)的信息安全檢測(cè)是基于單個(gè)時(shí)間點(diǎn)進(jìn)行基于威脅特征的試匹配檢測(cè),而APT 是一個(gè)長(zhǎng)期的攻擊過(guò)程,無(wú)法被實(shí)時(shí)檢測(cè)。大數(shù)據(jù)的數(shù)據(jù)量龐大,有利于黑客將攻擊掩藏,給安全分析帶來(lái)困難。
互聯(lián)網(wǎng)上大量數(shù)據(jù)的匯集不可避免地加大了個(gè)人信息泄露的風(fēng)險(xiǎn)。一方面是數(shù)據(jù)集中容易增加泄露風(fēng)險(xiǎn),有專家表示,通過(guò)一些行為分析可以判定一個(gè)人的準(zhǔn)確率為87%。另一方面是敏感數(shù)據(jù)的所有權(quán)和使用權(quán)在當(dāng)前法律中沒(méi)有明確的界定,很多基于大數(shù)據(jù)的分析也未考慮到其中涉及的個(gè)人隱私問(wèn)題。如網(wǎng)上的購(gòu)物行為、搜索行為這樣的記錄屬于行為者本人還是平臺(tái);用戶上網(wǎng)行為記錄運(yùn)營(yíng)商是否有權(quán)使用;用戶訪問(wèn)URL 是否可以分析等。
Gartner 報(bào)告指出,85%的大數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù),相關(guān)數(shù)據(jù)并無(wú)地域限制。在大數(shù)據(jù)時(shí)代,圍繞大數(shù)據(jù)的采集、傳輸、存儲(chǔ)、利用、消費(fèi)等環(huán)節(jié)將誕生新的產(chǎn)業(yè)鏈,許多企業(yè)都可以在這個(gè)產(chǎn)業(yè)鏈中找到定位并發(fā)展壯大。信息安全是在每個(gè)產(chǎn)業(yè)環(huán)節(jié)中都必須加以保障的。
大數(shù)據(jù)在給信息安全保障工作帶來(lái)巨大挑戰(zhàn)的同時(shí),也為信息安全提供了新的工作思路和解決方案,促進(jìn)了安全技術(shù)及產(chǎn)業(yè)的發(fā)展與革新。
在傳統(tǒng)的信息安全保障過(guò)程中,往往采取事中評(píng)估、事后處置的防護(hù)模式,一旦發(fā)生信息安全事件,難免造成一定的損失及影響。如今利用大數(shù)據(jù)相關(guān)技術(shù),可以實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的分析、關(guān)聯(lián)、對(duì)比,通過(guò)自動(dòng)化的分析及深度挖掘手段,能夠提前發(fā)現(xiàn)潛在的安全隱患和漏洞。
同時(shí),網(wǎng)絡(luò)黑客的攻擊行為往往會(huì)留下蛛絲馬跡,這些痕跡都以數(shù)據(jù)的形式隱藏在海量的日志信息中。利用大數(shù)據(jù)技術(shù)整合計(jì)算和處理資源有助于更有針對(duì)性地分析問(wèn)題,便于攻擊溯源;同時(shí),信息安全服務(wù)廠商也可以根據(jù)相關(guān)行為的分析,研發(fā)相對(duì)應(yīng)的防護(hù)手段和工具,保障網(wǎng)絡(luò)與系統(tǒng)的安全。
通過(guò)大數(shù)據(jù)技術(shù)更容易得到網(wǎng)絡(luò)全貌,更容易分析一些傳統(tǒng)安全技術(shù)無(wú)法檢測(cè)的行為,如慢速DDoS、APT 攻擊等。利用大數(shù)據(jù)技術(shù)對(duì)事件模式、攻擊模式、時(shí)間和空間上的特征進(jìn)行處理,總結(jié)抽象出一些模型,變成大數(shù)據(jù)工具??梢哉洗髷?shù)據(jù)處理資源,協(xié)調(diào)大數(shù)據(jù)處理和分析機(jī)制,推動(dòng)重點(diǎn)數(shù)據(jù)塊之間的數(shù)據(jù)共享,共同抵御高級(jí)可持續(xù)攻擊。
監(jiān)測(cè)預(yù)警是信息安全保障體系的重要組成部分,上海電信已經(jīng)建立了較完備的安全監(jiān)測(cè)體系,然而,在傳統(tǒng)技術(shù)條件下,相關(guān)體系缺乏針對(duì)整個(gè)網(wǎng)絡(luò)安全態(tài)勢(shì)進(jìn)行有效掌控的手段。
大數(shù)據(jù)分析將單純的日志分析擴(kuò)展到了全面的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)分析領(lǐng)域,擴(kuò)大了安全分析的深度和廣度,為信息安全提供強(qiáng)大的監(jiān)測(cè)、分析和預(yù)測(cè)支持。大數(shù)據(jù)分析技術(shù)將極大地提升上海電信對(duì)城域網(wǎng)運(yùn)行安全監(jiān)測(cè)數(shù)據(jù)的分析挖掘能力。在原有監(jiān)測(cè)資源的基礎(chǔ)上,優(yōu)化系統(tǒng)結(jié)構(gòu),建立更強(qiáng)大的計(jì)算和存儲(chǔ)資源,部署適合的信息采集機(jī)制,研發(fā)更加實(shí)用的分析算法,建立信息安全宏觀態(tài)勢(shì)監(jiān)控預(yù)警能力。
運(yùn)營(yíng)商可以通過(guò)流量監(jiān)測(cè)建立客戶的常規(guī)流量模型,在客戶流量異常時(shí)為客戶提供預(yù)警服務(wù),及時(shí)提醒客戶,防范未知風(fēng)險(xiǎn)。
運(yùn)營(yíng)商也可以通過(guò)集中分析網(wǎng)內(nèi)的異常行為,如病毒、黑客攻擊,在這些行為影響到客戶時(shí),提供預(yù)警甚至阻斷服務(wù),確??蛻艟W(wǎng)絡(luò)的安全。
運(yùn)營(yíng)商也可以為公眾用戶提供安全訪問(wèn)網(wǎng)站的服務(wù)。通過(guò)收集、建立黑白名單,對(duì)客戶訪問(wèn)的地址提供分析服務(wù)。如果是惡意釣魚(yú)類的黑名單地址,則提醒用戶安全訪問(wèn)。如果是假冒網(wǎng)站還可以提醒用戶訪問(wèn)真實(shí)官網(wǎng),起到品牌保護(hù)的作用。甚至還可以通過(guò)數(shù)據(jù)分析為未成年人提供綠色上網(wǎng)服務(wù),自動(dòng)過(guò)濾不良內(nèi)容。
運(yùn)營(yíng)商還可以借助強(qiáng)大的計(jì)算資源和網(wǎng)絡(luò)資源,為客戶提供輿情分析平臺(tái),讓客戶及時(shí)了解自己的產(chǎn)品、服務(wù)、品牌在網(wǎng)絡(luò)空間的美譽(yù)度或建議,及時(shí)改進(jìn)自己的服務(wù)。
大數(shù)據(jù)給信息安全帶來(lái)挑戰(zhàn)的同時(shí),也帶來(lái)了機(jī)遇,如何控制風(fēng)險(xiǎn),發(fā)揮優(yōu)勢(shì),需要一個(gè)科學(xué)、合理的安全策略。關(guān)鍵要做好以下幾方面。
對(duì)所有數(shù)據(jù),包括客戶數(shù)據(jù)和自身的業(yè)務(wù)數(shù)據(jù),要根據(jù)法規(guī)、對(duì)企業(yè)價(jià)值等多個(gè)維度對(duì)數(shù)據(jù)級(jí)別進(jìn)行定義和分類,并制定分級(jí)的準(zhǔn)則。
根據(jù)數(shù)據(jù)等級(jí)的不同,在收集、采集、傳輸、存儲(chǔ)、處理、訪問(wèn)、刪除時(shí)都應(yīng)該有不同的策略。通常來(lái)說(shuō),將重要數(shù)據(jù)存放在安全、可靠的設(shè)備上,給予高強(qiáng)度的保護(hù),包括網(wǎng)絡(luò)隔離、訪問(wèn)控制等。
大數(shù)據(jù)時(shí)代,數(shù)據(jù)量以幾何技術(shù)增長(zhǎng),傳統(tǒng)的安全防護(hù)軟件不能滿足需要。同時(shí),云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)對(duì)數(shù)據(jù)的手機(jī)、處理和應(yīng)用也提出了新的安全挑戰(zhàn)。因此,必須加強(qiáng)對(duì)大數(shù)據(jù)安全保障技術(shù)的研究,同時(shí),也要研究基于大數(shù)據(jù)的安全技術(shù),為客戶提供更好的信息安全服務(wù)。
人才是大數(shù)據(jù)技術(shù)發(fā)展應(yīng)用的第一要素,不僅要培養(yǎng)數(shù)據(jù)分析工程師,更要培養(yǎng)數(shù)據(jù)安全工程師,為大數(shù)據(jù)長(zhǎng)期穩(wěn)定運(yùn)營(yíng)保駕護(hù)航。
根據(jù)法規(guī)的要求,妥善處理好數(shù)據(jù)邊界。對(duì)涉及用戶隱私的信息必須去隱私化處理。
毫無(wú)疑問(wèn),大數(shù)據(jù)深刻地影響著社會(huì)各行各業(yè)的發(fā)展。對(duì)于處于去電信化階段的運(yùn)營(yíng)商,大數(shù)據(jù)給予其再一次發(fā)展的機(jī)會(huì)。如果不切實(shí)考慮如何挖掘大數(shù)據(jù)的商業(yè)價(jià)值以及如何保護(hù)好大數(shù)據(jù)的信息安全,不僅意味者運(yùn)營(yíng)商在行業(yè)落伍了,甚至?xí)ノ磥?lái)市場(chǎng)的競(jìng)爭(zhēng)力。大數(shù)據(jù)就是一片奔涌著沖天巨浪的大潮,大數(shù)據(jù)安全則是弄潮兒腳下的沖浪板,有了沖浪板的行業(yè)領(lǐng)先者將會(huì)在這片大潮中乘風(fēng)破浪騰躍高飛,再一次創(chuàng)造輝煌。
1 美國(guó)政府大數(shù)據(jù)研發(fā)計(jì)劃,http://www.360doc.com/content/12/0501/21/9768137_207974185.shtml
2 大數(shù)據(jù),http://zh.wikipedia.org/wiki/大數(shù)據(jù)
3 CSA.Expanded Top Ten Big Data Security and Privacy Challenges.2013