桑亮
目前,個人數(shù)據(jù)已成為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的重要基礎資源之一,需求日趨旺盛。而個人數(shù)據(jù)被濫用和黑市交易的日益猖獗,使隱私保護呼聲日益高漲。面對這一供需矛盾,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展亟須完善個人數(shù)據(jù)的隱私保護。
數(shù)據(jù)隱私保護刻不容緩
在大數(shù)據(jù)發(fā)展成為國家戰(zhàn)略的背景下,個人數(shù)據(jù)已成為重要資源,其使用中面臨的隱私保護問題亟待解決。大數(shù)據(jù)浪潮洶涌來襲,與互聯(lián)網(wǎng)的發(fā)明一樣,不僅是信息技術領域的革命,更是在全球范圍啟動透明政府、加速企業(yè)創(chuàng)新、引領社會變革的利器。
進入大數(shù)據(jù)時代,數(shù)據(jù)的隱私問題包括兩個方面:一方面是個人隱私的保護。隨著數(shù)據(jù)采集技術的發(fā)展,在用戶無法察覺的時候就能容易地獲得用戶的個人興趣、習慣、身體特征等隱私信息;另一方面是個人隱私數(shù)據(jù)在存放、傳輸和使用的過程中,也有被泄露的風險。
美國Facebook公司被認為是目前擁有最多的社交網(wǎng)絡數(shù)據(jù)的大數(shù)據(jù)公司。這些擁有大數(shù)據(jù)的組織,都試圖通過復雜計算來挖掘數(shù)據(jù)中有價值的信息。其中的隱私保護技術是關鍵。
據(jù)報道,通過一款信息收集工具,Skull Security的研究人員羅恩·鮑維斯獲取了Facebook用戶公共頁面的數(shù)據(jù),而這些用戶沒有修改他們的隱私設置。鮑維斯將這些數(shù)據(jù)打包成一份2.8GB的內容,并創(chuàng)建BT種子供他人下載,并將其用于建立模型,以精準投放廣告等方式干預全球多地選舉或公民投票前的民意。Facebook公司承認,8700萬用戶受影響。
在美國參議院相關委員會的聽證會上,扎克伯格承認,在預防Facebook等社交工具被濫用等方面做得還不夠,使其被用來傳播假新聞、仇恨言論、干涉選舉等等。
由此可見,大數(shù)據(jù)的分析能力導致看似簡單的信息可能會被挖掘出其中的隱私,因此面對大數(shù)據(jù)時代的隱私保護成為新的課題。
個人數(shù)據(jù)成為重要基礎資源
2012年3月,奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展計劃”,旨在提升美國從龐大而復雜的數(shù)字資料中提煉真知灼見的能力,以協(xié)助科學、工程領域加快創(chuàng)新步伐,強化美國國土安全,轉變教育和學習模式。
2012年5月,英國政府宣布建立世界首個開放數(shù)據(jù)研究所,旨在從開放數(shù)據(jù)中尋求產(chǎn)品創(chuàng)新、創(chuàng)業(yè)機遇和經(jīng)濟增長點。在發(fā)達國家紛紛將大數(shù)據(jù)發(fā)展上升為國家戰(zhàn)略的背景下,無論是技術還是產(chǎn)業(yè),在大數(shù)據(jù)領域喪失主動權,都意味著國家安全將在數(shù)字空間出現(xiàn)漏洞,國家創(chuàng)新能力將在未來國際競爭中落后于人。
我國人口眾多,很多領域都能出現(xiàn)全球最大、最復雜的“數(shù)據(jù)池”,大數(shù)據(jù)應用前景十分廣闊。國內不少企業(yè)家已經(jīng)意識到了數(shù)據(jù)的戰(zhàn)略價值,如阿里巴巴集團董事局主席馬云就提出過銷售數(shù)據(jù)的觀點。而大數(shù)據(jù)是如何產(chǎn)生的?它的來源主要有哪些呢?大數(shù)據(jù)的原材料即數(shù)據(jù),其來源主要有以下四類。
一是網(wǎng)絡。社交網(wǎng)站以及電子商務網(wǎng)站是大數(shù)據(jù)的主要來源,服務提供商可以利用這些數(shù)據(jù)對用戶進行仔細的分析,從而深入了解用戶的需求,提供更加具有針對性的服務,如亞馬遜、京東等電子商務平臺提供的商品推薦服務。
二是移動智能終端。通過智能手機、平板電腦、電子書、PDA、導航儀等移動互聯(lián)網(wǎng)終端設備搜集相關信息,可以進行有效的決策,比如交通監(jiān)控和疏導系統(tǒng)。
三是物聯(lián)網(wǎng)終端。分布在不同地理位置上的傳感器以及嵌入物體中的RFID,對所處環(huán)境進行感知,不斷生成數(shù)據(jù)。
四是科研。如在物理研究方面,大型強子對撞機每年積累的新數(shù)據(jù)量為15PB左右。
顯而易見,數(shù)據(jù)來源中不少是個人數(shù)據(jù)。個人數(shù)據(jù)的大數(shù)據(jù)分析能直接產(chǎn)生經(jīng)濟效益,是現(xiàn)階段極為重要的基礎資源。而關于個人數(shù)據(jù),按照數(shù)據(jù)的來源,2011年世界經(jīng)濟論壇編制的報告將個人數(shù)據(jù)分為以下三類。
一是自愿提供的數(shù)據(jù)。即用戶自愿提供的一系列數(shù)據(jù),如微博發(fā)表的各種言論及照片、向某些網(wǎng)站注冊時提交的信息等。
二是被觀測到的數(shù)據(jù)。即用戶在使用信息設施或者軟件時,被記錄和觀察到的一系列行為數(shù)據(jù),如上網(wǎng)記錄、購物記錄、搜索記錄等。
三是被推斷的數(shù)據(jù)。即根據(jù)用戶的各種信息推測的個人數(shù)據(jù),如個人信用評級、消費需求、購物偏好等。
按照是否涉及隱私,可以將個人數(shù)據(jù)分為敏感性和非敏感性個人數(shù)據(jù)。
敏感性個人數(shù)據(jù)涉及個人隱私,法律給予特殊保護,某些數(shù)據(jù)會有專門法律進行規(guī)制,如個人征信數(shù)據(jù)。不同的國家對于敏感性數(shù)據(jù)的劃分有所不同,如歐盟將種族、宗教信仰作為敏感性數(shù)據(jù),中國對此沒有特殊規(guī)定。
非敏感性個人數(shù)據(jù)指不涉及個人隱私的數(shù)據(jù),一般沒有特殊保護。
詳解個人隱私數(shù)據(jù)
主要發(fā)達國家在積極部署國家安全的同時,著力加強了對個人隱私的保護。反觀我國大數(shù)據(jù)領域的發(fā)展,面對日益增長的需求,在當前個人數(shù)據(jù)規(guī)制還不健全的情況下,如何保證在當前的大數(shù)據(jù)時代,用戶隱私不泄露的前提下,提高大數(shù)據(jù)的利用率,挖掘大數(shù)據(jù)的價值,是目前大數(shù)據(jù)研究領域的關鍵問題。
而談到大數(shù)據(jù)環(huán)境下的個人隱私保護,首先需要清楚大數(shù)據(jù)產(chǎn)生的過程中,哪些個人數(shù)據(jù)屬于個人隱私數(shù)據(jù)。個人數(shù)據(jù)的內容復雜多樣,不勝枚舉,以下以當前頻繁使用的主要數(shù)據(jù)進行分類。
一是交易數(shù)據(jù)。交易數(shù)據(jù)中的用戶賬戶、支付記錄、消費商品記錄及電子賬戶余額等均為重要的個人數(shù)據(jù)。
二是電子郵件數(shù)據(jù)。電子郵件中,用戶隱私數(shù)據(jù)和商務機密數(shù)據(jù)較多。不僅可能包括用戶對某一熱點事件的看法,而且可能包括用戶的年齡、愛好和學歷等重要基本信息。
三是社交媒體數(shù)據(jù)。社交媒體數(shù)據(jù)則包括了位置信息、行為特征甚至與意識形態(tài)相關的重要數(shù)據(jù)等。這些重要的個人數(shù)據(jù)不僅蘊涵著較大的商業(yè)價值,而且對于經(jīng)濟組織乃至國家而言,極具戰(zhàn)略性意義。
四是位置信息/數(shù)據(jù)。隨著移動終端的普及并成為生活必需品,個人的位置信息無所遁形,都被移動終端記載下來。
五是醫(yī)療信息。世界上不少國家已經(jīng)應用了電子健康記錄。隨著電子健康記錄的逐步推廣,個人的病史、健康狀況、醫(yī)療保險等也將成為重要的個人數(shù)據(jù)。
部分個人數(shù)據(jù)屬于個人隱私。并非所有個人數(shù)據(jù)都是隱私。有時候,每個碎片化的個人數(shù)據(jù)不是隱私,一旦將其組合分析,便涉及個人隱私。
大數(shù)據(jù)的發(fā)展可能使個人隱私無所遁形,以至于國外隱私保護主義者擔憂出現(xiàn)“Big Data is Big Brother”(美國著名小說《1984》中的獨裁者老大哥,隨時監(jiān)控著人們)的情況。只有解除這一擔憂,才能給大數(shù)據(jù)發(fā)展掃清道路。
用策略性技術保障數(shù)據(jù)安全
那么,如何在大數(shù)據(jù)時代盡量保證個人的隱私數(shù)據(jù)不被泄露呢?在當前大數(shù)據(jù)時代中,大家普遍認可的隱私保護技術,主要有k-anonymity(k-匿名化)、l-diversity( l-多樣化)、t-closeness個性化匿名、m-invariance匿名、基于“角色構成”的匿名方法等,這里我們不再詳細做展開闡述,不論是從隱私保護模型、數(shù)據(jù)生命周期,還是數(shù)據(jù)隱私保護技術本身的算法,很多技術性的文章已經(jīng)詳細介紹了這些隱私保護技術對數(shù)據(jù)的保護。
行文至此,數(shù)據(jù)隱私保護的重要性已經(jīng)不言而喻,如何使用大數(shù)據(jù)技術進行數(shù)據(jù)的安全加固,恰當?shù)募夹g策略更顯得尤為重要。所以,下文將通過5個方面的隱私保護技術進行策略性的說明。
采用數(shù)據(jù)加密技術保護數(shù)據(jù)隱私
在考慮大數(shù)據(jù)發(fā)展的同時必須防止數(shù)據(jù)的丟失。安全問題在信息時代越來越多,對加密技術的靈活性和針對性的要求也越來越高。因此多模透明加密技術就成為最佳選項。這種技術結合了對稱和非對稱算法的優(yōu)點,在不損失加密質量的同時更加靈活。處理方式越靈活,越有利于為大規(guī)模的數(shù)據(jù)安全提供保障。
此外,在透明加密技術的幫助下,人們幾乎感覺不到大數(shù)據(jù)的加密。該技術是基于系統(tǒng)內核的,這意味著它將具有更好的兼容性。既然我們要對數(shù)據(jù)隱私進行保護,那么保護數(shù)據(jù)本身就應該是我們考慮的起點,因此我們最好使用加密軟件。針對性強、防護全面的加密軟件像哨兵一樣保護了大數(shù)據(jù)的發(fā)展。對于企業(yè)來說,為了保護數(shù)據(jù)安全,擁有快速檢測數(shù)據(jù)威脅的能力是非常重要的,目前部分企業(yè)已經(jīng)能夠做到這一點。
重新設計大數(shù)據(jù)架構層面的安全工具
大數(shù)據(jù)和關系型數(shù)據(jù)庫,這二者看似差別甚微,實際上有很大的區(qū)別。首先,它們具有不同的實時性,數(shù)據(jù)量也有差別。其次,它們的分布式架構也不盡相同,而分布式架構正是給安全防護帶來獨特困難的“元兇”。此外,大數(shù)據(jù)在存儲與查詢時采取與后者不同的模式,此外還需要協(xié)調不同網(wǎng)絡會話。在大數(shù)據(jù)環(huán)境中,安全產(chǎn)品中有很多技術已經(jīng)處于失效狀態(tài),其中包括監(jiān)視與分析日志、發(fā)現(xiàn)數(shù)據(jù)以及評估漏洞等方面。因此,需要在架構層面上重新設計安全工具,以滿足大數(shù)據(jù)環(huán)境中的安全需要。
加固大數(shù)據(jù)網(wǎng)絡技術的安全防護
進行大數(shù)據(jù)應用開發(fā)時,將數(shù)據(jù)結構化是一個好方法。該方法降低了數(shù)據(jù)處理和分類的難度,同時也方便了數(shù)據(jù)管理和加密。這樣當發(fā)生非法入侵時,系統(tǒng)就可以準確高效地分辨出入侵行為,從而保證了大量數(shù)據(jù)在使用前不會被破壞。這種方法提高了系統(tǒng)的效率,但本質上并沒有改變數(shù)據(jù)安全格局。數(shù)據(jù)結構化已經(jīng)成為安全模式的發(fā)展趨勢。作為當前數(shù)據(jù)安全模式的常規(guī)做法,分層構建需要進一步完善。同時隨著網(wǎng)絡攻擊次數(shù)的暴增及云計算造成的攻擊方法隱秘性的增強,現(xiàn)有的端點安全模式已暴露出明顯的弱點,因而使網(wǎng)絡層受到強大的壓力。所以我們應該在維護端點數(shù)據(jù)安全時重點考慮網(wǎng)絡層。這要求我們在把數(shù)據(jù)結構化、辨識智能化與本地系統(tǒng)的監(jiān)控機制結合起來時,只允許常態(tài)數(shù)據(jù)運行。
提高本地數(shù)據(jù)層面的安全技術
在大數(shù)據(jù)時代,數(shù)據(jù)可以帶來豐厚的經(jīng)濟收益,這也誘發(fā)了許多信息泄露事件,其中很大一部分來自內部。因此,對端點而言,本地安全防護系統(tǒng)看上去完整而成熟了,但實際上相差很大。這就要求調整安全防護思路,在本地安全策略中加入內部監(jiān)控功能。為防止人為故意破壞,應使用純數(shù)據(jù)模式。此外還應重視加強各環(huán)節(jié)的協(xié)作。在處理數(shù)據(jù)時數(shù)據(jù)調用有很大的風險,要想避免這種風險就要進一步劃分鏈接,改進存儲及緩存方式。
數(shù)據(jù)存儲作為“終端”,受到了高度的重視,但其安全保護措施仍然需要加強,這樣才能與新的數(shù)據(jù)模式相適應。這要求完善數(shù)據(jù)邏輯策略,作用于存儲隔離與調用之間。在大數(shù)據(jù)領域,只有少數(shù)開發(fā)資源被投入到增加安全功能中,而其他功能,例如分析功能、易用性和可升性,占據(jù)了大部分資源。
此外還有一個顯著的問題:大多數(shù)系統(tǒng)缺乏配套安全產(chǎn)品,而即便是有,也難以應對常見威脅,而且非關系型數(shù)據(jù)庫、Hadoop等無法包含大多數(shù)安全產(chǎn)品,因此企業(yè)構建安全策略就極其重要。本地安全策略可能存在許多未知隱患,這就需要企業(yè)一邊開發(fā),一邊完善自有系統(tǒng)。
個人層面的數(shù)據(jù)隱私防護建議
對于個人用戶來說,將數(shù)據(jù)存放在對方服務器中就意味著一種抵押,由于對方想取用時無須任何申請,用戶對此束手無策,因此也談不上什么保護隱私。對此有以下幾點建議:
采用匿名IP地址。禁止網(wǎng)站搜集和跟蹤Cookies,不使用不支持Do Not Track請求的瀏覽器。
加密數(shù)據(jù)。主要針對企業(yè)級用戶,對于個人用戶來說,當其將一個私密文件上傳到網(wǎng)絡上,最好在壓縮時設置加密密碼,這無疑讓用戶的數(shù)據(jù)多了一道屏障。
拒絕不合理的權限要求。這主要是針對手機用戶,現(xiàn)在的手機應用程序,尤其是部分國產(chǎn)軟件不顧用戶的實際需求,所要求的權限超出了其本身的功能范圍。此外,垃圾軟件在后臺運行占用硬件資源,嚴重影響手機性能及用戶體驗。
瀏覽網(wǎng)頁時使用HTTPS協(xié)議。HTTPS協(xié)議是可進行加密傳輸、身份認證的網(wǎng)絡協(xié)議,比HTTP協(xié)議安全,這樣就增強了電腦與服務器之間收發(fā)的信息傳輸安全性。
最后,面對大數(shù)據(jù)應用帶來的創(chuàng)新與隱私保護的兩難選擇,首先梳理國外經(jīng)驗,調研國民對隱私的態(tài)度,再進行隱私保護總體設計,明確隱私保護的價值取向、機制構成及其內在關系,同時建立個人數(shù)據(jù)隱私泄露舉報機制和個人數(shù)據(jù)隱私泄露溯源機制。這里仍然引用作者王忠關于個人隱私數(shù)據(jù)的技術路線圖(如圖3)作為隱私保護手段的總結??傊诖髷?shù)據(jù)時代到來以后,隱私泄露會更加嚴重,除非你不上網(wǎng),否則在技術上無法做到完全的保護。要真正保障每個公民的隱私權和安全,需要靠法律和道德,靠每一個人的良知和社會組織的進步,以及科學技術的發(fā)展。