大數(shù)據(jù)環(huán)境下的隱私保護

2018-05-14 14:40桑亮

互聯(lián)網(wǎng)經(jīng)濟 2018年4期

關鍵詞：用戶

桑亮

目前，個人數(shù)據(jù)已成為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的重要基礎資源之一，需求日趨旺盛。而個人數(shù)據(jù)被濫用和黑市交易的日益猖獗，使隱私保護呼聲日益高漲。面對這一供需矛盾，大數(shù)據(jù)產(chǎn)業(yè)發(fā)展亟須完善個人數(shù)據(jù)的隱私保護。

數(shù)據(jù)隱私保護刻不容緩

在大數(shù)據(jù)發(fā)展成為國家戰(zhàn)略的背景下，個人數(shù)據(jù)已成為重要資源，其使用中面臨的隱私保護問題亟待解決。大數(shù)據(jù)浪潮洶涌來襲，與互聯(lián)網(wǎng)的發(fā)明一樣，不僅是信息技術領域的革命，更是在全球范圍啟動透明政府、加速企業(yè)創(chuàng)新、引領社會變革的利器。

進入大數(shù)據(jù)時代，數(shù)據(jù)的隱私問題包括兩個方面：一方面是個人隱私的保護。隨著數(shù)據(jù)采集技術的發(fā)展，在用戶無法察覺的時候就能容易地獲得用戶的個人興趣、習慣、身體特征等隱私信息；另一方面是個人隱私數(shù)據(jù)在存放、傳輸和使用的過程中，也有被泄露的風險。

美國Facebook公司被認為是目前擁有最多的社交網(wǎng)絡數(shù)據(jù)的大數(shù)據(jù)公司。這些擁有大數(shù)據(jù)的組織，都試圖通過復雜計算來挖掘數(shù)據(jù)中有價值的信息。其中的隱私保護技術是關鍵。

據(jù)報道，通過一款信息收集工具，Skull Security的研究人員羅恩·鮑維斯獲取了Facebook用戶公共頁面的數(shù)據(jù)，而這些用戶沒有修改他們的隱私設置。鮑維斯將這些數(shù)據(jù)打包成一份2.8GB的內容，并創(chuàng)建BT種子供他人下載，并將其用于建立模型，以精準投放廣告等方式干預全球多地選舉或公民投票前的民意。Facebook公司承認，8700萬用戶受影響。

在美國參議院相關委員會的聽證會上，扎克伯格承認，在預防Facebook等社交工具被濫用等方面做得還不夠，使其被用來傳播假新聞、仇恨言論、干涉選舉等等。

由此可見，大數(shù)據(jù)的分析能力導致看似簡單的信息可能會被挖掘出其中的隱私，因此面對大數(shù)據(jù)時代的隱私保護成為新的課題。

個人數(shù)據(jù)成為重要基礎資源

2012年3月，奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展計劃”，旨在提升美國從龐大而復雜的數(shù)字資料中提煉真知灼見的能力，以協(xié)助科學、工程領域加快創(chuàng)新步伐，強化美國國土安全，轉變教育和學習模式。

2012年5月，英國政府宣布建立世界首個開放數(shù)據(jù)研究所，旨在從開放數(shù)據(jù)中尋求產(chǎn)品創(chuàng)新、創(chuàng)業(yè)機遇和經(jīng)濟增長點。在發(fā)達國家紛紛將大數(shù)據(jù)發(fā)展上升為國家戰(zhàn)略的背景下，無論是技術還是產(chǎn)業(yè)，在大數(shù)據(jù)領域喪失主動權，都意味著國家安全將在數(shù)字空間出現(xiàn)漏洞，國家創(chuàng)新能力將在未來國際競爭中落后于人。

我國人口眾多，很多領域都能出現(xiàn)全球最大、最復雜的“數(shù)據(jù)池”，大數(shù)據(jù)應用前景十分廣闊。國內不少企業(yè)家已經(jīng)意識到了數(shù)據(jù)的戰(zhàn)略價值，如阿里巴巴集團董事局主席馬云就提出過銷售數(shù)據(jù)的觀點。而大數(shù)據(jù)是如何產(chǎn)生的？它的來源主要有哪些呢？大數(shù)據(jù)的原材料即數(shù)據(jù)，其來源主要有以下四類。

一是網(wǎng)絡。社交網(wǎng)站以及電子商務網(wǎng)站是大數(shù)據(jù)的主要來源，服務提供商可以利用這些數(shù)據(jù)對用戶進行仔細的分析，從而深入了解用戶的需求，提供更加具有針對性的服務，如亞馬遜、京東等電子商務平臺提供的商品推薦服務。

二是移動智能終端。通過智能手機、平板電腦、電子書、PDA、導航儀等移動互聯(lián)網(wǎng)終端設備搜集相關信息，可以進行有效的決策，比如交通監(jiān)控和疏導系統(tǒng)。

三是物聯(lián)網(wǎng)終端。分布在不同地理位置上的傳感器以及嵌入物體中的RFID，對所處環(huán)境進行感知，不斷生成數(shù)據(jù)。

四是科研。如在物理研究方面，大型強子對撞機每年積累的新數(shù)據(jù)量為15PB左右。

顯而易見，數(shù)據(jù)來源中不少是個人數(shù)據(jù)。個人數(shù)據(jù)的大數(shù)據(jù)分析能直接產(chǎn)生經(jīng)濟效益，是現(xiàn)階段極為重要的基礎資源。而關于個人數(shù)據(jù)，按照數(shù)據(jù)的來源，2011年世界經(jīng)濟論壇編制的報告將個人數(shù)據(jù)分為以下三類。

一是自愿提供的數(shù)據(jù)。即用戶自愿提供的一系列數(shù)據(jù)，如微博發(fā)表的各種言論及照片、向某些網(wǎng)站注冊時提交的信息等。

二是被觀測到的數(shù)據(jù)。即用戶在使用信息設施或者軟件時，被記錄和觀察到的一系列行為數(shù)據(jù)，如上網(wǎng)記錄、購物記錄、搜索記錄等。

三是被推斷的數(shù)據(jù)。即根據(jù)用戶的各種信息推測的個人數(shù)據(jù)，如個人信用評級、消費需求、購物偏好等。

按照是否涉及隱私，可以將個人數(shù)據(jù)分為敏感性和非敏感性個人數(shù)據(jù)。

敏感性個人數(shù)據(jù)涉及個人隱私，法律給予特殊保護，某些數(shù)據(jù)會有專門法律進行規(guī)制，如個人征信數(shù)據(jù)。不同的國家對于敏感性數(shù)據(jù)的劃分有所不同，如歐盟將種族、宗教信仰作為敏感性數(shù)據(jù)，中國對此沒有特殊規(guī)定。

非敏感性個人數(shù)據(jù)指不涉及個人隱私的數(shù)據(jù)，一般沒有特殊保護。

詳解個人隱私數(shù)據(jù)

主要發(fā)達國家在積極部署國家安全的同時，著力加強了對個人隱私的保護。反觀我國大數(shù)據(jù)領域的發(fā)展，面對日益增長的需求，在當前個人數(shù)據(jù)規(guī)制還不健全的情況下，如何保證在當前的大數(shù)據(jù)時代，用戶隱私不泄露的前提下，提高大數(shù)據(jù)的利用率，挖掘大數(shù)據(jù)的價值，是目前大數(shù)據(jù)研究領域的關鍵問題。

而談到大數(shù)據(jù)環(huán)境下的個人隱私保護，首先需要清楚大數(shù)據(jù)產(chǎn)生的過程中，哪些個人數(shù)據(jù)屬于個人隱私數(shù)據(jù)。個人數(shù)據(jù)的內容復雜多樣，不勝枚舉，以下以當前頻繁使用的主要數(shù)據(jù)進行分類。

一是交易數(shù)據(jù)。交易數(shù)據(jù)中的用戶賬戶、支付記錄、消費商品記錄及電子賬戶余額等均為重要的個人數(shù)據(jù)。

二是電子郵件數(shù)據(jù)。電子郵件中，用戶隱私數(shù)據(jù)和商務機密數(shù)據(jù)較多。不僅可能包括用戶對某一熱點事件的看法，而且可能包括用戶的年齡、愛好和學歷等重要基本信息。

三是社交媒體數(shù)據(jù)。社交媒體數(shù)據(jù)則包括了位置信息、行為特征甚至與意識形態(tài)相關的重要數(shù)據(jù)等。這些重要的個人數(shù)據(jù)不僅蘊涵著較大的商業(yè)價值，而且對于經(jīng)濟組織乃至國家而言，極具戰(zhàn)略性意義。

四是位置信息/數(shù)據(jù)。隨著移動終端的普及并成為生活必需品，個人的位置信息無所遁形，都被移動終端記載下來。

五是醫(yī)療信息。世界上不少國家已經(jīng)應用了電子健康記錄。隨著電子健康記錄的逐步推廣，個人的病史、健康狀況、醫(yī)療保險等也將成為重要的個人數(shù)據(jù)。

部分個人數(shù)據(jù)屬于個人隱私。并非所有個人數(shù)據(jù)都是隱私。有時候，每個碎片化的個人數(shù)據(jù)不是隱私，一旦將其組合分析，便涉及個人隱私。

大數(shù)據(jù)的發(fā)展可能使個人隱私無所遁形，以至于國外隱私保護主義者擔憂出現(xiàn)“Big Data is Big Brother”（美國著名小說《1984》中的獨裁者老大哥，隨時監(jiān)控著人們）的情況。只有解除這一擔憂，才能給大數(shù)據(jù)發(fā)展掃清道路。

用策略性技術保障數(shù)據(jù)安全

那么，如何在大數(shù)據(jù)時代盡量保證個人的隱私數(shù)據(jù)不被泄露呢？在當前大數(shù)據(jù)時代中，大家普遍認可的隱私保護技術，主要有k-anonymity（k-匿名化）、l-diversity（ l-多樣化）、t-closeness個性化匿名、m-invariance匿名、基于“角色構成”的匿名方法等，這里我們不再詳細做展開闡述，不論是從隱私保護模型、數(shù)據(jù)生命周期，還是數(shù)據(jù)隱私保護技術本身的算法，很多技術性的文章已經(jīng)詳細介紹了這些隱私保護技術對數(shù)據(jù)的保護。

行文至此，數(shù)據(jù)隱私保護的重要性已經(jīng)不言而喻，如何使用大數(shù)據(jù)技術進行數(shù)據(jù)的安全加固，恰當?shù)募夹g策略更顯得尤為重要。所以，下文將通過5個方面的隱私保護技術進行策略性的說明。

采用數(shù)據(jù)加密技術保護數(shù)據(jù)隱私

在考慮大數(shù)據(jù)發(fā)展的同時必須防止數(shù)據(jù)的丟失。安全問題在信息時代越來越多，對加密技術的靈活性和針對性的要求也越來越高。因此多模透明加密技術就成為最佳選項。這種技術結合了對稱和非對稱算法的優(yōu)點，在不損失加密質量的同時更加靈活。處理方式越靈活，越有利于為大規(guī)模的數(shù)據(jù)安全提供保障。

此外，在透明加密技術的幫助下，人們幾乎感覺不到大數(shù)據(jù)的加密。該技術是基于系統(tǒng)內核的，這意味著它將具有更好的兼容性。既然我們要對數(shù)據(jù)隱私進行保護，那么保護數(shù)據(jù)本身就應該是我們考慮的起點，因此我們最好使用加密軟件。針對性強、防護全面的加密軟件像哨兵一樣保護了大數(shù)據(jù)的發(fā)展。對于企業(yè)來說，為了保護數(shù)據(jù)安全，擁有快速檢測數(shù)據(jù)威脅的能力是非常重要的，目前部分企業(yè)已經(jīng)能夠做到這一點。

重新設計大數(shù)據(jù)架構層面的安全工具

大數(shù)據(jù)和關系型數(shù)據(jù)庫，這二者看似差別甚微，實際上有很大的區(qū)別。首先，它們具有不同的實時性，數(shù)據(jù)量也有差別。其次，它們的分布式架構也不盡相同，而分布式架構正是給安全防護帶來獨特困難的“元兇”。此外，大數(shù)據(jù)在存儲與查詢時采取與后者不同的模式，此外還需要協(xié)調不同網(wǎng)絡會話。在大數(shù)據(jù)環(huán)境中，安全產(chǎn)品中有很多技術已經(jīng)處于失效狀態(tài)，其中包括監(jiān)視與分析日志、發(fā)現(xiàn)數(shù)據(jù)以及評估漏洞等方面。因此，需要在架構層面上重新設計安全工具，以滿足大數(shù)據(jù)環(huán)境中的安全需要。

加固大數(shù)據(jù)網(wǎng)絡技術的安全防護

進行大數(shù)據(jù)應用開發(fā)時，將數(shù)據(jù)結構化是一個好方法。該方法降低了數(shù)據(jù)處理和分類的難度，同時也方便了數(shù)據(jù)管理和加密。這樣當發(fā)生非法入侵時，系統(tǒng)就可以準確高效地分辨出入侵行為，從而保證了大量數(shù)據(jù)在使用前不會被破壞。這種方法提高了系統(tǒng)的效率，但本質上并沒有改變數(shù)據(jù)安全格局。數(shù)據(jù)結構化已經(jīng)成為安全模式的發(fā)展趨勢。作為當前數(shù)據(jù)安全模式的常規(guī)做法，分層構建需要進一步完善。同時隨著網(wǎng)絡攻擊次數(shù)的暴增及云計算造成的攻擊方法隱秘性的增強，現(xiàn)有的端點安全模式已暴露出明顯的弱點，因而使網(wǎng)絡層受到強大的壓力。所以我們應該在維護端點數(shù)據(jù)安全時重點考慮網(wǎng)絡層。這要求我們在把數(shù)據(jù)結構化、辨識智能化與本地系統(tǒng)的監(jiān)控機制結合起來時，只允許常態(tài)數(shù)據(jù)運行。

提高本地數(shù)據(jù)層面的安全技術

在大數(shù)據(jù)時代，數(shù)據(jù)可以帶來豐厚的經(jīng)濟收益，這也誘發(fā)了許多信息泄露事件，其中很大一部分來自內部。因此，對端點而言，本地安全防護系統(tǒng)看上去完整而成熟了，但實際上相差很大。這就要求調整安全防護思路，在本地安全策略中加入內部監(jiān)控功能。為防止人為故意破壞，應使用純數(shù)據(jù)模式。此外還應重視加強各環(huán)節(jié)的協(xié)作。在處理數(shù)據(jù)時數(shù)據(jù)調用有很大的風險，要想避免這種風險就要進一步劃分鏈接，改進存儲及緩存方式。

數(shù)據(jù)存儲作為“終端”，受到了高度的重視，但其安全保護措施仍然需要加強，這樣才能與新的數(shù)據(jù)模式相適應。這要求完善數(shù)據(jù)邏輯策略，作用于存儲隔離與調用之間。在大數(shù)據(jù)領域，只有少數(shù)開發(fā)資源被投入到增加安全功能中，而其他功能，例如分析功能、易用性和可升性，占據(jù)了大部分資源。

此外還有一個顯著的問題：大多數(shù)系統(tǒng)缺乏配套安全產(chǎn)品，而即便是有，也難以應對常見威脅，而且非關系型數(shù)據(jù)庫、Hadoop等無法包含大多數(shù)安全產(chǎn)品，因此企業(yè)構建安全策略就極其重要。本地安全策略可能存在許多未知隱患，這就需要企業(yè)一邊開發(fā)，一邊完善自有系統(tǒng)。

個人層面的數(shù)據(jù)隱私防護建議

對于個人用戶來說，將數(shù)據(jù)存放在對方服務器中就意味著一種抵押，由于對方想取用時無須任何申請，用戶對此束手無策，因此也談不上什么保護隱私。對此有以下幾點建議：

采用匿名IP地址。禁止網(wǎng)站搜集和跟蹤Cookies，不使用不支持Do Not Track請求的瀏覽器。

加密數(shù)據(jù)。主要針對企業(yè)級用戶，對于個人用戶來說，當其將一個私密文件上傳到網(wǎng)絡上，最好在壓縮時設置加密密碼，這無疑讓用戶的數(shù)據(jù)多了一道屏障。

拒絕不合理的權限要求。這主要是針對手機用戶，現(xiàn)在的手機應用程序，尤其是部分國產(chǎn)軟件不顧用戶的實際需求，所要求的權限超出了其本身的功能范圍。此外，垃圾軟件在后臺運行占用硬件資源，嚴重影響手機性能及用戶體驗。

瀏覽網(wǎng)頁時使用HTTPS協(xié)議。HTTPS協(xié)議是可進行加密傳輸、身份認證的網(wǎng)絡協(xié)議，比HTTP協(xié)議安全，這樣就增強了電腦與服務器之間收發(fā)的信息傳輸安全性。

最后，面對大數(shù)據(jù)應用帶來的創(chuàng)新與隱私保護的兩難選擇，首先梳理國外經(jīng)驗，調研國民對隱私的態(tài)度，再進行隱私保護總體設計，明確隱私保護的價值取向、機制構成及其內在關系，同時建立個人數(shù)據(jù)隱私泄露舉報機制和個人數(shù)據(jù)隱私泄露溯源機制。這里仍然引用作者王忠關于個人隱私數(shù)據(jù)的技術路線圖（如圖3）作為隱私保護手段的總結?？傊诖髷?shù)據(jù)時代到來以后，隱私泄露會更加嚴重，除非你不上網(wǎng)，否則在技術上無法做到完全的保護。要真正保障每個公民的隱私權和安全，需要靠法律和道德，靠每一個人的良知和社會組織的進步，以及科學技術的發(fā)展。