莫 可
北京林業(yè)大學(xué),北京 100083
當(dāng)前,校園大數(shù)據(jù)分析作為“智慧校園”的重要組成部分,在教學(xué)和學(xué)生管理、校園狀態(tài)管理和預(yù)測等方面能提供實時而有效的決策支撐,同時,大數(shù)據(jù)分析的探索功能也幫助學(xué)校的管理者以全新的角度去重新認(rèn)識校園里的一切事物,這一切的基礎(chǔ),都不離開對校園內(nèi)部各類數(shù)據(jù)的收集和利用。但諸如學(xué)生學(xué)習(xí)成績、校園一卡通消費記錄、校園網(wǎng)絡(luò)使用日志等隱私數(shù)據(jù),能否被用于或者如何被用于大數(shù)據(jù)分析,人們的觀點不一而同。在隱私保護討論日趨激烈、隱私泄露日益嚴(yán)重的背景下,如何制衡大數(shù)據(jù)分析與個人隱私保護之間的“矛與盾”,成為了必須解決的問題。
一般而言,在收集、處理、展示數(shù)據(jù)的過程中,當(dāng)個人數(shù)據(jù)貢獻于一個高度抽象的統(tǒng)計結(jié)果或預(yù)測結(jié)果時,人們通常不會認(rèn)為或者感受到自己的隱私受到了侵犯,因此并不會介意相關(guān)數(shù)據(jù)以諸如匯總的方式被抽象地使用。但在大數(shù)據(jù)分析的實際工作中,尤其是涉及學(xué)生管理的事務(wù)中,經(jīng)常會遇到“由結(jié)果至源頭的追溯”問題,例如:大數(shù)據(jù)判斷有部分學(xué)生作息不規(guī)律,有健康風(fēng)險,需及早干預(yù)。從學(xué)生管理的角度而言,大數(shù)據(jù)發(fā)揮預(yù)測的功能是十分有益的。但僅僅是預(yù)測和發(fā)現(xiàn)情況是遠遠不夠的,作為管理者必須要想辦法將危險消除在萌芽之中,因此往往需要將發(fā)現(xiàn)的問題聯(lián)系到實際個人。但此時若直接根據(jù)數(shù)據(jù)結(jié)果,定位到個人,不免令人產(chǎn)生隱私被侵犯的感受。
數(shù)據(jù)脫敏,是指按照一定規(guī)則降低數(shù)據(jù)的敏感程度,使其在采集、傳輸、使用等環(huán)節(jié)能夠?qū)⒈┞讹L(fēng)險降到最小。2019年國家網(wǎng)信辦公開發(fā)布《數(shù)據(jù)安全管理辦法(征求意見稿)》,明確要求個人信息的存儲和利用必須經(jīng)過匿名化處理,切實降低個人信息的泄露風(fēng)險。因此,數(shù)據(jù)脫敏技術(shù)成為解決個人隱私信息保護的關(guān)鍵過程。
如今隱私泄露在生活中非常多見:例如,知名網(wǎng)站的用戶數(shù)據(jù)庫被黑客攻陷,明文存儲的用戶信息成為黑市交易的對象;快遞公司內(nèi)部人員暗中收集的客戶快遞單販賣給電話詐騙團伙,諸如此類的報道屢見不鮮。根據(jù)安全公司Risk Based Security 公布的數(shù)據(jù),2019年上半年全球發(fā)生數(shù)據(jù)泄露事件3800余起,相比上年同期增加54%。從本質(zhì)而言這些問題都是由于不分類、不規(guī)范地存儲和使用含有個人隱私信息的數(shù)據(jù)而造成的。正是因為意識到數(shù)據(jù)泄露可能造成的潛在危害,如今在國家、行業(yè)、企業(yè)等各個層面,都越發(fā)重視數(shù)據(jù)的安全問題。
根據(jù)由一項或幾項隱私信息識別到具體個人的能力,本文將隱私信息總結(jié)劃分為四個類型:(1)完全識別型隱私,即通過一項信息就能識別個人,例如每個人的身份證號、手機號等;(2)聯(lián)合識別型隱私,即某一項信息不足以識別個人,但足夠多的幾項聯(lián)合起來可以識別個人,例如性別、身高、年齡、地址等;(3)敏感隱私,即無法直接識別個人,但內(nèi)容不宜公開,公開后會對當(dāng)事人造成困擾的信息,例如:各類賬號、密碼、疾病信息、學(xué)習(xí)成績、家庭住址、個人收入、各類購物信息等;(4)普通隱私,即無法直接識別個人,公開后對當(dāng)事人造成的影響較低的信息,例如:單位名稱、職稱、職務(wù)、民族、籍貫、學(xué)習(xí)經(jīng)歷等。
上述四類隱私,若未經(jīng)授權(quán)而形成泄露,對個人造成的影響也有輕重之分。針對不同類型的隱私,應(yīng)當(dāng)根據(jù)其特點和內(nèi)容的重要程度,制定不同的管理或使用規(guī)范。
脫敏處理由易到難,一般可有三個層次的要求:
常見脫敏方法包括:(1)替換法或省略法,例如將性別“女”替換為字母F,將“1號樓1單元101室”替換為“1-1-101”,此類方法通常能夠保留一定的信息完整性和閱讀性,對信息的持有者來說容易維護,但相應(yīng)的也容易被惡意侵犯者破解和掌握信息的含義,從而造成信息泄露;(2)重排,例如將“apple”倒序重排為“elppa”,應(yīng)用此類方法時,數(shù)據(jù)可依照一定規(guī)則進行恢復(fù),但同樣容易被破解;(3)字典加密,最簡單凱撒加密法就是一種字典加密,例如以“+1”方式將“123456”加密為“234567”,其實質(zhì)是將數(shù)字0對應(yīng)為數(shù)字1,數(shù)字1對應(yīng)為數(shù)字2,……,數(shù)字9對應(yīng)為數(shù)字0,具體選用什么樣的字典進行加密是根據(jù)實際情況而決定的;(4)截斷或掩碼,例如以159開頭的11位手機號碼截斷為159,通過前三位判斷用戶的所屬運營商;又例如在快遞或外賣單上,將11位手機號碼處理為159XXXX1234,此類方法舍棄了一定數(shù)據(jù)精度,雖然信息的持有者和使用者容易識別,但此類數(shù)據(jù)只能滿足特定的信息應(yīng)用場景,對其他場景的適應(yīng)性不好,或稱,對信息生產(chǎn)環(huán)節(jié)不友好;(5)取整,例如將一個五位數(shù)字按千位四舍五入取整,比如將12,345取整為12,000,此類方法一般是根據(jù)實際工作的需要而舍棄一定的原始數(shù)據(jù)精度,對原始數(shù)據(jù)的內(nèi)容具有一定的保護意義。
在常見的脫敏規(guī)則基礎(chǔ)之上,對隱私信息的處理還有許多更高級別的處理模式。K-匿名處理方法就是其中一類。K-匿名處理主要針對聯(lián)合型隱私數(shù)據(jù),其基本思想是在消除完全識別型隱私數(shù)據(jù)影響的基礎(chǔ)之上,通過對數(shù)據(jù)集的數(shù)據(jù)項進行掩碼或截斷等方式的處理,使數(shù)據(jù)集中的任一一條記錄,都有另外K條記錄與它相等,使得非法接觸數(shù)據(jù)的攻擊者無法準(zhǔn)確識別到具體的信息主體。
設(shè)某個數(shù)據(jù)集包含學(xué)生的基本信息,其部分字段分別為{序號,年齡(歲),身高(厘米),助學(xué)金(元)}。數(shù)據(jù)集中的記錄A為{1,19,176,1000},記錄B為{2,18,178,1000},記錄C為{3,19,181,1500},記錄D為{3,18,175,1000},記錄E為{5,19,182,1500}。假設(shè)攻擊者知道某學(xué)生的年齡(18歲)和身高(178厘米),則容易知道該生的記錄為B記錄,對應(yīng)的助學(xué)金為1000元。此例中,年齡和身高,屬于聯(lián)合識別型隱私數(shù)據(jù),而助學(xué)金屬于敏感隱私。
此時對記錄A、B、C、D、E的年齡和身高字段進行掩碼處理,處理后記錄A為{1,1*,17*,1000},記錄B為{2,1*,17*,1000},記錄C為{3,1*,18*,1500},記錄D為{4,1*,17*,1000},記錄E為{5,1*,18*,1500}。此時,若知道某學(xué)生的年齡(18歲)和身高(176厘米),與之符合條件的數(shù)據(jù)記錄為 A{1,1*,17*,1000}、B{2,1*,17,1000}、D{4,1*,17*,1000}三條記錄,無法準(zhǔn)確判斷某學(xué)生對應(yīng)哪一條記錄。此時,我們稱記錄A、B、D在識別方面的能力是相等的,稱為一個相等集。若知道另一個學(xué)生的年齡(19歲)和身高(182厘米),此時數(shù)據(jù)集里能匹配到的記錄是 C{3,1*,18*,1500}和 E{5,1*,18*,1500},此時稱記錄C和D是一個相等集。
在某一個數(shù)據(jù)表里,對任意一行記錄,都至少有K-1條記錄與它相等,則稱該數(shù)據(jù)表符合K-匿名要求。對攻擊者而言,猜中準(zhǔn)確記錄的概率低于或等于1/K。對于上述示例數(shù)據(jù)集而言,其達到了2-匿名要求,即攻擊者準(zhǔn)確猜中記錄的概率低于1/2。
在上述例子中,雖然無法明確某學(xué)生(18歲,身高176厘米)是A記錄、B記錄、D記錄,但是依然可以知道,該生的助學(xué)金為1000元。為此,可以對數(shù)據(jù)集插入一條干擾數(shù)據(jù),記錄F{6,1*,17*,2000}。此時攻擊者便無法判斷該學(xué)生的助學(xué)金是1000元或2000元。對于記錄A、B、D、F構(gòu)成的相等集而言,它助學(xué)金字段的多樣性為2,此時攻擊者猜中準(zhǔn)確記錄的概率低于1/2。如果對于某個相等集的記錄,對應(yīng)的敏感數(shù)據(jù)的結(jié)果有L個“合適的”值,則稱該相等集滿足L-多樣性要求。
在校園大數(shù)據(jù)相關(guān)工作中,需根據(jù)實際情況對數(shù)據(jù)進行脫敏處理,對于常規(guī)脫敏方法可以直接實現(xiàn),K-匿名處理和L-多樣性處理一般需要借助軟件或者程序?qū)崿F(xiàn)。在實現(xiàn)脫敏處理的過程中,還需要注意以下的原則:其一、對數(shù)據(jù)加密盡量使用可逆的加密方法,避免對原始信息造成損失;其二、完全識別型隱私必須進行脫敏處理,切實保護用戶信息;其三、結(jié)合實際情況考慮是否滿足K-匿名或L-多樣性要求,以設(shè)計數(shù)據(jù)格式,合理使用脫敏方法處理為宜,盡量不插入干擾數(shù)據(jù),避免信息失真。其四,以保障可讀性、可用性為原則,選擇合適的脫敏方法向第三方提供部分?jǐn)?shù)據(jù),避免提供原始數(shù)據(jù)。
在校園大數(shù)據(jù)分析領(lǐng)域內(nèi),校園網(wǎng)絡(luò)日志數(shù)據(jù)是常見的需要脫敏處理的對象,以下以其處理過程為例進行說明。
(1)學(xué)號:一般學(xué)號的編排都遵循年級-學(xué)院-專業(yè)-班級等邏輯,其最后兩位或三位一般為班內(nèi)編號,通??梢詫ζ溥M行掩碼操作,對學(xué)號信息進行部分保護;(2)IP地址,可以采用凱撒加密方式對IP地址的各段數(shù)字進行處理,常見映射為“+1”操作,其中255進行“+1”操作后應(yīng)該為0。需要進行解密操作時,只需要對IP地址的各段數(shù)字進行“-1”操作即可。采用此類可恢復(fù)的加密方式能夠有效的實現(xiàn)對數(shù)據(jù)的保護,對掌握加密算法的內(nèi)部人員而言又易于還原;(3)連網(wǎng)和斷網(wǎng)時間,可以根據(jù)需要將時間的記錄精度進行取整操作,一般精確到小時或每15分鐘即可;(4)在線時長、產(chǎn)生流量、產(chǎn)生費用等,這些數(shù)據(jù)一般需要進行準(zhǔn)確的統(tǒng)計或計算操作,因此一般不進行處理。
按上述的方式對網(wǎng)絡(luò)日志數(shù)據(jù)進行處理后,任何第三方依然可以使用該數(shù)據(jù)對學(xué)生的網(wǎng)絡(luò)行為或習(xí)慣進行分析,例如通過連網(wǎng)斷網(wǎng)時間判斷學(xué)生是否正常作息(熬夜),通過在線時長和產(chǎn)生流量判斷學(xué)生的網(wǎng)絡(luò)行為(長期上網(wǎng)、流量異常)。對于數(shù)據(jù)異常的用戶,可以通過掩碼后的學(xué)號確認(rèn)其所在的學(xué)院、班級,并以班級為范圍進行提示,避免直接接觸個人,以充分尊重其個人的隱私保護問題。如果確因現(xiàn)實情況,需要進一步確認(rèn)具體身份,可以將IP地址進行對應(yīng)解密,比照相關(guān)資料,識別到具體的個人。