馬曉亭 陳 臣
(蘭州財(cái)經(jīng)大學(xué)信息工程學(xué)院 蘭州 730020)
·學(xué)術(shù)論壇·
基于大數(shù)據(jù)生命周期理論的讀者隱私風(fēng)險(xiǎn)管理與保護(hù)框架構(gòu)建
馬曉亭 陳 臣
(蘭州財(cái)經(jīng)大學(xué)信息工程學(xué)院 蘭州 730020)
圖書館讀者大數(shù)據(jù)的安全和隱私保護(hù)面臨著諸如安全架構(gòu)、數(shù)據(jù)隱私風(fēng)險(xiǎn)管理、個(gè)人數(shù)據(jù)被全天候和全方位監(jiān)視、讀者大數(shù)據(jù)被二次利用等風(fēng)險(xiǎn),傳統(tǒng)的隱私保護(hù)技術(shù)已不適應(yīng)大數(shù)據(jù)時(shí)代圖書館隱私保護(hù)需求。文章總結(jié)歸納了大數(shù)據(jù)環(huán)境下面臨的隱私問題,通過分析現(xiàn)有隱私保護(hù)機(jī)制的不足,構(gòu)建基于大數(shù)據(jù)生命周期理論的圖書館讀者隱私風(fēng)險(xiǎn)管理與保護(hù)框架。
大數(shù)據(jù) 生命周期理論 隱私風(fēng)險(xiǎn)管理與保護(hù)
隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、傳感器網(wǎng)絡(luò)和物聯(lián)網(wǎng)技術(shù)的發(fā)展,圖書館已進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)具有海量(Volume)、多樣性(Variety)、快速處理(Velocity)、高價(jià)值(Value)的4V特征[1],傳統(tǒng)的數(shù)據(jù)安全管理與防范策略,已不適應(yīng)當(dāng)前圖書館復(fù)雜、多變的大數(shù)據(jù)環(huán)境安全管理需求,極易受到黑客與病毒的攻擊而導(dǎo)致數(shù)據(jù)被截取、篡改和非法濫用。此外,圖書館對大數(shù)據(jù)的過度挖掘和分析,也可能會泄露讀者隱私和侵犯敏感數(shù)據(jù)。因此,大數(shù)據(jù)環(huán)境下如何有效保護(hù)數(shù)據(jù)安全和讀者隱私,已成為關(guān)系圖書館服務(wù)效益、可信度和讀者滿意度的重要問題。
美國是世界上最早提出隱私權(quán)并予以法律保護(hù)的國家,于1974年通過了《隱私法案》。奧巴馬政府于2015年初公布了《2015年消費(fèi)者隱私權(quán)法案》,該法案明確規(guī)定了大數(shù)據(jù)的所有權(quán)屬于用戶,并對第三方在使用用戶個(gè)體數(shù)據(jù)的透明性和安全性上進(jìn)行了限制。2012年3月,歐盟也提出改革《數(shù)據(jù)保護(hù)法規(guī)》,幫助歐盟民眾進(jìn)一步保護(hù)個(gè)人信息,幫助企業(yè)利用“單一數(shù)字市場”帶來的機(jī)遇。與歐美等國在法律上較完善的數(shù)據(jù)隱私保護(hù)相比,我國相關(guān)法律中僅提及“公民的個(gè)人數(shù)據(jù)不得非法搜集、傳輸、處理和利用”,但我國《民法通則》并未將隱私權(quán)作為一項(xiàng)獨(dú)立的人格權(quán)加以保護(hù),還未頒布相關(guān)大數(shù)據(jù)時(shí)代公民隱私保護(hù)法律[2]。
2.1 大數(shù)據(jù)時(shí)代讀者的隱私范疇難以界定
圖書館通過視頻監(jiān)控器、傳感器、移動(dòng)設(shè)備、讀者管理系統(tǒng)和閱讀終端等,采集到的讀者個(gè)體特征數(shù)據(jù)具有海量、多樣化、復(fù)雜、動(dòng)態(tài)、縱深和分布的特點(diǎn),圖書館難以對所采集的讀者數(shù)據(jù)進(jìn)行隱私范疇劃分與界定。據(jù)獨(dú)立調(diào)研機(jī)構(gòu)Ponemon Institute調(diào)研報(bào)告顯示:84%的公司在軟件開發(fā)與測試期間使用真實(shí)的客戶信息,70%的公司使用消費(fèi)者的數(shù)據(jù),51%的公司使用信貸或其它支付信息,而且其中45%的公司沒有對開發(fā)和測試中使用的真實(shí)數(shù)據(jù)予以保護(hù)。這意味著商業(yè)公司或政府機(jī)構(gòu)在使用客戶數(shù)據(jù)的過程中,存在著嚴(yán)重的安全風(fēng)險(xiǎn)和個(gè)人隱私泄露隱患[3]。
圖書館不同部門采集的大數(shù)據(jù)具有數(shù)據(jù)海量、多類型、數(shù)據(jù)條塊分割嚴(yán)重和不易融合的特點(diǎn)。此外,各部門在大數(shù)據(jù)的采集、傳輸和存儲中采用不同的數(shù)據(jù)標(biāo)準(zhǔn)和操作規(guī)范,易導(dǎo)致“數(shù)據(jù)孤島”現(xiàn)象發(fā)生,圖書館難以有效劃分讀者隱私數(shù)據(jù)的內(nèi)容和數(shù)量。其次,為了提升大數(shù)據(jù)的價(jià)值總量和數(shù)據(jù)可用性,圖書館會與第三方通過數(shù)據(jù)交換、共享的方式進(jìn)行數(shù)據(jù)交易,這種數(shù)據(jù)交易方式可能會破壞圖書館原有的數(shù)據(jù)安全監(jiān)管、防護(hù)體系,導(dǎo)致讀者的隱私范疇劃分復(fù)雜化。第三,為了增強(qiáng)大數(shù)據(jù)的管理效率和降低大數(shù)據(jù)應(yīng)用成本,圖書館會采用租賃云存儲空間和云計(jì)算資源的方式,實(shí)現(xiàn)海量大數(shù)據(jù)的高速云存儲和實(shí)時(shí)計(jì)算。圖書館如果將大數(shù)據(jù)存儲于云空間,大數(shù)據(jù)的主體范圍、地域、時(shí)空等都發(fā)生了變化,而現(xiàn)有法律制度還未對存儲于云空間的數(shù)據(jù)所有權(quán)進(jìn)行明確規(guī)定,圖書館可能會喪失數(shù)據(jù)的主權(quán)(數(shù)據(jù)主權(quán)是指一個(gè)國家對其管轄地域范圍內(nèi)個(gè)人、企業(yè)和相關(guān)組織所產(chǎn)生的數(shù)據(jù)擁有的最高權(quán)力)和數(shù)據(jù)控制權(quán)。第四,讀者位置信息和移動(dòng)路徑數(shù)據(jù),是圖書館判定讀者個(gè)性化閱讀需求的關(guān)鍵數(shù)據(jù)。圖書館雖然可通過用戶知情、授權(quán)使用和匿名化等方式保護(hù)讀者隱私,但如何在保證位置數(shù)據(jù)可用性前提下保護(hù)讀者隱私,以及準(zhǔn)確度量讀者敏感信息泄露的程度,是大數(shù)據(jù)時(shí)代讀者隱私范疇界定的一個(gè)難點(diǎn)問題。
2.2 讀者的個(gè)人隱私數(shù)據(jù)可能會被肆意收集
大數(shù)據(jù)環(huán)境下,圖書館可根據(jù)IT服務(wù)基礎(chǔ)設(shè)施構(gòu)建、讀者閱讀需求預(yù)測、數(shù)據(jù)中心運(yùn)營管理和用戶QOS(服務(wù)質(zhì)量)保證需求,全方位、不間斷地采集讀者的特征大數(shù)據(jù)。采集讀者個(gè)體大數(shù)據(jù)的方式主要通過搜索引擎、用戶管理系統(tǒng)、監(jiān)控視頻、移動(dòng)閱讀終端、服務(wù)器監(jiān)控設(shè)備等,獲取讀者的個(gè)體特征數(shù)據(jù)、閱讀歷史行為數(shù)據(jù)、閱讀社會關(guān)系數(shù)據(jù)、移動(dòng)路徑與位置數(shù)據(jù)、工作與居住地信息、個(gè)人習(xí)慣和偏好數(shù)據(jù)等,這些特征數(shù)據(jù)的采集通常未經(jīng)讀者授權(quán),讀者也很少思考與過問這些數(shù)據(jù)的使用內(nèi)容、對象、范圍和被監(jiān)管主體,存在較大的隱私安全隱患。
《大數(shù)據(jù)時(shí)代》一書作者維克托·邁爾-舍恩伯格,在出席北京第八屆中國云計(jì)算大會期間描述道:“我們當(dāng)前的方式是詢問每一個(gè)客戶、個(gè)人是否同意搜集其個(gè)人數(shù)據(jù),這種個(gè)人數(shù)據(jù)保護(hù)方式是完全錯(cuò)誤的,政府應(yīng)做出某種程度上的規(guī)定,判定數(shù)據(jù)收集的合理性和合法性”[4]。當(dāng)前,隨著圖書館傳感器網(wǎng)絡(luò)存儲、計(jì)算能力的提升和設(shè)備使用成本的下降,大數(shù)據(jù)的采集、存儲和計(jì)算已不再是影響圖書館大數(shù)據(jù)應(yīng)用的關(guān)鍵因素,如何制定符合大數(shù)據(jù)應(yīng)用實(shí)際的法律、法規(guī),有效保護(hù)讀者隱私安全才是關(guān)系圖書館服務(wù)可信度的關(guān)鍵。其次,大數(shù)據(jù)時(shí)代圖書館為了提升服務(wù)的開放性和可用性,會支持第三方開發(fā)相應(yīng)的個(gè)性化閱讀與應(yīng)用軟件,而第三方應(yīng)用軟件也可能會采集、竊取讀者的隱私數(shù)據(jù)。因此,如何在采集的內(nèi)容、范圍、程度和應(yīng)用對象等方面,有效監(jiān)督和限制第三方的應(yīng)用軟件,是防止讀者個(gè)人隱私被肆意收集的重要舉措。第三,為了提高大數(shù)據(jù)采集的效率和速度,圖書館通常會利用網(wǎng)絡(luò)爬蟲來采集讀者的閱讀行為數(shù)據(jù),并以出售和共享的方式轉(zhuǎn)讓給第三方。這種對圖書館大數(shù)據(jù)的過度采集、共享、融合和分析方式,雖然極大程度挖掘了讀者大數(shù)據(jù)的價(jià)值,但存在讀者隱私被侵犯的風(fēng)險(xiǎn)。
2.3 大數(shù)據(jù)清洗不能實(shí)現(xiàn)數(shù)據(jù)的完全脫敏
傳統(tǒng)數(shù)據(jù)清洗是對數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,目的在于刪除重復(fù)信息和糾正錯(cuò)誤,并提供數(shù)據(jù)一致性。而在大數(shù)據(jù)時(shí)代,圖書館希望通過大數(shù)據(jù)清洗后隱匿讀者的個(gè)人身份信息、個(gè)人隱私和社會關(guān)系數(shù)據(jù),確保圖書館在大數(shù)據(jù)分析與決策中不會泄露讀者的隱私。其次,圖書館期望通過大數(shù)據(jù)清洗后,改變讀者原有個(gè)體數(shù)據(jù)的知識結(jié)構(gòu)和所有權(quán)歸屬,使圖書館獲得讀者個(gè)體數(shù)據(jù)的使用和所有權(quán)。實(shí)際上,傳統(tǒng)的數(shù)據(jù)清洗并不能實(shí)現(xiàn)讀者個(gè)體大數(shù)據(jù)的脫敏,更無法實(shí)現(xiàn)將“底層數(shù)據(jù)”的所有權(quán)轉(zhuǎn)移到所謂的“數(shù)據(jù)結(jié)果”上,因而圖書館無法獲得法律意義上的數(shù)據(jù)所有權(quán)和支配權(quán)。
Internet網(wǎng)絡(luò)是大數(shù)據(jù)采集、傳輸和處理的支撐平臺,大數(shù)據(jù)環(huán)境下的Internet網(wǎng)絡(luò)具有更強(qiáng)的開放性、交互性、及時(shí)性和多元性等特點(diǎn),傳統(tǒng)IT環(huán)境下通過告知與許可、模糊化與匿名化等保護(hù)讀者隱私的方式,已不適用于圖書館大數(shù)據(jù)復(fù)雜環(huán)境。此外,大數(shù)據(jù)時(shí)代黑客侵犯讀者隱私權(quán)的手段更加廣泛、多樣、智能和隱蔽,即使是匿名脫敏后的大數(shù)據(jù)也可以被重新定義并歸屬到具體的讀者個(gè)體,難以防范。
2.4 大數(shù)據(jù)時(shí)代讀者隱私權(quán)的語義與范圍發(fā)生變化
大數(shù)據(jù)時(shí)代讀者隱私權(quán)涵蓋的范圍快速擴(kuò)展,除傳統(tǒng)意義上的公民個(gè)人在生活中不愿為他人(一定范圍以外的人)公開或知悉的秘密,還包括讀者的位置信息、移動(dòng)路徑、視頻監(jiān)控、瀏覽記錄和閱讀社會關(guān)系等,對這些數(shù)據(jù)的深度挖掘和分析同樣會導(dǎo)致讀者隱私泄露。
其次,讀者隱私侵犯的不可逆性顯著增強(qiáng),圖書館對讀者隱私權(quán)益保護(hù)的難度快速升級。當(dāng)前,大數(shù)據(jù)的應(yīng)用已擺脫了時(shí)間、空間與計(jì)算能力對數(shù)據(jù)可用性的限制,圖書館可全面、深度和不間斷地采集數(shù)據(jù),并對所采集到的數(shù)據(jù)進(jìn)行快速、實(shí)時(shí)的計(jì)算與決策分析。但是,國際上對個(gè)人隱私保護(hù)的立法相對滯后,無法滿足快速增長的大數(shù)據(jù)復(fù)雜環(huán)境變化和讀者隱私保護(hù)需求,難以有效處理大數(shù)據(jù)時(shí)代讀者隱私保護(hù)面臨的新問題。
第三,基于大數(shù)據(jù)開放和公平信息實(shí)踐的原則,圖書館在不能有效判斷讀者隱私被侵犯的前提下,不應(yīng)過分限制決策層和各應(yīng)用部分對讀者個(gè)體數(shù)據(jù)采集、處理、分析和決策的程度,從而影響圖書館對讀者個(gè)體數(shù)據(jù)采集的整體價(jià)值量和分析、決策的科學(xué)性。因此,重新思考該如何為讀者授權(quán),使讀者擁有對自身數(shù)據(jù)采集、傳輸、存儲、處理、訪問、分析和決策的控制權(quán),是大數(shù)據(jù)時(shí)代圖書館應(yīng)重點(diǎn)關(guān)注的問題。
第四,大數(shù)據(jù)時(shí)代,圖書館如何基于相關(guān)法律支持個(gè)人數(shù)據(jù)使用協(xié)議,在法律和協(xié)議規(guī)定的時(shí)間、對象、范圍和內(nèi)容等范圍內(nèi)使用讀者數(shù)據(jù),防止數(shù)據(jù)分析師通過對數(shù)據(jù)的過度挖掘、還原、整合和二次分析侵犯讀者隱私,是大數(shù)據(jù)時(shí)代讀者個(gè)人隱私永久歸屬權(quán)判定、管理和保護(hù)的關(guān)鍵點(diǎn)。
2.5 讀者隱私權(quán)存在被二次分析、使用的威脅
大數(shù)據(jù)時(shí)代,圖書館基于大數(shù)據(jù)的計(jì)算框架,可憑借科學(xué)的數(shù)學(xué)算法對海量數(shù)據(jù)進(jìn)行全面分析,進(jìn)而從雜亂無章的數(shù)據(jù)關(guān)系中發(fā)現(xiàn)規(guī)律,使圖書館的服務(wù)競爭環(huán)境、服務(wù)模式變化趨勢、服務(wù)收益和讀者行為變成可量化的維度,實(shí)現(xiàn)對圖書館發(fā)展趨勢、用戶服務(wù)模式變革和讀者閱讀需求等較為偶然事件的科學(xué)預(yù)測。圖書館在利用大數(shù)據(jù)進(jìn)行分析、預(yù)測時(shí),可通過挖掘大數(shù)據(jù)中的異常點(diǎn)、頻繁模式、分類模式和數(shù)據(jù)相關(guān)性,獲知用戶的隱私信息。比如Analytics是一款由谷歌分析的官方Android版手機(jī)應(yīng)用,用戶可直接使用自己手機(jī)上的Google帳號進(jìn)入,可以在Android手機(jī)上隨時(shí)隨地查看、分析自己的網(wǎng)站訪問統(tǒng)計(jì)數(shù)據(jù)。然而,用戶使用該工具時(shí)并不能保證自己的隱私數(shù)據(jù)不被泄露,Analytics不僅知道用戶本身網(wǎng)站所有的訪客信息,也可以通過關(guān)聯(lián)分析獲悉其他網(wǎng)站中的訪客信息[5]。
云計(jì)算技術(shù)在圖書館服務(wù)中的廣泛應(yīng)用,大幅降低了圖書館大數(shù)據(jù)存儲和云計(jì)算的成本。但是,頻繁利用云計(jì)算技術(shù)對讀者大數(shù)據(jù)進(jìn)行全面的采集、深度挖掘、循環(huán)利用和二次分析,雖然可快速提升圖書館大數(shù)據(jù)決策的科學(xué)性、效率和收益,但這種全方位、多層次和不間斷的大數(shù)據(jù)收集、分析與循環(huán)利用模式,在一定程度上增加了讀者隱私被侵犯的風(fēng)險(xiǎn)。
數(shù)據(jù)融合是圖書館采用鏈接操作將多個(gè)異構(gòu)數(shù)據(jù)源匯聚在一起,并在一定準(zhǔn)則下加以自動(dòng)分析、綜合,以完成所需的決策和評估任務(wù)而進(jìn)行的信息處理技術(shù)。然而,如果將多源數(shù)據(jù)通過關(guān)聯(lián)處理而實(shí)現(xiàn)決策層的融合,則即使圖書館采用匿名或者模糊化技術(shù)將讀者的隱私信息隱匿,攻擊者也可利用其他公共或者隱私數(shù)據(jù)源,對匿名之后的數(shù)據(jù)源進(jìn)行鏈接攻擊,最終實(shí)現(xiàn)讀者身份和隱私數(shù)據(jù)的重新識別。
3.1 圖書館讀者隱私保護(hù)生命周期管理模型的構(gòu)建
圖書館在讀者大數(shù)據(jù)隱私保護(hù)中,相關(guān)的對象主要為讀者個(gè)體、用戶大數(shù)據(jù)采集終端、大數(shù)據(jù)網(wǎng)絡(luò)傳輸設(shè)備、大數(shù)據(jù)存儲服務(wù)器、云計(jì)算服務(wù)器和圖書館決策層等,涉及的大數(shù)據(jù)隱私保護(hù)流程主要為大數(shù)據(jù)的生產(chǎn)、大數(shù)據(jù)采集與傳輸、大數(shù)據(jù)云存儲、大數(shù)據(jù)的計(jì)算與分析、大數(shù)據(jù)的應(yīng)用決策等過程。圖書館讀者隱私保護(hù)生命周期管理模型的設(shè)計(jì)原則,應(yīng)符合讀者隱私數(shù)據(jù)產(chǎn)生、數(shù)據(jù)存儲與管理、數(shù)據(jù)處理與應(yīng)用、數(shù)據(jù)銷毀的數(shù)據(jù)生命周期發(fā)展科學(xué)規(guī)律,依據(jù)讀者隱私保護(hù)的優(yōu)先級別和隱私侵犯后果的嚴(yán)重性設(shè)計(jì)保護(hù)模型。圖書館讀者隱私保護(hù)生命周期管理模型見圖1所示:
圖1 圖書館讀者隱私保護(hù)生命周期管理模型
讀者隱私保護(hù)生命周期管理模型,基于隱私數(shù)據(jù)生命周期發(fā)展各個(gè)階段所涉及的作用對象和數(shù)據(jù)傳輸流程,詳細(xì)描述、劃分了讀者隱私被侵犯所面臨的風(fēng)險(xiǎn)問題,依據(jù)讀者隱私侵犯的對象、內(nèi)容、流程和手段,設(shè)計(jì)了基于讀者隱私安全動(dòng)態(tài)監(jiān)控、隱私安全動(dòng)態(tài)評估、隱私安全管理技術(shù)保證、安全事故審計(jì)與問責(zé)制度、隱私保護(hù)法律與行業(yè)規(guī)定為主體的隱私保護(hù)生命周期管理模型。該模型可動(dòng)態(tài)監(jiān)控讀者的隱私安全防御系統(tǒng)運(yùn)行狀況和所面臨的安全威脅,對隱私保護(hù)內(nèi)容的重要級別和安全性進(jìn)行評估,并動(dòng)態(tài)選擇相應(yīng)的安全策略和技術(shù)手段積極防護(hù)。此外,當(dāng)讀者隱私侵犯事件發(fā)生后,還可依據(jù)隱私保護(hù)法律制度和圖書館行業(yè)規(guī)定,對圖書館發(fā)生的相關(guān)讀者隱私侵犯事故進(jìn)行安全審計(jì)和事后問責(zé)[6]。
3.2 讀者應(yīng)獲得對個(gè)人隱私數(shù)據(jù)采集、存儲、使用和共享的控制權(quán)
讀者既是大數(shù)據(jù)的生產(chǎn)者,也是圖書館大數(shù)據(jù)決策服務(wù)的受益者,讀者個(gè)體大數(shù)據(jù)的價(jià)值總量、價(jià)值密度和決策可用性,直接關(guān)系圖書館大數(shù)據(jù)應(yīng)用的科學(xué)性與決策收益。但在讀者個(gè)體大數(shù)據(jù)的采集、處理、分析和決策中,如果所有的大數(shù)據(jù)應(yīng)用過程都必須獲得讀者的授權(quán)與許可,則必定會影響圖書館大數(shù)據(jù)應(yīng)用的效率和決策可用性。所以,圖書館大數(shù)據(jù)決策應(yīng)采取讀者提前授權(quán)的方式,由讀者完全掌握個(gè)人隱私數(shù)據(jù)采集、存儲、使用和共享的控制權(quán)。
首先,讀者應(yīng)完全擁有自身大數(shù)據(jù)的所有權(quán)、知情權(quán)、使用權(quán)、選擇權(quán)和銷毀權(quán),圖書館有責(zé)任與義務(wù)保護(hù)讀者隱私數(shù)據(jù)的安全,在使用讀者個(gè)體大數(shù)據(jù)時(shí)必須履行相應(yīng)的告知義務(wù),在獲得讀者授權(quán)后,才能在相應(yīng)授權(quán)范圍內(nèi)進(jìn)行個(gè)體大數(shù)據(jù)的采集、傳輸、存儲、計(jì)算和決策應(yīng)用。同時(shí),讀者也可根據(jù)自己獲得閱讀服務(wù)的等級和收益,決定自身大數(shù)據(jù)應(yīng)用的范圍與程度。其次,圖書館對于讀者個(gè)體大數(shù)據(jù)的使用,應(yīng)堅(jiān)持以服務(wù)為中心的目的原則,不過度采集、處理和分析讀者的隱私數(shù)據(jù),防止因?qū)ψx者大數(shù)據(jù)的過度挖掘、還原、整合和二次分析而侵犯讀者隱私[4]。第三,對讀者個(gè)體數(shù)據(jù)的共享與二次利用,是圖書館深度挖掘用戶大數(shù)據(jù)價(jià)值和提升數(shù)據(jù)決策科學(xué)性的重要途徑。圖書館在對讀者大數(shù)據(jù)進(jìn)行共享與二次利用時(shí),應(yīng)對大數(shù)據(jù)應(yīng)用的安全性和讀者隱私保護(hù)的有效性進(jìn)行風(fēng)險(xiǎn)評估,特別對隱私數(shù)據(jù)的分析、利用和共享過程實(shí)行嚴(yán)格管控,必須獲得讀者授權(quán)和對數(shù)據(jù)進(jìn)行脫敏處理。此外,當(dāng)圖書館的服務(wù)權(quán)或者資產(chǎn)所有權(quán)發(fā)生改變時(shí),圖書館在將讀者個(gè)體大數(shù)據(jù)轉(zhuǎn)給新的所有者時(shí)必須獲得讀者許可。
3.3 應(yīng)對敏感大數(shù)據(jù)進(jìn)行脫敏處理
大數(shù)據(jù)時(shí)代,讀者可使用智能手機(jī)、移動(dòng)閱讀終端等設(shè)備訪問數(shù)字圖書館,在享受圖書館知識服務(wù)的同時(shí),也會將自身的個(gè)體移動(dòng)路徑與位置信息、瀏覽時(shí)間與地點(diǎn)、閱讀內(nèi)容、閱讀社會關(guān)系和閱讀需求等數(shù)據(jù)傳輸給圖書館,使讀者個(gè)體數(shù)據(jù)的所有權(quán)邊界消失或者模糊不清,導(dǎo)致圖書館傳統(tǒng)IT環(huán)境下的讀者隱私保護(hù)體系失效。此外,圖書館還可通過對海量數(shù)據(jù)的全面融合和交叉分析,分析出讀者的個(gè)人隱私信息。因此,必須對與圖書館服務(wù)無關(guān)的用戶數(shù)據(jù)進(jìn)行脫敏處理,才能保護(hù)讀者隱私安全。
百度百科將數(shù)據(jù)脫敏定義為:指對某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。這樣,就可以在開發(fā)、測試和其它非生產(chǎn)環(huán)境以及外包環(huán)境中安全地使用脫敏后的真實(shí)數(shù)據(jù)集[7]。其中敏感數(shù)據(jù)的識別與認(rèn)定、脫敏規(guī)則和使用環(huán)境是圖書館讀者數(shù)據(jù)脫敏應(yīng)關(guān)注的3個(gè)關(guān)鍵點(diǎn)。圖書館在大數(shù)據(jù)決策中,應(yīng)保證讀者個(gè)體大數(shù)據(jù)價(jià)值總量、價(jià)值密度和數(shù)據(jù)可用性的前提下,脫敏與大數(shù)據(jù)決策相關(guān)性較弱的讀者姓名、身份證件號、位置信息、住址、聯(lián)系方式、銀行賬號、郵箱地址和社交關(guān)系等數(shù)據(jù)。按照脫敏規(guī)則劃分,圖書館可將敏感數(shù)據(jù)劃分為脫敏后敏感信息可恢復(fù)和不可恢復(fù)兩大類。對于敏感性評估較低的讀者姓名、閱讀終端類型、瀏覽時(shí)間與地點(diǎn)、閱讀需求等數(shù)據(jù),可用復(fù)雜度較低的加解密算法進(jìn)行處理。而對敏感性評估較高的諸如讀者移動(dòng)路徑與位置信息、閱讀內(nèi)容、閱讀社會關(guān)系和銀行帳戶等數(shù)據(jù),則可用替換算法和生成算法等,將需要脫敏的部分用定義好的字符或字符串替換,把敏感數(shù)據(jù)轉(zhuǎn)化為真實(shí)的“假數(shù)據(jù)”進(jìn)行保護(hù)。此外,對于需要實(shí)時(shí)決策的讀者敏感大數(shù)據(jù),圖書館應(yīng)采用在數(shù)據(jù)產(chǎn)生環(huán)境中進(jìn)行動(dòng)態(tài)加密和決策環(huán)境快速脫敏的方式,在保證大數(shù)據(jù)即時(shí)決策需求的前提下保護(hù)讀者隱私安全。
3.4 圖書館應(yīng)依法加強(qiáng)對讀者隱私的保護(hù)
美國Verizon公司發(fā)布的《2015年數(shù)據(jù)泄露調(diào)查報(bào)告》顯示,據(jù)95個(gè)國家的不完全統(tǒng)計(jì),僅2014年就發(fā)生了近八萬起數(shù)據(jù)安全事故,涉及上億個(gè)記錄。然而政府、企業(yè)和其他管理機(jī)構(gòu)對數(shù)據(jù)泄露和不當(dāng)使用的反應(yīng)速度,常常要滯后數(shù)小時(shí)、幾天或者幾個(gè)月,且存在著相應(yīng)的法律、法規(guī)缺失問題[8]?!洞髷?shù)據(jù)時(shí)代》作者維克托·邁爾-舍恩伯格認(rèn)為:通過詢問每一個(gè)客戶是否同意公開數(shù)據(jù)的做法是錯(cuò)誤的,每個(gè)個(gè)體并不知道我的數(shù)據(jù)會被怎樣使用,有一些人對此并不在意,往往會點(diǎn)同意。因此,應(yīng)轉(zhuǎn)變由讀者個(gè)人成為保護(hù)自身隱私主體的模式,而由政府通過立法來明確公民隱私保護(hù)的內(nèi)容、范圍、方式和權(quán)益[9]。
大數(shù)據(jù)時(shí)代,圖書館應(yīng)堅(jiān)持隱私保護(hù)政策開放和維護(hù)讀者利益相結(jié)合的原則,努力在讀者隱私保護(hù)有效性和大數(shù)據(jù)決策收益之間實(shí)現(xiàn)均衡。首先,讀者應(yīng)享有圖書館對自身隱私數(shù)據(jù)采集、存儲、傳輸、處理和分析的告知權(quán),讀者有權(quán)控制圖書館對自身大數(shù)據(jù)的采集和使用,當(dāng)圖書館將讀者大數(shù)據(jù)與第三方交換、共享或交易時(shí),讀者應(yīng)擁有對交易對象選擇、審核和撤銷的權(quán)利。其次,在最有利于讀者理解隱私風(fēng)險(xiǎn)和易于個(gè)人控制風(fēng)險(xiǎn)的時(shí)間、地點(diǎn),圖書館有向讀者說明個(gè)人數(shù)據(jù)采集與應(yīng)用的內(nèi)容、原因和決策對象的責(zé)任,以及與第三方共享讀者數(shù)據(jù)的目的和保護(hù)相關(guān)隱私數(shù)據(jù)的措施等。第三,圖書館在數(shù)據(jù)庫管理員和大數(shù)據(jù)分析師的選擇上,應(yīng)根據(jù)大數(shù)據(jù)的復(fù)雜度、決策重要性和安全需求,選擇具有相應(yīng)資格證書的技術(shù)人員負(fù)責(zé),并全程對數(shù)據(jù)庫管理員和數(shù)據(jù)庫分析師的行為進(jìn)行監(jiān)控,確保大數(shù)據(jù)管理與分析人員嚴(yán)格執(zhí)行相應(yīng)的規(guī)章制度和法律規(guī)定,當(dāng)發(fā)生數(shù)據(jù)安全問題時(shí)及時(shí)啟動(dòng)安全預(yù)案和事后問責(zé)。
3.5 限制大數(shù)據(jù)分析與決策應(yīng)用的范圍
《大數(shù)據(jù)時(shí)代》的作者維克托·邁爾-舍恩伯格認(rèn)為:除了信任,我們還需要明白的是技術(shù)層面的數(shù)據(jù)安全,要求對數(shù)據(jù)進(jìn)行加密,以確保一些人獲取不到這些數(shù)據(jù)。數(shù)據(jù)使用方對數(shù)據(jù)安全要承擔(dān)法律責(zé)任,任何一個(gè)機(jī)構(gòu),包括美國政府都不可以擁有獲得所有個(gè)人信息的“鑰匙”[10]。因此,圖書館在對讀者大數(shù)據(jù)進(jìn)行采集、分析和決策時(shí),首先應(yīng)明確大數(shù)據(jù)應(yīng)用的內(nèi)容、對象和方式,諸如讀者姓名、家庭住址、銀行帳戶、手機(jī)、郵箱、身份證號等具有唯一性的隱私數(shù)據(jù),圖書館大數(shù)據(jù)決策既然無法依據(jù)這些數(shù)據(jù)來預(yù)測讀者的需求、服務(wù)市場變化趨勢、服務(wù)模式發(fā)展和讀者QOS(閱讀服務(wù)質(zhì)量),則應(yīng)對這些數(shù)據(jù)進(jìn)行隔離存儲、加密或脫敏處理,在不降低讀者大數(shù)據(jù)價(jià)值與可用性的前提下,保證讀者隱私安全。
讀者大數(shù)據(jù)具有較高的價(jià)值量,是圖書館與第三方服務(wù)商爭相獲取的寶貴資源,在讀者許可和保證隱私安全的前提下交換、共享數(shù)據(jù),是提升圖書館服務(wù)質(zhì)量的重要環(huán)節(jié)。因此,圖書館在讀者大數(shù)據(jù)應(yīng)用前,應(yīng)評估相關(guān)讀者大數(shù)據(jù)的價(jià)值、安全需求和可用性,并對相關(guān)大數(shù)據(jù)的共享、出售、租賃、使用對象和使用方式進(jìn)行明確,通過簽署相應(yīng)的隱私保護(hù)協(xié)議對數(shù)據(jù)使用方進(jìn)行法律約束,在保護(hù)讀者隱私的前提下為讀者提供更好的服務(wù)和體驗(yàn)。
伴隨大數(shù)據(jù)時(shí)代的到來,讀者的隱私數(shù)據(jù)面臨著被循環(huán)利用、過度分析、共享竊取和用戶控制權(quán)丟失的威脅。因此,在確保圖書館基于大數(shù)據(jù)的知識獲取過程高效、預(yù)測結(jié)果精確和決策科學(xué)的前提下,如何安全、高效、經(jīng)濟(jì)和可控地保護(hù)讀者隱私,是關(guān)系圖書館服務(wù)有效性和讀者滿意度的重要問題。
大數(shù)據(jù)環(huán)境下,圖書館讀者隱私保護(hù)過程應(yīng)符合大數(shù)據(jù)的生命周期發(fā)展規(guī)律,圍繞讀者大數(shù)據(jù)在產(chǎn)生、采集、傳輸、存儲、計(jì)算、分析和決策過程中可能面臨的隱私侵犯威脅,在完善和優(yōu)化傳統(tǒng)的防火墻、入侵檢測、系統(tǒng)認(rèn)證、病毒防范、安全審計(jì)、網(wǎng)絡(luò)隔離和數(shù)據(jù)加密等安全防護(hù)技術(shù)外,還應(yīng)采用符合大數(shù)據(jù)復(fù)雜環(huán)境的大數(shù)據(jù)安全性評估、云存儲安全管理、大數(shù)據(jù)脫敏、讀者自身大數(shù)據(jù)管控等技術(shù),不斷提升圖書館讀者隱私保護(hù)的風(fēng)險(xiǎn)評估和安全管理水平[1]。此外,在保證圖書館大數(shù)據(jù)分析、決策科學(xué)性的前提下,還應(yīng)嚴(yán)格遵守相應(yīng)的讀者隱私保護(hù)法律法規(guī)、行業(yè)規(guī)定和大數(shù)據(jù)應(yīng)用安全操作規(guī)范,才能確保圖書館大數(shù)據(jù)服務(wù)具有較高的可信度和用戶滿意度,保證圖書館大數(shù)據(jù)服務(wù)可持續(xù)發(fā)展。
(來稿時(shí)間:2016年7月)
1.(英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013
2.朱光,崔維軍,張薇薇.信息生命周期視角下的大數(shù)據(jù)隱私風(fēng)險(xiǎn)管理框架研究[J].情報(bào)資料工作,2016(1):99-103
3.王忠.大數(shù)據(jù)時(shí)代個(gè)人數(shù)據(jù)隱私泄露舉報(bào)機(jī)制研究[J].情報(bào)雜志,2016, 35(3):165-168, 79
4.王忠,趙惠.大數(shù)據(jù)時(shí)代個(gè)人數(shù)據(jù)的隱私顧慮研究——基于調(diào)研數(shù)據(jù)的分析[J].情報(bào)理論與實(shí)踐,2014, 37(11):26-29
5.馬曉亭.大數(shù)據(jù)時(shí)代基于服務(wù)等級協(xié)議的圖書館讀者隱私感知與保護(hù)研究[J].情報(bào)理論與實(shí)踐, 2014, 37(4):57-60
6.李可風(fēng),沈揚(yáng).大數(shù)據(jù)環(huán)境下移動(dòng)數(shù)字圖書館信息推送策略研究[J].圖書館學(xué)研究,2015(21):66-70
7.馬蕾,楊洪雪,劉建平.大數(shù)據(jù)環(huán)境下用戶隱私數(shù)據(jù)存儲方法的研究[J].計(jì)算機(jī)仿真,2016, 33(2):465-468
8.周水庚,李豐,陶宇飛,等.面向數(shù)據(jù)庫應(yīng)用的隱私保護(hù)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2009, 32(5):847-861
9.孟小峰,張嘯劍.大數(shù)據(jù)隱私管理[J].計(jì)算機(jī)研究與發(fā)展,2015, 52(2):265-281
10.王璐,孟小峰.位置大數(shù)據(jù)隱私保護(hù)研究綜述[J].軟件學(xué)報(bào),2014, 25(4):693, 712
Construction of the Privacy Risk Management and Protection Framework for Library Readers Based on Big Data Life Cycle Theory
Ma Xiaoting Chen Chen ( School of Information Engineering, Lanzhou University of Finance and Economics )
Readers’ big data security and privacy face a lot of challenges in the aspects of security architecture, data privacy risk management, personal data monitored all-day and all-round, reader data secondary used, and so on, traditional privacy preserving technologies are no longer meeting the needs of the library privacy protection in era of big data.This paper summarizes the problems of big data privacy in library, and analyzes the deficiency of the existing privacy protection mechanism, and constructions of the privacy risk management and protection framework for library readers based on big data life cycle theory.
Big data Life cycle theory Privacy risk management and protection
G250.76
格式〕 馬曉亭,陳臣.基于大數(shù)據(jù)生命周期理論的讀者隱私風(fēng)險(xiǎn)管理與保護(hù)框架構(gòu)建[J].圖書館,2016(12):62-66
馬曉亭(1974-),女,碩士,教授,研究方向:大數(shù)據(jù)、數(shù)字圖書館建設(shè);陳臣(1974-),男,碩士,副教授,研究方向:云計(jì)算、數(shù)字圖書館建設(shè)。