鮑劼+李丕仕+都平平+朱世平+鄧志文
[摘要][目的/意義]研究有效的數(shù)據(jù)安全防護策略,以應(yīng)對高校圖書館面臨的數(shù)據(jù)安全威脅,為高校圖書館提升服務(wù)質(zhì)量和效率提供可靠的技術(shù)保障。[方法/手段]運用云存儲、分級加密、大數(shù)據(jù)分析、WAF、Pd3AC等技術(shù)和生命周期理論,結(jié)合高校圖書館面臨的數(shù)據(jù)安全問題,從存儲安全、網(wǎng)絡(luò)安全、隱私泄露三方面進行分析、研究。[結(jié)論/結(jié)果]從數(shù)據(jù)云安全存儲、提高網(wǎng)絡(luò)安全防護技術(shù)、基于數(shù)據(jù)生命周期的隱私保護三方面提出多維、有效的高校圖書館數(shù)據(jù)安全防護策略。
[關(guān)鍵詞]高校圖書館;數(shù)據(jù)安全;云存儲;網(wǎng)絡(luò)安全;隱私保護
互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等技術(shù)在圖書館廣泛應(yīng)用,圖書館數(shù)字資源建設(shè)加快,數(shù)據(jù)資源總量每年顯著遞增,數(shù)據(jù)資源種類增多,現(xiàn)已包括數(shù)字、文本、圖像、音頻、視頻、多媒體等各種結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)類型,同時通過圖書館微信、微博、社交網(wǎng)絡(luò)等新媒體方式,讀者原創(chuàng)數(shù)據(jù)爆炸性增長,產(chǎn)生了大量的網(wǎng)絡(luò)日志、用戶行為信息等非結(jié)構(gòu)化、隱私數(shù)據(jù)。如何做好這些海量數(shù)據(jù)的安全防護,已成為保證圖書館正常運轉(zhuǎn)、提升信息服務(wù)質(zhì)量的重要技術(shù)保障工作。然而近年來,新技術(shù)快速發(fā)展下的數(shù)據(jù)安全問題變得越發(fā)嚴峻。Verizon發(fā)布的《2015數(shù)據(jù)泄露調(diào)查報告》顯示,2015年確認了2122起數(shù)據(jù)泄露事件,涉及61個國家組織;2016年,ISIS黑客組織泄露美國阿肯色州圖書館協(xié)會(ALA)800多名員工的個人信息,所幸信用卡信息未被泄露;2017年中國教育部的信息漏洞平臺內(nèi)部通報某些高校存在弱口令漏洞,經(jīng)排查漏洞存在于高校圖書館的OPAC系統(tǒng)。因此,以數(shù)據(jù)存儲、挖掘、分析、應(yīng)用為己任的高校圖書館,分析和研究自身面臨的數(shù)據(jù)安全問題,采取可行的應(yīng)對策略以保障圖書館的數(shù)據(jù)安全,是高校圖書館工作者亟需去思考和研究的問題。
1高校圖書館面臨的數(shù)據(jù)安全問題
高校圖書館數(shù)字化建設(shè)至今,數(shù)據(jù)資源已成為圖書館最重要的資源之一,高校圖書館的資源建設(shè)和服務(wù)決策更多地依賴于數(shù)據(jù)分析,數(shù)據(jù)本身的可靠性和安全性尤為重要。在此,結(jié)合高校圖書館面臨的數(shù)據(jù)安全威脅,從存儲安全、網(wǎng)絡(luò)安全、隱私泄露三個方面,就高校圖書館面臨的數(shù)據(jù)安全問題進行分析研究。
1.1存儲安全問題
高校圖書館歷經(jīng)多年信息化、數(shù)字化建設(shè),積累了大量的數(shù)字資源,數(shù)據(jù)環(huán)境具有海量存儲、管控難度大、開放復雜、級數(shù)遞增等特點。以中國礦業(yè)大學圖書館(后簡稱我館)為例,數(shù)據(jù)總量從2012年的26.3TB增至2016年底的147.6TB,并且還有逐年遞增加劇的趨勢,如此海量的數(shù)據(jù)對圖書館的存儲設(shè)備是個巨大的考驗,急劇增長的數(shù)據(jù)量也將超出傳統(tǒng)數(shù)據(jù)庫的管理能力。如何防止這些數(shù)據(jù)丟失、損毀、被非法盜?。ɡ茫┦歉咝D書館存儲安全面臨的一個問題。
高校圖書館關(guān)注的數(shù)據(jù)已不僅限于館藏書目、電子期刊、電子圖書、學位論文、借閱信息等業(yè)務(wù)數(shù)據(jù),還延伸到讀者在微信、微博、社交網(wǎng)絡(luò)等新媒體方式互動中產(chǎn)生的難以估量的社會化數(shù)據(jù)。數(shù)據(jù)種類包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等多種類型,由于不同類型的數(shù)據(jù)對存儲系統(tǒng)的性能要求不同,因此存儲設(shè)備類型多樣。以我館為例,現(xiàn)有存儲設(shè)備包括磁盤陣列、SAN和NAS三種類型,三種存儲系統(tǒng)的存儲技術(shù)、管理方式、災(zāi)難忍受度、性能等都不一樣,如何高效、安全地利用三種類型存儲是安全存儲面臨的一個問題。
高校圖書館為了降低成本,開始將一些數(shù)據(jù)存儲在“云”端,但云平臺本身在安全方面的隱患給高校圖書館的數(shù)據(jù)安全帶來威脅,主要表現(xiàn)在:云平臺的開放性給黑客帶來了竊取數(shù)據(jù)資源的機會;“云”服務(wù)提供商可能為了謀取利益而出賣這些數(shù)據(jù)和信息,導致圖書館核心信息和隱私數(shù)據(jù)泄露;云平臺海量用戶共存模式存在潛在的威脅;“云”服務(wù)提供商的安全訪問控制機制可能無法有效阻止非法用戶訪問;云平臺的虛擬化存在安全隱患,等等。
1.2網(wǎng)絡(luò)安全問題
高校圖書館是以網(wǎng)絡(luò)為基礎(chǔ)傳遞數(shù)字資源,提供信息服務(wù)的。圖書館網(wǎng)絡(luò)環(huán)境不僅面臨著傳統(tǒng)的病毒、木馬、DDoS攻擊等安全問題;現(xiàn)在,一方面由于數(shù)字資源規(guī)模巨大,黑客的一次攻擊能夠盜取更多的數(shù)據(jù),無形之中使圖書館成為更有吸引力的目標;另一方面,黑客利用云計算、大數(shù)據(jù)等技術(shù)發(fā)起的高級可持續(xù)攻擊(APT)、僵尸網(wǎng)絡(luò)攻擊等新模式攻擊,能夠同時控制百萬臺計算機,這是傳統(tǒng)單點攻擊做不到的,由于可利用數(shù)據(jù)規(guī)模巨大,攻擊者能夠很好地隱藏攻擊代碼,使傳統(tǒng)的安全工具無法檢測。
高校圖書館的服務(wù)模式和讀者閱讀方式正在改變,伴隨著自助借還、無線接入、移動閱讀終端、微信、微博、云計算和其他新技術(shù)的應(yīng)用,使得外部信息接入點增加,傳統(tǒng)網(wǎng)絡(luò)防護設(shè)備安全隱患加大,API(程序接口,如我館的匯文系統(tǒng)接口程序)的訪問權(quán)限開放等。這些都是圖書館數(shù)據(jù)資源受到攻擊和泄露的重要原因,也是高校圖書館網(wǎng)絡(luò)安全面臨的重要問題。
目前,圖書館的網(wǎng)絡(luò)安全防護基本采用殺毒軟件和防火墻相結(jié)合的模式來阻止病毒、木馬等惡意程序的入侵。掃描一遍現(xiàn)有的存儲需要花費幾天的時間,面對未來幾何級增長的數(shù)據(jù)、大量的外部信息接入、API接口開放等,將會需要更多的掃描時間,這些網(wǎng)絡(luò)安全問題亟需我們?nèi)パ芯亢徒鉀Q。
1.3隱私安全問題
移動互聯(lián)時代的高校圖書館,積極收集讀者個人信息(如個人身份信息、私人電話、E-mail等)和讀者活動信息(如閱讀行為、參考咨詢內(nèi)容、上網(wǎng)行為、個人偏好、科技查新內(nèi)容等)等,并對這些信息進行分析、挖掘、整合、利用,更好地根據(jù)讀者需求提供個性化服務(wù)、知識服務(wù)以及轉(zhuǎn)變服務(wù)模式。但同時,這些讀者隱私信息存在被任意獲取、泄露、擴散的隱患,將極大地威脅讀者個人隱私安全。
大多數(shù)高校圖書館都有閱讀終端設(shè)備、視頻監(jiān)控設(shè)備、服務(wù)監(jiān)控系統(tǒng)等,實現(xiàn)了對用戶信息和用戶行為(包括閱讀行為、閱讀需求和用戶地理位置信息)等隱私信息的數(shù)據(jù)采集與監(jiān)控。這些數(shù)據(jù)的采集與分析,提高了用戶服務(wù)質(zhì)量和讀者閱讀滿意度,同時為高校圖書館科學預測用戶服務(wù)模式變革提供了可靠的決策支持。但是,圖書館對這些隱私數(shù)據(jù)的使用權(quán)和所有權(quán)沒有明確的界定,也沒有用戶隱私數(shù)據(jù)保護措施。大量事件證明,數(shù)據(jù)未被妥善應(yīng)用會對用戶的隱私造成極大的侵害,“棱鏡門”事件就是一個實例。
高校圖書館官方微信、微博、社交網(wǎng)絡(luò)等新媒體平臺的積極推進,使互聯(lián)網(wǎng)每時每刻都在產(chǎn)生與讀者個人相關(guān)的海量數(shù)據(jù),這部分數(shù)據(jù)包含了大量的讀者個體特征、閱讀社會關(guān)系、個體行為等隱私數(shù)據(jù),如果未被妥善處理,將增大讀者隱私泄露的風險。
2高校圖書館數(shù)據(jù)安全的解決方案
高校圖書館在使用數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)分析等技術(shù)獲取數(shù)據(jù)蘊藏的有用信息,創(chuàng)新服務(wù)模式,提高服務(wù)質(zhì)量的同時,應(yīng)研究和解決如何確保數(shù)據(jù)存儲安全,如何降低網(wǎng)絡(luò)安全威脅,如何防止用戶隱私泄露。高校圖書館可以從數(shù)據(jù)存儲安全,提高網(wǎng)絡(luò)安全防護技術(shù),讀者隱私數(shù)據(jù)保護三方面著眼,建立全方位、深度的數(shù)據(jù)安全防御體系。
2.1數(shù)據(jù)云安全存儲
高校圖書館由于數(shù)字資源呈爆炸性、無限增長狀態(tài),現(xiàn)有的存儲系統(tǒng)將無法有效地存儲和管理這些數(shù)據(jù),限制了數(shù)據(jù)的增長。根據(jù)各類數(shù)字資源的功能性和機密性需求,對于數(shù)據(jù)規(guī)模較大的電子期刊、電子書、多媒體等數(shù)字資源,其服務(wù)范圍較廣、涉及隱私敏感數(shù)據(jù)較少的情況,圖書館可考慮將這部分數(shù)字資源存儲在云端,利用云存儲實現(xiàn)數(shù)據(jù)的存儲、管理以及分析利用,保障數(shù)據(jù)的完整性、機密性和可用性;而對于數(shù)據(jù)規(guī)模相對較小,涉及隱私信息較多的讀者個人信息等敏感數(shù)據(jù)存儲在本地。云存儲的體系結(jié)構(gòu)可分為4層,分別是:存儲層、基礎(chǔ)管理層、應(yīng)用接口層和訪問層,如圖1所示。
安全云存儲系統(tǒng)由客戶端、服務(wù)器和云存儲服務(wù)提供方3個模塊構(gòu)成。客戶端屬于訪問層,用戶(包括圖書館工作人員、讀者和服務(wù)提供商)通過各種終端應(yīng)用云存儲服務(wù),在該層用戶要進行身份認證和權(quán)限管理,用戶數(shù)據(jù)可以進行分級加密??蛻舳撕头?wù)器端通過web service、應(yīng)用軟件以及公用API接口進行數(shù)據(jù)交互。
服務(wù)器端的基礎(chǔ)管理層提供分布式文件系統(tǒng)、集群系統(tǒng)、數(shù)據(jù)分塊、數(shù)據(jù)索引以及數(shù)據(jù)加密備份等功能。服務(wù)器與云存儲服務(wù)提供方通過可信高速的內(nèi)部網(wǎng)絡(luò)進行數(shù)據(jù)的存儲傳遞。
云存儲服務(wù)提供方屬于存儲層,主要對數(shù)據(jù)進行壓縮和冗余刪除處理,提高存儲的利用率。用戶訪問權(quán)限信息和用戶數(shù)據(jù)的完整性、機密性均由客戶端進行保障,可在客戶端運用分級加密訪問控制技術(shù)。
所謂分級加密,即用戶可以通過發(fā)送請求,要求變更加密等級,等級越高,密鑰越長,安全性就越高,運行開銷也就較大。用戶(圖書館工作人員)可以根據(jù)數(shù)據(jù)安全需求的高低,進行加密等級劃分,這種方式可以提高加密效率,進而提高數(shù)據(jù)的訪問效率。
2.2提高網(wǎng)絡(luò)安全防護技術(shù)
云計算、大數(shù)據(jù)、移動互聯(lián)等技術(shù)給高校圖書館的網(wǎng)絡(luò)安全帶來了很大的威脅,但同時也給網(wǎng)絡(luò)信息安全技術(shù)帶來了新機遇。傳統(tǒng)的網(wǎng)絡(luò)安全防護模式是“漏洞掃描一入侵檢測一訪問控制一響應(yīng)恢復”,大多數(shù)網(wǎng)絡(luò)安全防御是在攻擊發(fā)生后,對其響應(yīng)并處理,做好恢復工作。現(xiàn)在,網(wǎng)絡(luò)安全防護可以利用大數(shù)據(jù)的分析技術(shù),構(gòu)建一個安全智能平臺,對網(wǎng)絡(luò)異常情況分析,從而發(fā)現(xiàn)潛在攻擊,有效預測威脅,如圖2所示。
網(wǎng)絡(luò)安全智能平臺實時檢測異常,同時報告異常檢測結(jié)果,并利用大數(shù)據(jù)分析技術(shù)對這些檢測報告進行分析,發(fā)現(xiàn)攻擊行為和可疑行為,對攻擊行為做出響應(yīng)處理,對可疑行為做出預測處理,并同時將攻擊行為以及可疑行為的分析結(jié)果反饋給網(wǎng)絡(luò)安全智能平臺的分析模塊,形成一個“監(jiān)控一檢測一分析一反饋”模式的、集成的、智能的網(wǎng)絡(luò)安全防御解決平臺。通過大數(shù)據(jù)分析技術(shù),可長時間分析更多種類數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化),從而發(fā)現(xiàn)潛在威脅,預測未知的惡意攻擊行為;同時,能夠幫助應(yīng)對高級持久威脅(APT),內(nèi)部威脅和欺詐。
以我館為例,考慮到圖書館的各種信息服務(wù)多數(shù)以Web應(yīng)用方式提供,因此我們部署了深信服的Web應(yīng)用防火墻(WAF),該防火墻通過執(zhí)行一系列針對HTTP/HTTPS的安全策略專門為Web應(yīng)用提供保護。WAF設(shè)備對我館的Web業(yè)務(wù)進行7×24小時流量監(jiān)控,實時發(fā)現(xiàn)系統(tǒng)新增漏洞,直觀呈現(xiàn)業(yè)務(wù)系統(tǒng)的漏洞和遭受的攻擊,并能快速定位有效攻擊,以便我們可以及時采取應(yīng)急措施。該WAF設(shè)備能夠同時抵御網(wǎng)絡(luò)層和應(yīng)用層的攻擊,并采用安全沙盒技術(shù)來發(fā)現(xiàn)可疑的未知威脅,防止新型攻擊集中爆發(fā)。
2.3基于數(shù)據(jù)生命周期的隱私保護方案
對于人類而言,遺忘一直是常態(tài),而記憶才是例外。然而,數(shù)字技術(shù)與全球網(wǎng)絡(luò)的發(fā)展,讓社會喪失了遺忘的能力,取而代之的是完善的記憶。世界上90%以上的信息是數(shù)字形式的,因此我們能夠毫不費力地進行存儲、處理、利用,例如Google一直在存儲每位用戶的每次搜索請求與訪問記錄,可以說Google對我們的了解比我們自己能夠記住的還要多。如果大量數(shù)字化的私人信息沒有有效的監(jiān)管,它不僅可能在今天被盜用,在若干年后仍然可能被盜用。
高校圖書館用戶的個人信息以及產(chǎn)生于微博、微信、社交網(wǎng)絡(luò)中的用戶敏感信息也可能以數(shù)字形式被搜集、存儲很久很久,繼而被大數(shù)據(jù)的挖掘技術(shù)、關(guān)聯(lián)分析技術(shù)所處理、整合、利用,一旦不能保證這些數(shù)據(jù)的合法利用,失去控制,那么將造成個人隱私泄露危機。在此,我們以“隱私數(shù)據(jù)生命周期”為理論基礎(chǔ),把圖書館用戶的個人信息保護工作貫穿于整個數(shù)據(jù)生命周期。隱私數(shù)據(jù)生命周期包括:數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理與應(yīng)用、數(shù)據(jù)傳輸以及數(shù)據(jù)刪除5個環(huán)節(jié)。根據(jù)5個環(huán)節(jié)中防范隱私泄露技術(shù)手段的不同,將分為4種類型保護方式:RBAC、權(quán)限管理、加密保護和安全刪除,從各個環(huán)節(jié)起到防范作用,如圖3所示。
RBAC:RBAC即基于角色的訪問控制,將權(quán)限和角色關(guān)聯(lián),為不同角色賦予不同的權(quán)限,用戶成為某個角色時,就擁有了該角色的權(quán)限。在圖書館用戶敏感數(shù)據(jù)采集、處理(挖掘、分析、整合、共享)和應(yīng)用這2個環(huán)節(jié)中,采用RBAC保護方式,對不同的數(shù)據(jù)使用人員(包括圖書館工作人員和服務(wù)運行商)規(guī)范其權(quán)限范圍,根據(jù)工作分工不同賦予不同的權(quán)限,實現(xiàn)數(shù)據(jù)使用個人具有最小權(quán)限,有效地防范用戶隱私的泄露。
匿名保護:對于數(shù)據(jù)采集環(huán)節(jié),有一部分產(chǎn)生于微博、微信、社交網(wǎng)絡(luò)的圖書館用戶敏感數(shù)據(jù),采用匿名保護技術(shù),在數(shù)據(jù)發(fā)布時隱藏用戶的標識信息、屬性信息、用戶問關(guān)系,盡可能隱藏用戶個人數(shù)據(jù)中的敏感信息。同時,圖書館也應(yīng)對搜集到的用戶個人信息匿名化。
分級加密:用戶的隱私數(shù)據(jù)以明文形式進行的存儲和傳輸在很大程度上是不可取的,因此在數(shù)據(jù)存儲和傳輸2個環(huán)節(jié),應(yīng)采用加密保護。這里,我們提出采用分級加密技術(shù),根據(jù)保密等級不同,設(shè)定不同的密鑰長度,能夠在達到保密效果的同時有效降低運行開銷,提高圖書館應(yīng)用系統(tǒng)的運行速度。
安全刪除:圖書館應(yīng)科學地管理用戶個人信息,當用戶個人信息達到使用目的,確定不需要時,必須“銷毀”。敏感信息的銷毀,采用清洗/擦除或覆寫法,確保數(shù)據(jù)徹底刪除,無法復原,以免造成涉密信息泄露。
3結(jié)語
云計算、大數(shù)據(jù)、移動互聯(lián)等新技術(shù)給高校圖書館信息服務(wù)模式帶來深刻的變革,同時也給圖書館的數(shù)據(jù)安全帶來全新的挑戰(zhàn)。我們利用云存儲、分級加密、大數(shù)據(jù)分析、WAF、RBAC等技術(shù)和生命周期理論,從數(shù)據(jù)安全存儲、網(wǎng)絡(luò)安全防護技術(shù)加強、隱私數(shù)據(jù)有效監(jiān)管三方面入手,建立全方位的、深度的信息安全防御體系,將數(shù)據(jù)安全防護貫穿整個圖書館信息化、數(shù)字化建設(shè)、運維、使用環(huán)節(jié)中,以保障高校圖書館信息服務(wù)的質(zhì)量和效率,為廣大師生用戶提供可靠、可信的信息服務(wù)。但是,加密等級劃分、安全態(tài)勢分析和預測、安全邊界劃分、數(shù)據(jù)脫敏等問題,還需要我們進一步思考和研究。