程羅德
(大連海洋大學圖書館,遼寧 大連 116023)
隨著大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)及移動互聯(lián)技術(shù)的應(yīng)用與發(fā)展,圖書館資源結(jié)構(gòu)調(diào)整變得更加科學、合理,用戶服務(wù)范圍大大延伸,教研、學科保障能力得到大幅提升。圖書館提供的資源保障能力與信息服務(wù)水平已不再是制約讀者閱讀滿意度的關(guān)鍵指標。圖書館擁有海量的非結(jié)構(gòu)化和結(jié)構(gòu)化資源數(shù)據(jù)優(yōu)勢,可充分利用大數(shù)據(jù)及云計算技術(shù),對數(shù)據(jù)特征及屬性進行快速、實時分析和計算,確定數(shù)據(jù)之間的復雜度,尋找數(shù)據(jù)之間的相關(guān)性,并對知識和數(shù)據(jù)進行有效識別、挖掘,發(fā)現(xiàn)其價值,優(yōu)化讀者用戶體驗,為教學及科研人員提供高層次研究數(shù)據(jù)支撐和科學決策服務(wù)。大數(shù)據(jù)環(huán)境同時也對數(shù)字圖書館信息服務(wù)安全提出了更高的要求,如何保證圖書館生產(chǎn)的、擁有的并處于云端的這些龐大數(shù)據(jù)及用戶隱私等信息的安全已成為圖情領(lǐng)域新信息環(huán)境安全研究的重要內(nèi)容。
大數(shù)據(jù)環(huán)境為數(shù)字圖書館提供了豐富的數(shù)據(jù)資源,加速了數(shù)字圖書館信息量的基數(shù)非線性增長[1]。實時有效的數(shù)據(jù)交互共享,方便了用戶之間的交流,提升了用戶獲取信息的質(zhì)量和個性化需求。大數(shù)據(jù)環(huán)境為數(shù)字圖書館帶來了新機遇,但也增加了數(shù)據(jù)中心系統(tǒng)的復雜程度,使數(shù)據(jù)的存儲、管理和應(yīng)用難度系數(shù)增大,大數(shù)據(jù)中心和平臺已成為受攻擊的主要對象和目標,用戶隱私數(shù)據(jù)泄露等安全問題頻發(fā),圖書館信息安全面臨嚴重的風險與威脅。
基于大數(shù)據(jù)、云計算技術(shù)的數(shù)據(jù)整合和資源共享平臺已在許多圖書館部署應(yīng)用,圖書館對云端數(shù)據(jù)的依賴程度逐漸加深,大量數(shù)據(jù)信息都被轉(zhuǎn)移到云服務(wù)提供商的云數(shù)據(jù)庫中,而享受云服務(wù)的圖書館用戶對所生產(chǎn)、擁有、操作的數(shù)據(jù)的物理存在狀態(tài)是完全未知的。圖書館用戶除了云提供商授權(quán)的數(shù)據(jù)訪問途徑之外,無法通過別的方式對保存在云端的數(shù)據(jù)進行管理和控制。由于用戶對云端數(shù)據(jù)管理的不可控性,無法確定云端數(shù)據(jù)是否安全、計算任務(wù)能否被正確執(zhí)行。
圖書館所涉及的數(shù)據(jù)已不再僅限于讀者信息、書目信息、電子書、數(shù)字期刊文獻等相關(guān)業(yè)務(wù)數(shù)據(jù),而是延伸到了讀者利用自媒體、微媒體、新媒體等媒介工具和平臺產(chǎn)生的大量的具有社會屬性的數(shù)據(jù)[2]。如此龐大的數(shù)據(jù)集合需要圖書館不斷地對現(xiàn)有的數(shù)據(jù)存儲硬件及數(shù)據(jù)庫進行擴容、升級,同時還考驗著圖書館在數(shù)據(jù)存儲及其安全防護方面的能力。隨著圖書館擁有的數(shù)據(jù)量越來越龐大,其傳統(tǒng)關(guān)系型數(shù)據(jù)庫面臨著可擴展性差、并發(fā)負載過高、事務(wù)管理困難、安全性管理有限等問題也變得越發(fā)突出。
虛擬化使傳統(tǒng)的物理安全邊界逐漸模糊,基于安全域的防護機制難以滿足虛擬化多租用戶的應(yīng)用模式,圖書館用戶的信息安全和數(shù)據(jù)隔離等問題在共享物理資源平臺變得較為突出。虛擬化技術(shù)帶來以客居方式運行操作系統(tǒng)的安全問題和虛擬化軟件特有的安全威脅?;谔摂M化技術(shù)可能對圖書館大數(shù)據(jù)產(chǎn)生的風險主要包括虛擬化軟件的安全和使用虛擬技術(shù)的服務(wù)器安全兩個方面。針對虛擬化軟件層主要有惡意代碼通過應(yīng)用程序接口API攻擊和通過網(wǎng)絡(luò)對VMM進行攻擊兩種方式,應(yīng)用服務(wù)器采用虛擬化技術(shù)后,有很多應(yīng)用程序同時運行于單臺服務(wù)器,造成系統(tǒng)運行負荷大大增加,降低了運行速度,甚至會使整個物理系統(tǒng)崩潰宕機。管理軟件中的安全漏洞或缺陷也會給部署在同一物理主機上所有虛擬機帶來安全風險。此外,虛擬機之間的相互通信和系統(tǒng)應(yīng)用、數(shù)據(jù)庫等遷移也將會大大增加虛擬服務(wù)器遭受入侵攻擊的風險。
隨著圖書館應(yīng)用系統(tǒng)的深度建設(shè),對系統(tǒng)的安全檢查更加全面和深入,對應(yīng)用系統(tǒng)擁有的海量數(shù)據(jù)進行的安全性檢測,會造成處理速度大幅下降,能耗激增。傳統(tǒng)的系統(tǒng)應(yīng)用安全防護主要是部署防火墻、行為檢測管理、IPS、WAF、認證策略等設(shè)備,對出入數(shù)據(jù)包進行有效的安全識別、檢測和過濾。由于設(shè)備功能或支持安全策略有限,會出現(xiàn)數(shù)據(jù)丟包嚴重、數(shù)據(jù)發(fā)送或接收延時長、資源消耗過大等問題,無法滿足大數(shù)據(jù)高效、快速、精確的要求[3]。
在云計算環(huán)境下,所有應(yīng)用和操作都是在網(wǎng)絡(luò)上進行,網(wǎng)絡(luò)體系安全問題尤為重要,由于云計算基礎(chǔ)設(shè)施的靈活性和開放性,對云端應(yīng)用程序的安全運行和處理是一項非常大的挑戰(zhàn)。
數(shù)字圖書館服務(wù)需求中會通過各種途徑采集所有用戶信息,如基礎(chǔ)信息、行為信息、科研信息及隱私信息等,從而獲取讀者個體特征、用戶行為、關(guān)系屬性和特殊需求數(shù)據(jù),這些數(shù)據(jù)在為圖書館用戶提供高質(zhì)量服務(wù)的同時,也面臨著隱私數(shù)據(jù)被泄露的風險,用戶數(shù)據(jù)可能被任意獲取、搜索和濫用。在云計算環(huán)境下,圖書館用戶信息的惡意獲取和傳播,要比在傳統(tǒng)網(wǎng)絡(luò)環(huán)境中更加容易,威脅可能來自于云內(nèi),也可能來自于云外[4]。
利用數(shù)字圖書館擁有的超大存儲、龐大數(shù)據(jù)及快速檢索能力,可以對數(shù)據(jù)信息收集、挖掘、分析,進行風險評估。建立數(shù)字圖書館信息資源所面臨的風險、漏洞、威脅及其相應(yīng)的復雜關(guān)系風險模型,可以對信息安全要素進行分析,提出信息安全具體需求,并根據(jù)實際信息安全需求制定安全防護措施或解決方案,以降低安全風險,防范威脅。數(shù)字圖書館信息安全風險要素關(guān)系模型如圖1所示。
圖1 數(shù)字圖書館信息安全風險要素關(guān)系模型
在各安全風險要素中,人的作用非常重要,是整個信息安全防護體系的關(guān)鍵,負責對整體功能的組織和管理。過程要素主要包括策略、運維和評估等,負責信息安全功能的具體實施和聯(lián)動。在安全功能設(shè)計中要重點考慮風險各要素的有機結(jié)合,相互交叉,以便在數(shù)字圖書館信息安全防護體系不同層級中發(fā)揮防護作用。
對信息安全進行風險評估方法有很多,如邏輯回歸、神經(jīng)網(wǎng)絡(luò)、失誤樹分析、事件樹和路徑分析等,文中采用基于皮爾森相關(guān)性的相識度(Pearson Correlation-based similarity)方法,計算弱點、分析和資產(chǎn)各因子之間的影響系數(shù)(即權(quán)重)對數(shù)字圖書館信息風險程度具體量化[5]。
評估方法是從數(shù)字圖書館信息安全風險要素中找出各弱點V、風險R 和資產(chǎn)A 的對應(yīng)關(guān)系,再由所涉及問卷獲得的數(shù)據(jù)將各對應(yīng)關(guān)系進行權(quán)重計算。其中,問卷內(nèi)容針對風險、弱點和資產(chǎn)的危險程度進行設(shè)計,每個問題答案量化為1~10 之間的一個整數(shù)值,利用皮爾森相關(guān)系數(shù)公式,計算得出對應(yīng)的資產(chǎn)、弱點、風險和總分之間的權(quán)重,其中大于零表示正向關(guān)系,小于零表示負向關(guān)系,即風險與弱點符合程度越高說明該風險發(fā)生率越高,而資產(chǎn)安全度與相對危險度越高則說明越安全。
為進一步分析數(shù)字圖書館信息安全服務(wù)風險的發(fā)生率和風險嚴重程度,進行安全事件發(fā)生概率和嚴重度的計算,方法如下:
風險發(fā)生率=∑(各風險對應(yīng)的薄弱點分數(shù))
風險嚴重度=∑(各風險對應(yīng)數(shù)據(jù)信息權(quán)重)x(該數(shù)據(jù)信息相對危險度權(quán)重)
通過數(shù)字圖書館信息風險評估模型,將人、過程、技術(shù)等要素進行賦值計算,得出對應(yīng)人、過程、技術(shù)和總分之間的權(quán)重,從而對圖書館信息服務(wù)安全進行具體的量化,再依據(jù)風險評估指標,制定有效的安全應(yīng)對策略。
信息安全保障體系,即P2DRR 模型:Protection-防護、Policy-策略、Detection-檢測、Response-響應(yīng)及Recovery-恢復,是當前信息安全領(lǐng)域被公認的一種典型參考模型,在安全策略控制狀態(tài)下,綜合應(yīng)用技術(shù)防范措施及對信息安全進行評估,調(diào)整信息處于風險最低、安全級別最高狀態(tài)[6]。但是,在實際應(yīng)用中,信息安全防護系統(tǒng)應(yīng)融合技術(shù)和管理,全面自主發(fā)現(xiàn)和智能處理安全問題的體系結(jié)構(gòu),同時它應(yīng)具有自主性、動態(tài)性、智能化、過程性、可適性、層次性和平衡性等特點。然而P2DRR模型屬于目標體系,并不關(guān)注安全過程,更側(cè)重于技術(shù)本身,而忽略了管理因素。數(shù)字圖書館在大數(shù)據(jù)背景下,要保證信息服務(wù)的安全應(yīng)從技術(shù)和管理兩方面統(tǒng)籌兼顧,以二者為安全方案設(shè)計核心,實現(xiàn)信息安全的動態(tài)、可持續(xù)性的健康狀態(tài)。為此,基于P2DRR 模型基礎(chǔ),充分結(jié)合人、技術(shù)、管理等安全要素及其聯(lián)系,筆者設(shè)計了一種大數(shù)據(jù)環(huán)境下數(shù)字圖書館動態(tài)可適性信息安全需求防護體系架構(gòu),如圖2所示。
圖2 大數(shù)據(jù)環(huán)境下數(shù)字圖書館動態(tài)可適性信息安全需求防護體系架構(gòu)
人的因素在信息安全管理體系中非常關(guān)鍵,主要涉及安全制度和態(tài)勢兩個方面,對信息的安全防護不能僅限于對來自圖書館外部的防護和控制,同時也應(yīng)該更加重視通過規(guī)范的安全管理制度和流程加強對圖書館內(nèi)部的信息安全管理和控制。信息防護系統(tǒng)需對安全態(tài)勢及時感知,準確判斷,果斷處置,根據(jù)風險評估和威脅檢測的結(jié)果對安全策略適時調(diào)整,并對出現(xiàn)的或發(fā)現(xiàn)的安全問題及時進行處置、加固。
圖書館基礎(chǔ)數(shù)據(jù)、系統(tǒng)管理數(shù)據(jù)、讀者個人信息、應(yīng)用服務(wù)、云閱讀業(yè)務(wù)數(shù)據(jù)等要確保機密、完整和可用,同時還要考慮數(shù)據(jù)的新鮮度、數(shù)據(jù)復制和恢復等,以便開展高質(zhì)量的數(shù)字資源服務(wù)。有必要做好對圖書館數(shù)據(jù)資源安全的防護,對其數(shù)據(jù)進行主動防護,如在操作系統(tǒng)層面進行安全策略配置、檢查,應(yīng)用程序代碼的靜態(tài)或動態(tài)分析,對數(shù)據(jù)進行加密,高安全性的身份認證和訪問管理,相對細粒度的授權(quán)訪問控制策略以及保證數(shù)據(jù)未經(jīng)授權(quán)的用戶訪問或被泄露。針對云環(huán)境下的多租用戶問題,可采取鼓勵虛擬機方案,即在IaaS級對存儲、內(nèi)存和處理等進行孤立,在PaaS級對API調(diào)用、操作系統(tǒng)處理進行孤立,在SaaS級對同一軟件運行的事務(wù)進行孤立,保證用戶數(shù)據(jù)安全。采用計算機加密技術(shù)對數(shù)據(jù)的單元格變化進行數(shù)字簽名,同時將數(shù)字信息直接或間接的加載到數(shù)字載體中,進行數(shù)字水印等多種數(shù)據(jù)檢測方法,確保數(shù)據(jù)的完整而不被惡意破壞。此外,盡量降低數(shù)據(jù)依賴度,如容錯機制、不依賴云等方案,在發(fā)生故障或中斷的情況下,仍然保證用戶數(shù)據(jù)可用。
面對數(shù)據(jù)靜態(tài)存儲和動態(tài)存儲方面的安全,可采取對數(shù)據(jù)靜態(tài)存儲使用AES-256區(qū)塊加密標準,通過HTML5的API接口讀取擬上傳數(shù)據(jù)資源,然后對上傳的數(shù)據(jù)進行相關(guān)算法加密,尤其是在大數(shù)據(jù)環(huán)境下,加密數(shù)字圖書館存儲大量數(shù)據(jù)時,要將對稱和非對稱加密算法結(jié)合起來尤其重要。對于數(shù)據(jù)動態(tài)存儲,在數(shù)據(jù)傳輸過程中使用SSL VPN 文件傳輸協(xié)議,保證存儲數(shù)據(jù)的傳輸安全。此外,數(shù)字圖書館數(shù)據(jù)存儲系統(tǒng)應(yīng)提供完備的數(shù)據(jù)備份和恢復機制,如異地備份、RADI、數(shù)據(jù)鏡像、快照等,一旦發(fā)生數(shù)據(jù)丟失或破壞,可以利用備份恢復數(shù)據(jù),從而保證發(fā)生故障后存儲數(shù)據(jù)不丟失。
在存儲數(shù)據(jù)量規(guī)模較小的情況下,數(shù)據(jù)備份和恢復相對簡單,一旦數(shù)據(jù)量達到PB 級別的時候,備份和恢復如此龐大規(guī)模的數(shù)據(jù)已力不從心。Hadoop是當前應(yīng)用較為可靠的存儲大數(shù)據(jù)集軟件架構(gòu),它使應(yīng)用程序高帶寬的流式處理存儲的大數(shù)據(jù)集,Hadoop HDFS 分布式文件系統(tǒng)提供了分析和傳輸大數(shù)據(jù)的框架[7]。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)點存儲一般使用HDFS自身的備份和恢復機制,但是對于核心業(yè)務(wù)數(shù)據(jù),遠程的容災備份仍然是必要的,同時根據(jù)圖書館實際需求,制定特殊的數(shù)據(jù)備份和恢復策略。
保護云端圖書館用戶數(shù)據(jù)信息不被泄露、破壞,存儲服務(wù)的訪問控制機制應(yīng)考慮到具備用戶訪問權(quán)限,并可實時阻斷非法用戶獲取、訪問數(shù)據(jù),控制不同級別訪問對象和內(nèi)容,對特殊會話進行監(jiān)控。對數(shù)據(jù)加密處理,只有被授權(quán)的用戶才能對加密數(shù)據(jù)進行解密。數(shù)據(jù)存儲安全要防止由于數(shù)據(jù)或其他物理方法導致的非法泄露或破壞,同時還要做到保護可以訪問所有數(shù)據(jù)管理的相關(guān)敏感信息。
虛擬化技術(shù)在數(shù)字圖書館資源、服務(wù)、管理整合應(yīng)用等方面的部署和應(yīng)用越來越深入,它將硬件、軟件和存儲等物理資源虛擬成多個虛擬資源提供不同的系統(tǒng)使用,虛擬化技術(shù)擴大了當前圖書館數(shù)字資源存儲容量、系統(tǒng)數(shù)量,簡化了軟件的重新配置過程,以靈活、專業(yè)、低成本來使用圖書館數(shù)字資源。但是,虛擬化技術(shù)面臨著虛擬機本身的安全和用戶虛擬機之間的隔離問題兩方面的主要安全威脅。
對數(shù)字圖書館來說,需要更多關(guān)注于虛擬服務(wù)的安全,虛擬服務(wù)主要面臨接入主機秘鑰被盜、服務(wù)標準端口被偵測、劫持用戶賬戶等安全威脅,針對這些安全問題,可以考慮TPM 可信物理服務(wù)器,對獨立虛擬服務(wù)器進行不同VLAN、IP劃分,內(nèi)外網(wǎng)地址轉(zhuǎn)換,并分配獨立硬盤分區(qū)。做好相應(yīng)的安全設(shè)置和加固,如添加安全策略、控制虛擬服務(wù)數(shù)量、實時監(jiān)控系統(tǒng)日志和防火墻日志、使用容錯軟件并可容量分析等措施,并與其他安全域防范措施聚合,構(gòu)成一個多層次的立體化安全防范體系。
構(gòu)建數(shù)字圖書館安全感知平臺、大數(shù)據(jù)威脅情報分析平臺,運用基于全攻擊鏈的持續(xù)監(jiān)測技術(shù)、云沙盒技術(shù)等實時監(jiān)測數(shù)據(jù)中心安全風險,并與下一代防火墻進行聯(lián)動預防、監(jiān)測、響應(yīng),實現(xiàn)圖書館業(yè)務(wù)數(shù)據(jù)流可視化、資產(chǎn)可視化、威脅可視化、攻擊可視化等安全管控。
在信息受入侵階段,通過惡意訪問鏈接、漏洞防護等防御手段對各種傳統(tǒng)威脅入口進行攔截,威脅情報分析對高級威脅進行持續(xù)監(jiān)測。突破防御之后,失陷主機與服務(wù)器通信階段,通過DGA算法、惡意IP/域名庫等阻斷木馬與服務(wù)器之間的通信,利用云沙盒技術(shù)對病毒與服務(wù)器通信過程中異常流量和行為進行持續(xù)監(jiān)測。通過AF 探針結(jié)合云沙盒技術(shù)對病毒橫向掃描及攻擊行為監(jiān)測,結(jié)合威脅情報分析日志,快速定位入侵源。利用大數(shù)據(jù)威脅情報分析平臺或安全感知平臺將威脅情報信息通過短信、微信等手段推送給數(shù)字圖書館管理人員,管理人員結(jié)合威脅內(nèi)容對安全事件進行及時響應(yīng)和處置。
在大數(shù)據(jù)環(huán)境下,需要建立P2P的用戶信息數(shù)據(jù)安全,使用戶數(shù)據(jù)保密、可用,確保用戶信息數(shù)據(jù)的安全??梢钥紤]用戶數(shù)據(jù)脫敏和加解密的方案,根據(jù)不同的應(yīng)用場景,制定數(shù)據(jù)安全分發(fā)機制,對信息數(shù)據(jù)進行保護,以防止用戶數(shù)據(jù)盜用、濫用。依據(jù)工信部24 號文件及管理規(guī)范要求,結(jié)合圖書館自身對用戶敏感信息梳理,確定需要脫敏處理的字段集合。選擇應(yīng)用程序軟件或者是硬件加解密實現(xiàn)對數(shù)據(jù)的隱私保護,尤其是面向大數(shù)據(jù)架構(gòu)的系統(tǒng)來說,采用集中式加解密的方法更加高效、快捷。
在讀者借閱管理系統(tǒng)可增設(shè)讀者借閱日志管理模塊,如果讀者已歸還圖書或清欠處理完畢,系統(tǒng)自動對該記錄予以刪除。此外,圖書館應(yīng)考慮賦予讀者查詢、修改、刪除等個人相關(guān)數(shù)據(jù)操作權(quán)限,從而達到保護讀者隱私的目的。
健全用戶信息安全保護的法律法規(guī),提升館員對用戶信息的保護意識,形成綜合的用戶個人信息安全防護體系。大數(shù)據(jù)環(huán)境下,對數(shù)字圖書館來說,保護用戶的個人數(shù)據(jù)隱私信息問題,已成為圖書館信息防護的重要內(nèi)容之一,運用有限檢索、數(shù)據(jù)過濾、分類存儲等技術(shù)手段和科學的數(shù)據(jù)管理策略制定安全保護措施,降低用戶數(shù)據(jù)信息泄露的風險,提升數(shù)字圖書館的信用度。在實際工作過程中,嚴格規(guī)范館員對用戶數(shù)據(jù)信息相關(guān)資料的調(diào)用、查看、復印等行為約束,同時,避免館員因業(yè)務(wù)能力或人為操作不當造成的用戶數(shù)據(jù)隱私泄露安全事件發(fā)生。
大數(shù)據(jù)時代,數(shù)字圖書館信息安全要素中,人仍然發(fā)揮著主導性、關(guān)鍵性作用。讀者在出現(xiàn)的多樣性數(shù)據(jù)結(jié)構(gòu)模式和類型、數(shù)據(jù)分布信息節(jié)點、數(shù)據(jù)虛擬化、數(shù)據(jù)云服務(wù)及大數(shù)據(jù)平臺等方面的安全需求,對數(shù)字圖書館安全管理提出了新的要求。圖書館應(yīng)從防控體系、存儲安全、應(yīng)用安全、云安全等方面做好技術(shù)層抵御安全威脅的防護,同時要做好加強對數(shù)據(jù)使用規(guī)范、敏感數(shù)據(jù)審計、數(shù)據(jù)隱私保護等管理層方面的制度建設(shè),創(chuàng)新有效的技術(shù)手段和科學數(shù)據(jù)管理方法,增強數(shù)字化圖書館信息安全的防范能力,促進圖書館數(shù)字化建設(shè)健康、可持續(xù)發(fā)展。