• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據(jù)敏感性的大數(shù)據(jù)存儲(chǔ)安全技術(shù)

      2020-10-27 09:46胡志達(dá)
      移動(dòng)通信 2020年8期

      胡志達(dá)

      【摘 ?要】

      針對(duì)云環(huán)境下數(shù)據(jù)安全和數(shù)據(jù)集敏感元素?zé)o法自動(dòng)識(shí)別、自動(dòng)動(dòng)態(tài)分級(jí)的問題,提出一種面向文檔級(jí)別的敏感元素自動(dòng)化識(shí)別與動(dòng)態(tài)分級(jí)算法,利用大數(shù)據(jù)語(yǔ)義識(shí)別技術(shù),對(duì)各類文檔的數(shù)據(jù)價(jià)值元素進(jìn)行自動(dòng)化提取,采用向量化處理的方式得到文檔的特征向量,結(jié)合特征向量相似度量化文檔的敏感度從而實(shí)現(xiàn)文檔的自動(dòng)分類分級(jí)。實(shí)驗(yàn)表明,該算法能夠比較準(zhǔn)確地識(shí)別并分類任意規(guī)模、非結(jié)構(gòu)化的文檔敏感元素,該算法無須提前知道文檔敏感元素的特征,敏感特征字典,兼顧了平臺(tái)存儲(chǔ)安全的效率和安全性。

      【關(guān)鍵詞】數(shù)據(jù)敏感性;語(yǔ)義識(shí)別;價(jià)值元素;存儲(chǔ)安全

      [Abstract]

      In order to solve the problems of the inability to automatically identify and dynamically classify the data security and sensitive elements of data sets in cloud environment, this paper presents a document-oriented algorithm for automatic identification and dynamic classification of sensitive elements. Specifically, the big data semantic recognition technology is used to automatically extract the data value elements of various documents, and the feature vector of the document is obtained by vectorization methods, and the sensitivity of the document is quantified by combining the similarity of the feature vector to realize the automatic classification and grading of documents. Experimental results show that the algorithm can accurately identify and classify the sensitive elements of unstructured documents with any scale. The algorithm does not need to know the characteristics of sensitive elements and sensitive feature dictionary in advance, which balances the efficiency and security of platform storage security.

      [Key words]data sensitivity; semantic recognition; value element; storage security

      0 ? 引言

      多租戶和虛擬化技術(shù)在促進(jìn)了云計(jì)算快速發(fā)展的同時(shí),也面臨著數(shù)據(jù)存儲(chǔ)的安全問題。2009年谷歌大批用戶隱私文件泄露問題;2012年亞馬遜的數(shù)據(jù)丟失;2014年iCloud泄露的明星隱私照片問題。上述問題加劇了用戶對(duì)云計(jì)算存儲(chǔ)安全的擔(dān)憂。當(dāng)前已經(jīng)有很多學(xué)者針對(duì)數(shù)據(jù)敏感信息的安全存儲(chǔ)方法進(jìn)行了大量的研究。Shaikh等人[1]針對(duì)數(shù)據(jù)敏感屬性提出了基于數(shù)據(jù)安全需求的分級(jí)模型。何文竹等人[2]提出一種面向結(jié)構(gòu)化數(shù)據(jù)集的敏感屬性識(shí)別與分級(jí)方法,但是該方法僅針對(duì)結(jié)構(gòu)化數(shù)據(jù)集實(shí)現(xiàn),而且敏感性屬性也是提前設(shè)置的,因此不適用于云計(jì)算各種半結(jié)構(gòu)化或者結(jié)構(gòu)化數(shù)據(jù)的敏感識(shí)別與分級(jí)。馬曉亭[3]提出大數(shù)據(jù)環(huán)境下圖書館敏感數(shù)據(jù)的識(shí)別與保護(hù),采用大數(shù)據(jù)語(yǔ)義識(shí)別技術(shù)來構(gòu)建敏感數(shù)據(jù)挖掘模型,實(shí)現(xiàn)敏感信息的解析和內(nèi)容的分類。周晨煒[4]針對(duì)大數(shù)據(jù)時(shí)代的隱私保護(hù)問題,提出一種對(duì)敏感屬性約束的分級(jí)量化匿名模型。程永新等人[5]提出一種敏感數(shù)據(jù)字典和正在表達(dá)式匹配的敏感數(shù)據(jù)識(shí)別算法。王雷等人[6]提出一種基于數(shù)據(jù)字典的敏感數(shù)據(jù)識(shí)別方法。本文針對(duì)當(dāng)前的敏感數(shù)據(jù)分級(jí)分類方法不適用于實(shí)際生產(chǎn)環(huán)境的敏感元素識(shí)別及分類等問題,提出一種面向文檔級(jí)別的非結(jié)構(gòu)化數(shù)據(jù)集敏感元素自動(dòng)識(shí)別與分類方法。該方法采用大數(shù)據(jù)語(yǔ)義技術(shù)提取各類文檔的價(jià)值元素,以文檔價(jià)值元素為對(duì)象,采用特征向量相似度的方法實(shí)現(xiàn)敏感數(shù)據(jù)的自動(dòng)識(shí)別與分析。與傳統(tǒng)方法相比,該方法無須預(yù)知文檔數(shù)據(jù)的內(nèi)容屬性、敏感字典、匹配規(guī)則,能夠?qū)崿F(xiàn)任意規(guī)模非結(jié)構(gòu)化數(shù)據(jù)集的敏感元素識(shí)別和分類。

      1 ? 基于數(shù)據(jù)敏感性的大數(shù)據(jù)存儲(chǔ)安全模型

      基于數(shù)據(jù)敏感性的大數(shù)據(jù)存儲(chǔ)安全模型包含的各個(gè)模塊如圖1所示:

      1.1 ?大數(shù)據(jù)語(yǔ)義識(shí)別器

      大數(shù)據(jù)語(yǔ)義識(shí)別器包含兩個(gè)模塊:知識(shí)庫(kù)構(gòu)建和文本語(yǔ)義解析。

      知識(shí)庫(kù)構(gòu)建包括知識(shí)抽取、知識(shí)融合和知識(shí)推理。

      知識(shí)抽取就是針對(duì)文本信息對(duì)文本進(jìn)行實(shí)體抽取、關(guān)系抽取和屬性抽取。實(shí)體抽取結(jié)果包括:人名、地名、機(jī)構(gòu)名、媒體、作者及文本的主題關(guān)鍵詞;關(guān)系抽取是指從文本中抽取兩個(gè)或者多個(gè)實(shí)體之間的語(yǔ)義關(guān)系;屬性抽取,又稱為事件抽取,包括事件發(fā)生的時(shí)間、地點(diǎn)以及參與事件的人物等。

      知識(shí)融合就是通過消除實(shí)體、關(guān)系、屬性之間的歧義,形成高質(zhì)量的知識(shí)庫(kù)。

      知識(shí)推理的主要作用是對(duì)原有知識(shí)庫(kù)的擴(kuò)展和修正。也就是針對(duì)現(xiàn)有知識(shí)庫(kù)和已抽取知識(shí)的關(guān)系進(jìn)行推理,從而發(fā)現(xiàn)原有知識(shí)中隱含知識(shí),從而實(shí)現(xiàn)知識(shí)庫(kù)的自我更新。

      文本語(yǔ)義解析就是將文本轉(zhuǎn)化為一種能知識(shí)庫(kù)“看懂”的語(yǔ)義表示。語(yǔ)義解析分為語(yǔ)義映射和語(yǔ)義構(gòu)建。

      語(yǔ)義映射就是將單個(gè)自然語(yǔ)言短語(yǔ)或者術(shù)語(yǔ)映射到知識(shí)庫(kù)實(shí)體或者知識(shí)庫(kù)實(shí)體關(guān)系所對(duì)應(yīng)的邏輯形式,也就是構(gòu)造語(yǔ)法樹節(jié)點(diǎn)。

      語(yǔ)義構(gòu)建就是構(gòu)建語(yǔ)法樹,本質(zhì)就是自底向上對(duì)樹的節(jié)點(diǎn)進(jìn)行合并,最終生成語(yǔ)法樹根節(jié)點(diǎn),最終提取文本的語(yǔ)義信息。

      通過上述兩個(gè)模塊,大數(shù)據(jù)語(yǔ)義識(shí)別器能夠提取文檔中隱含的、準(zhǔn)確的、有用的信息,以便識(shí)別出該文檔的數(shù)據(jù)質(zhì)量和價(jià)值信息?;诖髷?shù)據(jù)容器提取的價(jià)值元素包括:數(shù)據(jù)來源、信息生產(chǎn)者、標(biāo)題、關(guān)鍵詞、摘要、創(chuàng)建時(shí)間、使用語(yǔ)言種類、格式、瀏覽次數(shù)等等。價(jià)值元素作為一個(gè)非結(jié)構(gòu)化的數(shù)據(jù)集,需要采用實(shí)體內(nèi)嵌表示的方法實(shí)現(xiàn)價(jià)值元素向量化,以便在后續(xù)方便提供不同類別之間的距離信息。

      1.2 ?敏感價(jià)值元素識(shí)別器

      敏感元素價(jià)值識(shí)別器針對(duì)大數(shù)據(jù)語(yǔ)義識(shí)別器提取高維度的語(yǔ)義信息提出的。如何解決語(yǔ)義信息高維度產(chǎn)生的災(zāi)難問題,是數(shù)據(jù)存儲(chǔ)安全的研究難點(diǎn)。為了解決這一個(gè)問題,特征選擇應(yīng)該被應(yīng)用到敏感價(jià)值元素識(shí)別器中,也就是如何在眾多的語(yǔ)義信息中,提取或者變換出對(duì)價(jià)值元素識(shí)別有利的特征,以降低特征維度,提升數(shù)據(jù)安全識(shí)別的效果和性能。特征貢獻(xiàn)度通常用于特征選擇、優(yōu)化特征分類空間,采用簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)和歸納方法獲得重要特征,具有減人工干預(yù)、適用于面向?qū)ο筇卣魍诰虻膬?yōu)勢(shì)[13]。因此,本文考慮了語(yǔ)義信息的特點(diǎn),采用特征貢獻(xiàn)度作為敏感價(jià)值元素識(shí)別器識(shí)別價(jià)值元素的關(guān)鍵方法。

      特征貢獻(xiàn)度(Feature Contribution Degree, FCD)作為一種特征選擇的方法,是用于識(shí)別特征對(duì)類別之間區(qū)分能力的貢獻(xiàn)度。本文基于價(jià)值元素向量分布情況,采用特征貢獻(xiàn)度的方法對(duì)關(guān)鍵價(jià)值元素進(jìn)行選擇,降低敏感性計(jì)算的復(fù)雜度。

      其中,m為平臺(tái)數(shù)據(jù)集的類別數(shù),一般分為敏感性和非敏感性兩類,df(t, ci)表示價(jià)值元素t在ci類文檔中出現(xiàn)的文檔數(shù),表示價(jià)值元素t在其余文檔中出現(xiàn)的文檔總數(shù)。

      顯然,F(xiàn)CD很好衡量了某些價(jià)值元素在敏感性文檔和非敏感性文檔的區(qū)別程度。一般來說,F(xiàn)CD的取值范圍在[0, 1]范圍內(nèi),F(xiàn)CD越大,則說明某個(gè)價(jià)值元素對(duì)敏感性/非敏感性文檔的區(qū)分貢獻(xiàn)度越大,對(duì)于敏感性/非敏感性文檔的區(qū)分的指導(dǎo)意義越大。

      1.3 ?價(jià)值元素向量相似性分析器

      價(jià)值元素向量相似性分析器是用距離函數(shù)對(duì)價(jià)值元素特征向量進(jìn)行相似度度量,進(jìn)而實(shí)現(xiàn)待識(shí)別文檔的價(jià)值元素向量與數(shù)據(jù)庫(kù)特定文檔集價(jià)值元素的相似性。

      通過價(jià)值元素識(shí)別,提取貢獻(xiàn)度較大的m個(gè)價(jià)值元素向量,在向量拼接的基礎(chǔ)上計(jì)算待識(shí)別文檔價(jià)值元素向量與數(shù)據(jù)庫(kù)特定文檔集價(jià)值元素向量的相似性,結(jié)合相似度閾值判斷待識(shí)別文檔是否具有敏感性。

      1.4 ?數(shù)據(jù)敏感性評(píng)估器

      數(shù)據(jù)敏感性評(píng)估器是通過對(duì)數(shù)據(jù)使用頻繁程度、數(shù)據(jù)被訪問次數(shù)以及數(shù)據(jù)來源的可靠程度等敏感性內(nèi)容進(jìn)行采集,然后采用離散隨機(jī)變量信息熵來評(píng)估數(shù)據(jù)的敏感度。

      數(shù)據(jù)的敏感性取決于多種元素,一般來說,數(shù)據(jù)使用的越頻繁,那么它被濫用的可能性越多,數(shù)據(jù)越敏感;數(shù)據(jù)質(zhì)量越高,數(shù)據(jù)來源越可靠,數(shù)據(jù)越敏感,數(shù)據(jù)質(zhì)量一般從文檔元數(shù)據(jù)獲取;價(jià)值元素向量相似性越高,數(shù)據(jù)越敏感。基于上述三個(gè)元素,采用離散隨機(jī)變量信息熵評(píng)估敏感數(shù)據(jù)敏感度。

      其中,表示文檔的敏感度,表示平臺(tái)全部文檔的熵,表示某個(gè)文檔的熵。的取值范圍從0到1,數(shù)值接近0表示文檔最敏感,數(shù)據(jù)接近1表示文檔不敏感。

      1.5 ?數(shù)據(jù)敏感性分級(jí)

      基于敏感性評(píng)估器得到的文檔敏感性對(duì)文檔進(jìn)行分級(jí),分級(jí)結(jié)果如表1所示:

      2 ? 實(shí)驗(yàn)與分析

      為了驗(yàn)證模型處理非結(jié)構(gòu)化數(shù)據(jù)的處理能力,分別對(duì)多個(gè)規(guī)模的文檔進(jìn)行了實(shí)驗(yàn)對(duì)比,文檔的大小分別是2G、4G、6G。本文將計(jì)算使用該模型計(jì)算文檔的敏感性后,利用存儲(chǔ)策略文檔進(jìn)行文檔的存儲(chǔ)所需要額外的開銷、敏感數(shù)據(jù)識(shí)別率進(jìn)行對(duì)比,以此證明該模型是否具有一定的實(shí)用性。

      從圖2可知,本文通過數(shù)據(jù)敏感度評(píng)估器獲得文檔的敏感度,在基于數(shù)據(jù)敏感分級(jí)的基礎(chǔ)上,利用存儲(chǔ)策略文檔實(shí)現(xiàn)存儲(chǔ)安全的控制,根據(jù)實(shí)驗(yàn)結(jié)果表明,模型與數(shù)據(jù)集合并時(shí),會(huì)額外增加約15%的開銷。

      圖3說明了基于人工識(shí)別和文本模型的數(shù)據(jù)敏感度對(duì)比。人工識(shí)別是通過隨機(jī)抽取10名志愿者,每個(gè)志愿者隨機(jī)抽取的20個(gè)文檔進(jìn)行敏感度識(shí)別;本文模型識(shí)別是利用本文提出的算法每次對(duì)隨機(jī)抽取的20個(gè)文檔進(jìn)行敏感度識(shí)別。上述兩種識(shí)別結(jié)果都需要與知識(shí)工程師對(duì)文檔打標(biāo)簽的結(jié)果進(jìn)行對(duì)比,最終得到數(shù)據(jù)敏感度識(shí)別率。本文提出的數(shù)據(jù)敏感度識(shí)別準(zhǔn)確率平均值為81%,誤報(bào)率平均值為14%,漏報(bào)率為7%;而利用人工的方法對(duì)數(shù)據(jù)敏感度識(shí)別準(zhǔn)確率平均值為59%,誤報(bào)率為20%,漏報(bào)率為21%。除此之外,人工方法對(duì)數(shù)據(jù)敏感度識(shí)別準(zhǔn)確率波動(dòng)較大?;谏鲜龅慕Y(jié)果分析可知,本文提出的基于數(shù)據(jù)敏感性的大數(shù)據(jù)存儲(chǔ)安全模型具有一定的應(yīng)用價(jià)值。

      3 ? 結(jié)束語(yǔ)

      針對(duì)當(dāng)前云計(jì)算安全存儲(chǔ)技術(shù)的不足,本文提出一種基于數(shù)據(jù)敏感性的大數(shù)據(jù)安全技術(shù),通過對(duì)文檔數(shù)據(jù)價(jià)值元素的自動(dòng)化識(shí)別,采用敏感性評(píng)估器對(duì)數(shù)據(jù)的敏感性進(jìn)行評(píng)估,實(shí)現(xiàn)文檔安全等級(jí)的劃分,結(jié)合存儲(chǔ)策略文檔,實(shí)現(xiàn)文檔的安全存儲(chǔ)。實(shí)驗(yàn)表明,本文提出的模型能夠針對(duì)云平臺(tái)不同文檔進(jìn)行自動(dòng)化、動(dòng)態(tài)存儲(chǔ),能夠有效保護(hù)云平臺(tái)中的敏感數(shù)據(jù)。在后續(xù)工作中,將繼續(xù)研究敏感度評(píng)估器各組件的性能,進(jìn)一步優(yōu)化模型的性能,降低模型的時(shí)間開銷,將敏感度評(píng)估信息進(jìn)一步修正,以方便網(wǎng)絡(luò)管理員針對(duì)存儲(chǔ)策略文檔制定差異性的存儲(chǔ)策略,提升云平臺(tái)的存儲(chǔ)安全技術(shù)水平。

      參考文獻(xiàn):

      [1] ? ?SHAIKH R, SASIKUMAR M. Data classification for achieving security in cloud computing [J]. Procedia computer science, 2015,45: 493-498.

      [2] ? ?何文竹,彭長(zhǎng)根,王毛妮,等. 面向結(jié)構(gòu)化數(shù)據(jù)集的敏感屬性識(shí)別與分級(jí)算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2019,37(10): 1-7.

      [3] ? ?馬曉亭. 大數(shù)據(jù)環(huán)境下圖書館敏感數(shù)據(jù)的識(shí)別與保護(hù)[J]. 圖書館論壇, 2017,37(4): 129-136.

      [4] ? ?周晨煒. 基于敏感度分級(jí)量化的微數(shù)據(jù)匿名模型研究[D]. 西安: 西安電子科技大學(xué), 2018.

      [5] ? ?程永新,胡永,郭振宇. 一種數(shù)據(jù)庫(kù)敏感數(shù)據(jù)自動(dòng)識(shí)別方法[P]. 中國(guó)專利, CN104794204A, 2015-07-22.

      [6] ? ?王雷,林素標(biāo). 一種敏感數(shù)據(jù)自動(dòng)識(shí)別與分類的方法[P]. 中國(guó)專利, CN104933443A, 2015-09-23.

      [7] ? ?李海峰,章寧,朱建明,等. 時(shí)間敏感數(shù)據(jù)流上的頻繁項(xiàng)集挖掘算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2012(11): 71-81.

      [8] ? ? 馬良玉. 云平臺(tái)中網(wǎng)絡(luò)信息安全存儲(chǔ)方法仿真研究[J]. 計(jì)算機(jī)仿真, 2018,35(12): 240-244.

      [9] ? ? 田立偉,樊勇. 大數(shù)據(jù)環(huán)境下云存儲(chǔ)平臺(tái)安全機(jī)制研究[J]. 科技視界, 2016(15): 84.

      [10] ? 許青林,覃國(guó)民,姜文超,等. 敏感數(shù)據(jù)自主可控的云存儲(chǔ)平臺(tái)元數(shù)據(jù)管理[J]. 廣東工業(yè)大學(xué)學(xué)報(bào), 2014(4): 46-53.

      [11] ? ?張曉陽(yáng). 海洋環(huán)境信息云平臺(tái)數(shù)據(jù)安全等級(jí)自動(dòng)劃分的研究[D]. 青島: 中國(guó)海洋大學(xué), 2015.

      [12] ? 瞿飛. 基于云平臺(tái)的企業(yè)數(shù)據(jù)安全研究與保護(hù)[D]. 南京: 南京大學(xué), 2014.

      [13] ? 孫俊嬌,王萍,張英,等. 特征貢獻(xiàn)度與PCA結(jié)合的遙感影像分類特征選擇優(yōu)化方法研究[J]. 測(cè)繪與空間地理信息, 2018,41(1): 49-54.

      乌什县| 时尚| 甘肃省| 高州市| 五峰| 桑植县| 清丰县| 巴林左旗| 台湾省| 六盘水市| 阳信县| 石台县| 县级市| 天台县| 澄城县| 谢通门县| 抚远县| 贵溪市| 公主岭市| 柘城县| 手机| 宕昌县| 曲麻莱县| 科技| 陆丰市| 安丘市| 昌图县| 辽宁省| 清流县| 工布江达县| 喜德县| 即墨市| 陆河县| 沙洋县| 霞浦县| 方正县| 兴义市| 桦川县| 资阳市| 梁平县| 马山县|