一種基于保形加密的大數(shù)據(jù)脫敏系統(tǒng)實現(xiàn)及評估

2017-04-13 06:42:38卞超軼朱少敏周濤

電信科學(xué) 2017年3期

關(guān)鍵詞：脫敏單機加密算法

卞超軼，朱少敏，周濤

（1.北京啟明星辰信息安全技術(shù)有限公司，北京 100193；2.北京郵電大學(xué)，北京 100876）

一種基于保形加密的大數(shù)據(jù)脫敏系統(tǒng)實現(xiàn)及評估

卞超軼1,2，朱少敏1，周濤1

（1.北京啟明星辰信息安全技術(shù)有限公司，北京 100193；2.北京郵電大學(xué)，北京 100876）

數(shù)據(jù)脫敏，是指對數(shù)據(jù)中包含的一些涉及機密或隱私的敏感信息進行特殊處理，以達到保護私密及隱私信息不被惡意攻擊者非法獲取的目的。保形加密是眾多數(shù)據(jù)脫敏技術(shù)的一種，但其具有保持原始數(shù)據(jù)格式不變的重要優(yōu)勢，從而在一定程度上對上層應(yīng)用透明。隨著大數(shù)據(jù)時代的到來以及Hadoop平臺的廣泛應(yīng)用，傳統(tǒng)的基于關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)脫敏技術(shù)已不能滿足實際的生產(chǎn)需要。針對Hadoop大數(shù)據(jù)平臺實現(xiàn)了一種基于保形加密的數(shù)據(jù)脫敏系統(tǒng)，支持對多種數(shù)據(jù)存儲格式以及純數(shù)字、純字母或數(shù)字—字母混合等多種數(shù)據(jù)類型敏感數(shù)據(jù)的加密脫敏處理。然后對3種不同的實現(xiàn)方式進行了探討，并開展了一系列實驗對系統(tǒng)的加密脫敏性能進行詳細的評估比較。

大數(shù)據(jù)；數(shù)據(jù)脫敏；保形加密；系統(tǒng)；評估

1 引言

數(shù)據(jù)脫敏，是指對數(shù)據(jù)中包含的秘密或隱私信息，如個人身份識別信息、商業(yè)機密數(shù)據(jù)等進行特殊處理，以達到數(shù)據(jù)變形的效果，使得惡意攻擊者無法從經(jīng)過脫敏處理的數(shù)據(jù)中直接獲取敏感信息，從而實現(xiàn)對機密及隱私的防護。在金融、醫(yī)療、電信、電力等諸多行業(yè)，數(shù)據(jù)脫敏都有著非常廣泛的應(yīng)用。例如，在電力系統(tǒng)中，用戶用電信息中就包含著很多重要的敏感數(shù)據(jù)，一旦泄露出去，就可能被不法分子利用來分析用戶行為以及電網(wǎng)的組織結(jié)構(gòu)等，因此在存儲、傳輸及共享時必須進行脫敏處理。根據(jù)數(shù)據(jù)脫敏的效果，可以將其分為兩大類——可恢復(fù)類和不可恢復(fù)類。可恢復(fù)類指經(jīng)過脫敏處理的數(shù)據(jù)可以通過一定的方式恢復(fù)成原始數(shù)據(jù)，以各種加解密算法為代表；不可恢復(fù)類則是指經(jīng)過脫敏處理的數(shù)據(jù)無法復(fù)原，如模糊、掩蓋等。不可恢復(fù)類脫敏主要用于數(shù)據(jù)的共享與公開，而可恢復(fù)類則同時可用于靜態(tài)存儲和動態(tài)傳輸時數(shù)據(jù)安全隱私的防護。因此，可恢復(fù)類數(shù)據(jù)脫敏技術(shù)具有更加廣泛的應(yīng)用場景。保形加密（format-preserving encryption，F(xiàn)PE）屬于可恢復(fù)類數(shù)據(jù)脫敏技術(shù)的一種，它的特點是密文與原文具有相同的數(shù)據(jù)格式，從而具備對上層應(yīng)用透明的優(yōu)勢。

隨著大數(shù)據(jù)時代的到來，以Hadoop為代表的大數(shù)據(jù)平臺被廣泛應(yīng)用，而針對關(guān)系型數(shù)據(jù)庫的脫敏技術(shù)及產(chǎn)品不能直接沿用至新型的大數(shù)據(jù)平臺。雖然保形加密算法已經(jīng)較為成熟，但是將其應(yīng)用于大數(shù)據(jù)平臺的研究和產(chǎn)品還很少見。因此，本文針對Hadoop平臺實現(xiàn)了基于保形加密的大數(shù)據(jù)脫敏系統(tǒng)，支持包含 HDFS文件、HBase表、Hive表等多種不同的數(shù)據(jù)存儲格式，能夠高效完成對純數(shù)字、純字母以及數(shù)字—字母混合 3種不同類型數(shù)據(jù)的脫敏操作。同時，還嘗試了幾種不同的實現(xiàn)方式，并在實驗平臺上開展了相應(yīng)的測試來評估比較加密處理的性能。

首先針對Hadoop大數(shù)據(jù)平臺設(shè)計了一種保形加密機制，能夠?qū)adoop平臺上多種存儲形式和數(shù)據(jù)類型的敏感數(shù)據(jù)進行脫敏處理，并達到保留數(shù)據(jù)格式不變的效果；然后采用了多種不同的實現(xiàn)方式達到同樣的數(shù)據(jù)脫敏效果，包括簡單的單機處理模式、ETL（extract-transform-load，抽取—轉(zhuǎn)換—加載）工具模式、Spark并行處理模式，可以適用于不同的場景，滿足不同的需要；最后在實際的Hadoop集群上開展一系列實驗對多種實現(xiàn)方式及數(shù)據(jù)規(guī)模進行了詳細的性能評估，比較了不同場景下的性能差別，同時也驗證了系統(tǒng)用于實際生產(chǎn)環(huán)境下大數(shù)據(jù)脫敏的可行性。

2 研究背景及相關(guān)工作

對研究背景及相關(guān)工作進行具體的描述，主要包含對保形加密與Hadoop大數(shù)據(jù)平臺的介紹。

2.1 保形加密

保形加密（也稱為保留格式的加密）是一類特殊的對稱加密機制，它最主要的特點就是保證密文的格式與加密前的明文格式完全相同，例如，對由16位數(shù)字組成的銀行卡號進行加密后仍為 16位數(shù)字，從而具有無需更改數(shù)據(jù)庫范式以及對上層應(yīng)用透明的優(yōu)勢。保形加密可用于數(shù)據(jù)的掩蓋，并可通過調(diào)節(jié)加密的位數(shù)來實現(xiàn)不同的訪問控制粒度。

學(xué)術(shù)界在保形加密領(lǐng)域的研究關(guān)注已經(jīng)持續(xù)了10多年。2002年，Black和Rogaway首次從密碼學(xué)的角度對保形加密進行了研究[1]，關(guān)注于整數(shù)域上的保形加密問題，并提出了 3種構(gòu)造加密機制的方法：Prefix、Cycle-walking及Generalized-Feistel。這3種方法中均利用了分組加密算法來產(chǎn)生偽隨機置換，因為雖然真隨機置換是一種理想的保形加密機制，但對于數(shù)域較大的場景預(yù)先生成并記憶隨機置換表在實際中是不可行的。研究證明了保形加密的安全性與構(gòu)造中所使用的分組加密算法的安全性相同。后續(xù)研究提出了一系列的加密算法及模型，其中比較典型的有FFSEM[2]、FFX[3]、RtE[4]、BPS[5]等。在這些算法及模型中，F(xiàn)eistel網(wǎng)絡(luò)得到最為廣泛的采用，因為它具有可證明的安全性，得到了更多認可。Feistel網(wǎng)絡(luò)是分組加密算法（如DES）中經(jīng)常采用的對稱加解密結(jié)構(gòu)，包含多輪的迭代過程，其中每一輪都需要一個偽隨機數(shù)值作為輸入，通常用AES來產(chǎn)生。

美國國家標(biāo)準(zhǔn)與技術(shù)研究院（National Institute of Standards and Technology，NIST）針對保形加密發(fā)布了相關(guān)的標(biāo)準(zhǔn)草案——SP800-38G[6]，并給出了3種具體的加密算法：FF1、FF2及FF3。這些算法的主體流程是類似的，其核心均為一個Feistel網(wǎng)絡(luò)結(jié)構(gòu)，如圖1所示。圖1中繪出了3輪迭代過程的示意：在每一輪中數(shù)據(jù)被劃分成兩段——Ai及Bi，Bi在經(jīng)過函數(shù)FK變換后再與Ai相加得到下一輪的Bi+1，而下一輪的Ai+1則為本輪的Bi。其中，函數(shù)FK中包含了AES的加密運算，K表示加密密鑰。FK函數(shù)還需要3個額外的輸入——基數(shù)n、tweak值T以及當(dāng)前迭代輪數(shù)。標(biāo)準(zhǔn)草案中給出的3種不同算法主要在于FK函數(shù)的不同形式以及迭代輪數(shù)。

圖1 Feistel網(wǎng)絡(luò)結(jié)構(gòu)示意

國內(nèi)的研究學(xué)者在保形加密方面也開展了相應(yīng)的工作[7-10]，主要是利用Feistel網(wǎng)絡(luò)來設(shè)計構(gòu)造新的加密算法，將算法的適用性范圍擴展到任意分組長度、任意字符集以及變長編碼字符集（如同時包含中英文字符的數(shù)據(jù)），從而可以對更多類型的數(shù)據(jù)進行加密。

將保形加密應(yīng)用于數(shù)據(jù)脫敏在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫上已經(jīng)相對成熟，但在大數(shù)據(jù)平臺方面的工作還很少見，僅有個別最新產(chǎn)品（如HP security voltage[11]）提供了相關(guān)功能以支持NIST標(biāo)準(zhǔn)草案中的保形加密算法。本文工作嘗試彌補這一方面的不足，開發(fā)實現(xiàn)了面向Hadoop大數(shù)據(jù)平臺的保形加密系統(tǒng)，并評估比較了不同實現(xiàn)方式的加密性能，為在實際生產(chǎn)環(huán)境中應(yīng)用提供重要參考價值。

2.2 Hadoop大數(shù)據(jù)平臺

Hadoop[12]是由 Apache軟件基金會負責(zé)開發(fā)及維護的開源軟件框架，主要目標(biāo)是針對大數(shù)據(jù)的分布式存儲及分布式處理。Hadoop的核心由分布式存儲組件HDFS與運算處理組件MapReduce組成。

HDFS是一種分布式的文件系統(tǒng)，它將文件分塊并分布式地存儲到多個數(shù)據(jù)節(jié)點（datanode）上，由元數(shù)據(jù)節(jié)點（namenode）負責(zé)管理文件系統(tǒng)的命名空間并存儲所有文件及文件夾的元數(shù)據(jù)信息。由于分布式的特性，HDFS能夠提供高吞吐量的數(shù)據(jù)訪問，從而適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。同時，HDFS提供多文件副本的冗余存儲及數(shù)據(jù)校驗，具有高容錯性的特點。

MapReduce是一種用于大規(guī)模數(shù)據(jù)集的并行運算模型，它由map（映射）與reduce（化簡）兩步組成，通過多個mappers并行地處理鍵值對，從而映射成新的鍵值對，再將這一中間結(jié)果輸出到相應(yīng)的 reducers并發(fā)地進行化簡運算處理以得到最終結(jié)果。MapReduce最大的特點是充分利用分布式計算以提高大規(guī)模數(shù)據(jù)集的計算處理效率。

在HDFS文件存儲管理及MapReduce運算處理支持的基礎(chǔ)上，Hadoop平臺上發(fā)展出豐富的組件及多種數(shù)據(jù)管理訪問方式，除了基本的HDFS文件外，廣泛使用的還包括列式存儲的HBase和用類似關(guān)系型數(shù)據(jù)庫中以表結(jié)構(gòu)存儲、SQL查詢語言訪問管理的Hive等。

然而，MapReduce也存在一些缺點，其中在性能方面的一個重要不足是其需要將每步處理的中間結(jié)果通過硬盤進行中轉(zhuǎn)，從而帶來大量的硬盤I/O開銷。針對此問題，UC Berkeley（美國加利福尼亞大學(xué)伯克利分校）的研究者開發(fā)了Spark[13]通用并行計算框架及平臺。Spark在存儲方面沿用 HDFS，主要是重新實現(xiàn)了分布式計算部分，將中間計算結(jié)果通過內(nèi)存中轉(zhuǎn)，從而大幅提升了計算處理的效率。

本文工作面向Hadoop大數(shù)據(jù)平臺，支持Hadoop平臺上的多種數(shù)據(jù)存儲管理方式，并且探討了多種不同的系統(tǒng)實現(xiàn)方式，其中包含利用相對更高效的Spark并行計算框架以提升加密效率。

3 保形加密大數(shù)據(jù)脫敏系統(tǒng)

本節(jié)對保形加密大數(shù)據(jù)脫敏系統(tǒng)進行具體描述，并對一些重要的實現(xiàn)細節(jié)給出說明。

3.1 概述

本文共嘗試了3種不同的系統(tǒng)實現(xiàn)方式，分別是簡單單機模式、ETL工具模式以及Spark并行模式。這3種模式均是面向Hadoop大數(shù)據(jù)平臺上存儲的數(shù)據(jù)，區(qū)別主要在于核心的計算流程。簡單來說，單機模式是先將數(shù)據(jù)從Hadoop平臺上導(dǎo)出，然后再使用單機程序進行數(shù)據(jù)加密操作；ETL工具模式是利用支持Hadoop平臺的ETL工具作為媒介，形成“導(dǎo)出—加密—輸出”的流水線操作；Spark并行模式則是直接使用Spark并行計算框架進行開發(fā)，將加密操作以Spark作業(yè)的方式提交到集群上運行。在這些實現(xiàn)方式中，采用的保形加密算法是經(jīng)過簡單修改的NIST標(biāo)準(zhǔn)草案中的FF1算法[6]。

3.2 保形加密算法

為了同時支持純數(shù)字、純字母及數(shù)字—字母混合這3種類型數(shù)據(jù)的加密操作，對NIST標(biāo)準(zhǔn)草案的FF1算法[6]進行了簡單修改。在給定分組加密密鑰K、基數(shù)n及tweak值T時，F(xiàn)F1算法能夠?qū)γ魑腜進行保形加密，默認n=10以下字符集對應(yīng)數(shù)字0～9，再往上增長則依次對應(yīng)英文字母a～z，如16進制對應(yīng)的字符集為{0,1,…,9,a,b,…,f}。該算法給出了在FF1算法基礎(chǔ)上進行簡單修改后的保形加密算法整體流程的偽代碼描述。

輸入明文P、FF1加密算法F、分組加密密鑰K、基數(shù)n、tweak值T

輸出密文C

（1）判斷基數(shù)n是否不大于10，或者等于36

（2）如果是，則C=F（n,K,T,P），返回

（3）如果不是，則再判斷n是否等于26

（4）如果是，則

（5） P*=Map（P）

（6） C*=F（n,K,T,P*）

（7） C=InverseMap（C*），返回

（8）如果不是，返回基數(shù)設(shè)置異常錯誤

算法通過對基數(shù) n的設(shè)置來調(diào)節(jié)所支持的字符集，n的取值范圍是{1,2,3,…,10,26,36}（其中n=1表示字符集只包含一個數(shù)字0，沒有意義）。舉例來說，n=10表示加密數(shù)域是十進制數(shù)，也就是字符集為數(shù)字（即 0～9）；n=36表示加密數(shù)域是36進制數(shù)，從而支持字符集為數(shù)字及英文字母混合（即 0～9、a～z）；而為了支持純英文字母字符集（即a～z）的加密，可令n=26，此時原本對應(yīng)的字符集為0～9、a～p，所以需要在加密前及加密后附加進行一次額外的映射操作（第（5）行和第（7）行），將其轉(zhuǎn)換成a～z。

算法是不區(qū)分大小寫字母的，但可對其進行進一步的擴充，也就是說可以將同時包含數(shù)字及大小寫字母的字符集看作62進制數(shù)域，再進行相應(yīng)的字符映射即可；類似地，還可以繼續(xù)擴充以支持更大的字符集，如全體ASCII字符。為了簡單而不失代表性，本文只實現(xiàn)了以上算法，進一步的擴展支持工作將在后續(xù)研究中完成。

FF1算法是一種對稱加密算法，其解密過程與加密過程是相同的，因此基于其的算法也是如此，這里就不再介紹算法的解密部分，而在接下來的具體實現(xiàn)方式描述以及之后的實驗評估部分也將略去對解密操作的說明。

3.3 簡單單機模式

簡單單機模式是3種模式中最為簡單、直接的系統(tǒng)實現(xiàn)方式，其思路是將存儲在Hadoop平臺上的數(shù)據(jù)先導(dǎo)出保存到本地，再使用實現(xiàn)的保形加密算法對存儲在本地文件中的數(shù)據(jù)進行加密操作，從而完成數(shù)據(jù)脫敏過程。根據(jù)存儲管理方式的不同，使用了對應(yīng)的Hadoop編程接口以支持HDFS文件、HBase表及Hive表數(shù)據(jù)的導(dǎo)出。然后在單機上應(yīng)用實現(xiàn)的算法對數(shù)據(jù)進行逐條加密。

簡單單機模式的優(yōu)點是簡單、直觀，并且可以脫機處理（數(shù)據(jù)導(dǎo)出后不需要再連接大數(shù)據(jù)平臺），但缺點也很明顯——效率低，因為只使用了單機對數(shù)據(jù)進行串行式的逐條加密處理，既沒有利用大數(shù)據(jù)平臺分布式的特點，也沒有在加密方面進行并行處理。

3.4 ETL工具模式

為了提高加密的效率，可以利用ETL工具來實現(xiàn)流水線式處理以及并行度的提升。選用開源的ETL工具——Pentaho Data Integration（Kettle）[14]，將保形加密以轉(zhuǎn)換插件方式提供，從而直接支持Hadoop平臺上的多種數(shù)據(jù)格式。Kettle是一款跨平臺開源 ETL工具，它使得用戶可以直接通過使用可視化工具的拖拽來完成數(shù)據(jù)的導(dǎo)入、導(dǎo)出及基礎(chǔ)轉(zhuǎn)換操作，支持Cloudera版本（CDH）[15]、Hortonworks版本（HDP）[16]等多種Hadoop發(fā)行版本。所使用的Kettle的版本號是6.0.0.0-353。

保形加密插件的開發(fā)主要包含兩大部分，即加密算法和交互界面。加密算法即上述的算法，而交互界面的作用主要是與用戶進行交互，提供一些參數(shù)配置功能，包括明文列名、密文列名、密鑰配置（指定密鑰或隨機密鑰）、tweak配置（指定tweak值或隨機tweak值）及基數(shù)等?；贙ettle實現(xiàn)的保形加密系統(tǒng)主界面以及保形加密轉(zhuǎn)換插件配置界面如圖2所示，這也正是ETL工具模式的另一個優(yōu)點——良好的用戶交互圖形界面。相對而言，其他兩種模式的系統(tǒng)實現(xiàn)僅能通過終端參數(shù)指定來進行簡單的交互。

ETL工具模式對保形加密的效率有兩方面的提升。第一個方面是“數(shù)據(jù)導(dǎo)出—加密脫敏—結(jié)果存儲”這條流水線的形成，即數(shù)據(jù)源源不斷地從Hadoop大數(shù)據(jù)平臺流出并進入保形加密模塊進行脫敏處理，然后再緊接著輸出到指定位置。第二個方面則是其支持并行處理：在Kettle的單機運行模式上，可以設(shè)置保形加密轉(zhuǎn)換步驟的并發(fā)數(shù)，從而利用多核心處理器的并發(fā)處理優(yōu)勢；Kettle還可以組織成集群模式，通過將數(shù)據(jù)分發(fā)到集群的各個主機上，實現(xiàn)多主機并行處理的效果。

圖2 基于Kettle的ETL工具模式系統(tǒng)實現(xiàn)界面

3.5 Spark并行模式

為了進一步利用Hadoop平臺在分布式存儲及并行計算方面的優(yōu)勢，可以直接基于并行計算框架實現(xiàn)保形加密操作。相較于MapReduce，Spark利用內(nèi)存計算避免了低效的硬盤輸入/輸出操作，從而具有更高的計算效率。因此，基于 Spark實現(xiàn)的并行模式將為大數(shù)據(jù)規(guī)模的保形加密效率帶來實質(zhì)性的提升。

具體地，使用Spark的Scala編程接口實現(xiàn)對Hadoop平臺上大數(shù)據(jù)的加密脫敏處理過程為：首先讀取Hadoop平臺上存儲的數(shù)據(jù)（HDFS文件、HBase表、Hive表等）形成Spark的數(shù)據(jù)抽象——彈性分布式數(shù)據(jù)集（resilient distributed dataset，RDD），然后再應(yīng)用Spark提供的并行計算編程接口，在分布式集群上對所有RDD執(zhí)行并行的加密操作。

在此種模式下，保形加密操作是以Spark作業(yè)的方式呈現(xiàn)的，通過將其提交到分布式計算平臺上執(zhí)行來完成對數(shù)據(jù)的脫敏處理。因此，針對Spark的參數(shù)調(diào)優(yōu)對于此模式的運行效率有一定影響。

4 實驗評估

為了評估所實現(xiàn)的保形加密大數(shù)據(jù)脫敏系統(tǒng)的性能，并比較第2節(jié)所提到的 3種模式的差別，在實際的Hadoop大數(shù)據(jù)平臺上開展了一系列實驗，本節(jié)將描述這些實驗內(nèi)容及評估比較的結(jié)果。

4.1 實驗環(huán)境

采用的Hadoop平臺是由 3臺戴爾 PowerEdge R720服務(wù)器組成的小集群，采用的Hadoop版本是 CDH 5.4。在保形加密系統(tǒng)的簡單單機模式和ETL工具模式中連接Hadoop集群的主機是一臺聯(lián)想ThinkPad T440p筆記本電腦。服務(wù)器與筆記本電腦的CPU及內(nèi)存的具體參數(shù)見表 1。

表1 CPU及內(nèi)存參數(shù)

4.2 實驗分析

對第 2節(jié)所述的 3種模式實現(xiàn)的系統(tǒng)都開展了相應(yīng)的實驗進行性能評估。列出的所有實驗數(shù)據(jù)均是在同樣的系統(tǒng)環(huán)境下10次獨立重復(fù)實驗的平均結(jié)果。

首先，測試了一些不同參數(shù)設(shè)置的影響。以ETL工具模式為例，測試了不同并發(fā)數(shù)、不同數(shù)據(jù)規(guī)模等場景下保形加密的性能。

不同并發(fā)數(shù)設(shè)置下ETL工具模式在Thinkpad筆記本電腦上單機執(zhí)行時的保形加密性能比較結(jié)果如圖3所示，其中使用的數(shù)據(jù)規(guī)模是10M條（即107條）數(shù)據(jù)。由圖3可知，將并發(fā)數(shù)設(shè)置成計算機所具有的CPU核心數(shù) （本例中為4）時達到的性能最高——處理速度約為1.6萬條/s。

圖3 保形加密性能比較結(jié)果（不同并發(fā)數(shù)設(shè)置）

不同數(shù)據(jù)規(guī)模下ETL工具模式在Thinkpad筆記本電腦上單機執(zhí)行的處理性能對比結(jié)果如圖4所示，其中，并發(fā)數(shù)設(shè)定為4，數(shù)據(jù)規(guī)模由最小的1萬（104）條一直增大到1億（108）條。圖中的x軸（數(shù)據(jù)條數(shù)）和y1軸（即左側(cè)的y軸，時間）均為對數(shù)尺度。由圖4可知，完成加密脫敏處理的時間隨數(shù)據(jù)規(guī)模的增大而基本呈線性增長趨勢，處理的速度在數(shù)據(jù)規(guī)模達到 106之后維持穩(wěn)定。數(shù)據(jù)規(guī)模較小時處理速度較慢，其原因可能是初始連接Hadoop集群讀取數(shù)據(jù)到保形加密的流水線啟動期間執(zhí)行相對較慢。

圖4 保形加密性能比較結(jié)果（不同規(guī)模設(shè)置）

同時，還開展了對不同類型數(shù)據(jù)（即基數(shù)設(shè)置不同）的加密性能評估比較，結(jié)果證明加密性能基本相同，即對純數(shù)字、純字母或數(shù)字—字母這3種類型的數(shù)據(jù)具有相同的加密性能，此處略去相關(guān)的結(jié)果。

類似地，對于簡單單機模式和Spark并行模式也評估了一些不同參數(shù)設(shè)置下的性能變化。由于篇幅的限制，這里不再一一給出。

然后，開展實驗來測評3種模式對相同規(guī)模數(shù)據(jù)進行加密脫敏處理的性能差別。實驗中其他參數(shù)設(shè)置均為最優(yōu)（如ETL工具中保形加密的并發(fā)數(shù)、Spark作業(yè)提交的相關(guān)參數(shù)等）。3種模式在不同數(shù)據(jù)規(guī)模下的加密處理速度對比見表2。由表2可知，在這3種模式中，Spark并行模式的加密處理速度最快，而且隨著數(shù)據(jù)規(guī)模的增大，其處理速度還會有所提升，其主要原因是在數(shù)據(jù)規(guī)模較小時Spark的并行優(yōu)勢還沒有得到充分發(fā)揮。相比較來看，另外兩種模式的加密處理速度在不同數(shù)據(jù)規(guī)模下基本維持穩(wěn)定。總體來看，ETL工具模式的加密處理速度約為簡單單機模式的3倍，而 Spark并行模式的處理速度在大數(shù)據(jù)規(guī)模下（100M，即1億條數(shù)據(jù)）更能達到簡單單機模式的16倍之多。

為了更清晰地展示3種模式的加密效率差別，不同數(shù)據(jù)規(guī)模下3種模式的總執(zhí)行時間對比如圖 5所示，圖例中“simple”表示簡單單機模式，“ETL”表示ETL工具模式，“Spark”表示Spark并行模式。

表2 3種模式加密處理速度對比

圖5 3種模式總執(zhí)行時間比較

從這一結(jié)果中也能得出，基于保形加密的大數(shù)據(jù)脫敏系統(tǒng)性能可以滿足實際生產(chǎn)需要的結(jié)論。具體來說，對于108規(guī)模的數(shù)據(jù)（即1億條），使用ETL工具模式處理僅需要花費約105 min，而使用Spark并行模式更是只需要花費約20 min，而且這只是在一臺配備四核處理器的筆記本電腦單機ETL模式以及僅由3臺服務(wù)器組成的Spark集群下的測量結(jié)果。若在實際生產(chǎn)環(huán)境中采用集群模式的ETL或者更大規(guī)模的Spark集群，則必然能取得更高的加密脫敏效率。

5 結(jié)束語

針對大數(shù)據(jù)環(huán)境下的脫敏問題設(shè)計了一種面向Hadoop平臺的基于保形加密的解決方案，并完成了具體的系統(tǒng)實現(xiàn)工作。該系統(tǒng)支持Hadoop平臺下的多種數(shù)據(jù)存儲格式，如HDFS文件、HBase表、Hive表等，可以對純數(shù)字、純字母及數(shù)字—字母混合等多種類型的敏感數(shù)據(jù)完成保形加密的脫敏操作。給出了3種不同的實現(xiàn)方式，即簡單單機模式、ETL工具模式及 Spark并行模式，它們有著各自的優(yōu)/缺點和適用場景。在實際的Hadoop平臺上，開展了一系列實驗來評測 3種實現(xiàn)方式的系統(tǒng)性能，結(jié)果驗證了系統(tǒng)在實際生產(chǎn)環(huán)境中的可行性，也對 3種模式的使用選擇有重要的指導(dǎo)意義。在后續(xù)研究工作中，將嘗試擴展算法使其支持更多種的數(shù)據(jù)類型，并深入測試ETL工具模式中使用集群工作模式的效果以及 Spark參數(shù)調(diào)優(yōu)的具體影響。

[1]BLACK J,ROGAWAY P.Ciphers with arbitrary finite domains [M].Berlin Heidelberg:Springer,2002.

[2]SPIES T.Feistel finite set encryption mode[J/OL].NIST Proposed Encryption Mode,2008:1-10.（2008-01-24）[2016-07-01].https: //static.aminer.org/pdf/PDF/000/217/259/about_feistel_schemes_ with_six_or_more_rounds.pdf.

[3]BELLAREM,RISTENPARTT,ROGAWAYP,etal.Format-preserving encryption[C]//Selected Areas in Cryptography,March 4-9,2009, Berlin,Germany.Berlin Heidelberg:Springer,2009:295-312.

[4]BELLARE M,ROGAWAY P,SPIES T.The FFX mode ofoperation for format-preserving encryption[J].Unpublished Nist Proposal, 2010,136（9）:633.

[5]BRIER E,PEYRIN T,STERN J.BPS:a format-preserving encryption proposal[J/OL].NIST submission,2010:1-11.（2010-04-04） [2016-07-01].http://csrc.nist.gov/groups/ST/ toolkit/BCM/documents/proposedmodes/bps/bps-spec.pdf.

[6]DWORKINM.Recommendation forblock ciphermodesofoperation: methodsforformat-preservingencryption[J].NISTSpecialPublication, 2013（800）:38.

[7] 劉哲理,賈春福,李經(jīng)緯.保留格式加密模型研究[J].通信學(xué)報,2011,32（6）:184-190. LIUZL,JIAC F,LIJW.Research on the format-preservingencryption modes[J].Journal on Communications,2011,32（6）:184-190.

[8] 劉哲理,賈春福,李經(jīng)緯.保留格式加密技術(shù)研究[J].軟件學(xué)報,2012,23（1）:152-170. LIUZL,JIACF,LIJW.Research on the format-preservingencryption techniques[J].Journal of Software,2012,23（1）:152-170.

[9]李敏,賈春福,李經(jīng)緯,等.變長編碼字符型數(shù)據(jù)的保留格式加密[J].吉林大學(xué)學(xué)報:工學(xué)版,2012,42（5）:1257-1261. LI M,JIA C F,LI J W,et al.Format-preserving encryption for variable-length encoding character data[J].Journal of Jilin University:Engineering and Technology Edition,2012,42（5）: 1257-1261.

[10]李經(jīng)緯,賈春福,劉哲理,等.基于 k-分割 Feistel網(wǎng)絡(luò)的FPE方案[J].通信學(xué)報,2012,33（4）:62-68. LI J W,JIA C F,LIU Z L,et al.FPE scheme based on k-sp lits feistel network[J].Journal on Communications,2012,33（4）: 62-68.

[11]HP.HP security voltage[EB/OL].（2015-02-09）[2016-03-01]. https://saas.hpe.com/en-us/software/voltage-data-encryptionsecurity.

[12]Apache Software Foundation.Apache Hadoop[EB/OL].（2011-12-10）[2016-07-01].http://hadoop.apache.org/.

[13]Apache Software Foundation.Apache Spark[EB/OL].（2014-05-30）[2016-07-01].http://spark.apache.org/.

[14]Pentaho.Data integration-Kettle[EB/OL].（2009-05-14）[2016-07-01].http://community.pentaho.com/projects/data-integration/.

[15]Cloudera.Cloudera CDH[EB/OL].（2012-10-12）[2016-07-01]. http://www.cloudera.com/products/apache-hadoop/key-cdh-components.htm l.

[16]Hortonworks.HORTONW0RKS data platform （HDP）[EB/OL].（2012-11-30）[2016-07-01].http://hortonworks.com/products/ data-center/hdp/.

Implementation and evaluation of big data desensitization system based on format-preserving encryption

BIAN Chaoyi1,2，ZHU Shaomin1，ZHOU Tao1
1.Beijing Venus Information Security Technology Incorporated Company,Beijing 100193,China
2.Beijing University of Posts and Telecommunications,Beijing 100876,China

Data desensitization is a process that makes some special transformations on sensitive data in order to protect the secrecy and privacy from being acquired by malicious attackers.Format-preserving encryption is one of the techniques of data desensitization,which has the advantage of keeping data format unchanged so that the upper layer applications are not affected.Along with the coming of big data and the wide application of the Hadoop platform,data desensitization techniques for traditional relational database management systems cannot satisfy the need of production.A data desensitization system based on format-preserving encryption for Hadoop platform was implemented,which provided the encryption support for multiple data storage formats and data value types.Moreover, three different sorts of implementations were discussed,and a series of experiments were carried out to evaluate the performance.

big data,data desensitization,format-preserving encryption,system,evaluation

TP309.2

：A

10.11959/j.issn.1000-0801.2017059

卞超軼（1987-），男，北京啟明星辰信息安全技術(shù)有限公司高級研究員，啟明星辰博士后工作站——北京郵電大學(xué)博士后流動站聯(lián)合培養(yǎng)博士后，主要研究方向為大數(shù)據(jù)自身安全、大數(shù)據(jù)安全分析等。

朱少敏（1983-），男，北京啟明星辰信息安全技術(shù)有限公司前線技術(shù)專家團成員，主要研究方向為電力系統(tǒng)信息安全、多媒體信息處理等。

周濤（1979-），男，博士，北京啟明星辰信息安全技術(shù)有限公司教授級高級工程師，主要研究方向為大數(shù)據(jù)安全分析、事件關(guān)聯(lián)分析、入侵檢測等。

2016-10-20；

2017-02-24

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種基于保形加密的大數(shù)據(jù)脫敏系統(tǒng)實現(xiàn)及評估

1 引言

2 研究背景及相關(guān)工作

3 保形加密大數(shù)據(jù)脫敏系統(tǒng)

4 實驗評估

5 結(jié)束語