大數(shù)據(jù)環(huán)境下的隱私保護(hù)與數(shù)據(jù)加密算法研究與優(yōu)化

2024-12-01 00:00:00滑瑋韓美奐段海軍

電腦知識(shí)與技術(shù) 2024年32期

摘要：為了應(yīng)對(duì)龐大數(shù)據(jù)背景下隱私防護(hù)和信息加密帶來的諸多不確定性，研究實(shí)施了一整套策略，并進(jìn)行了深入的實(shí)踐分析。在研究方法上，加強(qiáng)了對(duì)信息隱私性的保護(hù)措施。對(duì)于非必要展示的敏感數(shù)據(jù)，普遍采用匿名化處理，將部分?jǐn)?shù)據(jù)轉(zhuǎn)換為特定符號(hào)。據(jù)估計(jì)，采取這些策略后，個(gè)人隱私泄露風(fēng)險(xiǎn)顯著降低，約降低了76%。對(duì)于必須公開的數(shù)據(jù)集，采用了數(shù)據(jù)去標(biāo)識(shí)化方法，通過k-匿名化和l-異質(zhì)性等技術(shù)，確保數(shù)據(jù)集中特定個(gè)體的身份無(wú)法被精確識(shí)別，進(jìn)一步提升了個(gè)人隱私的安全性。

關(guān)鍵詞：大數(shù)據(jù)；隱私保護(hù)；數(shù)據(jù)加密算法

中圖分類號(hào)：TP393 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2024）32-0068-03 開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展，龐大數(shù)據(jù)信息應(yīng)運(yùn)而生。然而，這也伴隨著巨大的隱私風(fēng)險(xiǎn)，會(huì)對(duì)企業(yè)造成極大的影響。在當(dāng)前大數(shù)據(jù)環(huán)境下，如何尋找合適的方法來保障個(gè)體隱私安全已成為信息技術(shù)領(lǐng)域亟待解決的一項(xiàng)重要問題。為了應(yīng)對(duì)大數(shù)據(jù)環(huán)境下的隱私保護(hù)挑戰(zhàn)，計(jì)算機(jī)行業(yè)不斷研究和探索各種隱私保護(hù)技術(shù)。為了增強(qiáng)數(shù)據(jù)保全性，更有效地維護(hù)數(shù)據(jù)庫(kù)內(nèi)敏感信息的安全，本文提出了一種帶有保密特性的數(shù)據(jù)加密技術(shù)。研究表明，該方法提升了信息保密性，易于部署且實(shí)用性強(qiáng)，滿足多樣環(huán)境下信息防護(hù)需求。

1 大數(shù)據(jù)環(huán)境下隱私保護(hù)與數(shù)據(jù)加密面臨的問題

1.1 數(shù)據(jù)隱私泄露問題

在大數(shù)據(jù)環(huán)境下，數(shù)據(jù)隱私泄露問題日益嚴(yán)峻。隨著信息技術(shù)的飛速進(jìn)步，對(duì)個(gè)體數(shù)據(jù)的搜集、保存及操作無(wú)孔不入，這無(wú)疑增加了個(gè)人隱私暴露的危險(xiǎn)[1]。例如，在某企業(yè)的信訪案件處置中，由于數(shù)據(jù)傳輸、儲(chǔ)存安全措施不完善，導(dǎo)致私人信息泄露，造成了不良后果。因此，加強(qiáng)數(shù)據(jù)隱私保護(hù)至關(guān)重要。

1.2 數(shù)據(jù)加密算法的效率與安全性挑戰(zhàn)

在處理大規(guī)模數(shù)據(jù)集時(shí)，常規(guī)的信息加密技術(shù)可能會(huì)遇到性能限制，導(dǎo)致加密活動(dòng)耗費(fèi)過多時(shí)間，難以適應(yīng)對(duì)即時(shí)響應(yīng)有嚴(yán)格需求的使用環(huán)境。同時(shí)，隨著計(jì)算能力的增強(qiáng)和密碼學(xué)研究的進(jìn)展，部分加密技術(shù)的安全性也面臨挑戰(zhàn)，存在被解密的可能性。為了迎接這些挑戰(zhàn)，人們必須持續(xù)研究并改進(jìn)信息加密技術(shù)。

1.3 隱私保護(hù)與數(shù)據(jù)可用性的矛盾

在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代背景下，在保障個(gè)人信息安全的同時(shí)，一系列隱私增強(qiáng)技術(shù)被廣泛采用，例如信息去標(biāo)識(shí)化、身份隱藏、差異化隱私和全同態(tài)加密等。個(gè)人隱私的保護(hù)與信息的可獲取性之間存在天然的沖突。一方面，為了維護(hù)隱私安全，必須依賴技術(shù)策略，例如信息去標(biāo)識(shí)化和匿名化處理，以降低個(gè)體數(shù)據(jù)被暴露的風(fēng)險(xiǎn)。另一方面，計(jì)算與評(píng)估可能需要依賴經(jīng)過加工的高準(zhǔn)確度信息數(shù)據(jù)，這也影響了數(shù)據(jù)的可利用性。

2 針對(duì)問題的解決對(duì)策

2.1 強(qiáng)化數(shù)據(jù)隱私保護(hù)的措施

執(zhí)行嚴(yán)密的身份核驗(yàn)和權(quán)限控制，在無(wú)需公開真實(shí)資料的情況下，應(yīng)用數(shù)據(jù)匿名化手段，用預(yù)定的符號(hào)替換或?qū)δ承?shù)據(jù)細(xì)節(jié)進(jìn)行混淆。針對(duì)那些需要公開的數(shù)據(jù)集合，可以使用去識(shí)別技術(shù)，如k-匿名化和l-差異性，以確保在該數(shù)據(jù)集合中無(wú)法精確辨認(rèn)出獨(dú)特的個(gè)體。以一家大型的網(wǎng)絡(luò)購(gòu)物平臺(tái)為例，該平臺(tái)對(duì)顧客的一些私密資料實(shí)施了匿名化措施，例如用“*”替換了顧客名字中的若干字母，并且將電話號(hào)碼的中間四位數(shù)字顯示為“****”[2]。通過執(zhí)行細(xì)致的身份驗(yàn)證和權(quán)限控制，結(jié)合信息去敏感化和匿名處理技術(shù)，網(wǎng)絡(luò)購(gòu)物平臺(tái)能夠全面維護(hù)消費(fèi)者的個(gè)人隱私，有效減少個(gè)人信息暴露的風(fēng)險(xiǎn)，并增強(qiáng)消費(fèi)者對(duì)于平臺(tái)的信賴感，進(jìn)而保障數(shù)據(jù)安全和平臺(tái)業(yè)務(wù)的持續(xù)穩(wěn)定增長(zhǎng)。

數(shù)據(jù)匿名化處理后，用戶信息泄漏事故減少了約60%，用戶信賴感增強(qiáng)。k-匿名化和l-差異性是有效的隱私保護(hù)方法。k-匿名化確保每項(xiàng)數(shù)據(jù)至少與k-1 項(xiàng)數(shù)據(jù)在某些屬性上相同，避免個(gè)人被精確識(shí)別。l- 差異性要求同質(zhì)組內(nèi)至少含有l(wèi)種敏感特征值，提高匿名化程度。這兩種技術(shù)為用戶數(shù)據(jù)提供了強(qiáng)有力的保護(hù)。

2.2 數(shù)據(jù)加密算法的優(yōu)化與創(chuàng)新

為了應(yīng)對(duì)數(shù)據(jù)加密算法的效率和安全性挑戰(zhàn)，可以利用多線程或多核處理技術(shù)來并行處理加密任務(wù)。此外，需要研究并應(yīng)用新型的、具有更高安全性和效率的加密算法。在密鑰管理方面，可以建立安全的密鑰管理與分發(fā)機(jī)制，例如采用基于公鑰基礎(chǔ)設(shè)施（PKI）的密鑰管理系統(tǒng)。此外，還可以利用硬件加速技術(shù)（如GPU、TPU等）來優(yōu)化加密算法的執(zhí)行效率，并提高算法的安全性。假設(shè)單線程處理一個(gè)加密任務(wù)需要時(shí)間T，如果有n 個(gè)線程或核心并行處理，理想情況下，處理時(shí)間可以縮短到T／n（忽略線程創(chuàng)建、同步等開銷）。這意味著，如果有足夠的計(jì)算資源，并且任務(wù)可以被有效地并行化，那么加密處理的速度可以顯著提高。如果一個(gè)需要10秒來完成的加密任務(wù)，使用4個(gè)線程或核心來并行處理，那么理想情況下，處理時(shí)間將縮短到10/4=2.5 秒。

在公鑰基礎(chǔ)設(shè)施（PKI）中，數(shù)字簽名的驗(yàn)證通常涉及到哈希函數(shù)和公鑰加密。假設(shè)H （M）是消息M的哈希值，S 是發(fā)送者的私鑰對(duì)哈希值的簽名，即S =SignprivKey （H （M ））。接收者可以使用發(fā)送者的公鑰來驗(yàn)證簽名：VerifypubKey （S，M ）。硬件加速技術(shù)，如GPU和TPU，可顯著提高加密算法的執(zhí)行效率。多核處理器通過并行計(jì)算提升數(shù)據(jù)加密速度，而多線程技術(shù)可將AES-256加密速度提高近40%?；诟竦募用芩惴ㄔ诳沽孔庸舴矫姹憩F(xiàn)出色，其加密解密速度比RSA快30%。采用PKI密鑰管理系統(tǒng)可降低企業(yè)數(shù)據(jù)泄露風(fēng)險(xiǎn)約25%，通過嚴(yán)格的安全控制確保密鑰的安全，從而減少密鑰被竊取或?yàn)E用的風(fēng)險(xiǎn)。這些技術(shù)共同增強(qiáng)了數(shù)據(jù)的安全性和性能。

2.3 平衡隱私保護(hù)與數(shù)據(jù)可用性的策略

為了保護(hù)個(gè)體隱私，同時(shí)保持?jǐn)?shù)據(jù)的統(tǒng)計(jì)特性不變，可以通過添加隨機(jī)噪聲的方式來實(shí)現(xiàn)。差分隱私是一種數(shù)學(xué)框架，它以量化的方式定義了隱私泄露的風(fēng)險(xiǎn)。差分隱私的核心思想是在查詢結(jié)果中添加適量的隨機(jī)噪聲，使攻擊者無(wú)法通過對(duì)比查詢結(jié)果來推斷出特定個(gè)體的信息。這樣可以在保護(hù)隱私的同時(shí)，盡量保持?jǐn)?shù)據(jù)的統(tǒng)計(jì)特性不受影響。差分隱私的數(shù)學(xué)表達(dá)式通?？梢员硎緸椋?/p>

M （D） = f （D） + Lap（ Δf／? ）（1）

式中，M（D）為經(jīng)過差分隱私處理后的輸出結(jié)果；f （D）為對(duì)原始數(shù)據(jù)集（D）的某個(gè)查詢函數(shù)的結(jié)果；Lap（ Δf／? ）為拉普拉斯噪聲，其中Δf 為查詢函數(shù)的敏感度（即當(dāng)數(shù)據(jù)集中一個(gè)記錄發(fā)生變化時(shí)，查詢結(jié)果的最大變動(dòng)范圍）；?為隱私預(yù)算，用于控制隱私保護(hù)的程度。為了應(yīng)對(duì)這些挑戰(zhàn)，研究者們正在不斷探索新的方法。利用多線程或多核處理技術(shù)進(jìn)行并行加密是一種有效提升效率的手段。這種技術(shù)可以充分發(fā)揮現(xiàn)代多核處理器的性能，將加密任務(wù)分解為多個(gè)子任務(wù)并行處理。同時(shí)，基于公鑰基礎(chǔ)設(shè)施（PKI）的密鑰管理系統(tǒng)為加密算法的安全性提供了有力保障。

PKI通過數(shù)字證書和公鑰加密技術(shù)，大幅提升加密算法的執(zhí)行效率。假設(shè)有一個(gè)數(shù)據(jù)集D 包含用戶的年齡信息，計(jì)算這個(gè)數(shù)據(jù)集的平均年齡，并應(yīng)用差分隱私來保護(hù)這個(gè)結(jié)果。假設(shè)數(shù)據(jù)集D 的年齡總和為SD，數(shù)據(jù)集的大?。从脩魯?shù)量）為N，則平均年齡f （D） = SD／N 。平均年齡的最大變動(dòng)范圍可以通過用戶年齡與數(shù)據(jù)集總體平均年齡之間的差值來確定。然而，為了簡(jiǎn)化計(jì)算，通常會(huì)假設(shè)用戶的年齡有一個(gè)上限和下限，以確定最大可能的變動(dòng)范圍。例如，假設(shè)年齡范圍是0到100歲，那么敏感度Δf 可以設(shè)為100 ／N（增加一個(gè)100歲的用戶或者減少一個(gè)0歲的用戶對(duì)平均年齡的影響）。

隱私預(yù)算作為關(guān)鍵參數(shù)，決定了隱私保護(hù)的程度。?越小，添加的噪聲越大，隱私保護(hù)程度越高，但數(shù)據(jù)的可用性會(huì)降低。通常需要根據(jù)具體應(yīng)用場(chǎng)景來平衡這個(gè)參數(shù)。根據(jù)敏感度和隱私預(yù)算，可以生成一個(gè)拉普拉斯噪聲。拉普拉斯分布的概率密度函數(shù)為：

式中，μ 為位置參數(shù)（通常設(shè)為0）；b 為尺度參數(shù)，與敏感度和隱私預(yù)算有關(guān)，即b = Δf／? 。exp（-2b）為特定的條件或約束，用于確定x 和 f （x∣ u，b）之間的關(guān)系。最后，將生成的拉普拉斯噪聲加到原始查詢結(jié)果上，得到經(jīng)過差分隱私處理的結(jié)果M （D） = f （D） +Lap（ Δf／? ）。在保護(hù)個(gè)人隱私的同時(shí)，盡量保持?jǐn)?shù)據(jù)的統(tǒng)計(jì)特性不變。

3 應(yīng)用效果分析

3.1 數(shù)據(jù)隱私保護(hù)措施的應(yīng)用效果

在大數(shù)據(jù)背景下，隨著數(shù)據(jù)量的迅猛增長(zhǎng)和傳輸，個(gè)體隱私泄露的威脅也在不斷上升。為應(yīng)對(duì)這一艱巨的挑戰(zhàn)，實(shí)施了一系列信息保密安全策略，包括嚴(yán)密的身份核驗(yàn)、信息去敏感化以及匿名處理技術(shù)，旨在降低個(gè)人隱私泄露風(fēng)險(xiǎn)[3]。企業(yè)采用信息去敏感化手段來保護(hù)隱私，例如替換符號(hào)或混淆敏感內(nèi)容。嚴(yán)格的身份認(rèn)證和權(quán)限管理確保只有授權(quán)用戶可以訪問敏感數(shù)據(jù)，有效減少內(nèi)部不當(dāng)行為導(dǎo)致的泄露。對(duì)于需要披露的信息，企業(yè)采用數(shù)據(jù)去標(biāo)識(shí)化手段，如k-匿名化或l-差分隱私，確保無(wú)法準(zhǔn)確識(shí)別個(gè)人，從而保護(hù)隱私。這些措施共同提升了數(shù)據(jù)安全和隱私保護(hù)水平。數(shù)據(jù)隱私保護(hù)措施的應(yīng)用效果見表1。

表1數(shù)據(jù)表明，實(shí)施數(shù)據(jù)隱私保護(hù)措施后，隱私泄露事件數(shù)顯著下降。嚴(yán)格的身份認(rèn)證和權(quán)限管理、數(shù)據(jù)脫敏技術(shù)以及數(shù)據(jù)匿名化技術(shù)均取得了良好效果。其中，身份認(rèn)證和權(quán)限管理實(shí)施后隱私泄露事件數(shù)從25次降至5次，減少比例高達(dá)80%；數(shù)據(jù)脫敏技術(shù)使泄露事件數(shù)從35次減少到8次，降低77.14%；數(shù)據(jù)匿名化技術(shù)則使泄露事件數(shù)從29次減至6次，減少比例為79.31%。這些措施有效提升了數(shù)據(jù)安全防護(hù)能力，極大地降低了隱私泄露風(fēng)險(xiǎn)，表明采取綜合的數(shù)據(jù)隱私保護(hù)措施對(duì)于保障數(shù)據(jù)安全至關(guān)重要。

3.2 數(shù)據(jù)加密算法優(yōu)化后的性能提升

在大數(shù)據(jù)處理中，傳統(tǒng)加密算法面臨性能瓶頸[4]。然而，通過改進(jìn)密碼編碼技術(shù)和利用高性能設(shè)備如GPU、TPU，加密效率得到了顯著提升。同時(shí)，多任務(wù)處理能力的提高也加快了加密速度，確保了防護(hù)措施的同時(shí)加速了加密過程。數(shù)據(jù)變形處理技術(shù)在不影響分析效果的前提下保護(hù)隱私，通過替換和刪除敏感信息，防止數(shù)據(jù)泄露，并廣泛應(yīng)用于測(cè)試開發(fā)中。數(shù)據(jù)加密算法優(yōu)化后的性能提升見表2。

從性能提升比例來看，經(jīng)過優(yōu)化后所有加密算法都取得了顯著的性能提升。AES-256的性能提升了36.08%，RSA-2048 提升了37.89%，而ECC-256 的性能提升了35.92%。在優(yōu)化前，RSA-2048算法的加密時(shí)間最長(zhǎng)，達(dá)到了2 345.67ms。然而，經(jīng)過優(yōu)化后，加密時(shí)間降低到1 456.23ms，性能提升了近38%。這表明優(yōu)化措施對(duì)于處理更復(fù)雜的加密算法尤為有效，可以提升其執(zhí)行效率。盡管ECC-256算法在優(yōu)化前的加密時(shí)間相對(duì)較短，但經(jīng)過優(yōu)化后仍然實(shí)現(xiàn)了約36% 的性能提升。

3.3 隱私保護(hù)與數(shù)據(jù)可用性平衡策略的實(shí)踐成果

在大數(shù)據(jù)應(yīng)用中，隱私保護(hù)和數(shù)據(jù)可用性之間通常存在一定的矛盾。為了保護(hù)個(gè)人隱私，采取了一系列策略，例如差分隱私、數(shù)據(jù)去標(biāo)識(shí)化和匿名化處理，以及加密和訪問控制的結(jié)合[5]。這些策略的目標(biāo)是找到隱私保護(hù)和數(shù)據(jù)可用性之間的平衡點(diǎn)。隱私保護(hù)與數(shù)據(jù)可用性平衡策略的實(shí)踐成果見表3。

差分隱私策略雖然導(dǎo)致了一定的數(shù)據(jù)可用性損失（4.78%），但顯著提升了隱私保護(hù)水平（67.34%）。數(shù)據(jù)去標(biāo)識(shí)化和匿名化降低了泄露風(fēng)險(xiǎn)，犧牲了7.65%的可用性，提升了58.97%的隱私保護(hù)水平。加密與訪問控制的結(jié)合策略損失了6.32%的可用性，但提升了63.58%的隱私保護(hù)水平。經(jīng)過優(yōu)化的AES-256、RSA-2048 和ECC-256 加密算法性能提升超過35%，使得在大數(shù)據(jù)處理中，數(shù)據(jù)加密不再成為耗時(shí)的瓶頸，能更高效地保護(hù)數(shù)據(jù)安全。

4 結(jié)論

通過加強(qiáng)信息保密策略、改進(jìn)信息加密技術(shù)，并在保密性和信息可用性之間做出權(quán)衡，提出了有效的策略來保護(hù)大數(shù)據(jù)環(huán)境下的信息安全和隱私性。這些技術(shù)手段極大地增強(qiáng)了信息的保護(hù)性，并同時(shí)提高了數(shù)據(jù)的可獲取性和處理速度，從而確保了大規(guī)模數(shù)據(jù)分析的廣泛應(yīng)用。

參考文獻(xiàn)：

[1] 宋曉靜.云計(jì)算環(huán)境下的數(shù)據(jù)隱私保護(hù)與安全管理措施分析與優(yōu)化[J].無(wú)線互聯(lián)科技，2023，20（15）：132-134.

[2] 馮莉.大數(shù)據(jù)環(huán)境下隱私數(shù)據(jù)加密技術(shù)分析[J].廈門城市職業(yè)學(xué)院學(xué)報(bào)，2022，24（4）：54-60.

[3] 李文.數(shù)據(jù)挖掘中同態(tài)加密隱私保護(hù)算法的改進(jìn)研究[J].荊楚理工學(xué)院學(xué)報(bào)，2022，37（6）：1-7.

[4] 錢文君，沈晴霓，吳鵬飛，等.大數(shù)據(jù)計(jì)算環(huán)境下的隱私保護(hù)技術(shù)研究進(jìn)展[J].計(jì)算機(jī)學(xué)報(bào)，2022，45（4）：669-701.

[5] 熊亮.大數(shù)據(jù)環(huán)境下信息通信數(shù)據(jù)的加密技術(shù)研究[J].中國(guó)新通信，2023，25（18）：7-9.

【通聯(lián)編輯：張薇】

電腦知識(shí)與技術(shù)2024年32期

電腦知識(shí)與技術(shù)的其它文章: Matlab 軟件輔助“誤差理論與數(shù)據(jù)處理”課程教學(xué)實(shí)踐; 小學(xué)教師人工智能輔助教學(xué)使用意愿及影響因素; 計(jì)算機(jī)圖形設(shè)計(jì)與制作課程改革與實(shí)踐研究; 貴陽(yáng)市高中信息技術(shù)教師人工智能教學(xué)素養(yǎng)現(xiàn)狀及提升策略研究; “產(chǎn)學(xué)研協(xié)同”視角下數(shù)據(jù)結(jié)構(gòu)與算法課程教學(xué)改革研究; “Web 前端開發(fā)”課證融通教學(xué)改革與實(shí)踐研究