徐慧華 楊雄 張曉惠
摘 要:伴隨人工智能技術(shù)的快速發(fā)展,人臉識(shí)別以其便捷性和實(shí)用性已廣泛應(yīng)用于金融領(lǐng)域中的客戶身份驗(yàn)證,可幫助企業(yè)快速提升業(yè)務(wù)辦結(jié)效率。但同時(shí),在云計(jì)算環(huán)境下客戶的人臉隱私存在數(shù)據(jù)泄漏的風(fēng)險(xiǎn),其信息安全問題亟待解決。對(duì)云計(jì)算環(huán)境下的人臉識(shí)別存在的風(fēng)險(xiǎn)以及全同態(tài)加密的應(yīng)用進(jìn)行了分析,提出了一種基于全同態(tài)加密的隱私保護(hù)人臉識(shí)別方案,并對(duì)該方案的運(yùn)行過程進(jìn)行詳細(xì)描述,設(shè)計(jì)了研究性測(cè)試環(huán)節(jié),直觀給出了性能指標(biāo)與分析,驗(yàn)證了方案的可行性和高效性。
關(guān)鍵詞:人臉識(shí)別;全同態(tài)加密;人臉信息;信息安全
中圖分類號(hào):TP309
文獻(xiàn)標(biāo)志碼:A
人臉識(shí)別是通過人工智能技術(shù)從人臉中提取臉部特征信息,并根據(jù)這些特征對(duì)人的身份進(jìn)行識(shí)別的一種生物識(shí)別技術(shù)。和其他生物識(shí)別技術(shù)相比,人臉識(shí)別由于其獨(dú)特的優(yōu)勢(shì):非接觸性、自然性、不易察覺性和并發(fā)性,已廣泛應(yīng)用于金融領(lǐng)域中。比如在銀行和證券系統(tǒng)中,客戶在辦理業(yè)務(wù)時(shí)使用人臉識(shí)別技術(shù),可以快速方便確定客戶身份,提升業(yè)務(wù)辦結(jié)效率,不僅減輕了運(yùn)營負(fù)擔(dān),而且能夠有效進(jìn)行風(fēng)險(xiǎn)控制。目前,依托于人工智能和大數(shù)據(jù)的快速發(fā)展,人臉識(shí)別的準(zhǔn)確性快速提高,已處于較高水平,其識(shí)別效果甚至超過了人類識(shí)別的程度。在當(dāng)今大數(shù)據(jù)時(shí)代,如果個(gè)人的人臉信息與該主體的其他信息相關(guān)聯(lián),那利用人臉信息就很容易識(shí)別特定的主體,從而輕易獲取該主體的其他信息。由于個(gè)人信息蘊(yùn)含有極大的商業(yè)價(jià)值,這也成為眾多企業(yè)過度收集、存儲(chǔ)和使用人臉信息的動(dòng)力。廣泛應(yīng)用的人臉識(shí)別技術(shù)使得采集和存儲(chǔ)人臉信息的數(shù)量和規(guī)模不斷膨脹,如果該信息被泄漏或被非法人員獲得,將可能會(huì)產(chǎn)生嚴(yán)重的信息安全問題[1]。
2020年5月28日第十三屆全國人民代表大會(huì)第三次會(huì)議通過的《中華人民共和國民法典》,其中第六章專設(shè)了對(duì)隱私權(quán)和個(gè)人信息的保護(hù)規(guī)定。全國人大常委會(huì)也明確將個(gè)人信息保護(hù)法納入2020年度的立法工作計(jì)劃。在數(shù)字經(jīng)濟(jì)時(shí)代,人臉識(shí)別的個(gè)人信息大數(shù)據(jù)遍布各種應(yīng)用場(chǎng)景,產(chǎn)生越來越多的個(gè)人信息數(shù)據(jù)。但由于對(duì)數(shù)據(jù)信息的監(jiān)管薄弱,缺乏大數(shù)據(jù)個(gè)人信息保護(hù)的技術(shù)支撐,所以個(gè)人信息保護(hù)在大數(shù)據(jù)時(shí)代受到了空前的挑戰(zhàn)[2]。
因此,除了在法律層面構(gòu)建起人臉特征信息的保護(hù)體系外,還應(yīng)該從數(shù)據(jù)和技術(shù)等維度更有針對(duì)性地規(guī)制該技術(shù),從而更好地保護(hù)個(gè)人信息。
1 云計(jì)算環(huán)境下的人臉識(shí)別
隨著人臉識(shí)別應(yīng)用的需求激增,人臉圖像數(shù)據(jù)庫的規(guī)模也同時(shí)不斷膨脹。作為新興技術(shù)的云計(jì)算,是一種可以很好解決人臉圖像膨脹產(chǎn)生的時(shí)間復(fù)雜度和空間復(fù)雜度增加的途徑。
基于云計(jì)算的人臉識(shí)別系統(tǒng)是為用戶提供高效、高精度人臉識(shí)別的工具。基于云計(jì)算平臺(tái)的人臉識(shí)別系統(tǒng)框架如圖1所示。其中,離線學(xué)習(xí)部分是把人臉圖像源的圖像通過檢測(cè)、定位和預(yù)處理后,提取出人臉特征值并存儲(chǔ)于HBase人臉數(shù)據(jù)庫中。在線識(shí)別部分也是先將待識(shí)別人臉圖像通過檢測(cè)、定位、預(yù)處理和提取人臉特征后,將待識(shí)別人臉圖像的特征與 HBase 人臉數(shù)據(jù)庫中的特征進(jìn)行分類比較,最終得出人臉識(shí)別的結(jié)果。離線學(xué)習(xí)部分和在線識(shí)別部分的人臉檢測(cè)與定位、預(yù)處理、特征值向量提取步驟的算法是一致的。系統(tǒng)中的人臉檢測(cè)與定位、人臉圖像預(yù)處理和特征值與特征向量提取步驟一般是在用戶端進(jìn)行,分類器和HBase人臉圖像數(shù)據(jù)庫則是部署在云計(jì)算環(huán)境下的。
但在現(xiàn)有云計(jì)算環(huán)境下的人臉識(shí)別系統(tǒng)中,對(duì)系統(tǒng)中人臉特征的保護(hù)甚少[3],用戶的人臉特征一般直接以明文表示。此時(shí),存儲(chǔ)于數(shù)據(jù)庫中的人臉特征和用戶注冊(cè)與身份認(rèn)證過程中網(wǎng)絡(luò)傳輸?shù)娜四樚卣饕坏┬孤?,就?huì)嚴(yán)重影響注冊(cè)用戶的隱私和認(rèn)證系統(tǒng)的安全性。因此,對(duì)于云計(jì)算環(huán)境下的人臉識(shí)別系統(tǒng)最直接的攻擊就是明文形式的人臉特征。隨著對(duì)信息安全和隱私保護(hù)要求的不斷提升,針對(duì)云計(jì)算環(huán)境下的人臉識(shí)別系統(tǒng)設(shè)計(jì)一種安全的人臉特征保護(hù)方案則顯得尤其重要。
2 全同態(tài)加密技術(shù)
為了提升人臉識(shí)別系統(tǒng)的安全性,避免人臉特征明文信息的泄漏,可通過密碼系統(tǒng)對(duì)人臉特征信息進(jìn)行加密。但若采取普通的加密方案,在計(jì)算人臉特征向量間相似度時(shí),需要對(duì)密文進(jìn)行解密,還是會(huì)存在人臉特征信息泄漏的風(fēng)險(xiǎn)。而同態(tài)加密方案能夠在密文環(huán)境下直接對(duì)加密的人臉特征向量進(jìn)行算術(shù)運(yùn)算,可以恢復(fù)出明文的運(yùn)算結(jié)果,因此在計(jì)算人臉相似度過程中不需要對(duì)人臉特征密文進(jìn)行解密,避免了人臉特征信息的泄漏。同態(tài)加密是一種對(duì)稱加密算法,由GENTRY等[4]發(fā)明提出。其同態(tài)加密方案包括4個(gè)算法,即密鑰生成算法、加密算法、解密算法和額外的評(píng)估算法。同態(tài)加密包括兩種基本的同態(tài)類型,即乘法同態(tài)和加法同態(tài)。同態(tài)加密系統(tǒng)按照同態(tài)加密算法支持的運(yùn)算類型和數(shù)量,將其分成 3 類:部分同態(tài)加密[5]、層次同態(tài)加密[6]和全同態(tài)加密[7]。部分同態(tài)加密(partially homomorphic encryption, PHE)指同態(tài)加密算法只對(duì)加法或乘法(其中一種)有同態(tài)的性質(zhì)。 層次同態(tài)加密算法(somewhat homomorphic encryption,SWHE)一般支持有限次數(shù)的加法和乘法運(yùn)算。全同態(tài)加密算法(fully homomorphic encryption, FHE)支持在密文上進(jìn)行無限次數(shù)的、任意類型的計(jì)算。FHE 的優(yōu)點(diǎn)是支持的算子多并且運(yùn)算次數(shù)沒有限制,在實(shí)際場(chǎng)景中更為通用;但缺點(diǎn)是計(jì)算復(fù)雜度較高,效率偏低,尤其是其中的乘法運(yùn)算。
全同態(tài)加密方案保證了數(shù)據(jù)處理服務(wù)器在計(jì)算人臉相似度時(shí)無法知曉所處理人臉特征的明文信息,可以直接對(duì)數(shù)據(jù)的密文進(jìn)行相應(yīng)的計(jì)算,由此用戶的人臉特征信息可以得到相應(yīng)的安全保障。數(shù)據(jù)處理服務(wù)器計(jì)算出加密人臉特征間的相似度后,把結(jié)果返回。在整個(gè)計(jì)算過程中,數(shù)據(jù)處理服務(wù)器僅僅得到加密后的人臉特征向量數(shù)據(jù),而對(duì)于人臉特征向量數(shù)據(jù)的明文,其并不知曉。因此,就不存在人臉特征信息泄漏的風(fēng)險(xiǎn)。同態(tài)加密的實(shí)現(xiàn)效果如圖2所示:
本文基于全同態(tài)加密技術(shù)對(duì)人臉特征向量進(jìn)行加密,構(gòu)造了密文環(huán)境下人臉特征相似度的匹配算法,并在此基礎(chǔ)上設(shè)計(jì)了一種隱私保護(hù)的高效人臉認(rèn)證方案。該方案不僅保證了原生人臉認(rèn)證方案準(zhǔn)確率,還保證用戶的人臉特征信息在身份認(rèn)證過程中不被泄漏。進(jìn)一步,探索了基于中國剩余定理(Chinese remainder theorem,CRT)實(shí)現(xiàn)了一種加密向量的批量點(diǎn)積運(yùn)算,提高了人臉相似度的計(jì)算效率。最后,基于人臉基準(zhǔn)數(shù)據(jù)庫(labeled faces in the Wild,LFW)設(shè)計(jì)了研究性測(cè)試環(huán)節(jié)。通過測(cè)試環(huán)節(jié)驗(yàn)證了該方案的可行性和高效性,能夠滿足實(shí)際場(chǎng)景的應(yīng)用需求。
3 基于全同態(tài)加密的人臉識(shí)別方案
3.1 人臉圖像特征的提取算法
近年來,快速發(fā)展的基于深度學(xué)習(xí)的人臉識(shí)別算法已占據(jù)當(dāng)今人臉識(shí)別領(lǐng)域的主導(dǎo)地位,在 LFW 上的識(shí)別率已經(jīng)接近 100%,遠(yuǎn)遠(yuǎn)超過傳統(tǒng)的人臉識(shí)別算法[8]。本文選取其中最具代表性的FaceNet[9]和SphereFace[10]作為系統(tǒng)原型中的人臉特征提取算法。
FaceNet算法基于深度卷積網(wǎng)絡(luò)將人臉圖像映射到歐幾里德空間后,通過計(jì)算其歐氏距離來獲得人臉特征間的相似度。若計(jì)算得到的距離小于設(shè)定閾值,則認(rèn)為兩張圖片的相似度較高,是屬于同一個(gè)人的不同臉部圖片。與其他使用深度神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法不同,F(xiàn)aceNet人臉識(shí)別算法是直接使用基于triplets的最大邊界近鄰分類的損失函數(shù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),并輸出一個(gè)512維的向量空間,可大大提升人臉識(shí)別的效率。
SphereFace基于歸一化權(quán)值和角度間距,提出對(duì)傳統(tǒng)的 softmax 進(jìn)行改進(jìn)的新?lián)p失函數(shù)A-Softmax Loss(Angular Softmax Loss) ,實(shí)現(xiàn)了最大類內(nèi)距離小于最小類間距離的識(shí)別標(biāo)準(zhǔn)。SphereFace算法以兩個(gè)人臉特征向量間的余弦值作為相似度度量,余弦值給出的相似性范圍從-1到1,-1表示這兩個(gè)向量的指向正好截然相反,1表示它們的指向是完全相同的,而這兩者之間的值則表示中間的相似性程度。SphereFace算法根據(jù)向量間的余弦值是否大于給定的閾值來判斷兩個(gè)人臉信息是否屬于同一個(gè)人。
3.2 全同態(tài)加密算法
全同態(tài)加密方案主要包含以下5個(gè)步驟:
1) GenKey? (λ):生成一對(duì)公私鑰。根據(jù)輸入的安全參數(shù)生成公鑰θp和私鑰θs。
2) Encrypt (m,θp)
使用公鑰θp加密消息m,計(jì)算生成密文c。
3) Add(c0, c1)
輸入兩個(gè)密文c0和c1,計(jì)算求得這兩個(gè)密文的和c0+c1。
4) Multiply(c0, c1)
輸入兩個(gè)密文c0和c1,計(jì)算求得這兩個(gè)密文的乘積c0×c1。
5) Decrypt (c′,θs)
根據(jù)密文c′,利用私鑰θs計(jì)算出明文m′。
本文選擇主流的全同態(tài)加密庫Microsoft Seal庫。Seal庫支持兩種加密方案: BFV方案[11]和CKKS方案[12]。其中,BFV支持整數(shù),CKKS支持浮點(diǎn)數(shù)。SEAL采用的同態(tài)加密算法基于多項(xiàng)式環(huán)。BFV 方案中有3個(gè)重要的參數(shù):多項(xiàng)式模次數(shù)(poly_modulus_degree)、密文系數(shù)模(coeff_modulus)和明文模(plain_modulus)。
其中,多項(xiàng)式模次數(shù)是影響同態(tài)加密方案安全性的主要因素,是必須設(shè)置的。多項(xiàng)式模次數(shù)越大,雖然方案的安全性越高,但密文也隨之增大,會(huì)導(dǎo)致同態(tài)操作的計(jì)算效率降低。在 Seal 庫中,推薦的次數(shù)是1 024、2 048、4 096、8 192、16 384、32 768。但由于小于4 096時(shí)不支持循環(huán)旋轉(zhuǎn)加密向量,因此需要選擇4 096以上的多項(xiàng)式模次數(shù)。而且明文的槽數(shù)(單個(gè)明文向量的最大維度)與多項(xiàng)式模次數(shù)的大小一致。
密文系數(shù)模是一個(gè)大整數(shù),它是不同素?cái)?shù)的乘積,更大的密文系數(shù)模意味著更大的噪聲預(yù)算,支持更多次的同態(tài)計(jì)算。然而,多項(xiàng)式模次數(shù)確定了密文系數(shù)??偙忍亻L度的上限。比如4 096對(duì)應(yīng)109,8 192對(duì)應(yīng)218。Microsoft Seal提供了用于選擇密文系數(shù)模的輔助函數(shù)。
明文??梢允侨魏握麛?shù)。明文模決定了明文數(shù)據(jù)的大小, 同時(shí)也影響了噪聲預(yù)算消耗。新加密密文的噪聲預(yù)算是log2 (密文系數(shù)模/ 明文模)(位),一般認(rèn)為加法在噪聲預(yù)算消耗方面幾乎是免費(fèi)的,但乘法的噪聲預(yù)算消耗為log2(明文模)+(other terms),一旦密文的噪聲預(yù)算達(dá)到零,它就會(huì)被破壞得無法解密。因此,必須選擇足夠大的密文系數(shù)?;蛘弑M量保持明文盡可能小來支持所需的計(jì)算;否則,即使使用密鑰,結(jié)果也不可能有意義。通過人臉特征提取出來的各個(gè)特征值為浮點(diǎn)數(shù),因此使用BFV方案時(shí)還需要將各個(gè)特征值通過擴(kuò)大因子轉(zhuǎn)換為整數(shù)。為了保證計(jì)算結(jié)果的準(zhǔn)確率,擴(kuò)大因子當(dāng)然是越大越好。但每個(gè)明文槽只包含一個(gè)整數(shù)模的明文模量,除非明文模量非常大,否則可能會(huì)遇到數(shù)據(jù)類型溢出問題,溢出問題并不能以加密的形式檢測(cè)到??梢酝ㄟ^直接增加明文模來避免溢出問題的發(fā)生,但是增加明文模則會(huì)增加噪聲預(yù)算消耗,同時(shí)降低初始噪聲預(yù)算。
與BFV方案不同的是,CKKS 方案不使用明文模。雖然CKKS方案可解決數(shù)據(jù)類型溢出問題,但代價(jià)是計(jì)算結(jié)果只產(chǎn)生近似的結(jié)果,而且還需要額外對(duì)浮點(diǎn)系數(shù)進(jìn)行縮放操作;同時(shí)它的明文槽數(shù)為多項(xiàng)式模次數(shù)的一半,意味著同樣的參數(shù)下CKKS方案的批量處理能力僅為BFV方案的一半。
本文將分別探尋兩種方案下的較優(yōu)參數(shù),給出BFV和CKKS方案下的準(zhǔn)確率測(cè)試和直觀的性能分析。
3.3 基于全同態(tài)加密的人臉特征相似度計(jì)算
3.3.1 歐式距離的全同態(tài)加密計(jì)算
在人臉特征向量未加密的情況下,假設(shè)身份認(rèn)證憑證的特征向量為X,數(shù)據(jù)庫中待計(jì)算的某個(gè)人臉特征向量為Y,那么將X和Y之間的相似度定義為:
euclidean(X,Y)=∑ni=1(Xi-Yi)2(1)
其中,n為所提取的人臉特征維度。
從公式(1)可知,人臉特征向量歐氏距離的計(jì)算過程包含了n個(gè)向量元素的減法(Xi-Yi)、n個(gè)向量元素的乘法(平方)和n個(gè)向量元素的累加求和。
按照傳統(tǒng)的密碼學(xué)方案,對(duì)特征向量中的每個(gè)元素進(jìn)行單獨(dú)加密。那么,對(duì)人臉特征向量中的元素加密后,公式(1)中描述的人臉相似度在加密域中描述為:
euclidean(cA,cB)=∑ni=1(cXi-cYi)2(2)
其中,cXi和cYi分別為特征向量X和Y的元素密文。
加密域人臉相似度的同態(tài)計(jì)算可分為3個(gè)步驟:
1)對(duì)相應(yīng)的特征向量元素密文進(jìn)行減法運(yùn)算,如:cZi=Add(cXi-cYi);
2)對(duì)特征向量元素密文減法運(yùn)算的結(jié)果進(jìn)行平方(乘法)運(yùn)算,如:cZi=Multiply (cZi,cZi);
3)最后,再對(duì)cZ的各個(gè)特征向量元素的密文進(jìn)行累加,得到歐式距離的平方。由于全同態(tài)加密不支持平方根操作,因此,在加密域中僅求得歐式距離平方的密文。
綜上,在加密域中計(jì)算歐式距離需要2n-1次的同態(tài)加法和n次的同態(tài)乘法運(yùn)算。
3.3.2 余弦相似度的全同態(tài)加密計(jì)算
類似地,特征向量X和Y之間的余弦相似度定義為:
cos(X,Y)=X·Y‖X‖‖Y‖=∑ni=1Xi×Yi∑ni=1X 2i×∑ni=1Y 2i
因?yàn)橄蛄块L度值并不會(huì)包含具體的人臉特征信息,因此,可以在人臉特征提取后直接計(jì)算人臉特征向量的長度,將人臉特征向量長度值和人臉特征共同存儲(chǔ)于數(shù)據(jù)庫中,那么人臉特征余弦相似度的計(jì)算公式可簡(jiǎn)化為:
cos(X,Y)=X·Y‖X‖‖Y‖=∑ni=1Xi×Yi‖X‖‖Y‖?????????????????????????? (3)
從公式(3)可知,人臉特征向量余弦相似度的計(jì)算過程中包含了n個(gè)向量元素的乘法(Xi×Yi)和n個(gè)向量元素的累加求和(∑ni=1Xi×Yi)。
公式(3)中描述的人臉特征向量余弦相似度在加密域中描述為:
cos(cX,cY)=∑ni=1cXi×cYi‖X‖‖Y‖(4)
同樣地,在加密域中計(jì)算人臉特征間的余弦相似度需要n次的同態(tài)乘法和n-1次的同態(tài)加法運(yùn)算。
3.3.3 人臉特征相似度同態(tài)計(jì)算的準(zhǔn)確率
在全同態(tài)加密方案中,首先生成一對(duì)公私鑰:公鑰θp和私鑰θs;然后通過加密函數(shù)f對(duì)人臉特征X進(jìn)行加密:ε(X)=f(X;θp),同時(shí)滿足X=g(ε(X);θs),其中,g為解密函數(shù)。基于全同態(tài)加密的人臉相似度在保護(hù)人臉特征安全性的基礎(chǔ),還要保證在加密域中進(jìn)行同態(tài)計(jì)算后盡量不損失精度,即:
sim(ε(A),ε(B))=sim(f(x;θp),f(y;θp))
g(sim(ε(A),ε(B));θs)≈sim(A,B)
其中,sim()表示歐式距離或者余弦相似度。
3.4 批處理方案
按照上述分析,人臉相似度的計(jì)算方法可直接應(yīng)用于加密域,但它的同態(tài)計(jì)算的復(fù)雜性卻無法滿足實(shí)際應(yīng)用的要求。以512維的人臉特征為例,每個(gè)特征向量至少需要16.5 MB的存儲(chǔ)空間,同時(shí)一次人臉的相似度計(jì)算也需要至少消耗0.7 s的計(jì)算時(shí)間。BRAKERSKI等[13]提出一種以數(shù)字向量為原子單位進(jìn)行同態(tài)加密和解密的方法,該方法利用了中國剩余定理(Chinese Remainder Theorem, CRT) ,將數(shù)字向量中的n個(gè)元素編碼到同一個(gè)多項(xiàng)式上。如此就可以將n維的人臉特征向量進(jìn)行整體加密,并將n個(gè)向量元素密文的加法和乘法操作轉(zhuǎn)換為單個(gè)向量密文的加法和乘法操作,即在單次同態(tài)計(jì)算操作的時(shí)間內(nèi)完成了n次同態(tài)加法或乘法運(yùn)算,可顯著提高計(jì)算效率。
兩種人臉相似度的計(jì)算過程中都涉及到n個(gè)向量元素的累加求和操作,但批處理方案是對(duì)向量整體進(jìn)行加密,倘若要對(duì)各個(gè)向量元素進(jìn)行累加求和,就需要先解密,這與本方案的目標(biāo)相違背。該局限性可通過GENTRY提出的循環(huán)旋轉(zhuǎn)操作來解決。在加密域中,通過向左循環(huán)旋轉(zhuǎn)log n次向量密文并累加,就可以獲得向量密文中的各個(gè)元素的累加和。
以簡(jiǎn)單的4維向量密文為例,第i次對(duì)累加后的向量向左循環(huán)i次,那么通過循環(huán)旋轉(zhuǎn)2=log 4次,就可以計(jì)算出該4維向量密文的各分量之和。具體過程如圖3所示:
對(duì)于512維的人臉特征向量,原先511(n-1)次同態(tài)密文的加法運(yùn)算,現(xiàn)在只需9次的循環(huán)和加法運(yùn)算,既降低了計(jì)算復(fù)雜度,又可以在加密域中實(shí)現(xiàn)密文向量元素的累加和操作。
3.5 系統(tǒng)原型設(shè)計(jì)
基于全同態(tài)加密的云計(jì)算環(huán)境下的人臉識(shí)別系統(tǒng)的框架如圖4所示,在提取出人臉特征向量后使用公鑰進(jìn)行全同態(tài)加密。并引入了可信計(jì)算節(jié)點(diǎn),將全同態(tài)密文的計(jì)算結(jié)果在可信計(jì)算節(jié)點(diǎn)中使用私鑰進(jìn)行解密。
4 實(shí)驗(yàn)結(jié)果與分析
在系統(tǒng)仿真測(cè)試中,從LFW數(shù)據(jù)庫中隨機(jī)選擇6 000對(duì)人臉組成了人臉辨識(shí)圖片對(duì),其中3 000對(duì)屬于同一個(gè)人2張人臉照片,3 000對(duì)屬于不同的人每人1張人臉照片。分別通過SphereFace和FaceNet算法,提取出測(cè)試數(shù)據(jù)集中所有人臉的512維特征向量。在全同態(tài)加密下計(jì)算6 000對(duì)人臉特征向量間歐式距離和余弦相似度,將計(jì)算結(jié)果與未加密的計(jì)算結(jié)果進(jìn)行對(duì)比,以此作為同態(tài)加密方案準(zhǔn)確率的估算。仿真測(cè)試環(huán)境中,認(rèn)證服務(wù)器的計(jì)算集群使用單臺(tái)云服務(wù)器,服務(wù)器配置為四核8 G,CPU型號(hào)為AMD EPYC 7K62 48-Core。
4.1 公鑰和私鑰生成測(cè)試
全同態(tài)加密算法的公私鑰文件的大小與多項(xiàng)式模次數(shù)和密文系數(shù)模的參數(shù)高度相關(guān),而多項(xiàng)式模次數(shù)又確定了密文系數(shù)??偙忍亻L度的上限,因此一旦多項(xiàng)式模次數(shù)確定,那么公私鑰文件的大小也就確定了。
多項(xiàng)式模次數(shù)越大,雖然方案的安全性越高,但密文也隨之增大,會(huì)導(dǎo)致同態(tài)操作的計(jì)算效率降低。因此在測(cè)試中,多項(xiàng)式模次數(shù)的參數(shù)為4 096和8 192。公私鑰文件的生成時(shí)間也與多項(xiàng)式模次數(shù)高度相關(guān)。生成公私鑰文件的大小和生成時(shí)間的描述性統(tǒng)計(jì)如表1所示:
4.2 加密測(cè)試
單個(gè)明文的最大維度(明文的槽數(shù))與多項(xiàng)式模次數(shù)的大小一致,為了最大限度地利用存儲(chǔ)空間和提高批處理的能力,可將多個(gè)人臉特征向量編碼進(jìn)同一個(gè)明文中,以BFV方案中多項(xiàng)式模數(shù)4 096為例,其明文槽數(shù)也為4 096,單個(gè)人臉特征向量維度為512,因此可同時(shí)將8個(gè)人臉特征向量編碼進(jìn)同一個(gè)明文中。
生成公私鑰文件后,分別對(duì)6 000對(duì)人臉進(jìn)行加密。各個(gè)參數(shù)下的加密時(shí)間和加密前后文件大小的統(tǒng)計(jì)如表2所示:
4.3 人臉相似度的同態(tài)計(jì)算測(cè)試
由于BFV方案中全同態(tài)加密先對(duì)人臉特征值編碼為整數(shù)后才進(jìn)行操作,因此先對(duì)人臉特征值乘以擴(kuò)大因子,待求得計(jì)算結(jié)果再對(duì)結(jié)果進(jìn)行縮放。
根據(jù)人臉相似度進(jìn)行身份識(shí)別時(shí),F(xiàn)aceNet算法的閾值為0.864,SphereFace算法的閾值為0.305。
1) FaceNet算法
BFV方案多項(xiàng)式模數(shù)為4 096時(shí),不同擴(kuò)大因子(factor)下人臉識(shí)別準(zhǔn)確率如圖5所示:
隨著擴(kuò)大因子的增大,計(jì)算結(jié)果的精度不斷增大。當(dāng)擴(kuò)大因子達(dá)到620時(shí),達(dá)到未加密情況下人臉識(shí)別準(zhǔn)確率的98.98%,非常接近于FaceNet算法未加密時(shí)準(zhǔn)確率。但隨著擴(kuò)大因子的繼續(xù)加大,出現(xiàn)了向量中各個(gè)元素密文的累加和的數(shù)據(jù)類型溢出,導(dǎo)致準(zhǔn)確率急劇下降。
當(dāng)多模式模數(shù)為8 192時(shí),密文系數(shù)模總比特長度上限相應(yīng)提高,在面對(duì)同樣的數(shù)據(jù)操作時(shí),由于支持更大的噪聲預(yù)算,所以可解決數(shù)據(jù)溢出的問題。這意味著該參數(shù)下支持更大的擴(kuò)大因子,也就能夠達(dá)到更高的人臉識(shí)別的準(zhǔn)確率。BFV方案多項(xiàng)式模數(shù)為8 192時(shí),不同擴(kuò)大因子(factor)下人臉識(shí)別準(zhǔn)確率如圖6所示。
與多項(xiàng)式模數(shù)為4 096的折線圖類似,隨著擴(kuò)大因子的增大,計(jì)算結(jié)果的精度不斷增大。但該參數(shù)支持更大的擴(kuò)大因子上限,當(dāng)達(dá)到360 000時(shí),其人臉識(shí)別的準(zhǔn)確率達(dá)到了未加密時(shí)的準(zhǔn)確率。觀察其計(jì)算結(jié)果,與未加密時(shí)的計(jì)算結(jié)果誤差在1e-5,但不影響識(shí)別的準(zhǔn)確率。之后,隨著擴(kuò)大因子的繼續(xù)增大,一樣會(huì)發(fā)生數(shù)據(jù)類型溢出的問題,同樣人臉識(shí)別的準(zhǔn)確率會(huì)下降。與參數(shù)4 096相比,其能夠達(dá)到未加密時(shí)的準(zhǔn)確率,但其付出的代價(jià)為計(jì)算性能的下降。
CKKS方案提供了一個(gè)“rescale”功能,因此還需要配置scale參數(shù)。該參數(shù)在多項(xiàng)式模次數(shù)為4 096時(shí)配置為30,在8 192時(shí)配置為40。由于CKKS方案是支持浮點(diǎn)數(shù)運(yùn)算的,因此不需要使用擴(kuò)大因子對(duì)人臉特征進(jìn)行預(yù)處理,可直接進(jìn)行運(yùn)算。在兩個(gè)參數(shù)下,其人臉識(shí)別的準(zhǔn)確率都達(dá)到了未加密時(shí)的準(zhǔn)確率。
FaceNet算法下兩種同態(tài)方案不同參數(shù)下的人臉相似度的同態(tài)計(jì)算時(shí)間統(tǒng)計(jì)如表3所示:
2)SphereFace算法
類似地,BFV方案4 096和8 192參數(shù)下不同擴(kuò)大因子(factor)下人臉識(shí)別準(zhǔn)確率變化如圖7所示。
同樣地,CKKS方案下4 096和8 192參數(shù)下的人臉識(shí)別的準(zhǔn)確率也都達(dá)到了未加密時(shí)的準(zhǔn)確率。
SphereFace算法下兩種同態(tài)方案不同參數(shù)下人臉相似度的同態(tài)計(jì)算時(shí)間統(tǒng)計(jì)如表4所示。
4.4 解密測(cè)試
對(duì)不同參數(shù)下的計(jì)算結(jié)果進(jìn)行解密,各個(gè)參數(shù)下的解密時(shí)間統(tǒng)計(jì)如表5所示:
4.5 性能分析
綜上,將一對(duì)人臉在全同態(tài)下的人臉識(shí)別的整體耗時(shí)與未加密的進(jìn)行對(duì)比,如表6所示:
從表6可知,在FaceNet算法中,由于存在更多次的同態(tài)操作,導(dǎo)致噪聲消耗更大。因此,在多項(xiàng)式模次數(shù)為4 096時(shí)無法達(dá)到未加密時(shí)的準(zhǔn)確率,其他參數(shù)下都可以達(dá)到。
從其他各個(gè)參數(shù)下的平均耗時(shí)和文件平均大小對(duì)比,可給出建議:當(dāng)對(duì)安全等級(jí)要求相對(duì)較低時(shí),可選擇支持浮點(diǎn)數(shù)的多項(xiàng)式模為4 096的CKKS方案,與未加密時(shí)的人臉識(shí)別相比,時(shí)間上增加了約3.6 ms,特征文件增加了27 924 byte(約27 K);安全等級(jí)要求相對(duì)較高時(shí),可選擇多項(xiàng)式模為8 192的BFV方案,與未加密時(shí)的人臉識(shí)別相比,時(shí)間上增加了約4.6 ms,特征文件增加了32 905 byte(約32 K);它們都能夠保持未加密時(shí)的人臉識(shí)別準(zhǔn)確率。
使用全同態(tài)對(duì)人臉特征進(jìn)行加密,雖然計(jì)算時(shí)間和存儲(chǔ)空間都相應(yīng)增加了,但是增加的時(shí)間在整體人臉識(shí)別系統(tǒng)中(考慮攝像頭采集人臉?biāo)ㄙM(fèi)的時(shí)間、注冊(cè)和登錄的過程圖形界面載入和網(wǎng)絡(luò)通信耗時(shí))所占的比例大約為3%。因此,對(duì)人臉特征密文進(jìn)行全同態(tài)計(jì)算的效率是能夠滿足實(shí)際應(yīng)用需求的。
5 結(jié)束語
隨著人臉識(shí)別的快速應(yīng)用,個(gè)人信息保護(hù)在數(shù)字經(jīng)濟(jì)時(shí)代受到了空前的挑戰(zhàn)。個(gè)人人臉隱私信息的安全保護(hù)已成為社會(huì)關(guān)注的重點(diǎn)。本文探討了基于神經(jīng)網(wǎng)絡(luò)模型使用全同態(tài)加密來保護(hù)人臉特征的可行性,并在加密域中對(duì)人臉相似度計(jì)算進(jìn)行優(yōu)化,利用基于中國剩余定理的批處理技術(shù),提高了在加密域中人臉匹配的效率。本文設(shè)計(jì)的隱私保護(hù)的高效人臉認(rèn)證方案,既達(dá)到了保護(hù)用戶人臉特征的安全目標(biāo),也保持了未加密時(shí)人臉識(shí)別算法的準(zhǔn)確率,還能夠滿足實(shí)際應(yīng)用的性能需求。
在互聯(lián)網(wǎng)技術(shù)蓬勃發(fā)展的時(shí)代,保護(hù)個(gè)人信息不受侵犯,需要政府加強(qiáng)監(jiān)管,嚴(yán)懲違法違規(guī)分子;也需要企業(yè)補(bǔ)齊技術(shù)短板,規(guī)范個(gè)人信息收集、儲(chǔ)存、使用等過程。
參考文獻(xiàn):
[1] 邢會(huì)強(qiáng).人臉識(shí)別的法律規(guī)制[J].比較法研究,2020(5):51-63.
[2] 牛海虹. 人臉識(shí)別運(yùn)用中的個(gè)人信息保護(hù)[D].北京:中國社會(huì)科學(xué)院研究生院,2020.
[3] 李昕昕,趙春,嚴(yán)張凌.基于云端人臉識(shí)別技術(shù)的智慧課堂框架研究[J].實(shí)驗(yàn)技術(shù)與管理,2020,37(6):172-175.
[4] GENTRY C, HALEVI S, SMART N P . Fully homomorphic encryption with polylog overhead[C]//The International Association for Cryptologic Research. Annual International Conference on the Theory and Applications of Cryptographic Techniques. Washington D C:Springer,2012:465-482.
[5] ZHAO Q S, ZENG Q K, LIU X M, et al.Verifiable computation using re-randomizable garbled circuits[J]. Journal of Software, 2019, 30(2):209-225.
[6] JIANG L Z, XU C X, WANG X F, et al. Application of (fully) homomorphic encryption for encrypted computing models[J]. Journal of Cryptologic Research, 2017(6):596-610.
[7] LI Z Y, GUI X L, GU Y J, et al. Survey on homomorphic encryption algorithm and its application in the privacy-preserving for cloud computing[J]. Journal of Software, 2018,29(7):1830-1851.
[8] LIU Z W, LUO P, WANG X G, et al. Deep learning face attributes in the wild[C]//International Conference on Computer Vision.Santiago:IEEE,2015:3730-3738.
[9] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]//Computer Vision and Pattern Recognition.Boston: IEEE, 2015:815-823.
[10]LIU W Y, WEN Y D, YU Z D, et al. SphereFace: deep hypersphere embedding for face recognition[C]//Computer Vision and Pattern Recognition.Hawaii:IEEE, 2015:6738-6746.
[11]MERT A C, ERDIN ZTRK, SAVA E. Design and implementation of encryption/decryption architectures for BFV homomorphic encryption scheme[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 2020, 28(2):353-362.
[12]CHEON J H, KIM A, KIM M, et al. Homomorphic encryption for arithmetic of approximate numbers[C]// International Conference on the Theory and Application of Cryptology and Information Security. Cham:Springer, 2017: 409-437.
[13]BRAKERSKI Z, GENTRY C, HALEVI S. Packed ciphertexts in LWE-based homomorphic encryption[M]. Berlin: Springer, 2013.
(責(zé)任編輯:曾 晶)
Protection of Face Feature Informaton Based on Fully Homomorphic
Encryption in Cloud Computing Environment
XU Huihua1,2, YANG Xiong*3, ZHANG Xiaohui3
(1.Deptartment of Economics and Law, Concord University College, Fujian Normal University, Fuzhou 350117, China;2.Collaborative Innovation Center of Regional Characteristic Industry and Inclusive Finance, Concord University College, Fujian Normal University, Fuzhou 350117, China;3.Department of Computer Engineering, Zhicheng College of Fuzhou University, Fuzhou 350002, China)
Abstract:
With the rapid development of artificial intelligence technology, face recognition with its convenience and practicality has been widely used in the financial field of customer authentication, which can help enterprises quickly improve the business efficiency. But at the same time, in the cloud computing environment, there is a risk of data leakage in the face privacy of customers, and its information security problem needs to be solved urgently. The risks of face recognition in cloud computing environment and the application of fully homomorphic encryption are analyzed, and a privacy preserving face recognition scheme based on fully homomorphic encryption is proposed. The running process of the scheme is described in detail, and the research-oriented test link is designed. The performance index and analysis are intuitively given, which verifies the feasibility and efficiency of the scheme.
Key words:
face recognition; fully homomorphic encryption; face information; information security
收稿日期:2020-12-01
基金項(xiàng)目:福建省社會(huì)科學(xué)規(guī)劃資助項(xiàng)目(FJ2020C034);福建省教育廳中青年科技資助項(xiàng)目(JAT191109,JAT191098);福建師范大學(xué)協(xié)和學(xué)院創(chuàng)新團(tuán)隊(duì)建設(shè)計(jì)劃資助項(xiàng)目(2020-TD-004);福州大學(xué)至誠學(xué)院省基金培育資助項(xiàng)目(KJ2019004)
作者簡(jiǎn)介:徐慧華(1985—),女,副教授,碩士,研究方向:公司金融與金融大數(shù)據(jù),E-mail:61853918@qq.com.
楊雄(1986-),男,福建莆田人,碩士,高級(jí)工程師,主要從事大數(shù)據(jù)與信息安全研究.
通訊作者:楊 雄,E-mail:83789074@qq.com.