• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于隨機(jī)掩碼的低通信量Logistic回歸外包訓(xùn)練方案

      2021-02-11 09:31:22黃曉文王政杰崔碩碩張宇浩鄧國強(qiáng)
      科技資訊 2021年34期
      關(guān)鍵詞:掩碼同態(tài)明文

      黃曉文 王政杰 崔碩碩 張宇浩 鄧國強(qiáng)

      摘要:Logistic回歸是一種典型的機(jī)器學(xué)習(xí)模型,因其在疾病診斷、金融預(yù)測等許多應(yīng)用表現(xiàn)優(yōu)越而受到廣泛關(guān)注。logistic回歸模型的建立不僅依賴于算法,更依賴于大量有效的訓(xùn)練數(shù)據(jù)。盡管構(gòu)建高精度模型并提供預(yù)測服務(wù)有諸多優(yōu)點(diǎn),但用戶的敏感信息數(shù)據(jù)造成隱私問題。因此,該文提出一個(gè)新的logistic回歸外包訓(xùn)練方案。在該方案中,用戶會(huì)預(yù)先對私有數(shù)據(jù)進(jìn)行處理,并添加隨機(jī)掩碼的數(shù)據(jù)矩陣上傳給聚合器,聚合器將聚合得到的全局訓(xùn)練矩陣上傳給云服務(wù)器進(jìn)行訓(xùn)練。該方案在滿足數(shù)據(jù)隱私的安全性需求下具有較高的計(jì)算效率和較低的通信開銷。

      關(guān)鍵詞:Logistic回歸隱私保護(hù)隨機(jī)掩碼低通信量

      中圖分類號(hào):TP309 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ?文章編號(hào):1672-3791(2021)12(a)-0000-00

      An Outsourcing Training Scheme of Low-traffic Logistic Regression Based on Random Mask

      HUANG XiaowenWANG ZhengjieCUI ShuoshuoZHANG YuhaoDENG Guoqiang*

      (School of Mathematics and Computing Science, Guilin University of Electronic Technology, Guilin, Guangxi Zhuang Autonomous Region, 541004 China)

      Abstract: Logistic regression is a typical machine learning model, and its superior performance in many applications such as disease diagnosis and financial forecasting is widely welcomed. Providing user data to the server for logistic regression is a new service mode. ?Although predictive services have many advantages, the user 's sensitive data itself has privacy problems. Therefore, a new outsourcing privacy protection logistic training framework is proposed. ?In our framework, the user processes the private data in advance, and uploads the data matrix with random mask to the aggregator. The aggregator uploads the aggregated global training matrix to the cloud server for training. The scheme meets the security requirements of data privacy and has high efficiency in computing and communication overhead.

      Key Words: Logistic regression; Privacy-preserving; Random mask; Low-traffic

      機(jī)器學(xué)習(xí)模型在各種應(yīng)用領(lǐng)域取得了前所未有的發(fā)展[1-3]。然而,由于龐大的數(shù)據(jù)量,訓(xùn)練過程是一項(xiàng)計(jì)算和存儲(chǔ)密集型任務(wù)。此外,通常針對敏感數(shù)據(jù)(如醫(yī)療記錄、瀏覽歷史記錄或金融交易)進(jìn)行訓(xùn)練時(shí),會(huì)引發(fā)數(shù)據(jù)集的安全性和隱私問題。

      一方面,由于其復(fù)雜性,訓(xùn)練過程往往需要外包給如云這樣的更強(qiáng)大的計(jì)算平臺(tái)。另一方面,訓(xùn)練數(shù)據(jù)集通常是敏感的,它可能包含一些敏感或私有信息,一旦披露,將導(dǎo)致災(zāi)難性后果。因此,對于參與云計(jì)算的數(shù)據(jù)需要進(jìn)行隱藏得到密文數(shù)據(jù)。然而,機(jī)器學(xué)習(xí)算法不能直接訪問密文,如果將解密密鑰提供給誠實(shí)且好奇的云服務(wù)器又無法確保數(shù)據(jù)隱私。由此可見,如何在保護(hù)數(shù)據(jù)隱私的前提下進(jìn)行高效機(jī)器學(xué)習(xí)訓(xùn)練是一個(gè)極具挑戰(zhàn)的問題。

      Logistic回歸是一種典型的機(jī)器學(xué)習(xí)算法,可以理解為一種廣義的線性回歸,被應(yīng)用于生物醫(yī)療[4],金融服務(wù)[5]等分類問題上。近年來,由于logistic回歸的廣泛使用,數(shù)據(jù)安全問題受到了更多的重視,學(xué)者們針對logistic回歸隱私保護(hù)問題提出了許多方案。

      李娟等研究者[6]基于HEAAN全同態(tài)加密,提出有效保護(hù)數(shù)據(jù)隱私的多分類logistic回歸模型,可用于安全訓(xùn)練多個(gè)分類器,該模型可以在解決多分類問題的同時(shí)保證數(shù)據(jù)的隱私安全。全同態(tài)加密是一種特殊的加密方案,可以保證密文下運(yùn)算得到的輸出結(jié)果與未加密運(yùn)算輸出的結(jié)果一致, 不影響模型的準(zhǔn)確率,然而由于涉及復(fù)雜的密碼學(xué)操作,效率上一般比較低。因此,針對縱向分布的數(shù)據(jù),宋蕾[7]采用效率更高的部分同態(tài)系統(tǒng)Paillier對私有數(shù)據(jù)加密,通過對數(shù)據(jù)進(jìn)行特征維度的劃分,將其縱向分布在用戶間,通過和服務(wù)方進(jìn)行協(xié)同訓(xùn)練,交換logistic訓(xùn)練中間結(jié)果而不直接暴露隱私數(shù)據(jù)。這兩種方案需要重復(fù)執(zhí)行復(fù)雜度較高的同態(tài)運(yùn)算,并且在每次迭代過程中,需要云服務(wù)器與數(shù)據(jù)所有者進(jìn)行交互。為了提高隱私保護(hù)下訓(xùn)練的效率,也有學(xué)者使用差分隱私[8-9]對用戶數(shù)據(jù)進(jìn)行隱藏,可以有效地處理分布式存儲(chǔ)數(shù)據(jù)并保護(hù)隱私,然而這種方法需要對本地?cái)?shù)據(jù)添加噪聲,會(huì)對訓(xùn)練出來的模型精度產(chǎn)生較大影響。

      該文使用了一種預(yù)處理本地?cái)?shù)據(jù)的方法,用戶將其處理完成得到的矩陣添加掩碼后直接上傳給聚合器,之后便不參與其他任何環(huán)節(jié),大幅降低了通信量,為了防止外部攻擊使用Paillier對中間數(shù)據(jù)加密,云服務(wù)器解密得到結(jié)果之后,相當(dāng)于在明文下進(jìn)行模型訓(xùn)練,大量降低了計(jì)算成本。

      4 數(shù)值實(shí)驗(yàn)

      使用Python編程語言完成了該文所有實(shí)驗(yàn)。在兩個(gè)UCI真實(shí)數(shù)據(jù)集pima和BCD上實(shí)現(xiàn)了本文方案,并與明文下做對比以評(píng)估方案的性能,數(shù)據(jù)集詳細(xì)信息見表1。通過建立類來模擬各個(gè)參與方,訓(xùn)練任務(wù)在一臺(tái)個(gè)人計(jì)算機(jī)上進(jìn)行,該計(jì)算機(jī)配置為Intel (R) Core(TM) i7-1065G7 CPU,1.5GHz處理器和8GB RAM。

      4.1 精度測試

      該節(jié)對方案進(jìn)行精度測試并與明文下做對比,使用精準(zhǔn)率(Precision)和召回率(Recall)作為評(píng)估指標(biāo),根據(jù)表2給出的實(shí)驗(yàn)結(jié)果,可見由于本文方案本質(zhì)上等價(jià)于明文下全局?jǐn)?shù)據(jù)訓(xùn)練,因此在精度上與明文相比幾乎沒有損失,證明了方案的可行性較強(qiáng)。

      4.2 效率測試

      圖2(a)-(b)給出的是本文方案與明文下各階段時(shí)間對比,可以看出該方案總訓(xùn)練用時(shí)稍大于明文訓(xùn)練的,主要原因在于使用了Paillier同態(tài)系統(tǒng)加密數(shù)據(jù),這花費(fèi)了方案的大部分計(jì)算開銷,但總體上方案表現(xiàn)地依然十分高效,特別是迭代時(shí)間幾乎與明文訓(xùn)練的迭代時(shí)間相同,因此,適合隱私保護(hù)需求的logistic回歸訓(xùn)練任務(wù)。

      為了進(jìn)一步測試迭代次數(shù)對方案效率的影響,分別對數(shù)據(jù)集進(jìn)行了1 000到5 000次的迭代測試,并與明文訓(xùn)練做對比,測試結(jié)果如圖3(a)-(b)所示。盡管方案比明文訓(xùn)練時(shí)間上多了幾秒鐘,因?yàn)楸镜赜脩舻念A(yù)處理都是在明文下進(jìn)行的,同時(shí)使用添加掩碼的方式隱藏私有數(shù)據(jù),計(jì)算復(fù)雜度較低,訓(xùn)練階段云服務(wù)器實(shí)際也是在明文下訓(xùn)練模型,因此在一定范圍內(nèi)迭代次數(shù)對方案效率的影響可以忽略。

      5 結(jié)語

      該文提出了一個(gè)新的logistic回歸隱私保護(hù)方案。通過分離數(shù)據(jù),讓一些計(jì)算任務(wù)在用戶本地提前將進(jìn)行,而不必再花費(fèi)更多的通信開銷用于交互。結(jié)合隨機(jī)掩碼與加同態(tài)秘密系統(tǒng)Paillier,實(shí)現(xiàn)了保護(hù)數(shù)據(jù)的目的。通過對比實(shí)驗(yàn)發(fā)現(xiàn),在效率稍低于明文的情況下,達(dá)到了與明文相同精度,因此節(jié)省了大量計(jì)算成本和通信開銷,能夠用于大規(guī)模logistic回歸外包訓(xùn)練。

      參考文獻(xiàn)

      [1] 周奕文.人工智能技術(shù)在眼前節(jié)疾病及近視診療中的應(yīng)用[J].中華實(shí)驗(yàn)眼科雜志,2021,39(9):821-826.

      [2] 沈國良,錢濟(jì)人.基于系統(tǒng)辨識(shí)的機(jī)器學(xué)習(xí)模型參數(shù)可調(diào)性研究[J].自動(dòng)化應(yīng)用,2019(3):97-98.

      [3] 饒?jiān)瑓沁B偉,王一鳴,等.基于語義分析的情感計(jì)算技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2018,29(8):2397-2426.

      [4] 谷鴻秋,王春娟,李子孝,等.基于Logistic回歸與XGBoost構(gòu)建缺血性卒中院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測模型的初步比較研究[J].中國卒中雜志,2020,15(6):587-594.

      [5] 王宇茜,彭連,夏乙月.基于PCA和Logistic回歸的A股36家上市券商排名的研究[J].經(jīng)濟(jì)學(xué),2020,3(3):53-55.

      [6] 李娟,馬飛.基于同態(tài)加密的分布式隱私保護(hù)線性回歸分析模型[J].微電子學(xué)與計(jì)算機(jī),2016,33(1):110-113,118.

      [7] 宋蕾.基于數(shù)據(jù)縱向分布的隱私保護(hù)邏輯回歸[J].計(jì)算機(jī)研究與發(fā)展,2019,56(10):2243-2249.

      [8] 王璞玉,張海.分布式隱私保護(hù)–Logistic回歸[J].中國科學(xué):信息科學(xué),2020,50(10):1511-1528.

      [9] 葛宇航.基于差分隱私的線性回歸分析[J].科技經(jīng)濟(jì)導(dǎo)刊,2019,27(14):163-164.

      [10] WANG F,ZHU H,LU R,et al.A Privacy-preserving and Non-interactive Federated Learning Scheme for Regression Training with Gradient Descent[J].Information Sciences,2021,552:183-200.

      猜你喜歡
      掩碼同態(tài)明文
      關(guān)于半模同態(tài)的分解*
      拉回和推出的若干注記
      低面積復(fù)雜度AES低熵掩碼方案的研究
      基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計(jì)*
      奇怪的處罰
      一種基于LWE的同態(tài)加密方案
      HES:一種更小公鑰的同態(tài)加密算法
      奇怪的處罰
      四部委明文反對垃圾焚燒低價(jià)競爭
      砚山县| 临夏市| 龙川县| 同德县| 阜阳市| 平果县| 简阳市| 尉氏县| 玉溪市| 兴和县| 湖南省| 定结县| 密山市| 波密县| 太湖县| 建始县| 基隆市| 宜阳县| 襄城县| 墨江| 福贡县| 吉水县| 鄂托克前旗| 蕲春县| 措美县| 宣城市| 天峻县| 佳木斯市| 上林县| 乐业县| 海安县| 武宁县| 兰考县| 鄂托克前旗| 城固县| 罗江县| 龙川县| 逊克县| 织金县| 双城市| 固始县|