周全興,李秋賢,丁紅發(fā),樊玫玫
(1.凱里學(xué)院 大數(shù)據(jù)工程學(xué)院,貴州 凱里 556011;2.貴州財(cái)經(jīng)大學(xué) 信息學(xué)院,貴陽(yáng) 550025;3.貴州大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,貴陽(yáng) 550025)
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,各類移動(dòng)設(shè)備的計(jì)算及通信能力得到顯著提高。因此,基于機(jī)器學(xué)習(xí)的新型學(xué)習(xí)框架應(yīng)運(yùn)而生[1]。機(jī)器學(xué)習(xí)技術(shù)能夠有效提高各類移動(dòng)設(shè)備的應(yīng)用性能,但是需要將敏感的私有信息和數(shù)據(jù)上傳至中央服務(wù)器并對(duì)模型進(jìn)行訓(xùn)練,存在嚴(yán)重的隱私泄露風(fēng)險(xiǎn)、額外的計(jì)算與通信開銷問(wèn)題[2-3]。為加強(qiáng)用戶數(shù)據(jù)信息的隱私與安全,聯(lián)邦學(xué)習(xí)[4-5]作為一種新型的分布式機(jī)器學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生。聯(lián)邦學(xué)習(xí)使大規(guī)模的移動(dòng)設(shè)備在不泄露本地?cái)?shù)據(jù)的前提下,通過(guò)協(xié)作使用各自的數(shù)據(jù)集來(lái)訓(xùn)練機(jī)器學(xué)習(xí)共享模型。聯(lián)邦學(xué)習(xí)作為一種去中心化分布式的訓(xùn)練模型方法,利用各移動(dòng)設(shè)備的數(shù)據(jù)采集與計(jì)算能力解決數(shù)據(jù)的隱私安全問(wèn)題[6]。
由于聯(lián)邦學(xué)習(xí)不需要各類移動(dòng)設(shè)備直接進(jìn)行數(shù)據(jù)交換,因此在一定程度上保護(hù)了用戶的數(shù)據(jù)安全與隱私[7]。文獻(xiàn)[8]提出一種基于貪婪算法的聯(lián)邦學(xué)習(xí)方案,利用分布式移動(dòng)設(shè)備數(shù)據(jù)和計(jì)算資源來(lái)訓(xùn)練高性能機(jī)器學(xué)習(xí)模型,同時(shí)保護(hù)客戶端的隱私和安全。文獻(xiàn)[9]通過(guò)增強(qiáng)本地移動(dòng)設(shè)備的計(jì)算能力減少聯(lián)邦學(xué)習(xí)通信頻率,設(shè)計(jì)典型的聯(lián)邦平均算法,通過(guò)云處理中心對(duì)局部的移動(dòng)設(shè)備進(jìn)行整合,大幅減少了傳輸局部模型的數(shù)量,節(jié)省通信開銷。文獻(xiàn)[10]通過(guò)無(wú)線網(wǎng)絡(luò)構(gòu)造聯(lián)邦學(xué)習(xí)框架,并對(duì)其學(xué)習(xí)時(shí)間和數(shù)據(jù)的準(zhǔn)確度進(jìn)行優(yōu)化,以控制用戶的數(shù)據(jù)訓(xùn)練能量成本。文獻(xiàn)[11]提出一種三元聯(lián)邦平均協(xié)議,減少聯(lián)邦學(xué)習(xí)系統(tǒng)中的上下游通信,該方案從保護(hù)物聯(lián)網(wǎng)設(shè)備的隱私和安全出發(fā),在降低通信成本和提高學(xué)習(xí)性能方面取得一定成效。文獻(xiàn)[12]為滿足聯(lián)邦學(xué)習(xí)的環(huán)境需求,提出稀疏三元壓縮新的壓縮聯(lián)邦學(xué)習(xí)框架,解決了在聯(lián)邦學(xué)習(xí)訓(xùn)練期間存在通信開銷量大的問(wèn)題。
現(xiàn)有的聯(lián)邦學(xué)習(xí)框架假設(shè)各移動(dòng)設(shè)備都無(wú)條件參與聯(lián)邦學(xué)習(xí)[13-14]。在訓(xùn)練數(shù)據(jù)模型中,各移動(dòng)設(shè)備都會(huì)產(chǎn)生相應(yīng)的訓(xùn)練成本,如果沒(méi)有激勵(lì)策略,自私的數(shù)據(jù)擁有者將不愿意參加聯(lián)邦學(xué)習(xí)[15-16]。此外,由于聯(lián)邦學(xué)習(xí)中任務(wù)發(fā)布者不知道參加模型訓(xùn)練的數(shù)據(jù)擁有者的數(shù)據(jù)質(zhì)量,以及可計(jì)算資源量,因此任務(wù)發(fā)布者和數(shù)據(jù)擁有者之間存在信息不對(duì)稱的情況。
為進(jìn)一步考慮理性參與者的存在,文獻(xiàn)[17]提出一種參與者是理性參與方的理性證明系統(tǒng),將博弈論中的理性用戶[18-21]引入到各安全協(xié)議中。文獻(xiàn)[22]研究了計(jì)算能力受限的理性參與者問(wèn)題。
為解決聯(lián)邦學(xué)習(xí)的安全隱私與通信開銷問(wèn)題,本文結(jié)合Micali-Rabin 隨機(jī)向量表示技術(shù)和博弈論框架,提出一種高效的聯(lián)邦學(xué)習(xí)方案。根據(jù)博弈論激勵(lì)機(jī)制,構(gòu)建聯(lián)邦學(xué)習(xí)的博弈模型,其包括聯(lián)邦學(xué)習(xí)的各參與者、效用函數(shù)等擴(kuò)展式博弈各要素。利用Micali-Rabin 隨機(jī)向量表示技術(shù)和Pedersen 承諾機(jī)制保障聯(lián)邦學(xué)習(xí)中各參與者訓(xùn)練數(shù)據(jù)的安全與隱私,以達(dá)到全局帕累托最優(yōu)狀態(tài)。
本文對(duì)博弈論中擴(kuò)展式博弈和帕累托最優(yōu)的基本概念進(jìn)行簡(jiǎn)單說(shuō)明。
定義1(擴(kuò)展式博弈)博弈論是一門用于數(shù)學(xué)模型研究理性決策者之間如何互動(dòng)的學(xué)科,參與者之間的互動(dòng)可能涉及到?jīng)_突,也可能涉及到合作。擴(kuò)展式博弈是個(gè)六元 組(P,S,φ,ρ,U,E),包括以 下6 個(gè)要素:1)參與者集合P,表示參與聯(lián)邦學(xué)習(xí)的所有參與者集合,包括任務(wù)發(fā)布者和數(shù)據(jù)擁有者;2)參與者的行動(dòng)策略集合S,指某個(gè)參與者在某個(gè)時(shí)間采取的某種行動(dòng)策略的集合;3)外生隨機(jī)變量φ,不受任何參與方控制的隨機(jī)影響方案的變量參數(shù);4)參與者的風(fēng)險(xiǎn)規(guī)避ρ,當(dāng)每次方案執(zhí)行時(shí),各個(gè)理性參與者在聯(lián)邦學(xué)習(xí)方案中能夠承擔(dān)的各類風(fēng)險(xiǎn)規(guī)避程度;5)參與者的效用函數(shù)U,在采取某種行動(dòng)策略結(jié)束后,每個(gè)參與者會(huì)獲得相應(yīng)收益;6)參與者的期望效用E,表示達(dá)到帕累托最優(yōu)狀態(tài)后,所有參與者達(dá)到最大化的期望效用。
定義2(帕累托最優(yōu))帕累托最優(yōu)是將所有資源進(jìn)行合理分配的一種理想狀態(tài),當(dāng)全局參與者模型達(dá)到帕累托最優(yōu)狀態(tài)后,不會(huì)存在一方的效用利益變好,而另一方的效用收益就會(huì)因此而受到損失的情況。在這個(gè)狀態(tài)下,所有的理性參與方都會(huì)選擇合理的行動(dòng)策略,使得自己的效用利益最大化,并且全局的效用也是最大化。
如果全局參與者模型達(dá)到帕累托最優(yōu)狀態(tài),那么就會(huì)滿足交換最優(yōu)、生產(chǎn)最優(yōu)和產(chǎn)品最優(yōu)等條件。各個(gè)理性參與者在生產(chǎn)交易過(guò)程中,即使交換或更改生產(chǎn)條件或者環(huán)境,都不會(huì)從中再獲得利益,從而影響他人利益。各資源已達(dá)到理想狀態(tài),不存在帕累托改進(jìn)的狀態(tài),即帕累托最優(yōu)。
Pedersen 承諾機(jī)制是滿足無(wú)條件秘密性的同態(tài)承諾機(jī)制,構(gòu)造承諾機(jī)制需要3 個(gè)階段:1)初始化階段,選擇任意乘法群Gq,其中q為大素?cái)?shù),群Gq的生成元為g、h,并公布(g,h,q);2)承諾階段,發(fā)送承諾方隨機(jī)選擇值r?Zq,并計(jì)算承諾值COM=gmhrmodq,其中m是需要加密的信息,然后將承諾值COM 發(fā)送給接收方;3)打開階段,發(fā)送方將(m,r)一同發(fā)送給接收方,接收方驗(yàn)證承諾值COM 是否等于gmhrmodq,若是gmhrmodq,則接收,否則拒絕接收任何信息。
Micali-Rabin 隨機(jī)向量表示技術(shù)是基于Pedersen承諾,通過(guò)零知識(shí)證明技術(shù)證明方案中等式的正確性。假設(shè)Micali-Rabin 隨機(jī)向量表示技術(shù)存在有限域Fp,p為256 bit 的素?cái)?shù),g、h是群Gq的生成元,q為大素?cái)?shù),且q>p,具有以下3 個(gè)性質(zhì):1)設(shè)X的隨機(jī)向量表示是X=(u,v),其中u、v?Fp,X的值是val(X)=(u+v)modp;2)對(duì)隨機(jī)向量X=(u,v)的分量進(jìn)行承諾,COM(X)=(COM(u),COM(v)),其中COM(u)=e(P,Q)u,COM(v)=e(P,Q)v,P、Q?G是 群G的兩個(gè)生成元;3)假設(shè)存在一行承諾值C OM(X1),COM(X2),…,COM(Xj),對(duì)于任 意i(1 ≤i 高效聯(lián)邦學(xué)習(xí)博弈模型是結(jié)合博弈論與聯(lián)邦學(xué)習(xí),從聯(lián)邦學(xué)習(xí)參與方自利的角度出發(fā),通過(guò)效用函數(shù)來(lái)保證聯(lián)邦學(xué)習(xí)數(shù)據(jù)的安全與隱私。為激勵(lì)具有高質(zhì)量的數(shù)據(jù)擁有者積極參加聯(lián)邦學(xué)習(xí),本文基于博弈論框架設(shè)計(jì)合理有效的激勵(lì)合約,將各理性參與者貢獻(xiàn)的資源映射到適當(dāng)?shù)呢泿弄?jiǎng)勵(lì)中。參與者在追求自身利益最大化的同時(shí)滿足聯(lián)邦學(xué)習(xí)全局的利益最大化,從而達(dá)到帕累托最優(yōu)狀態(tài)。本節(jié)設(shè)計(jì)的高效聯(lián)邦學(xué)習(xí)博弈模型包括七元組(P,φ,S,P(·),ρ,U,E)。 聯(lián)邦學(xué)習(xí)各個(gè)參與者集合P是聯(lián)邦學(xué)習(xí)中任務(wù)發(fā)布者和擁有若干能夠訓(xùn)練模型的各個(gè)數(shù)據(jù)擁有者。外生隨機(jī)變量φ是指各個(gè)參與方無(wú)法預(yù)料與控制的外生隨機(jī)變量。策略集合S是聯(lián)邦學(xué)習(xí)中各個(gè)參與方有可能會(huì)采取的行動(dòng)策略集合。支付函數(shù)P(·)是任務(wù)發(fā)布者激勵(lì)數(shù)據(jù)擁有者提供更高質(zhì)量數(shù)據(jù),以獲得支付報(bào)酬與獎(jiǎng)勵(lì)。風(fēng)險(xiǎn)規(guī)避函數(shù)ρ是聯(lián)邦學(xué)習(xí)中所有參與者在模型訓(xùn)練時(shí)所能承受的風(fēng)險(xiǎn)規(guī)避程度。期望效用函數(shù)U,Un:S→R(其中R為實(shí)數(shù)空間),表示第n位局中人在不同的行動(dòng)策略組合下所獲得的期望收益效用函數(shù)。總期望效用函數(shù)E是在聯(lián)邦學(xué)習(xí)總的模型中,所有參與者達(dá)到的最大期望收益效用函數(shù)。 高效聯(lián)邦學(xué)習(xí)首先需要建模其方案中各個(gè)參與者,在博弈模型中主要存在兩類參與方,即聯(lián)邦學(xué)習(xí)任務(wù)的發(fā)布者Pi和數(shù)據(jù)擁有者Pj,并且兩類參與方都是理性自利的。任務(wù)的發(fā)布者在保證聯(lián)邦學(xué)習(xí)模型中全局利益最優(yōu)的前提下,需要實(shí)現(xiàn)個(gè)體利益最優(yōu)。數(shù)據(jù)擁有者在完成任務(wù)的前提下,實(shí)現(xiàn)個(gè)體利益的最大化。因此,在本文博弈模型中參與者集合為P=(Pi,Pj)。 在聯(lián)邦學(xué)習(xí)博弈模型中存在一些不受任何參與方控制的影響因素,本文將其稱為外生隨機(jī)變量φ,且φ是服從均值為0、方差為σ2的正態(tài)分布。聯(lián)邦學(xué)習(xí)中存在不確定外生因素的任務(wù)發(fā)布者與數(shù)據(jù)擁有者之間的博弈樹,如圖1 所示,其中變量s和d分別表示任務(wù)發(fā)布者和數(shù)據(jù)擁有者的收益。 圖1 任務(wù)發(fā)布者與數(shù)據(jù)擁有者之間博弈樹Fig.1 Game tree between task publisher and data owner 在高效的聯(lián)邦學(xué)習(xí)博弈模型中,由于所有參與者都是自利的,因此任務(wù)發(fā)布者在發(fā)布任務(wù)后可以選擇“激勵(lì)”或者“懲罰”數(shù)據(jù)擁有者。令si1表示選擇“激勵(lì)”策略,此時(shí)si1=1。而si2表示選擇“懲罰”對(duì)方的策略,此時(shí)si2=0。因此,任務(wù)發(fā)布者的行動(dòng)策略集合為(激勵(lì),懲罰),即si=(si1,si2)。 自私的數(shù)據(jù)擁有者在接收到任務(wù)后可以選擇“誠(chéng)實(shí)”或者“惡意”策略進(jìn)行訓(xùn)練數(shù)據(jù)與反饋。令sj1表示選擇“誠(chéng)實(shí)”執(zhí)行任務(wù)策略,此時(shí)sj1=1,而sj2表示選擇“惡意”的策略,此時(shí)sj2=0。因此,數(shù)據(jù)擁有者的行動(dòng)策略集合為(誠(chéng)實(shí),惡意),即sj=(sj1,sj2)。 當(dāng)雙方都選擇利于自己的行為策略時(shí),且雙方都能達(dá)到最大效用時(shí),令π=ks+φ表示雙方達(dá)到最大效用時(shí)的貨幣表示形式,k(k≥0)表示參與方選擇不同行動(dòng)策略時(shí)對(duì)雙方整體效用的影響系數(shù)。在執(zhí)行任務(wù)過(guò)程中存在不受控制的環(huán)境變量φ,且φ服從正態(tài)分布,因此聯(lián)邦學(xué)習(xí)的雙方總期望效用函數(shù)為E(π)=E(ks+φ)=ks,var(π)=σ2。參與方采取的行為策略會(huì)影響全局中整體的效用均值。 在聯(lián)邦學(xué)習(xí)博弈模型中,任務(wù)發(fā)布者通過(guò)激勵(lì)數(shù)據(jù)擁有者訓(xùn)練數(shù)據(jù)模型,從而獲得高質(zhì)量數(shù)據(jù)。因此,本文將任務(wù)發(fā)布者給予數(shù)據(jù)擁有者的獎(jiǎng)勵(lì)金額設(shè)置為線性函數(shù),如式(1)所示: 其中:α為模型中數(shù)據(jù)擁有者進(jìn)行訓(xùn)練數(shù)據(jù)的固定收入金額;β為任務(wù)發(fā)布者給予數(shù)據(jù)擁有者的激勵(lì)獎(jiǎng)金系數(shù)。針對(duì)式(1)中的固定收入金額和激勵(lì)獎(jiǎng)金系數(shù)是根據(jù)博弈論中委托代理理論計(jì)算得到的,其中數(shù)據(jù)擁有者的獎(jiǎng)勵(lì)金額是隨著激勵(lì)金額的增加而增加。在本文方案中,任務(wù)發(fā)布者和數(shù)據(jù)擁有者的風(fēng)險(xiǎn)規(guī)避函數(shù)ρ1和ρ2不會(huì)影響各自的收入水平,因此任務(wù)發(fā)布者給予數(shù)據(jù)擁有者的獎(jiǎng)勵(lì)金額可以設(shè)置為線性函數(shù)。 在參與者學(xué)習(xí)的過(guò)程中,參與者將付出一定的努力使得自身的利益最大化,此時(shí)會(huì)產(chǎn)生相應(yīng)的努力成本。本文用貨幣成本來(lái)衡量參與者的努力成本,當(dāng)任務(wù)發(fā)布者采用不同的策略時(shí),其努力成本如式(2)所示: 同理,數(shù)據(jù)擁有者采取不同策略時(shí)的努力成本如式(3)所示: 其中:x1和x2分別表示任務(wù)發(fā)布者和數(shù)據(jù)擁有者選擇不同行動(dòng)策略時(shí)的努力成本系數(shù),且x1>0,x2>0;η表示數(shù)據(jù)擁有者選擇不同的行動(dòng)策略后取得相應(yīng)的成效系數(shù),并且0<η<1。數(shù)據(jù)擁有者越努力獲取高質(zhì)量的數(shù)據(jù),任務(wù)的發(fā)布者所獲得實(shí)際收益與預(yù)期收益之間的差距越小。 由于所有的參與者都是理性的,個(gè)體間會(huì)存在一定的差異性和特殊性,因此各個(gè)參與者之間對(duì)聯(lián)邦學(xué)習(xí)過(guò)程中的風(fēng)險(xiǎn)規(guī)避程度也會(huì)存在一定的差異。在博弈模型中,本文設(shè)計(jì)的風(fēng)險(xiǎn)規(guī)避效用函數(shù)為u=-eρω,其中ρ為參與者的絕對(duì)風(fēng)險(xiǎn)規(guī)避度量,ω為實(shí)際獲取的收益。由于參與者都具有風(fēng)險(xiǎn)規(guī)避的特性,因此會(huì)存在相應(yīng)的風(fēng)險(xiǎn)成本。任務(wù)發(fā)布者承擔(dān)風(fēng)險(xiǎn)的成本如式(4)所示: 數(shù)據(jù)擁有者承擔(dān)風(fēng)險(xiǎn)的成本如式(5)所示: 其中:ρ1和ρ2分別表示任務(wù)發(fā)布者和數(shù)據(jù)擁有者的風(fēng)險(xiǎn)規(guī)避程度,且ρ1>0,ρ2>0。 在博弈模型下分析聯(lián)邦學(xué)習(xí)方案最關(guān)鍵的是定義參與者的效用函數(shù)。在本文方案中,由于參與者都是理性自利且具有風(fēng)險(xiǎn)規(guī)避特性,因此其效用函數(shù)需要通過(guò)參與者的實(shí)際收益進(jìn)行建模。任務(wù)發(fā)布者的實(shí)際收益如式(6)所示: 數(shù)據(jù)擁有者的實(shí)際收益如式(7)所示: 根據(jù)參與者的實(shí)際收益與他們分別存在的風(fēng)險(xiǎn)成本,可以得到任務(wù)發(fā)布者的期望效用函數(shù),如式(8)所示: 同理,數(shù)據(jù)擁有者的期望效用函數(shù),如式(9)所示: 由于聯(lián)邦學(xué)習(xí)框架中的參與者都是理性自利的,因此數(shù)據(jù)擁有者選擇與任務(wù)發(fā)布者簽訂激勵(lì)合約后,得到的最大效益必須大于不簽署該合約。數(shù)據(jù)擁有者通過(guò)與任務(wù)發(fā)布者簽署激勵(lì)合約后的期望效用不得小于不接受該任務(wù)得到的最小保留效用此時(shí)數(shù)據(jù)擁有者需要考慮與自己相關(guān)的參與約束IR,如式(10)所示: 任務(wù)發(fā)布者不知道數(shù)據(jù)擁有者提供的數(shù)據(jù)質(zhì)量,在雙方存在信息不對(duì)稱的情況下,并且理性的數(shù)據(jù)擁有者總會(huì)選擇使自己期望效用最大化的行為策略。因此,任務(wù)發(fā)布者希望得到的最大效用通過(guò)數(shù)據(jù)擁有者的最大效用來(lái)實(shí)現(xiàn),且全局達(dá)到帕累托最優(yōu)狀態(tài)。 根據(jù)任務(wù)發(fā)布者和數(shù)據(jù)擁有者簽署的激勵(lì)合約及帕累托最優(yōu)狀態(tài)情況,只有當(dāng)數(shù)據(jù)擁有者選擇行動(dòng)策略sj時(shí),其效用比其他行動(dòng)策略sj′更大。因此,數(shù)據(jù)擁有者根據(jù)其理性行為將會(huì)選擇行動(dòng)策略sj,使得自己的利益最大化,以及全局的利益最大化,此時(shí)有maxsj(w)。令可以得到在聯(lián)邦學(xué)習(xí)博弈模型中存在一個(gè)激勵(lì)相容約束IC,如式(11)所示: 將參與約束IR 和激勵(lì)相容約束IC 帶入任務(wù)發(fā)布者期望最大效用的目標(biāo)函數(shù)中,構(gòu)建拉格朗日函數(shù),可得: 根據(jù)以上函數(shù)的變化趨勢(shì)可以看出,任務(wù)發(fā)布者的風(fēng)險(xiǎn)規(guī)避程度ρ1與其給予數(shù)據(jù)擁有者的激勵(lì)系數(shù)ρ呈正相關(guān)。因此,當(dāng)雙方利益最大化時(shí),數(shù)據(jù)擁有者所選擇的行動(dòng)策略如式(15)所示: 在聯(lián)邦學(xué)習(xí)博弈模型中任務(wù)發(fā)布者和數(shù)據(jù)擁有者總的期望效用達(dá)到最大,如式(16)所示: 由此可以看出,在聯(lián)邦學(xué)習(xí)模型中,即使任務(wù)發(fā)布者不知道數(shù)據(jù)擁有者所選擇的行動(dòng)策略和其努力程度,但是根據(jù)雙方簽署的激勵(lì)合約,數(shù)據(jù)擁有者會(huì)選擇最優(yōu)的行動(dòng)策略sj,使得雙方都達(dá)到最大的期望效用。此時(shí)聯(lián)邦學(xué)習(xí)模型的總期望效用E(π)也達(dá)到最大,即模型的全局達(dá)到帕累托最優(yōu)狀態(tài)。 本文基于上述設(shè)計(jì)的聯(lián)邦學(xué)習(xí)博弈模型,結(jié)合Micali-Rabin 隨機(jī)向量表示技術(shù)構(gòu)造高效安全的聯(lián)邦學(xué)習(xí)方案。在本文方案中,各參與者為了使自身利益最大化必須遵循雙方簽署的激勵(lì)合約,通過(guò)各自的效用函數(shù)約束個(gè)人理性行為,任何偏離合約的一方都會(huì)受到遠(yuǎn)大于自身成本價(jià)值及影響自身聲譽(yù)的懲罰。 任務(wù)發(fā)布者Pi公布需要訓(xùn)練學(xué)習(xí)的初始模型任務(wù)T,并將其送至中央服務(wù)器,同時(shí)與滿足條件的各數(shù)據(jù)擁有者Pj簽署激勵(lì)合約,建立安全的連接。任務(wù)發(fā)布者和數(shù)據(jù)擁有者為保證數(shù)據(jù)的安全與隱私,根據(jù)橢圓曲線的密碼體制隨機(jī)選取密鑰對(duì),用于雙方在方案中交易的驗(yàn)證。本文方案選擇一條安全的橢圓曲線E,其中G為該橢圓曲線的一個(gè)基點(diǎn),基點(diǎn)G的階數(shù)為n。本文選擇隨機(jī)數(shù)λ計(jì)算d=λG,其中d為公鑰,隨機(jī)數(shù)λ為私鑰,并公開(G,d)。 各數(shù)據(jù)擁有者Pj從中央服務(wù)器下載公布的初始模型參數(shù)θi。每個(gè)數(shù)據(jù)擁有者利用自己的本地?cái)?shù)據(jù)選擇行動(dòng)策略sj,并訓(xùn)練初始化模型,之后將更新后的參數(shù)返回至中央服務(wù)器,使得自身利益最大化。在此過(guò)程中,數(shù)據(jù)擁有者對(duì)已更新的參數(shù)進(jìn)行3k行承諾以便于追溯與認(rèn)定惡意數(shù)據(jù)擁有者返回的無(wú)用數(shù)據(jù)。形成的3k行承諾采用Micali-Rabin 隨機(jī)向量表示技術(shù)可以表示為: 在這個(gè)階段中要求任意概率多項(xiàng)式時(shí)間的接收方都不能獲取有關(guān)承諾的任何信息,以保護(hù)所有數(shù)據(jù)的隱私和安全,。 任務(wù)發(fā)布者Pi與各數(shù)據(jù)擁有者Pj進(jìn)行交互式證明后,若通過(guò)承諾值的驗(yàn)證,任務(wù)發(fā)布者將接收更新的參數(shù)此時(shí)Pi通過(guò)各參與者得到期望效用函數(shù),并對(duì)各自在聯(lián)邦學(xué)習(xí)中的收益成效進(jìn)行判斷,雙方是否選擇最優(yōu)的行動(dòng)策略來(lái)執(zhí)行方案。若任意一方參與者的效用值未達(dá)到最大偏離方案,根據(jù)激勵(lì)合約的規(guī)定,需要支付對(duì)方遠(yuǎn)大于自己期望效用Ui或者Uj的賠償金作為未遵守方案的補(bǔ)償。 當(dāng)任務(wù)發(fā)布者Pi確定接收更新的參數(shù)后,中央服務(wù)器根據(jù)各參與方更新參數(shù)的聚合結(jié)果,并對(duì)全局模型的參數(shù)進(jìn)行更新。更新后的參數(shù)被重新發(fā)送至各數(shù)據(jù)擁有者Pj,各數(shù)據(jù)擁有者Pj重新利用自己的本地?cái)?shù)據(jù)進(jìn)行訓(xùn)練模型,重復(fù)本地訓(xùn)練階段,直到全局模型的各項(xiàng)性能指標(biāo)滿足任務(wù)發(fā)布者的要求后,聯(lián)邦學(xué)習(xí)階段結(jié)束。 由于構(gòu)造的方案中各方參與者都是理性自利的,他們會(huì)為了使自身利益得到最大化選擇最優(yōu)的行動(dòng)策略。在該方案中,根據(jù)雙方簽署的激勵(lì)合約,一旦有參與者選擇偏離方案的惡意行為,將會(huì)受到嚴(yán)重的資金懲罰。各參與方通過(guò)激勵(lì)合約約束并激勵(lì)自己遵守方案,降低各參與方通信的風(fēng)險(xiǎn),并提高聯(lián)邦學(xué)習(xí)的通信效率。高效聯(lián)邦學(xué)習(xí)系統(tǒng)架構(gòu)如圖2 所示。 圖2 高效聯(lián)邦學(xué)習(xí)系統(tǒng)架構(gòu)Fig.2 Architecture of efficient federated learning system 本文從安全性分析基于博弈論優(yōu)化的高效聯(lián)邦學(xué)習(xí)方案。 定理1本文聯(lián)邦學(xué)習(xí)方案具有安全性。 證明在聯(lián)邦學(xué)習(xí)的本地訓(xùn)練階段中,各數(shù)據(jù)擁有者采用Micali-Rabin 隨機(jī)向量表示技術(shù)對(duì)承諾值1 ≤l≤3k進(jìn)行3k行承諾。在聚合驗(yàn)證階段中,任務(wù)發(fā)布者Pi與各數(shù)據(jù)擁有者Pj進(jìn)行交互式證明,以驗(yàn)證承諾值的正確性。各數(shù)據(jù)擁有者在安全通道中向任務(wù)發(fā)布者打開承諾分量以保證更新參數(shù)的安全性與隱私性。 本文從正確性分析基于博弈論優(yōu)化的高效聯(lián)邦學(xué)習(xí)方案。 定理2本文聯(lián)邦學(xué)習(xí)方案具有正確性。 證明本文聯(lián)邦學(xué)習(xí)方案中,如果任務(wù)發(fā)布者Pi與各數(shù)據(jù)擁有者Pj嚴(yán)格按照合約進(jìn)行執(zhí)行,那么雙方都會(huì)選擇最優(yōu)的行動(dòng)策略執(zhí)行方案。在方案的初始化階段,任務(wù)發(fā)布者和滿足條件的數(shù)據(jù)擁有者簽署激勵(lì)合約,以建立安全的連接。在本地訓(xùn)練和聚合驗(yàn)證階段,數(shù)據(jù)擁有者將更新的參數(shù)和承諾值返回至中央服務(wù)器。若數(shù)據(jù)擁有者選擇行動(dòng)策略sj2,即“惡意”的行動(dòng)策略,那么得到的效用收益為因?yàn)椴呗詓j2的取值為0,所以由式(9)可以將其效用收益化簡(jiǎn)寫為對(duì)應(yīng)任務(wù)發(fā)布者的效用收益為當(dāng)參與方達(dá)到最大收益時(shí)π′=ksj2+φ=φ,且φ服從正態(tài)分布,因此,本文方案的雙方總期望效用為E(π)=E(ksj2+φ)=ksj2=0,無(wú)法達(dá)到帕累托最優(yōu)狀態(tài)。根據(jù)激勵(lì)合約的規(guī)定,選擇行動(dòng)策略sj2的參與方將受到嚴(yán)重的懲罰。 由于雙方都是理性的,在方案中為了自身利益最大化不會(huì)選擇不利于自己的行動(dòng)策略,只有雙方都選擇最優(yōu)策略,全局才能達(dá)到最優(yōu)狀態(tài)πmax=ks+φ,且參與者都能獲得最優(yōu)收益,全局達(dá)到帕累托最優(yōu)狀態(tài)。因此,該高效聯(lián)邦學(xué)習(xí)方案是正確的。 本文從公平性分析基于博弈論優(yōu)化的高效聯(lián)邦學(xué)習(xí)方案。 定理3本文聯(lián)邦學(xué)習(xí)方案具有公平性。 證明在高效聯(lián)邦學(xué)習(xí)方案中,所有參與者都是理性自私的,為了自身利益的最大化可以隨意選擇自己的行動(dòng)策略。為保證本文方案的公平性,在方案的初始化階段中,任務(wù)發(fā)布者需要與數(shù)據(jù)擁有者簽署激勵(lì)合約,嚴(yán)格按照合約的要求執(zhí)行。 雙方選擇的策略在激勵(lì)合約中的取值為“0”或“1”。一種情況是雙方根據(jù)自己的效用函數(shù)Ui和Uj判斷雙方是否存在偏離方案的惡意行為,如果有惡意行為,它們總的期望效用E(π)=E(ks+φ)的結(jié)果為“0”。根據(jù)策略s可以找出惡意參與者,并對(duì)其進(jìn)行懲罰。另一種情況是根據(jù)上傳至中央服務(wù)器的承諾值判斷是否存在惡意參與者,根據(jù)方案的安全性分析可知,任何參與者都無(wú)法更改或者虛假地更新參數(shù),因此,本文方案對(duì)于所有參與者都是公平的。 不同方案的安全性、正確性和公平性對(duì)比如表1所示,其中,“√”表示方案滿足上述性質(zhì),“×”表示方案不滿足上述性質(zhì)。 表1 不同方案的性能對(duì)比Table 1 Performances comparison among different schemes 從表1 可以看出,現(xiàn)有的大多數(shù)聯(lián)邦學(xué)習(xí)方案考慮方案的安全性,但是通常認(rèn)為參與者都是誠(chéng)實(shí)的,未考慮到參與者的自利行為,即對(duì)方案的公平性方面考慮的較少,這也是影響聯(lián)邦學(xué)習(xí)效率與應(yīng)用的原因之一。 本文借鑒文獻(xiàn)[24]的數(shù)字分類數(shù)據(jù)集MINIST對(duì)本文方案進(jìn)行模擬評(píng)估。本文選擇60 000 條訓(xùn)練數(shù)據(jù)示例,其中包含1 個(gè)任務(wù)發(fā)布者和50 個(gè)數(shù)據(jù)擁有者,用于執(zhí)行數(shù)據(jù)訓(xùn)練分類任務(wù)。數(shù)據(jù)擁有者首先與可以接受模型訓(xùn)練的數(shù)據(jù)擁有者簽訂激勵(lì)合約。簽訂合約的數(shù)據(jù)擁有者根據(jù)任務(wù)發(fā)布者上傳的任務(wù),隨機(jī)分配需要訓(xùn)練的數(shù)據(jù)集,并作為本地的訓(xùn)練數(shù)據(jù)。 為驗(yàn)證激勵(lì)合約的有效性,本文分別對(duì)簽署和未簽署激勵(lì)合約的參與者進(jìn)行聯(lián)邦學(xué)習(xí),并對(duì)擁有不同數(shù)據(jù)字節(jié)長(zhǎng)度的擁有者利益和任務(wù)發(fā)布者的利益關(guān)系進(jìn)行分析討論。簽署與未簽署激勵(lì)合約的總期望效用對(duì)比如圖3 所示。從圖3 可以看出,當(dāng)擁有者的數(shù)據(jù)字節(jié)長(zhǎng)度分別為2、4 和6 Byte 時(shí),無(wú)論數(shù)據(jù)類型為何種的數(shù)據(jù)擁有者,他們與任務(wù)發(fā)布者之間的效用只有當(dāng)都選擇簽署激勵(lì)合約時(shí),雙方的效用才最大,此時(shí)方案全局的利益也最大,即達(dá)到帕累托最優(yōu)狀態(tài)。 圖3 簽署與未簽署激勵(lì)合約的總期望效用對(duì)比Fig.3 Total expected utility comparison of signed and unsigned incentive contracts 本文對(duì)任務(wù)發(fā)布者和數(shù)據(jù)擁有者的激勵(lì)策略進(jìn)行分析,確定任務(wù)發(fā)布者給予的激勵(lì)金額大小與數(shù)據(jù)訓(xùn)練精確度之間的關(guān)系。數(shù)據(jù)的精確度隨獎(jiǎng)勵(lì)金額的變化趨勢(shì)如圖4 所示。隨著任務(wù)發(fā)布者提供的激勵(lì)獎(jiǎng)勵(lì)的增加,擁有不同數(shù)據(jù)類型數(shù)據(jù)擁有者的數(shù)據(jù)訓(xùn)練精確度從65%逐步提高至98%。在本文激勵(lì)合約下,當(dāng)任務(wù)發(fā)布者的激勵(lì)獎(jiǎng)勵(lì)越高時(shí),越能激勵(lì)數(shù)據(jù)擁有者進(jìn)行模型訓(xùn)練,最終獲得的數(shù)據(jù)質(zhì)量也越高,從而實(shí)現(xiàn)高效的聯(lián)邦學(xué)習(xí)。 圖4 不同獎(jiǎng)勵(lì)金額下數(shù)據(jù)的精確度Fig.4 Accuracy of data under different reward amounts 簽署與未簽署激勵(lì)合約擁有者的通信消耗能量對(duì)比如圖5 所示。當(dāng)未簽署與簽署激勵(lì)合約的數(shù)據(jù)擁有者從0~50 逐漸增加時(shí),其通信開銷發(fā)生了很大的變化。從圖5 可以看出:當(dāng)參與者未簽署激勵(lì)合約時(shí),其數(shù)據(jù)擁有者越多,通信開銷越大;有激勵(lì)合約的參與者通信開銷幾乎無(wú)變化,驗(yàn)證了本文聯(lián)邦學(xué)習(xí)方案的高效性。 圖5 簽署與未簽署激勵(lì)合約擁有者的通信消耗能量對(duì)比Fig.5 Energy consumption of communication comparison of owner with and without incentive contracts 本文方案性能的影響因素是參與者的自利性行為。若參與者是自私惡意的,在方案執(zhí)行過(guò)程中,由雙方的激勵(lì)合約可知,雙方將根據(jù)效用函數(shù)對(duì)自私惡意的參與者進(jìn)行懲罰,并且阻止方案繼續(xù)執(zhí)行。不同參與者行為聯(lián)邦學(xué)習(xí)效率變化如圖6所示。當(dāng)擁有不同數(shù)據(jù)類型的參與者若存在自私惡意的數(shù)據(jù)擁有者,方案的效率將降低。 圖6 不同參與者的聯(lián)邦學(xué)習(xí)效率對(duì)比Fig.6 Efficiency of federated learning comparison among different participants 本文設(shè)計(jì)的方案中用戶的獎(jiǎng)勵(lì)越大,其選擇積極策略的可能性越大,獲得的數(shù)據(jù)準(zhǔn)確度也越高,用戶的通信消耗量遠(yuǎn)遠(yuǎn)小于用戶未簽署激勵(lì)合約的通信量。當(dāng)擁有不同數(shù)據(jù)類型的參與者存在理性惡意的數(shù)據(jù)擁有者時(shí),極大影響聯(lián)邦學(xué)習(xí)的效率,從而影響雙方效用收益。因此,本文設(shè)計(jì)的方案是有效的。 本文提出基于博弈論優(yōu)化的高效聯(lián)邦學(xué)習(xí)方案,利用博弈論激勵(lì)高質(zhì)量的數(shù)據(jù)擁有者和任務(wù)發(fā)布者,同時(shí)結(jié)合Micali-Rabin 隨機(jī)向量表示技術(shù)和Pedersen 承諾方案,實(shí)現(xiàn)高效聯(lián)邦學(xué)習(xí)的隱私保護(hù)。仿真結(jié)果表明,該方案不僅使得全局參與者達(dá)到帕累托最優(yōu)狀態(tài),而且為聯(lián)邦學(xué)習(xí)的各參與者的利益和數(shù)據(jù)隱私提供了保證。后續(xù)將在多任務(wù)者同時(shí)發(fā)布模型訓(xùn)練任務(wù)的前提下,從不同的角度和應(yīng)用場(chǎng)景中研究聯(lián)邦學(xué)習(xí),進(jìn)一步提高學(xué)習(xí)效率。2 聯(lián)邦學(xué)習(xí)博弈模型
2.1 參與者集合
2.2 外生隨機(jī)變量
2.3 策略集合
2.4 支付函數(shù)
2.5 風(fēng)險(xiǎn)規(guī)避
2.6 期望效用函數(shù)
2.7 總期望效用
3 高效聯(lián)邦學(xué)習(xí)方案
3.1 初始化階段
3.2 本地訓(xùn)練階段
3.3 聚合驗(yàn)證階段
3.4 模型更新階段
4 方案分析
4.1 安全性分析
4.2 正確性分析
4.3 公平性分析
4.4 方案性能分析
5 實(shí)驗(yàn)仿真
6 結(jié)束語(yǔ)