朱 悅 莊媛媛
1(北京科技創(chuàng)新中心研究基地 北京 100083)2(深圳市灣區(qū)數(shù)字經(jīng)濟(jì)與科技研究院 廣東深圳 518126)
聯(lián)邦學(xué)習(xí)被視為“破解‘?dāng)?shù)據(jù)孤島’與‘?dāng)?shù)據(jù)隱私’兩難困境”的新范式與思路,具備廣泛應(yīng)用潛力[1].然而,在《中華人民共和國個人信息保護(hù)法》(以下簡稱《個人信息保護(hù)法》)等數(shù)據(jù)隱私法律的視角,無論是聯(lián)邦學(xué)習(xí)還是其他隱私計算技術(shù),其合規(guī)性均缺乏足夠確定和具體的結(jié)論.針對這些技術(shù),法學(xué)領(lǐng)域還時常有“法律上的不確定性”“迷思”甚至“科學(xué)烏托邦主義”等疑惑或批評[2-4].需要更加緊密地結(jié)合技術(shù)與法律,特別是結(jié)合技術(shù)的實現(xiàn)細(xì)節(jié)與法律的概念體系,就聯(lián)邦學(xué)習(xí)和其他隱私計算技術(shù)給出更確定、具體的分析框架和結(jié)論.回應(yīng)疑惑與批評并為新范式和新思路發(fā)揮應(yīng)用潛力鋪路.
關(guān)注聯(lián)邦學(xué)習(xí)的技術(shù)和法律從業(yè)者正“雙向奔赴”,但二者仍有清晰界限.技術(shù)側(cè)在相當(dāng)程度混同隱私與安全,缺乏對法律核心概念的精細(xì)分析.技術(shù)層面安全措施與合規(guī)性的分析判斷,因而存在邏輯上的斷裂.法律側(cè)分析常缺乏對技術(shù)的精細(xì)了解,其從業(yè)者難以斷言聯(lián)邦學(xué)習(xí)是否合規(guī).
技術(shù)側(cè)多有關(guān)注聯(lián)邦學(xué)習(xí)隱私問題的研究.但無論全面綜述,還是特定場景的分析,出發(fā)點都是技術(shù)視角的威脅模型,或未必能夠與數(shù)據(jù)隱私法概念形成嚴(yán)格對應(yīng)的隱私模型,如k-匿名、差分隱私等[5-7].隨著結(jié)合技術(shù)與法律的需要日益迫切,也有在數(shù)據(jù)隱私法,如《通用數(shù)據(jù)保護(hù)條例》(GDPR)下的研究[8].其首先展示GDPR主要規(guī)定,再展開每一規(guī)定對應(yīng)、可能發(fā)生的隱私和安全風(fēng)險.這已接近本文的思路,唯其從法律到風(fēng)險的推理更多是直觀上相關(guān),而非基于法律解釋和適用的邏輯.本文可視為2個角度上的改進(jìn):1)在中國視角下展開分析,兼顧GDPR;2)更加牢固地將從法律到風(fēng)險的推理建立在法律解釋和適用的基礎(chǔ)上.
法律側(cè)對聯(lián)邦學(xué)習(xí)的關(guān)注頗多,絕大部分為針對技術(shù)類別的整體判斷,甚少深入細(xì)節(jié).如指出聯(lián)邦學(xué)習(xí)僅傳遞梯度或參數(shù)、而不傳遞原始數(shù)據(jù)的思路能夠強(qiáng)化隱私保護(hù)和安全性,但仍然存在法律上的不確定性[2-9].這些過分穩(wěn)健的判斷很難為聯(lián)邦學(xué)習(xí)充分發(fā)揮應(yīng)用潛力提供足夠保障.少量研究實現(xiàn)了緊密結(jié)合.如對于受“模型反轉(zhuǎn)”或“成員推斷”影響的模型,因其落入GDPR下“與個人相關(guān)的信息”范疇,故而應(yīng)當(dāng)認(rèn)定為個人信息[10].相應(yīng)研究為本文定性具體的數(shù)據(jù)流提供了有益的分析和結(jié)論.缺憾在于:類似研究尚不足以覆蓋聯(lián)邦學(xué)習(xí)架構(gòu)全景,只能援引用于判斷其中個別組件.從法律視角出發(fā),本文改進(jìn)處即在于將相應(yīng)研究思路推廣到聯(lián)邦學(xué)習(xí)架構(gòu)全景.
綜上,本文選取3種較成熟的聯(lián)邦學(xué)習(xí)架構(gòu):服務(wù)器-客戶端橫向架構(gòu)、點對點橫向架構(gòu)、有協(xié)調(diào)第三方的縱向架構(gòu)[5].每種架構(gòu)綜述均包含執(zhí)行步驟或偽代碼.先概覽框架整體思路,后基于適用于所有類別架構(gòu)的個人信息保護(hù)規(guī)定,展開分析框架,將其適用于上述步驟和偽代碼,即分析框架可直接將(偽)代碼作為輸入,從而聚焦具體技術(shù)實現(xiàn),而非抽象的技術(shù)類別.執(zhí)行步驟中的黑體字標(biāo)識了需要進(jìn)一步分析的數(shù)據(jù)流(如表1所示).
2.1 框架概覽
本文著眼合規(guī)、數(shù)據(jù)隱私的法律要求,故《個人信息保護(hù)法》是分析起點.《個人信息保護(hù)法》適用于個人信息處理,為自主決定個人信息處理目的與方式的不同類型主體設(shè)定了責(zé)任義務(wù),未能履行責(zé)任義務(wù)將致合規(guī)風(fēng)險.循此,首先需要基于具體技術(shù)實現(xiàn),定性其中哪些數(shù)據(jù)流屬于個人信息.然后是識別相應(yīng)信息上的處理,包括收集、傳輸、提供、匿名化等.再識別哪些主體實施了這些處理活動,以及這些主體的法律性質(zhì).知曉其法律性質(zhì)以后,即可梳理需承擔(dān)的責(zé)任義務(wù).這些責(zé)任義務(wù)也就對應(yīng)于潛在的合規(guī)風(fēng)險項(如圖1所示).
2.1.1 識別規(guī)定
首先是個人信息認(rèn)定:僅當(dāng)涉及個人信息處理,才需要個人信息合規(guī).此處 “對偶”概念,《個人信息保護(hù)法》第四條:“個人信息是以電子或者其他方式記錄的與已識別或者可識別的自然人有關(guān)的各種信息,不包括匿名化處理后的信息.”按第七十三條(四):匿名化是指“個人信息經(jīng)過處理無法識別特定自然人且不能復(fù)原的過程”.二者解釋的展開均依賴于對“(可)識別”“有關(guān)”與“復(fù)原”的解釋.故給定待判斷的信息,結(jié)合既有釋義與比較方法,可將“個人信息”和“匿名化”解釋展開為4部分:
1) 是否已與其他個人信息,特別是識別符相關(guān)聯(lián).這點相當(dāng)簡明,是“(與)自然人有關(guān)”的展開:已經(jīng)與信息主體的身份證號、電話號碼、cookie ID等標(biāo)識符建立關(guān)聯(lián)的信息都應(yīng)認(rèn)定為個人信息.實踐中多用于判斷訓(xùn)練集和測試集中原始數(shù)據(jù)的性質(zhì).作為中間產(chǎn)物的梯度、參數(shù)等數(shù)據(jù)的判斷通常需進(jìn)入后續(xù)步驟.
2) 綜合考慮處理目的、信息內(nèi)容與處理影響,是否傾向于認(rèn)定為(可)識別個人或與個人有關(guān).這點相對復(fù)雜,但確系近期執(zhí)法中的趨勢.無論是相對簡單的ID,還是更加復(fù)雜的加密值或哈希值,或?qū)θ硕詿o意義的中間產(chǎn)物,實踐認(rèn)定都不容易.因此,可謂“自證”信息是否具備可識別性的處理目的是執(zhí)法中易用的參照.如果相應(yīng)信息的處理目的是區(qū)分、關(guān)聯(lián)個體或者在個體層面推斷,又或與前3類目的密切相關(guān)的個體去重、個性化或制作個體指紋,都是認(rèn)定可識別性的有力根據(jù).信息內(nèi)容與處理影響的重要性相對處理目的而言較低,但如果信息內(nèi)容仍可視為與個體相關(guān),如個體人臉特征或信息處理將在個體層面造成顯著影響,這些都是傾向于認(rèn)定為個人信息的因素.實踐中,僅處理目的足以認(rèn)定.后二者一般用于說理的輔助性因素.
3) 全面考慮區(qū)分、關(guān)聯(lián)與推斷3類風(fēng)險,是否傾向于認(rèn)定為(可)識別個人或與個人有關(guān).第2步是執(zhí)法中易用、從而對聯(lián)邦學(xué)習(xí)參與方而言亦易用的判斷是否是個人信息的因素.證非難于證是:為認(rèn)定特定信息不是個人信息,尚需徹底排除相應(yīng)信息的可識別風(fēng)險.為此,具體需排除3類識別風(fēng)險:①區(qū)分指將個體從群體中區(qū)分出來,從而可能在處理信息時單獨對待;②關(guān)聯(lián)指關(guān)聯(lián)屬于同一個體的不同信息;③推斷指相對既有信息而言,推斷個體的更多信息.在聯(lián)邦學(xué)習(xí)中,區(qū)分風(fēng)險主要關(guān)注是否存在ID或類似ID的數(shù)據(jù).關(guān)聯(lián)風(fēng)險主要來自去重,即意味著能夠關(guān)聯(lián)同一個體的不同信息.推斷風(fēng)險則與學(xué)習(xí)任務(wù)密切相關(guān),主要關(guān)注任務(wù)是否施行個體層面的推斷.排除3類識別風(fēng)險時,很大程度上可以復(fù)用前2步的結(jié)果.
4) 復(fù)原原始個人信息的成本是否非常高昂[11].來自我國立法機(jī)關(guān)的觀點可視為對聯(lián)邦學(xué)習(xí)參與方有利“兜底”項.盡管這步不影響訓(xùn)練集或測試集中原始個人信息的認(rèn)定,對中間產(chǎn)物而言,即使前3步下傾向于認(rèn)定為個人信息,如果復(fù)原原始個人信息的成本非常高或?qū)嶋H不可能,則仍可排除其屬于個人信息,從而不涉及個人信息合規(guī).
以上展開了認(rèn)定是否“個人信息”的步驟.這與認(rèn)定“匿名化”是否成功一致:對匿名化后的信息適用各步驟,如已不屬于個人信息,則匿名化成功.
可以與認(rèn)定個人信息一同開展的是認(rèn)定個人信息處理行為.按第四條:處理行為包括“個人信息的收集、存儲、使用、加工、傳輸、提供、公開、刪除等.”處理行為是開放性定義,不限于第四條列舉的類別.換言之,對聯(lián)邦學(xué)習(xí)涉及的每一類個人信息,需同時明確其是否、如何、具體由哪些參與方生成、收集、存儲、傳輸、提供、加密和刪除.這是后續(xù)步驟的前置工作,對履行一般意義上的個人信息合規(guī)義務(wù)亦有意義.
下一個重要步驟則是認(rèn)定個人信息的處理者.第七十三條(一):“個人信息處理者,是指在個人信息處理活動中自主決定處理目的、處理方式的組織、個人.”作為(共同)處理者的組織、個人(共同)履行個人信息合規(guī)的主要義務(wù)、承擔(dān)主要責(zé)任.故對期待通過“可用不可見”的聯(lián)邦學(xué)習(xí)清晰劃分、隔離義務(wù)、責(zé)任的聯(lián)邦學(xué)習(xí)參與方而言,各方是否構(gòu)成(共同)處理者至關(guān)重要.此處又分4步:
1) 識別各類個人信息各自對應(yīng)的處理行為.這是前置步驟,又是認(rèn)定處理者的起點.處理者認(rèn)定的單位是處理行為,即每個處理行為都應(yīng)有至少1個處理者,不同處理行為可以有不同處理者.處理者對相應(yīng)的處理行為履行義務(wù)、承擔(dān)責(zé)任.如果沒有識別所有個人信息對應(yīng)的處理行為,處理者的識別不完整,義務(wù)和責(zé)任的承擔(dān)情況不清晰.
2) 對特定處理行為,決定處理目的的參與方很可能認(rèn)定為處理者.這通常是直觀的:決定為什么要施行處理行為的參與方,除非完全不參與決定實質(zhì)性的處理方式,否則構(gòu)成處理者.如果多個參與方共同決定為什么施行行為,且均參與決定實質(zhì)性的處理方式,則構(gòu)成共同處理者.此處的共同決定需要意思聯(lián)絡(luò),亦即相應(yīng)參與方明示或暗示對處理目的的意愿.在聯(lián)邦學(xué)習(xí)場景下,生成、收集、存儲、傳輸、提供、加密等各處理行為常服務(wù)于學(xué)習(xí)任務(wù),故誰決定學(xué)習(xí)任務(wù)是認(rèn)定處理者的重要因素.
3) 對特定處理行為,是否決定實質(zhì)性處理方式也是認(rèn)定處理者的重要因素.結(jié)合第十七條(二)、第二十一條和第二十三條,實質(zhì)性處理方式包括處理的個人信息類型、保存期限、向其他處理者提供.由此,決定或參與決定處理目的,且決定處理類型、保存期限和向外提供的個人或組織構(gòu)成處理者.僅決定實質(zhì)性處理方式、未決定或參與決定處理目的和方式的個人或組織則不構(gòu)成處理者.在聯(lián)邦學(xué)習(xí)中,最值得考慮的實質(zhì)性處理方式是保存期限和向外提供.
4) 綜合考慮是否受酬、參與方關(guān)系、組織性質(zhì)和信息內(nèi)容等因素.如果僅憑前3步無法認(rèn)定處理者,對相應(yīng)處理行為和參與方,可綜合3類因素輔助判斷:如果參與方因處理行為受酬或在處理行為上存在其他利益,如果相應(yīng)參與方間存在支配隸屬關(guān)系(特別是對施行處理行為的參與方有支配隸屬關(guān)系),又如果組織性質(zhì)和信息內(nèi)容間存在密切聯(lián)系,這些都是傾向于認(rèn)定為處理者的因素.這些因素體現(xiàn)了法律上傳統(tǒng)的歸責(zé)原則.
以上為認(rèn)定“個人信息處理者”的步驟.之外,接受處理者委托處理、但不能自主決定處理目的和方式的組織、個人構(gòu)成受托方,承擔(dān)程度較輕的個人信息合規(guī)義務(wù)和責(zé)任.既不構(gòu)成處理者又不構(gòu)成受托方的組織,個人通常無須承擔(dān)個人信息合規(guī)義務(wù)和責(zé)任.
最后是根據(jù)參與方的性質(zhì)認(rèn)定識別其義務(wù)和責(zé)任.一般而言,處理者需要就其任何處理行為取得相應(yīng)合法性基礎(chǔ)(第十三條)、向信息主體告知事項(第十七條)、響應(yīng)信息主體行使其權(quán)利的請求(第四章)、采取信息安全措施(第五十一條)、開展個人信息影響評估(第五十五和五十六條)以及發(fā)生個人信息泄露時的補(bǔ)救和通知(第五十七條)…….個人信息處理者對個人信息權(quán)益侵害承擔(dān)侵權(quán)責(zé)任(第六十九條),個人共同處理者對個人信息權(quán)益侵害依法承擔(dān)連帶責(zé)任(第二十條).受托方的義務(wù)和責(zé)任主要源于和處理者的約定(第二十一條).即處理者是義務(wù)和責(zé)任的主要承擔(dān)方,故需要分析、識別并解決的合規(guī)風(fēng)險.
2.1.2 定性數(shù)據(jù)流
第1步是根據(jù)聯(lián)邦學(xué)習(xí)的步驟(如表2所示),認(rèn)定其間數(shù)據(jù)流所包含的個人信息.
1) 服務(wù)器-客戶端橫向架構(gòu).
如果計算任務(wù)與個人信息無關(guān),則無須討論個人信息合規(guī).本文聚焦與個人信息有關(guān)的計算任務(wù),如利用客戶端數(shù)據(jù)學(xué)習(xí)推薦模型.此類架構(gòu)通常為企業(yè)利用分散在個人終端設(shè)備上的數(shù)據(jù)學(xué)習(xí),故假設(shè)企業(yè)控制服務(wù)器端,個人(通常為用戶)控制客戶端.進(jìn)一步假設(shè)服務(wù)器端也是聯(lián)邦學(xué)習(xí)技術(shù)方案的設(shè)計、實施和支持者,如果此假設(shè)不滿足,后文對(共同)處理者的認(rèn)定可能受到影響.基于假設(shè),所涉5類數(shù)據(jù)可定性如下:
① 計算任務(wù).通常不與特定個人存在任何關(guān)系,很難被視為個人信息.但其可能影響其他數(shù)據(jù)、相應(yīng)處理行為和處理者的認(rèn)定.具體地,計算任務(wù)可能清晰揭示個人數(shù)據(jù)的處理目的與處理行為的步驟.計算任務(wù)由哪一參與方?jīng)Q定和具體編寫,則與處理者認(rèn)定密切相關(guān).故計算任務(wù)通常不屬于個人信息,但在合規(guī)中發(fā)揮重要作用.
② 客戶端數(shù)據(jù).與個人信息有關(guān)的計算任務(wù)涉及的客戶端數(shù)據(jù)通常構(gòu)成個人信息,或至少有部分為個人信息.由于終端設(shè)備可能認(rèn)定為私密空間,其中信息認(rèn)定為私密信息,客戶端數(shù)據(jù)有時需在隱私權(quán)而非個人信息權(quán)益的語境下分析.個人信息保護(hù)規(guī)定或因此不適用,或競合適用,具體事實具體分析.
③ 客戶端模型.因其復(fù)雜難以解釋,一般情況下不認(rèn)定為個人信息.但需考慮存在成本合理的成員推斷攻擊此額外情況.如成員推斷攻擊成立,從客戶端模型可以推導(dǎo)出構(gòu)成個人信息的訓(xùn)練數(shù)據(jù),故也是與自然人有關(guān)的數(shù)據(jù),可能認(rèn)定為個人信息.步驟2,3不適用于模型,故徑至步驟4的排除.如果成員推斷攻擊的成本很高或不可能,則可將客戶端模型排除在個人信息之外;否則需視為個人信息.
④ 模型參數(shù).個人信息認(rèn)定中最關(guān)鍵的一類數(shù)據(jù).僅憑步驟1通常無法判斷,故從步驟2開始.核心是處理目的,可以從計算任務(wù)和其他代碼、文檔中識別.如果生成、傳輸參數(shù)的目的,亦即聯(lián)邦學(xué)習(xí)計算任務(wù)的目的為區(qū)分、關(guān)聯(lián)、推斷或類似目的,即使模型參數(shù)對人而言沒有意義,也可能構(gòu)成個人信息.如果參數(shù)的內(nèi)容與特定個體有關(guān),例如可以視為個體信息的表征,或者聯(lián)邦學(xué)習(xí)任務(wù)在個人信息保護(hù)意義下對個人權(quán)益有重大影響(第五十五條),也都是傾向認(rèn)定為個人信息的因素.取決于參數(shù)的具體形式或內(nèi)容,步驟4可能適用.如在傳輸梯度中,實施深度泄露攻擊,從而重建訓(xùn)練數(shù)據(jù)的成本決定了是否可以將梯度排除出個人信息.綜之,模型參數(shù)可能構(gòu)成個人信息,具體結(jié)論取決于與參數(shù)形式相關(guān)的攻擊實施成本.
⑤ 加總參數(shù).加總可降低個人信息的合規(guī)風(fēng)險,是匿名化處理常見方式.在聯(lián)邦學(xué)習(xí)中,加總降低風(fēng)險的多少和匿名化的成功與否主要取決于加總范圍大小,或加總終端設(shè)備多少.并無固定閾值,但千量級閾值在執(zhí)法和業(yè)界實踐中較常見.考慮到模型參數(shù)對人沒有意義,本身具備一定去識別意義,千量級在此語境中是相當(dāng)安全的閾值.
總之,計算任務(wù)通常不屬于個人信息,但對認(rèn)定其他類型個人信息和后續(xù)合規(guī)步驟有意義.客戶端數(shù)據(jù)為個人信息.其他3類數(shù)據(jù)在一定情況下為個人信息,依賴于相應(yīng)攻擊成本或數(shù)量閾值.
2) 點對點橫向架構(gòu).
假定計算任務(wù)與個人有關(guān),并假定參與學(xué)習(xí)的終端設(shè)備均由個人控制.此處沒有服務(wù)器端,但有設(shè)計、實施和支持技術(shù)方案的相應(yīng)支持方.基于相應(yīng)假設(shè),所涉4類數(shù)據(jù)可定性如下:
① 模型更新.與第1類架構(gòu)中的模型參數(shù)相似,模型參數(shù)可能構(gòu)成個人信息,具體結(jié)論取決于與相關(guān)攻擊實施成本.
② 本地數(shù)據(jù).如前所述,個人信息有關(guān)的計算任務(wù)的本地數(shù)據(jù)通常構(gòu)成個人信息,或者至少有一部分為個人信息.也需具體情況具體分析情況.
③ 本地模型.如前所述,本地模型可能構(gòu)成個人信息,具體取決于成員推斷攻擊實施成本.
④ 通信網(wǎng)絡(luò)結(jié)構(gòu).是點對點橫向架構(gòu)中獨特的信息類型.此述網(wǎng)絡(luò)結(jié)構(gòu),指的是對任一終端設(shè)備而言、其他哪些終端設(shè)備將與之傳輸更新梯度.或者任一終端設(shè)備可能與之傳輸作為個人信息的模型更新范圍.無論是全連接的點對點架構(gòu)還是均勻生成網(wǎng)絡(luò)連接的隨機(jī)架構(gòu),由網(wǎng)絡(luò)結(jié)構(gòu)通常不足以區(qū)分特定終端設(shè)備.故一般不構(gòu)成個人信息.由于向外提供的范圍屬于個人信息處理的實質(zhì)性方式,結(jié)構(gòu)或與認(rèn)定處理者等后續(xù)步驟有關(guān).之外,如果采取比全連接或均勻生成更加復(fù)雜、有區(qū)分性的網(wǎng)絡(luò)結(jié)構(gòu),通信網(wǎng)絡(luò)結(jié)構(gòu)仍有可能(概率不大)認(rèn)定為個人信息.
總之,本地數(shù)據(jù)為個人信息.通信網(wǎng)絡(luò)結(jié)構(gòu)通常不是,但對后續(xù)步驟有用.其他2類數(shù)據(jù)在一定情況下是個人信息,但依賴于攻擊成本.
3) 有協(xié)調(diào)第三方的縱向架構(gòu).
假設(shè)計算任務(wù)和各參與方自有數(shù)據(jù)均與個人有關(guān).縱向架構(gòu)通常用于企業(yè)對企業(yè)場景,故假設(shè)各參與方都是企業(yè),且為自有數(shù)據(jù)的處理者.本文進(jìn)一步假設(shè)協(xié)調(diào)方與各參與方相互獨立,假設(shè)是否成立影響到個人信息及相應(yīng)處理者的認(rèn)定.基于假設(shè),相應(yīng)5類數(shù)據(jù)可定性如下:
① 樣本ID.可能在多個步驟中得到判斷,但通常應(yīng)認(rèn)定為個人信息.樣本ID可能已與其他個人信息關(guān)聯(lián),其目的顯然是用于區(qū)分,本身意味著可能將對應(yīng)個體從群體中區(qū)分出來.綜之,步驟1,2,3中的每一步都足以認(rèn)定其為個人信息.因樣本ID本身就是個人信息保護(hù)意義下的原始數(shù)據(jù),步驟4在此也難以適用.
② 各參與方自有數(shù)據(jù).個人信息有關(guān)的計算任務(wù)涉及的參與方自有數(shù)據(jù)通常構(gòu)成個人信息,或者至少有一部分為個人信息.
③ 中間結(jié)果.通過同態(tài)加密技術(shù)交換中間結(jié)果可以實現(xiàn)損失和梯度的安全交換:在線性回歸模型設(shè)定下,中間結(jié)果是模型特征和相應(yīng)參數(shù)的1次和2次多項式,通過加或乘計算損失和梯度[12].中間結(jié)果的具體形式依賴于模型設(shè)定.譬如,如果需要在比線性回歸更加復(fù)雜的設(shè)定下實現(xiàn)縱向?qū)W習(xí),中間結(jié)果相應(yīng)以更復(fù)雜的形式依賴于模型特征和參數(shù),損失和梯度亦相應(yīng)以更復(fù)雜的形式依賴于中間結(jié)果.盡管中間結(jié)果通常不與其他個人信息直接關(guān)聯(lián),因其處理目的和識別風(fēng)險認(rèn)定為個人信息的概率也較低,如果可以循之求逆作為個人信息的特征、損失或梯度,則依然可以認(rèn)定為個人信息.求逆的成功率和成本依賴于模型設(shè)定,通常需要具體評估.
④ 損失和梯度.可能構(gòu)成個人信息,取決于相關(guān)攻擊實施成本.
⑤ 各參與方模型.可能構(gòu)成個人信息,具體取決于成員推斷攻擊實施成本.
總之,樣本ID和自有數(shù)據(jù)屬于個人信息.其他3類數(shù)據(jù)在一定情況下屬于個人信息取決于攻擊成本(見圖2“數(shù)據(jù)流定性”).
2.1.3 識別處理行為
承上,需識別每一類個人信息對應(yīng)處理行為.為分析簡便,假設(shè)構(gòu)成個人信息需滿足的條件全部滿足.以下仍按3類架構(gòu)順序展開.另外,每一類架構(gòu)的每一類信息都要經(jīng)歷不同方式加密處理,許多類型信息的其他處理行為亦以訪問為前提,為分析簡便,一律略去加密和訪問這2類處理行為(實踐不可略).
1) 服務(wù)器-客戶端橫向架構(gòu)涉及的3類個人信息.客戶端數(shù)據(jù)用于聯(lián)邦學(xué)習(xí),故其最主要的處理行為便是自動化決策.客戶端模型基于客戶端數(shù)據(jù)訓(xùn)練,準(zhǔn)確率相應(yīng)提升,可認(rèn)定為更正,或其他類似的處理行為,如訓(xùn)練(第四條就“處理”采取開放定義).模型參數(shù)至少經(jīng)過2類處理行為:傳輸至服務(wù)器端,以加總為其實現(xiàn)的匿名化.若模型參數(shù)在服務(wù)器端留存,應(yīng)至少增加收集和存儲2類處理行為.若加總未達(dá)匿名化閾值,則應(yīng)去除匿名化處理行為,并補(bǔ)充其他處理行為.此處假設(shè)參數(shù)不留存,且加總足以達(dá)到匿名化.
2) 點對點橫向架構(gòu)涉及的3類個人信息.如前所述,模型更新經(jīng)歷了傳輸?shù)狡渌K端設(shè)備的處理行為,由個體控制的終端設(shè)備提供給同樣控制終端設(shè)備的另一個體.模型更新亦可能相應(yīng)經(jīng)歷收集、存儲、匿名化等處理行為,此處暫不考慮.如前所述,本地數(shù)據(jù)上有自動化決策的處理行為,本地模型上有更正或其他類似的處理行為.
3) 有協(xié)調(diào)第三方縱向架構(gòu)涉及的5類個人信息.用于對齊的樣本ID經(jīng)歷了匹配的處理行為.如前,參與方自有數(shù)據(jù)上有自動化決策的處理行為.中間結(jié)果、損失和梯度上有傳輸?shù)奶幚硇袨?如果正確實施縱向?qū)W習(xí),各參與方的模型都不能被其他參與方或協(xié)調(diào)第三方所訪問.因此,各參與方模型上沒有處理行為(見圖2 “處理行為”).
2.1.4 定性主體
承上,需對每一處理行為識別相應(yīng)的個人信息處理者.為分析簡便,假定上文的匿名化條件達(dá)到.以下仍按3類架構(gòu)的順序展開.如前,服務(wù)器-客戶端橫向架構(gòu)中假設(shè)服務(wù)器端即為技術(shù)方案的設(shè)計、實施和支持者,點對點橫向架構(gòu)中假設(shè)存在獨立于個體之外的技術(shù)方案設(shè)計、實施和支持者,有協(xié)調(diào)第三方縱向架構(gòu)中假設(shè)存在獨立于參與方的協(xié)調(diào)者.任一假設(shè)不滿足都會實質(zhì)影響主體定性.
1) 服務(wù)器-客戶端橫向架構(gòu).此處相對簡明:服務(wù)器端決定了各項處理行為的目的和方式,因而構(gòu)成所有處理行為上的處理者.
2) 點對點橫向架構(gòu).此處同樣可以“打包”分析各類處理行為.技術(shù)支持方?jīng)Q定了傳輸和提供涉及的信息類型和通信范圍,這些處理行為進(jìn)一步服務(wù)于同樣由支持方?jīng)Q定其目的和方式的自動化決策和模型訓(xùn)練.因此,技術(shù)支持方是各類處理行為的處理者.盡管技術(shù)支持方完全有可能在全部處理行為上都避免訪問相應(yīng)信息,然而,是否訪問信息本就不是認(rèn)定處理者的決定性條件.相應(yīng)地,“不可見”并不足以豁免個人信息合規(guī)的義務(wù)和責(zé)任.
3) 有協(xié)調(diào)第三方的縱向架構(gòu).因縱向架構(gòu)涉及不同企業(yè)達(dá)成合意共同利用數(shù)據(jù)、學(xué)習(xí)模型,對各項處理行為而言,處理目的的意思聯(lián)絡(luò)都是清晰的.通常只需要分析實質(zhì)性處理方式.共同決定處理方式既包括各參與方基于意思聯(lián)絡(luò)施行處理方式,又包括各參與方間并無意思聯(lián)絡(luò)、但其各自行為結(jié)合導(dǎo)致施行處理方式,亦即缺乏任一參與方,則相應(yīng)處理方式不能施行.缺乏任一參與方,匹配、自動化決策、傳輸?shù)忍幚砭鶡o法發(fā)生.因此,各參與方都是各項處理行為上的共同處理者.協(xié)調(diào)方是否構(gòu)成共同處理者取決于3個條件:第1個是協(xié)調(diào)方在何種程度上參與各參與方間的協(xié)商;第2個是協(xié)調(diào)方在何種程度上對各項處理不可或缺,這一因素進(jìn)而取決于無協(xié)調(diào)第三方縱向架構(gòu)的實用性和成本;第3個是,如果僅憑前2個條件無法判斷,應(yīng)進(jìn)一步考慮是否受酬、與參與方關(guān)系、組織性質(zhì)和信息內(nèi)容等因素.由于當(dāng)前3個條件的回答都難以篤定,此處不明確結(jié)論(見圖2“主體定性”).
2.1.5 識別義務(wù)責(zé)任
定性個人信息并識別相應(yīng)處理行為和處理者后,剩下的便是標(biāo)準(zhǔn)的個人信息合規(guī)責(zé)任.如前,處理者承擔(dān)主要義務(wù)和責(zé)任,特別是需要為各項處理行為(這些處理行為與信息類型和處理目的形成嚴(yán)格的對應(yīng))取得合法性基礎(chǔ).對同意、為合同所必需等各項合法性基礎(chǔ),尚有進(jìn)一步的規(guī)定.處理者同時需要履行告知、響應(yīng)用戶權(quán)利請求、開展個人信息影響評估、采取安全措施等義務(wù).實踐履行這些義務(wù)并不困難,重要的是需要全面覆蓋所處理的個人信息,特別是參數(shù)等對人而言沒有意義、可能因而被忽略的個人信息.不再贅述.如果在跨境傳輸或涉敏感個人信息等場景中開展聯(lián)邦學(xué)習(xí),可能存在其他義務(wù).
2.1.6 合規(guī)風(fēng)險分析
法律適用錯誤和未能履行義務(wù)和合規(guī)風(fēng)險的2個主要來源:對關(guān)鍵法律概念的適用錯誤導(dǎo)致對合規(guī)義務(wù)認(rèn)識不全面.未能認(rèn)識則難以履行.已經(jīng)認(rèn)識到合規(guī)義務(wù),未能充分履行也會導(dǎo)致合規(guī)風(fēng)險.本節(jié)相應(yīng)收束整個合規(guī)框架,相應(yīng)導(dǎo)出合規(guī)風(fēng)險.
最根本的風(fēng)險是未能體系化、具體地適用《個人信息保護(hù)法》.無論是簡化的“可用不可見”替代法律分析,還是未及技術(shù)細(xì)節(jié)便對隱私計算的合規(guī)細(xì)節(jié)作出的消極判斷,都不可取.在(偽)代碼層面適用法律并無本質(zhì)性困難,相應(yīng)可得無法“一言以蔽之”的結(jié)論.然具體問題判斷未必一致,盡可能深入技術(shù)細(xì)節(jié),從而體系化、具體地識別合規(guī)義務(wù)和相應(yīng)風(fēng)險卻是應(yīng)采取的方法.即法律適用和合規(guī)義務(wù)的“顆粒度”都應(yīng)盡可能細(xì)化:不再只是對整個類型抽象判斷與合規(guī),無論是存有義務(wù)、需要履行,還是無義務(wù)、毋須履行,都需建立在對數(shù)據(jù)流、處理行為和處理者的具體判斷上.否則,可能遺漏需要保護(hù)的信息類型,忽視需要合規(guī)的處理行為,甚或承擔(dān)本可避免的責(zé)任.
第1層合規(guī)風(fēng)險來自數(shù)據(jù)流中個人信息定性:個人信息認(rèn)定有遺漏風(fēng)險;此外,若未能采取足夠安全措施,會有更多的個人信息需要后繼履行合規(guī)義務(wù).相應(yīng)導(dǎo)出3類更具體風(fēng)險: 1)對數(shù)據(jù)流及其間可能構(gòu)成個人信息的數(shù)據(jù)的識別、認(rèn)定不夠全面;2)涉及加總、拆分、遮罩等可能構(gòu)成匿名化處理方式時,相應(yīng)方式未能達(dá)到匿名化要求,如加總未達(dá)到數(shù)量閾值、拆分后各數(shù)據(jù)項仍與原始數(shù)據(jù)存在密切關(guān)聯(lián)等;3)未能采取充分安全措施,導(dǎo)致模型被認(rèn)定為個人信息.3類風(fēng)險應(yīng)對是共通的,都依賴于“個人信息”和“匿名化”的分層判斷.
第2層合規(guī)風(fēng)險來自處理行為定性:處理行為遺漏的風(fēng)險;另外,忽視“基于設(shè)計的隱私”、引入多余處理行為和合規(guī)風(fēng)險.可導(dǎo)出2類更具體的風(fēng)險:1)未能基于及時、準(zhǔn)確的個人信息處理記錄識別處理行為.此處的最佳實踐可能是結(jié)合靜態(tài)代碼及其動態(tài)運行而判斷.2)未能最小(少)化信息處理目的、留存期限和傳輸范圍,導(dǎo)致發(fā)生收集、提供等本無必要的(高風(fēng)險)處理行為.此處應(yīng)對方式既依賴于聯(lián)邦學(xué)習(xí)技術(shù)發(fā)展,又可考慮相應(yīng)搭建監(jiān)測和應(yīng)對功能,并將“基于設(shè)計的隱私”貫穿到技術(shù)本身及其監(jiān)測應(yīng)對當(dāng)中.
第3層合規(guī)風(fēng)險來自處理者定性.此處主要是處理者定性錯誤導(dǎo)致遺漏義務(wù)和責(zé)任的風(fēng)險.從寬界定(共同)處理者、提前明確約定相應(yīng)義務(wù)與責(zé)任將是最佳實踐.值得指出的是:聯(lián)邦學(xué)習(xí)技術(shù)本身的發(fā)展可能在很大程度上紓解這一風(fēng)險.如無協(xié)調(diào)第三方的縱向架構(gòu)將簡化有第三方架構(gòu)中復(fù)雜的、需要綜合考慮多因素的處理者分析.或者,聯(lián)邦學(xué)習(xí)的充分學(xué)習(xí)在合規(guī)層面的對應(yīng)結(jié)果之一即是充分“解耦”可能的共同處理.
第4層合規(guī)風(fēng)險來自標(biāo)準(zhǔn)的個人信息合規(guī)義務(wù).故可得5類具體合規(guī)風(fēng)險:1)沒有各項處理行為(這些處理行為應(yīng)與信息類型和處理目的形成嚴(yán)格的對應(yīng))取得合法性基礎(chǔ);2)沒有向信息主體告知處理行為和相應(yīng)的信息類型與處理目的;3)未能響應(yīng)信息主體針對參數(shù)等個人信息(及其處理)的查閱、更正、刪除、解釋說明等權(quán)利;4)沒有開展個人信息影響評估,或者是開展的個人信息影響評估沒有覆蓋上述信息類型和處理行為;5)沒有履行其他個人信息合規(guī)義務(wù),這一項可以視為“兜底”,由聯(lián)邦學(xué)習(xí)應(yīng)用的具體場景而定(如圖2所示).
框架基于3類聯(lián)邦學(xué)習(xí)架構(gòu),依托《個人信息保護(hù)法》,具體結(jié)論不能脫離這些架構(gòu)和法律,但仍可擴(kuò)展其適用范圍.1)框架也適用于其他類型的聯(lián)邦學(xué)習(xí)架構(gòu).只要有相應(yīng)的代碼、偽代碼或步驟即可.2)框架可納入其他法域個人信息保護(hù)規(guī)定.由于我國個人信息保護(hù)關(guān)鍵概念及其體系與GDPR的相似性,框架可推廣到GDPR下聯(lián)邦學(xué)習(xí)合規(guī)性評估.無論是GDPR下的個人數(shù)據(jù)、處理行為和個人數(shù)據(jù)控制者,還是認(rèn)定這些概念的分析體系,均可“無縫銜接”.此外,GDPR關(guān)鍵概念及其體系影響廣泛[13],框架可推廣至更多法域.3)凡有代碼、偽代碼或步驟也可施行,推至其他隱私計算技術(shù).可信執(zhí)行環(huán)境等軟硬件結(jié)合的隱私計算技術(shù),硬件合規(guī)分析更為復(fù)雜,恐無法完全覆蓋,需更深入結(jié)合技術(shù)的測試與分析.
本文建立一種6步驟聯(lián)邦學(xué)習(xí)合規(guī)分析框架,并給出經(jīng)典架構(gòu)具體結(jié)論.框架基于具體架構(gòu)和我國法律,可推至其他架構(gòu)、法域、隱私計算技術(shù).在最一般意義上,通過深入結(jié)合技術(shù)與法律,闡明《個人信息保護(hù)法》直接適用隱私計算技術(shù)實現(xiàn),并明確判斷其合規(guī)性.
正在制定、側(cè)重安全的隱私計算相關(guān)標(biāo)準(zhǔn)亦可考慮該思路:1)可顯式或隱式地將個人信息概念引入標(biāo)準(zhǔn).在定義部分明確關(guān)鍵數(shù)據(jù)項(如模型參數(shù))基礎(chǔ)上,確保“應(yīng)匿盡匿”,從而盡可能控制個人信息合規(guī)風(fēng)險.2)結(jié)合安全和“基于設(shè)計的隱私”,基于常見的針對數(shù)據(jù)出入和交互的測試、審計,在確保加密、刪除、匿名化等合規(guī)處理行為得到落實的同時,盡可能減少其他不必要的處理行為.3)結(jié)合安全和個人信息處理者的分析,在算法協(xié)議、計算任務(wù)的相關(guān)規(guī)范中落實清晰劃分義務(wù)和責(zé)任的安排,確保相應(yīng)安排有留痕、可取證.4)針對個人信息保護(hù)的合規(guī)義務(wù)相應(yīng)補(bǔ)全具體的控制項,至少包括合法性基礎(chǔ)、告知、影響評估等.如此,標(biāo)準(zhǔn)才能為有權(quán)解決個人信息保護(hù)糾紛的機(jī)關(guān)供給技術(shù)、法律充分結(jié)合的說理和結(jié)論,為合規(guī)結(jié)論長期未明確的隱私計算提供足夠的確定性.