面向異構(gòu)數(shù)據(jù)的個(gè)性化聯(lián)邦多任務(wù)學(xué)習(xí)優(yōu)化方法

2024-11-04 00:00:00李可王曉峰王虎

計(jì)算機(jī)應(yīng)用研究 2024年9期

摘要：

聯(lián)邦學(xué)習(xí)是一種新興的分布式機(jī)器學(xué)習(xí)范式，在保護(hù)數(shù)據(jù)隱私的同時(shí)協(xié)作訓(xùn)練全局模型，但也面臨著在數(shù)據(jù)異構(gòu)情況下全局模型收斂慢、精度低的問題。針對(duì)上述問題，提出一種面向異構(gòu)數(shù)據(jù)的個(gè)性化聯(lián)邦多任務(wù)學(xué)習(xí)優(yōu)化（federated multi-task learning optimization，F(xiàn)edMTO）算法。在包含全局任務(wù)和本地任務(wù)的多任務(wù)學(xué)習(xí)框架下，考慮個(gè)性化聯(lián)邦優(yōu)化問題。首先，F(xiàn)edMTO采用參數(shù)分解的思想，通過學(xué)習(xí)自適應(yīng)分類器組合權(quán)重來協(xié)調(diào)全局分類器和局部分類器，提取全局分類器知識(shí)，實(shí)現(xiàn)對(duì)本地任務(wù)的個(gè)性化建模；其次，由于本地任務(wù)的數(shù)據(jù)分布不同，F(xiàn)edMTO在本地更新時(shí)結(jié)合正則化多任務(wù)學(xué)習(xí)策略，關(guān)注任務(wù)之間的相關(guān)性，減小不同本地任務(wù)間的差異，從而保證聯(lián)邦學(xué)習(xí)過程的公平性；最后，模擬不同的數(shù)據(jù)異構(gòu)場(chǎng)景，在MNIST和CIFAR-10數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，與現(xiàn)有算法相比，F(xiàn)edMTO實(shí)現(xiàn)了更高的準(zhǔn)確率和更好的公平性，驗(yàn)證了該方法針對(duì)聯(lián)邦學(xué)習(xí)中的異構(gòu)數(shù)據(jù)問題有著良好的效果。

關(guān)鍵詞：聯(lián)邦學(xué)習(xí)；異構(gòu)數(shù)據(jù)；個(gè)性化；多任務(wù)學(xué)習(xí)；參數(shù)分解；公平性

中圖分類號(hào)：TP181 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1001-3695（2024）09-011-2641-08

doi：10.19734/j.issn.1001-3695.2024.01.0006

Personalized federated multi-task learning optimization method for heterogeneous data

Li Kea， Wang Xiaofenga， b， Wang Hua

（a.School of Computer Science & Engineering， b. The Key Laboratory of Images & Graphics Intelligent Processing of State Ethnic Affairs Commission， North Minzu University， Yinchuan 750021， China）

Abstract：

Federated learning， a novel distributed machine learning paradigm， collaboratively trains a global model while preserving data privacy. It faces challenges of slow convergence and low accuracy in the global model under data heterogeneity. Aiming at the problem， the paper proposed a personalized federated multi-task learning optimization （FedMTO） algorithm tailored for heterogeneous data. In a multi-task learning framework that included global and local tasks， it considered the personalized federated optimization problem. Initially， FedMTO adopted the idea of parameter decomposition， coordinating global and local classifiers through the learning of adaptive classifier combination weights. This process extracted knowledge from global classifiers to achieve personalized modeling for local tasks. Furthermore， due to the varying data distributions of local tasks， FedMTO incorporated a regularization multi-task learning strategy during local updates. This approach focused on the relevance between tasks to reduce the differences among various local tasks， thus ensuring fairness in the federated learning process. Finally， experiments were conducted on the MNIST and CIFAR-10 datasets under different data heterogeneity scenarios. The results demonstrate that compared with existing algorithms， FedMTO achieves higher accuracy and better fairness， verifying the effectiveness of this method in addressing heterogeneous data problems in federated learning.

Key words：federated learning（FL）; heterogeneous data; personalization; multi-task learning; parameter decomposition; fairness

0 引言

在大數(shù)據(jù)時(shí)代，物聯(lián)網(wǎng)和網(wǎng)絡(luò)應(yīng)用的快速發(fā)展導(dǎo)致網(wǎng)絡(luò)邊緣生成了呈現(xiàn)指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù)［1］。傳統(tǒng)的機(jī)器學(xué)習(xí)模型建立在集中式訓(xùn)練大量數(shù)據(jù)之上，由深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks，DNNs）實(shí)現(xiàn)。然而，現(xiàn)實(shí)中的數(shù)據(jù)往往由于隱私保護(hù)、行業(yè)競(jìng)爭(zhēng)等限制［2］，導(dǎo)致數(shù)據(jù)匯合于一處，面臨著巨大的挑戰(zhàn)，使得集中式的模型訓(xùn)練方式在現(xiàn)實(shí)場(chǎng)景中越發(fā)不可行。

在上述背景下，具備數(shù)據(jù)隱私保護(hù)特點(diǎn)的機(jī)器學(xué)習(xí)方法受到了更多的關(guān)注。聯(lián)邦學(xué)習(xí)（Federated Learning，F(xiàn)L）［3］應(yīng)運(yùn)而生，作為一種新興的人工智能基礎(chǔ)技術(shù)，F(xiàn)L在2016年由谷歌（Google）首次提出，即一種客戶端（包含設(shè)備、節(jié)點(diǎn)、組織、傳感器）在中央服務(wù)器的協(xié)調(diào)下，在確保不會(huì)交換泄露客戶端的本地私有數(shù)據(jù)的前提下，由多個(gè)參與方合作訓(xùn)練機(jī)器學(xué)習(xí)模型的范式。聯(lián)邦學(xué)習(xí)有效地打破了隱私安全限制帶來的數(shù)據(jù)壁壘，充分地利用了數(shù)量龐大的網(wǎng)絡(luò)邊緣設(shè)備。

然而，F(xiàn)L存在著局限性，客戶端上的數(shù)據(jù)通常是以非獨(dú)立同分布（Non-Independent Identically Distributed，Non-IID）的異構(gòu)形式呈現(xiàn)的［4］。異構(gòu)數(shù)據(jù)場(chǎng)景包括特征分布傾斜、標(biāo)簽分布傾斜、數(shù)量分布傾斜等［5］。在上述FL場(chǎng)景中聚合出的全局模型表現(xiàn)不佳，極大地影響了FL算法的收斂性。一種有效的應(yīng)對(duì)方案是針對(duì)本地任務(wù)，訓(xùn)練局部個(gè)性化模型，即個(gè)性化聯(lián)邦學(xué)習(xí)（Personalized Federated Learning，pFL）。pFL算法要能夠解決數(shù)據(jù)的異構(gòu)問題，并在模型的訓(xùn)練過程中靈活地滿足客戶端本地上特定的任務(wù)［6］。

基于DNNs的模型通常由提取低維度特征嵌入的特征提取器和作出分類決策的分類器組成。DNNs模型在集中式場(chǎng)景和多任務(wù)學(xué)習(xí)（Multi-Task Learning，MTL）中的成功表明：特征提取器通常發(fā)揮著通用結(jié)構(gòu)的作用，而分類器則往往與特定任務(wù)相關(guān)［7，8］，一般作為多任務(wù)學(xué)習(xí)模型的特定層。實(shí)際FL場(chǎng)景中客戶端需要處理不同任務(wù)，可以從每個(gè)客戶端作為一個(gè)特定任務(wù)的角度出發(fā)優(yōu)化FL過程［9］。故使用適合本地的特征提取器來學(xué)習(xí)特征表示，同時(shí)關(guān)注全局任務(wù)和局部任務(wù)之間分類器的相關(guān)性，對(duì)訓(xùn)練個(gè)性化模型具有重要意義。

本文面向FL中的標(biāo)簽分布傾斜和數(shù)量分布傾斜的異構(gòu)數(shù)據(jù)問題，提出個(gè)性化聯(lián)邦多任務(wù)優(yōu)化算法FedMTO。將FL過程表述為一個(gè)兩階段的優(yōu)化問題：首先，在本地初始化階段，完成本地個(gè)性化模型與全局模型之間的分類器協(xié)作；其次，在本地更新階段，分別對(duì)個(gè)性化模型和全局模型進(jìn)行更新。對(duì)于前者，將模型參數(shù)分解，提出一種自適應(yīng)分類器組合權(quán)重學(xué)習(xí)方法，在局部提取全局模型分類器的知識(shí)。后者則從多任務(wù)學(xué)習(xí)和任務(wù)之間的公平性角度出發(fā)，使用參數(shù)正則化技術(shù)，約束個(gè)性化模型的本地更新過程。本文的主要貢獻(xiàn)如下：

a）將多客戶端參與的聯(lián)邦學(xué)習(xí)場(chǎng)景構(gòu)建為多任務(wù)學(xué)習(xí)過程。通過學(xué)習(xí)訓(xùn)練自適應(yīng)分類器權(quán)重，發(fā)現(xiàn)局部分類器和全局分類器之間的最優(yōu)協(xié)作關(guān)系，以實(shí)現(xiàn)算法的快速收斂和達(dá)到良好的模型性能。

b）在本地更新中加入正則化項(xiàng)，捕獲本地任務(wù)和全局任務(wù)之間的相關(guān)性，防止個(gè)性化模型在本地過度擬合。有效降低多任務(wù)之間的標(biāo)準(zhǔn)偏差，維護(hù)了聯(lián)邦多任務(wù)學(xué)習(xí)的公平性。

c）在不同異構(gòu)程度的數(shù)據(jù)場(chǎng)景上進(jìn)行評(píng)估，驗(yàn)證本文算法的有效性。CIFAR-10數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，與pFL中的六種先進(jìn)算法相比，F(xiàn)edMTO不僅優(yōu)化了個(gè)性化模型之間的性能標(biāo)準(zhǔn)偏差，并且在最佳情況下將測(cè)試準(zhǔn)確率平均提高了6.36%。

1 相關(guān)研究

1.1 面向異構(gòu)數(shù)據(jù)的聯(lián)邦學(xué)習(xí)

在真實(shí)場(chǎng)景中，不同客戶端由于特定的數(shù)據(jù)場(chǎng)景、數(shù)據(jù)偏好、數(shù)據(jù)生成和數(shù)據(jù)采樣方式存在明顯差異，使得彼此之間的數(shù)據(jù)存在異構(gòu)形式，數(shù)據(jù)分布彼此不同。例如，某地區(qū)的醫(yī)院準(zhǔn)備聯(lián)合訓(xùn)練疾病預(yù)測(cè)模型，但是這些醫(yī)院可能專攻于不同領(lǐng)域，這將導(dǎo)致疾病類別和數(shù)量的分布不一致。顯然，?？漆t(yī)院在其專業(yè)領(lǐng)域疾病上的數(shù)據(jù)更加豐富，但與綜合醫(yī)院相比，對(duì)于其他疾病的相關(guān)數(shù)據(jù)較為匱乏。上述異構(gòu)數(shù)據(jù)場(chǎng)景正是體現(xiàn)了FL中標(biāo)簽分布傾斜、數(shù)量分布傾斜的現(xiàn)象。

FedAvg［3］作為首個(gè)FL算法，提供一種通用方案：訓(xùn)練模型的數(shù)據(jù)分散在各邊緣設(shè)備上，客戶端與服務(wù)器通信。在不共享本地?cái)?shù)據(jù)的前提下，客戶端使用隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）進(jìn)行本地更新，服務(wù)器將參與通信的模型參數(shù)加權(quán)平均作為全局模型。然而，F(xiàn)edAvg對(duì)所有客戶端“一視同仁”，忽視了數(shù)據(jù)異構(gòu)問題，已經(jīng)被證明在Non-IID的異構(gòu)數(shù)據(jù)場(chǎng)景下無法收斂［10］。

已有的研究工作中相繼提出了多種改進(jìn)方法，大致可分為限制局部更新、改良數(shù)據(jù)分布和采用個(gè)性化策略等。一方面，限制局部更新的方法通過設(shè)計(jì)目標(biāo)函數(shù)的正則化形式或局部偏差校正來優(yōu)化本地學(xué)習(xí)。具有代表性的是Li等人［11］提出的FedProx算法，通過在FedAvg上添加一個(gè)限制局部更新偏差量的近端項(xiàng)，限制了本地更新的大小，從而避免局部模型的發(fā)散。Karimireddy 等人［12］提出了SCAFFOLD算法，通過引入服務(wù)器和客戶端的更新控制變量來糾正本地訓(xùn)練目標(biāo)中的參數(shù)偏移現(xiàn)象。由于加入了額外的控制變量，SCAFFOLD將每輪的通信規(guī)模增加了一倍。上述的一類方法在收斂速度方面沒有明顯的突破，相較于FedAvg的提升較為有限。

另一方面，改良數(shù)據(jù)分布通常通過共享小部分?jǐn)?shù)據(jù)，或者使用其他方法構(gòu)造出更平衡的數(shù)據(jù)分布。Zhao等人［13］的研究表明，在CIFAR-10數(shù)據(jù)集上共享5%的全局?jǐn)?shù)據(jù)就可以將模型測(cè)試精度提高約30%。Zhang等人［14］提出將聚類和數(shù)據(jù)共享同時(shí)應(yīng)用到FL過程，有效地減少了數(shù)據(jù)異構(gòu)的影響，加快了本地模型訓(xùn)練的收斂速度。Jeong E等人［15］使用生成對(duì)抗式網(wǎng)絡(luò)（Generative Adversarial Networks，GAN）模型來實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)，緩解本地?cái)?shù)據(jù)的異構(gòu)程度。類似地，Change等人［16］通過基于數(shù)據(jù)分布的聚類方法來提升模型準(zhǔn)確率。

與上述兩大類方法不同，個(gè)性化策略在本地維護(hù)一個(gè)私有的個(gè)性化模型，專注于提高個(gè)性化模型在本地的性能表現(xiàn)。本文所提FedMTO算法正是基于個(gè)性化策略實(shí)現(xiàn)的。

1.2 個(gè)性化聯(lián)邦學(xué)習(xí)

現(xiàn)有的pFL方法包括：模型插值方法，通過維護(hù)一個(gè)全局模型序列和本地模型序列，對(duì)兩者進(jìn)行線性混合，找到模型參數(shù)的最佳插值。例如APFL［17］和L2CD［18］，它們?yōu)榭蛻舳艘肓艘粋€(gè)模型插值參數(shù)，該參數(shù)在FL訓(xùn)練過程中通過控制全局和局部模型的權(quán)重，能夠了解每個(gè)客戶端的個(gè)性化程度。

對(duì)模型差異進(jìn)行正則化的多任務(wù)學(xué)習(xí)，目標(biāo)是訓(xùn)練聯(lián)合執(zhí)行多個(gè)相關(guān)任務(wù)的模型，在過程中利用特定領(lǐng)域的知識(shí)來提高模型泛化能力［19］。代表方法有FedMTL［20］和pFedMe［21］，通過將客戶端上的模型訓(xùn)練視為MTL中的一項(xiàng)任務(wù)，試圖捕獲客戶端間的關(guān)系，來應(yīng)對(duì)異構(gòu)數(shù)據(jù)問題。

基于元學(xué)習(xí)（Meta-Learning）的局部適應(yīng)策略，元學(xué)習(xí)通常被稱為“學(xué)會(huì)學(xué)習(xí)”，旨在接觸不同的數(shù)據(jù)分布來改進(jìn)學(xué)習(xí)算法［22］。模型無關(guān)元學(xué)習(xí)（MAML）［23］算法以其良好的泛化性和對(duì)新任務(wù)的快速適應(yīng)而聞名，并應(yīng)用于基于梯度下降的各種方法。Per-FedAvg［24］就是建立在MAML公式上的FedAvg算法的變體，在客戶端下載到全局模型后，根據(jù)本地?cái)?shù)據(jù)分布進(jìn)行額外的微調(diào)，提升模型在本地的性能。

參數(shù)解耦方法，將模型參數(shù)分解為局部私有參數(shù)和全局參數(shù)，私有參數(shù)在客戶端本地訓(xùn)練，不參與全局聚合、不與服務(wù)器共享，通過學(xué)習(xí)特定于任務(wù)的表示以增強(qiáng)個(gè)性化。例如，F(xiàn)edRep［8］將模型分解為特征提取器、分類器，然后在本地固定分類器，服務(wù)器聚合特征提取器的參數(shù)，共享訓(xùn)練特征提取器。類似思想的工作還有LG-FedAvg［25］和FedPer［26］。

針對(duì)特定于客戶端關(guān)系的細(xì)粒度模型聚合，F(xiàn)edAMP［27］在具有相似數(shù)據(jù)分布的客戶端之間學(xué)習(xí)成對(duì)的協(xié)作關(guān)系，找到相關(guān)任務(wù)的相似模型，通過細(xì)粒度的加權(quán)聚合得到每個(gè)客戶端的個(gè)性化云模型。FedFomo［9］算法采用了類似的方法。這類方法通常是基于啟發(fā)式評(píng)估模型相似性或驗(yàn)證準(zhǔn)確性實(shí)現(xiàn)的，需要在通信計(jì)算開銷和個(gè)性化之間找到平衡。

與原型學(xué)習(xí)［28］（Prototype-Based Learning）策略結(jié)合是一個(gè)新興的研究方向，其核心思想是通過存儲(chǔ)一組代表性的樣本（原型），然后使用原型來進(jìn)行分類、回歸或聚類等任務(wù)。Tan等人提出FedProto［29］，參與通信過程的不再是梯度，而是原型。對(duì)每個(gè)客戶端進(jìn)行訓(xùn)練的目的是局部數(shù)據(jù)的分類誤差最小化，同時(shí)使得到的局部原型與相應(yīng)的全局原型足夠接近。

本文與FedRep［8］有著相似的參數(shù)分解思想，但不同之處在于，F(xiàn)edMTO結(jié)合了多任務(wù)學(xué)習(xí)，將異構(gòu)數(shù)據(jù)視為每個(gè)本地任務(wù)上的不同數(shù)據(jù)分布的問題。同時(shí)運(yùn)用了知識(shí)遷移策略，通過學(xué)習(xí)分類器組合權(quán)重來泛化知識(shí)，在任務(wù)之間相互傳遞知識(shí)，提高目標(biāo)任務(wù)上的模型性能。此外，F(xiàn)edMTO還考慮了全局和局部任務(wù)之間的關(guān)聯(lián)，關(guān)注了FL過程的公平性。

2 本文方法

2.1 問題設(shè)置

在經(jīng)典的聯(lián)邦學(xué)習(xí)場(chǎng)景中，存在N個(gè)客戶端節(jié)點(diǎn)和一個(gè)中央服務(wù)器，客戶端i上的私有數(shù)據(jù)分布為Di。目標(biāo)是從客戶端間分散的數(shù)據(jù)集中學(xué)習(xí)一個(gè)全局模型W，優(yōu)化的全局目標(biāo)函數(shù)可以定義為

3.2 結(jié)果分析

1）準(zhǔn)確率比較

表4展示了FedMTO和其他算法在不同異構(gòu)數(shù)據(jù)場(chǎng)景下，分別在兩個(gè)基準(zhǔn)數(shù)據(jù)集上達(dá)到的最佳平均測(cè)試準(zhǔn)確率。從實(shí)驗(yàn)結(jié)果來看，個(gè)性化聯(lián)邦學(xué)習(xí)算法在不同的數(shù)據(jù)集上的不同數(shù)據(jù)異構(gòu)情況下，都普遍優(yōu)于傳統(tǒng)的聯(lián)邦學(xué)習(xí)算法。這說明個(gè)性化聯(lián)邦學(xué)習(xí)算法在數(shù)據(jù)異構(gòu)場(chǎng)景下的有效性。本文算法更是在絕大部分情況下，都取得了最佳平均測(cè)試準(zhǔn)確率。

由表4可知，在狄利克雷分布仿真下的異構(gòu)數(shù)據(jù)場(chǎng)景下：隨著客戶端數(shù)據(jù)異構(gòu)程度的增大，即分布參數(shù)β減小時(shí)，兩種傳統(tǒng)的聯(lián)邦學(xué)習(xí)算法（FedAvg，F(xiàn)edProx）在MNIST和CIFAR-10數(shù)據(jù)集上的準(zhǔn)確率顯著下降。然而，其他的六種個(gè)性化算法的表現(xiàn)卻保持上升。這驗(yàn)證了客戶端上數(shù)據(jù)異構(gòu)情況對(duì)聯(lián)邦學(xué)習(xí)模型性能的影響極大，以及個(gè)性化聯(lián)邦學(xué)習(xí)算法的可行性、有效性和針對(duì)性。

圖4和圖5所示為在默認(rèn)參數(shù)設(shè)置下，F(xiàn)edMTO和其他六種個(gè)性化算法在訓(xùn)練過程中隨著通信輪次增加，個(gè)性化模型的平均測(cè)試準(zhǔn)確率的學(xué)習(xí)曲線。需要注意的是，由于以FedAvg和FedProx為代表的傳統(tǒng)全局模型算法在面對(duì)異構(gòu)場(chǎng)景時(shí)平均測(cè)試準(zhǔn)確率的表現(xiàn)不佳，與個(gè)性化算法差距較大，所以不再繪制其學(xué)習(xí)曲線。

對(duì)構(gòu)成比較簡(jiǎn)單的MNIST數(shù)據(jù)集，由表4和圖4可以觀察出，F(xiàn)edMTO算法與其他算法相比，可以在不同程度下的Non-IID場(chǎng)景取得良好的表現(xiàn)。首先，在數(shù)據(jù)病態(tài)異構(gòu)分布的場(chǎng)景下，F(xiàn)edMTO的最高平均準(zhǔn)確率相對(duì)于兩種傳統(tǒng)的聯(lián)邦學(xué)習(xí)算法平均提升了11.9%。同時(shí)隨著通信輪次增加而變化，最終優(yōu)于其余的六種個(gè)性化算法。

另外在實(shí)際異構(gòu)場(chǎng)景下，F(xiàn)edMTO算法在參數(shù)β為0.1、0.5的異構(gòu)程度下表現(xiàn)依然優(yōu)秀，相對(duì)傳統(tǒng)算法將精度平均提高5.17%和1.42%，并會(huì)隨著通信輪次增大而優(yōu)于其他的個(gè)性化算法；雖然在參數(shù)β為0.3時(shí)，F(xiàn)edMTO相對(duì)于APFL有極其細(xì)微的精度差距，但相對(duì)傳統(tǒng)算法將最佳平均準(zhǔn)確率提高了2.05%，并且也優(yōu)于其余五種個(gè)性化算法，這說明FedMTO算法依然保持了高水平的競(jìng)爭(zhēng)力。

對(duì)于CIFAR-10數(shù)據(jù)集，其樣本是現(xiàn)實(shí)世界中真實(shí)的物體，不僅噪聲很大，而且物體的特征、大小都不盡相同，所以數(shù)據(jù)集更復(fù)雜，識(shí)別難度更大。由表4和圖5可知，在數(shù)據(jù)病態(tài)異構(gòu)分布的場(chǎng)景下，F(xiàn)edMTO在CIFAR-10上的表現(xiàn)優(yōu)于其他所有算法，將個(gè)性化精度平均提升了8.84%。對(duì)于狄利克雷分布下的三種不同程度的數(shù)據(jù)異構(gòu)場(chǎng)景，相較于其他算法，本文算法將平均個(gè)性化準(zhǔn)確率分別提高了8.98%，7.46%，7.65%。另外，隨著β的取值增大（數(shù)據(jù)的異構(gòu)程度減?。?，六種個(gè)性化算法與FedMTO算法的性能差距就越大。在β=0.5時(shí)，差距最為明顯，此時(shí)只與個(gè)性化算法對(duì)比，F(xiàn)edMTO也能將測(cè)試準(zhǔn)確率平均提高6.36%。這體現(xiàn)出該算法的泛化性更好，在不同程度的異構(gòu)數(shù)據(jù)場(chǎng)景下都更好地滿足了本地個(gè)性化任務(wù)。

值得注意的是，以CIFAR-10數(shù)據(jù)集為例，在集中式學(xué)習(xí)下已有先進(jìn)的模型在該數(shù)據(jù)集上實(shí)現(xiàn)了99%以上的測(cè)試準(zhǔn)確率。然而，本研究使用的標(biāo)準(zhǔn)模型足以滿足聯(lián)邦學(xué)習(xí)算法的實(shí)驗(yàn)需求。因?yàn)楸疚牡哪繕?biāo)不是在集中式學(xué)習(xí)的場(chǎng)景下，對(duì)該數(shù)據(jù)集的圖像分類任務(wù)達(dá)到最高精度，而是在聯(lián)邦學(xué)習(xí)場(chǎng)景下評(píng)估本文的優(yōu)化算法，并與其他經(jīng)典的優(yōu)秀算法進(jìn)行包括但不僅限于準(zhǔn)確率等指標(biāo)的對(duì)比。

2）公平性比較

依據(jù)Li等人［32］對(duì)聯(lián)邦學(xué)習(xí)中公平性的定義和評(píng)價(jià)參考指標(biāo)。表5報(bào)告了各算法在達(dá)到最佳平均測(cè)試準(zhǔn)確率時(shí)，客戶端之間個(gè)性化模型測(cè)試準(zhǔn)確率的標(biāo)準(zhǔn)差（以百分比準(zhǔn)確率計(jì)算），來評(píng)價(jià)不同算法下的公平性。

可知FedMTO在不同程度的數(shù)據(jù)異構(gòu)場(chǎng)景下，均保持了最低測(cè)試準(zhǔn)確率的標(biāo)準(zhǔn)差。與六種個(gè)性化算法相比，綜合考慮四種異構(gòu)場(chǎng)景，在MNIST、CIFAR-10數(shù)據(jù)集上分別將客戶端之間的準(zhǔn)確率偏差至少縮小了6.25%、12.98%。這表明以往的pFL算法在保證本地模型個(gè)性化性能之外，沒有充分考慮到不同客戶端設(shè)備之間的公平性。在追求提高個(gè)性化模型性能時(shí)，導(dǎo)致不同客戶端之間訓(xùn)練得到的模型準(zhǔn)確率偏差較大。FedMTO在達(dá)到近似或者更高測(cè)試精度的同時(shí)又保持了更低的測(cè)試標(biāo)準(zhǔn)差，高效又公平地完成了本地個(gè)性化任務(wù)。

3）消融實(shí)驗(yàn)

FedMTO算法整體分為兩個(gè)部分：（a）自適應(yīng)分類器組合權(quán)重的學(xué)習(xí)。（b）結(jié)合正則化項(xiàng)的本地多任務(wù)學(xué)習(xí)。為了驗(yàn)證本文所提的優(yōu)化方法的有效性，在較為復(fù)雜的CIFAR-10數(shù)據(jù)集上，對(duì)上述兩部分進(jìn)行了消融實(shí)驗(yàn)。相關(guān)的參數(shù)設(shè)置與對(duì)比實(shí)驗(yàn)保持一致，分別以Base算法（均不采用）、BaseMTO1算法（引入正則化項(xiàng)）、BaseMTO2算法（學(xué)習(xí)分類器組合權(quán)重）和FedMTO進(jìn)行實(shí)驗(yàn)，結(jié)果如圖6所示。

BaseMTO1算法相對(duì)于Base算法的改動(dòng)較小，僅加入了正則化項(xiàng)，但是在四種異構(gòu)數(shù)據(jù)的情況下，準(zhǔn)確率仍有提高，說明正則化項(xiàng)對(duì)聯(lián)邦多任務(wù)學(xué)習(xí)可以帶來積極影響。BaseMTO1算法和Base算法往往更早地達(dá)到收斂，但是與BaseMTO2、FedMTO相比，平均最佳準(zhǔn)確率較低，這表明學(xué)習(xí)分類器組合權(quán)重對(duì)模型個(gè)性化性能的意義更大。在β=0.5的情況下，平均準(zhǔn)確率的差距將達(dá)到最大，對(duì)比下降了約10%。

BaseMTO2與FedMTO的最佳平均準(zhǔn)確率總是十分接近的，說明學(xué)習(xí)自適應(yīng)分類器組合權(quán)重所帶來的模型性能提升較大。對(duì)本地模型分類器和全局模型分類器的權(quán)重自適應(yīng)聚合，可以學(xué)習(xí)到全局模型的豐富知識(shí)，更好地完成每個(gè)本地任務(wù)。然而，就公平性而言，如表6所示，F(xiàn)edMTO至少將模型測(cè)試準(zhǔn)確率之間的標(biāo)準(zhǔn)差平均減小了近4%。這表明結(jié)合了正則化多任務(wù)學(xué)習(xí)的FedMTO算法減少了不同客戶端上異構(gòu)數(shù)據(jù)現(xiàn)象的干擾。在提高個(gè)性化性能的同時(shí)，又取得了更均衡的分類效果，更充分地解決了FL中的數(shù)據(jù)異構(gòu)問題。

4 結(jié)束語

本文面向聯(lián)邦學(xué)習(xí)中的異構(gòu)數(shù)據(jù)場(chǎng)景，提出一種個(gè)性化聯(lián)邦多任務(wù)學(xué)習(xí)優(yōu)化算法FedMTO。FedMTO采用基于參數(shù)分解方法抽象出全局分類器參數(shù)和局部分類器參數(shù)，通過學(xué)習(xí)自適應(yīng)分類器組合權(quán)重，優(yōu)化模型之間的協(xié)作關(guān)系，并進(jìn)一步基于正則化多任務(wù)學(xué)習(xí)方法對(duì)本地更新進(jìn)行約束，捕獲本地任務(wù)和全局任務(wù)之間的相關(guān)性，優(yōu)化聯(lián)邦多任務(wù)學(xué)習(xí)過程。

通過在不同數(shù)據(jù)集上與其他算法的全面實(shí)驗(yàn)，證明了本文算法在個(gè)性化模型精度、聯(lián)邦多任務(wù)學(xué)習(xí)優(yōu)化和多任務(wù)之間的公平性等方面都有著顯著的提升?？紤]到真實(shí)的聯(lián)邦學(xué)習(xí)場(chǎng)景中客戶端設(shè)備異構(gòu)和通信資源往往是受限制的，下一步研究準(zhǔn)備以多任務(wù)學(xué)習(xí)思想設(shè)計(jì)高效的異步聯(lián)邦學(xué)習(xí)機(jī)制，設(shè)計(jì)性能更好的聯(lián)邦學(xué)習(xí)優(yōu)化算法。

參考文獻(xiàn)：

［1］Wang Shiqiang，Tuor T，Salonidis T，et al. Adaptive federated learning in resource constrained edge computing systems［J］. IEEE Journal on Selected Areas in Communications，2019，37（6）： 1205-1221.

［2］Gaff B M，Sussman H E，Geetter J. Privay and big data［J］. Computer，2014，47（6）： 7-9.

［3］McMahan B，Moore E，Ramage D，et al. Communication-efficient learning of deep networks from decentralized data［C］// Proc of the 20th International Conference on Artificial Intelligence and Statistics. ［S.l.］： PMLR，2017： 1273-1282.

［4］Li Zengpeng，Sharma V，Mohanty S P. Preserving data privacy via fede-rated learning： Challenges and solutions［J］. IEEE Consumer Electronics Magazine，2020，9（3）： 8-16.

［5］Li Qinbin，Diao Yiqun，Chen Quan，et al. Federated learning on Non-IID data silos： an experimental study［C］// Proc of the 38th International Conference on Data Engineering. Piscataway，NJ： IEEE Press，2022： 965-978.

［6］Xu Jian，Tong Xinyi，Huang S L. Personalized federated learning with feature alignment and classifier collaboration［EB/OL］. （2023-06-20）. https：//arxiv.org/abs/2306.11867.

［7］Bengio Y，Courville A，Vincent P. Representation learning： a review and new perspectives［J］. IEEE Trans on Pattern Analysis and Machine Intelligence，2013，35（8）： 1798-1828.

［8］Collins L，Hassani H，Mokhtari A，et al. Exploiting shared representations for personalized federated learning［C］// Proc of the 38th International Conference on Machine Learning. ［S.l.］： PMLR，2021： 2089-2099.

［9］Marfoq O，Neglia G，Bellet A，et al. Federated multi-task learning under a mixture of distributions［C］// Advances in Neural Information Processing Systems. 2021： 15434-15447.

［10］Li Xiang，Huang Kaixuan，Yang Wenhao，et al. On the convergence of FedAVG on Non-IID data［EB/OL］. （2020-06-25）. https：//arxiv.org/abs/1907.02189.

［11］Li Tian，Sahu A K，Zaheer M，et al. Federated optimization in heterogeneous networks［C］// Proc of Machine Learning and Systems. 2020： 429-450.

［12］Karimireddy S P，Kale S，Mohri M，et al. SCAFFOLD： stochastic controlled averaging for federated learning［C］// Proc of the 37th International Conference on Machine Learning. ［S.l.］： JMLR.org，2020： 5132-5143.

［13］Zhao Yue，Li Meng，Lai Liangzhen，et al. Federated learning with Non-IID data［EB/OL］. （2022-07-21）. https：//arxiv.org/abs/1806.00582.

［14］張紅艷，張玉，曹燦明. 一種解決數(shù)據(jù)異構(gòu)問題的聯(lián)邦學(xué)習(xí)方法［J］. 計(jì)算機(jī)應(yīng)用研究，2024，41（3）： 713-720. （Zhang Hongyan，Zhang Yu，Cao Canming. Effective method to solve problem of data heterogeneity in federated learning［J］. Application Research of Computers，2024，41（3）： 713-720.）

［15］Jeong E，Oh S，Kim H，et al. Communication-efficient on-device machine learning： federated distillation and augmentation under Non-IID private data［EB/OL］. （2023-10-19）. https：//arxiv.org/abs/1811.11479.

［16］常黎明，劉顏紅，徐恕貞. 基于數(shù)據(jù)分布的聚類聯(lián)邦學(xué)習(xí)［J］. 計(jì)算機(jī)應(yīng)用研究，2023，40（6）： 1697-1701. （Chang Liming，Liu Yanhong，Xu Shuzhen. Clustering federated learning based on data distribution［J］. Application Research of Computers，2023，40（6）： 1697-1701.）

［17］Deng Yuyang，Kamani M M，Mahdavi M. Adaptive personalized fede-rated learning［EB/OL］. （2020-11-06）. https：//arxiv.org/abs/2003.13461.

［18］Hanzely F，Richtárik P. Federated learning of a mixture of global and local models［EB/OL］. （2021-02-12）. https：//arxiv.org/abs/2002.05516.

［19］Tan A Z，Yu Han，Cui Lizhen，et al. Towards personalized federated learning［J］. IEEE Trans on Neural Networks and Learning Systems，2023，34（12）： 9587-9603.

［20］Smith V，Chiang C K，Sanjabi M，et al. Federated multi-task learning［C］// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook，NY： Curran Associates Inc.，2017： 4427-4437.

［21］Dinh T C，Tran N，Nguyen J. Personalized federated learning with moreau envelopes［C］// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook，NY： Curran Associates Inc.，2020： 21394-21405.

［22］Hospedales T，Antoniou A，Micaelli P，et al. Meta-learning in neural networks： a survey［J］. IEEE Trans on Pattern Analysis and Machine Intelligence，2021，44（9）： 5149-5169.

［23］Finn C，Abbeel P，Levine S. Model-agnostic meta-learning for fast adap-tation of deep networks［C］// Proc of the 34th International Conference on Machine Learning. ［S.l.］： JMLR.org，2017： 1126-1135.

［24］Fallah A，Mokhtari A，Ozdaglar A. Personalized federated learning with theoretical guarantees： a model-agnostic meta-learning approach［C］// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook，NY： Curran Associates Inc.，2020： 3557-3568.

［25］Liang P P，Liu T，Ziyin Liu，et al. Think locally，act globally： federated learning with local and global representations ［EB/OL］. （2020-07-14）. https：//arxiv.org/abs/2001.01523.

［26］Arivazhagan M G，Aggarwal V，Singh A K，et al. Federated learning with personalization layers ［EB/OL］. （2019-12-02）. https：//arxiv.org/abs/1912.00818.

［27］Huang Yutao，Chu Lingyang，Zhou Zirui，et al. Personalized cross-silo federated learning on Non-IID data［C］// Proc of AAAI Conference on Artificial Intelligence. Palo Alto，CA： AAAI Press，2021： 7865-7873.

［28］Finn C，Abbeel P，Levine S. Model-agnostic meta-learning for fast ada-ptation of deep networks［C］// Proc of the 34th International Conference on Machine Learning. ［S.l.］： JMLR.org，2017： 1126-1135.

［29］Tan Y，Long G，Liu L，et al. FedProto： federated prototype learning across heterogeneous clients ［C］// Proc of the AAAI Conference on Artificial Intelligence. 2022： 8432-8440.

［30］Arjovsky M，Chintala S，Bottou L. Wasserstein generative adversarial networks［C］// Proc of the 34th International Conference on Machine Learning.［S.l.］： JMLR.org，2017： 214-223.

［31］Wojke N，Bewley A. Deep cosine metric learning for person re-identification ［C］// Proc of IEEE Winter Conference on Applications of Computer Vision. Piscataway，NJ： IEEE Press，2018： 748-756.

［32］Li Tian，Hu Shengyuan，Beirami A，et al. Ditto： fair and robust fede-rated learning through personalization［C］// Proc of the 38th International Conference on Machine Learning. ［S.l.］： PMLR，2021： 6357-6368.

收稿日期：2024-01-02；修回日期：2024-03-04 基金項(xiàng)目：國(guó)家自然科學(xué)基金資助項(xiàng)目（62062001）；寧夏青年拔尖人才項(xiàng)目（2021）

作者簡(jiǎn)介：李可（2000—），男，河南開封人，碩士研究生，CCF會(huì)員，主要研究方向?yàn)槁?lián)邦學(xué)習(xí)、多任務(wù)學(xué)習(xí)；王曉峰（1980—），男（回族）（通信作者），甘肅會(huì)寧人，副教授，碩導(dǎo)，博士，CCF會(huì)員，主要研究方向?yàn)樗惴ǚ治雠c設(shè)計(jì)、人工智能（xfwang@nmu.edu.cn）；王虎（1998—），男，江蘇南京人，碩士研究生，主要研究方向?yàn)槁?lián)邦學(xué)習(xí)、機(jī)器學(xué)習(xí).

計(jì)算機(jī)應(yīng)用研究2024年9期

計(jì)算機(jī)應(yīng)用研究的其它文章: 基于頻譜特征混合Transformer的紅外和可見光圖像融合; 基于全局頻域池化的行為識(shí)別算法; 融合雙目信息的隊(duì)列姿態(tài)檢測(cè); 基于集中注意力接受場(chǎng)網(wǎng)絡(luò)的偏振成像偽裝目標(biāo)檢測(cè); 抗惡意敵手的線性門限隱私集合交集協(xié)議; 基于上下文感知的自適應(yīng)訪問控制模型