韓亞楠 劉建偉 羅雄麟
(中國石油大學(xué)(北京)信息科學(xué)與工程學(xué)院 北京 102249)
近年來,隨著機(jī)器學(xué)習(xí)(machine learning, ML)領(lǐng)域的快速發(fā)展,機(jī)器學(xué)習(xí)在自然圖像分類、人臉識別等領(lǐng)域取得了一定的成果,深度學(xué)習(xí)的成功使機(jī)器學(xué)習(xí)的發(fā)展達(dá)到了另一個新的高度.然而,在現(xiàn)實(shí)世界中,機(jī)器學(xué)習(xí)系統(tǒng)總是會遇到連續(xù)任務(wù)學(xué)習(xí)問題,因此,如何對連續(xù)任務(wù)進(jìn)行有效學(xué)習(xí)是當(dāng)前研究的重點(diǎn)之一.現(xiàn)有的機(jī)器學(xué)習(xí)方法雖然可以在任務(wù)上取得較高的性能,但只有當(dāng)測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)概率分布類似時,機(jī)器學(xué)習(xí)才能取得較好的性能.換句話說,目前的機(jī)器學(xué)習(xí)算法不能在動態(tài)環(huán)境中持續(xù)自適應(yīng)地學(xué)習(xí),因?yàn)樵趧討B(tài)環(huán)境中,任務(wù)可能會發(fā)生顯著變化,然而,這種自適應(yīng)的學(xué)習(xí)能力卻是任何智能系統(tǒng)都具有的能力,也是實(shí)現(xiàn)智能生物系統(tǒng)學(xué)習(xí)的重要標(biāo)志.
目前,深度神經(jīng)網(wǎng)絡(luò)在許多應(yīng)用中顯示出非凡的預(yù)測和推理能力,然而,當(dāng)通過基于梯度更新的方法對模型進(jìn)行增量更新時,模型會出現(xiàn)災(zāi)難性的干擾或遺忘問題,這一問題將直接導(dǎo)致模型性能的迅速下降,即模型在學(xué)習(xí)新任務(wù)之后,由于參數(shù)更新對模型引起的干擾,將使得學(xué)習(xí)的模型忘記如何解決舊任務(wù).人類和動物似乎學(xué)到了很多不同的知識,并且總是能不遺忘過去學(xué)到的知識,并將其應(yīng)用在未來的學(xué)習(xí)任務(wù)中,受人和動物這種學(xué)習(xí)方式的啟發(fā),很自然地將這種想法運(yùn)用到機(jī)器學(xué)習(xí)領(lǐng)域,即隨著時間的推移,模型能夠不斷學(xué)習(xí)新知識,同時保留以前學(xué)到的知識,這種不斷學(xué)習(xí)的能力被稱為連續(xù)學(xué)習(xí).連續(xù)學(xué)習(xí)最主要的目的是高效地轉(zhuǎn)化和利用已經(jīng)學(xué)過的知識來完成新任務(wù)的學(xué)習(xí),并且能夠極大程度地降低災(zāi)難性遺忘帶來的問題.近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,連續(xù)學(xué)習(xí)的研究已經(jīng)受到極大的關(guān)注,因?yàn)檫B續(xù)學(xué)習(xí)主要有2點(diǎn)優(yōu)勢:
1) 不需要保存之前任務(wù)上學(xué)習(xí)過的訓(xùn)練數(shù)據(jù),從而實(shí)現(xiàn)節(jié)約內(nèi)存,同時解決了由于物理設(shè)備(例如機(jī)器內(nèi)存)或?qū)W習(xí)策略(例如隱私保護(hù))的限制,導(dǎo)致數(shù)據(jù)不能被長期存儲這一問題.
2) 模型能夠保存之前任務(wù)所學(xué)習(xí)的知識,并且能夠極大程度地將之前任務(wù)學(xué)習(xí)到的知識運(yùn)用到未來任務(wù)的學(xué)習(xí)中,提高學(xué)習(xí)效率.
在現(xiàn)實(shí)世界中,機(jī)器學(xué)習(xí)系統(tǒng)處于連續(xù)的信息流中,因此需要從不斷改變的概率分布中學(xué)習(xí)和記住多個任務(wù).隨著時間的推移,不斷學(xué)習(xí)新知識,同時保留以前學(xué)到知識,具備這種不斷學(xué)習(xí)的能力稱為連續(xù)學(xué)習(xí)或終身學(xué)習(xí).因此,使智能學(xué)習(xí)系統(tǒng)具備連續(xù)學(xué)習(xí)的能力一直是人工智能系統(tǒng)面臨的挑戰(zhàn)[1-2].災(zāi)難性遺忘或?yàn)?zāi)難性干擾一直是連續(xù)學(xué)習(xí)所研究的重點(diǎn),即當(dāng)模型對新任務(wù)進(jìn)行學(xué)習(xí)時會遺忘之前任務(wù)所學(xué)習(xí)的知識,這種現(xiàn)象通常會導(dǎo)致模型性能的突然下降,或者在最壞的情況下,導(dǎo)致新知識完全覆蓋舊知識.因此,克服災(zāi)難性遺忘是人工智能系統(tǒng)邁向更加智能化的重要一步.
早期學(xué)者們曾嘗試為系統(tǒng)增加一個存儲模塊來保存以前的數(shù)據(jù),并定期對之前所學(xué)的知識與新樣本的交叉數(shù)據(jù)進(jìn)行回放來緩解災(zāi)難性遺忘這一問題[3],這類方法一直延續(xù)至今[4-5].然而,基于存儲模塊連續(xù)學(xué)習(xí)方法的一個普遍缺點(diǎn)是它們需要顯式存儲舊任務(wù)信息,這將導(dǎo)致較大的工作內(nèi)存需求,此外,在計算和存儲資源固定的情況下,應(yīng)設(shè)計專門的機(jī)制保護(hù)和鞏固舊的知識不被新學(xué)習(xí)的知識所覆蓋.在此基礎(chǔ)上,Rusu等人[6-7]嘗試在新任務(wù)到來時,分配額外的資源來緩解災(zāi)難性遺忘.然而,這種方法隨著任務(wù)數(shù)量的不斷增加,神經(jīng)網(wǎng)絡(luò)架構(gòu)將不斷增加,進(jìn)而直接降低模型的可伸縮性.由于連續(xù)學(xué)習(xí)場景中不能預(yù)先知道任務(wù)數(shù)量和樣本大小,因此,在沒有對輸入訓(xùn)練樣本的概率分布做出很強(qiáng)的假設(shè)情況下,預(yù)先定義足夠的存儲資源是不可避免的.在這種情況下,Richardson等人[8]提出了針對連續(xù)學(xué)習(xí)模型避免災(zāi)難性遺忘的3個關(guān)鍵方面:1)為新知識分配額外的神經(jīng)元;2)如果資源是固定的,則使用新舊知識的非重疊表示;3)把舊的知識疊加到新的知識上作為新的信息.在此基礎(chǔ)上,受神經(jīng)科學(xué)理論的啟發(fā),基于正則化策略、動態(tài)結(jié)構(gòu)策略以及記憶策略等一系列連續(xù)學(xué)習(xí)的方法相繼被提出.
目前,連續(xù)學(xué)習(xí)的研究仍然處于發(fā)展階段,還沒有明確一致的定義,本文對有監(jiān)督連續(xù)學(xué)習(xí)給出定義.
Fig. 1 Illustration of continual learning圖1 連續(xù)學(xué)習(xí)示意圖
如圖1所示,在連續(xù)學(xué)習(xí)過程中,智能體逐個對每個連續(xù)的非獨(dú)立均勻分布流數(shù)據(jù)示例進(jìn)行學(xué)習(xí),并且該智能體對每個示例只進(jìn)行一次訪問.這種學(xué)習(xí)方式與動物學(xué)習(xí)過程更為接近.如果我們忽略各個任務(wù)的先后次序問題,單獨(dú)訓(xùn)練每個任務(wù),這將導(dǎo)致災(zāi)難性遺忘,這也是連續(xù)學(xué)習(xí)一直以來所面臨的最大問題.因此,連續(xù)學(xué)習(xí)的本質(zhì),是通過各種手段高效地轉(zhuǎn)化和利用已經(jīng)學(xué)過的知識來完成新任務(wù)的學(xué)習(xí),并且能夠極大程度地降低遺忘帶來的問題.
連續(xù)學(xué)習(xí)的問題是指模型能夠連續(xù)學(xué)習(xí)一系列任務(wù),其中,在訓(xùn)練期間,只有當(dāng)前任務(wù)數(shù)據(jù)可用,并且假設(shè)任務(wù)間是有明顯的分界[9].近年來,對這一問題,研究者們已展開積極的研究,提出了許多緩解連續(xù)學(xué)習(xí)過程中災(zāi)難性遺忘的方法.然而,由于各實(shí)驗(yàn)方案的不同,因此直接對各方法進(jìn)行比較評估顯然不可行.尤其是模型任務(wù)標(biāo)識不可用等問題,這將直接影響模型實(shí)現(xiàn)的難易程度.因此,為了使評價更加標(biāo)準(zhǔn)化,并且也為了使實(shí)驗(yàn)結(jié)果比較更具意義,在此首先對連續(xù)學(xué)習(xí)過程中的3個學(xué)習(xí)場景進(jìn)行簡要概括[10],如表1所示:
Table 1 Three Continual Learning Scenarios表1 3種連續(xù)學(xué)習(xí)場景
在第1個學(xué)習(xí)場景中,模型總是被告知需要執(zhí)行哪些任務(wù),這也是最簡單的連續(xù)學(xué)習(xí)場景,將其稱為任務(wù)增量學(xué)習(xí)(task-incremental learning, Task-IL).近年來,提出的大部分連續(xù)學(xué)習(xí)方法在此場景都是適用的,且都具有較好的實(shí)驗(yàn)效果,例如正則化方法和動態(tài)結(jié)構(gòu)方法等.
在第2個學(xué)習(xí)場景中,通常將其稱之為域增量學(xué)習(xí)(domain-incremental learning, Domain-IL),任務(wù)標(biāo)識不可用,模型只需要解決手頭的任務(wù),模型也不需要推斷這是哪個任務(wù).文獻(xiàn)[11]的實(shí)驗(yàn)結(jié)果證明,基于情景記憶的方法在該場景下有較好的實(shí)驗(yàn)結(jié)果,例如GER,DGR,RtF等,然而基于正則化方法,例如EWC,LwF,SI等,模型學(xué)習(xí)的準(zhǔn)確率相對較差.
在第3個學(xué)習(xí)場景中,模型必須能夠解決到目前為止所看到的每個任務(wù),并且還能夠推斷出它們所面臨的任務(wù),將此場景稱為類增量學(xué)習(xí)(class-incremental learning, Class-IL),在該場景中包含一個很常見的實(shí)際問題,即增量地學(xué)習(xí)對象的新類.此場景是這3個場景中最為復(fù)雜的,也是最接近現(xiàn)實(shí)中的學(xué)習(xí)場景,近年來,針對此場景下的連續(xù)學(xué)習(xí)方法也相繼提出.例如,通過存儲之前任務(wù)數(shù)據(jù)的樣本,緩解系統(tǒng)遺忘方法:文獻(xiàn)[5]提出一種iCarl的連續(xù)學(xué)習(xí)方法,該方法通過在每個類中找出m個最具代表性的樣本,那么其平均特征空間將最接近類的整個特征空間,最后的分類任務(wù)是通過最接近樣本均值的分類器來完成的;文獻(xiàn)[12]介紹了對遺忘和不妥協(xié)量化的度量方法,進(jìn)而提出一種稱為RWalk方法,完成類增量場景下的學(xué)習(xí);文獻(xiàn)[13]提出一種動態(tài)網(wǎng)絡(luò)擴(kuò)展機(jī)制,通過由所學(xué)習(xí)的二進(jìn)制掩碼動態(tài)確定網(wǎng)絡(luò)所需增加的容量,以確保足夠的模型容量來適應(yīng)不斷傳入的任務(wù).
連續(xù)學(xué)習(xí)相關(guān)的領(lǐng)域研究主要包括多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí).
1) 多任務(wù)學(xué)習(xí).多任務(wù)學(xué)習(xí)的目的是能夠結(jié)合所有任務(wù)的共同知識,同時改進(jìn)所有單個任務(wù)的學(xué)習(xí)性能,因此,多任務(wù)學(xué)習(xí)要求每個任務(wù)與其他任務(wù)共享模型參數(shù),或每個任務(wù)有帶約束的模型參數(shù),別的任務(wù)能夠給當(dāng)前學(xué)習(xí)任務(wù)提供額外的訓(xùn)練數(shù)據(jù),以此來作為其他任務(wù)的正則化形式.也就是說,多任務(wù)學(xué)習(xí)的良好效果依賴于單個函數(shù)的共享參數(shù)化以及對多個損失同時進(jìn)行估計和求平均.當(dāng)同時訓(xùn)練多個任務(wù)的共享層時,必須學(xué)習(xí)一個公共表示,從而有效地對每個任務(wù)進(jìn)行交叉正則化,約束單個任務(wù)的模型.
對于神經(jīng)網(wǎng)絡(luò)而言,Caruana[14]對多任務(wù)學(xué)習(xí)進(jìn)行了詳細(xì)的研究,指出網(wǎng)絡(luò)的底層是共享的,而頂層是針對于特定任務(wù)的,多任務(wù)學(xué)習(xí)需要所有任務(wù)的數(shù)據(jù),此外,多任務(wù)學(xué)習(xí)隨著時間的推移,不會積累任何知識,也就是說沒有持續(xù)學(xué)習(xí)的概念,這也是多任務(wù)學(xué)習(xí)的關(guān)鍵問題所在.
2) 遷移學(xué)習(xí).遷移學(xué)習(xí)是使用源域來幫助另一個任務(wù)完成目標(biāo)域?qū)W習(xí)的一種學(xué)習(xí)方式[15].它假設(shè)源域S中有大量的標(biāo)記訓(xùn)練數(shù)據(jù),而目標(biāo)域T只有很少或沒有標(biāo)記的訓(xùn)練數(shù)據(jù),但有大量未標(biāo)記的數(shù)據(jù).遷移學(xué)習(xí)可以利用被標(biāo)記的數(shù)據(jù)來幫助完成目標(biāo)域中的學(xué)習(xí).然而遷移學(xué)習(xí)與連續(xù)學(xué)習(xí),主要有4個不同:①遷移學(xué)習(xí)不是連續(xù)的,它僅僅是使用了源域來幫助完成目標(biāo)域?qū)W習(xí);②遷移學(xué)習(xí)并沒有將過去所學(xué)的知識進(jìn)行積累;③遷移學(xué)習(xí)是單向進(jìn)行的,也就是說,遷移學(xué)習(xí)僅可使用源域來幫助完成目標(biāo)域的學(xué)習(xí),然而,連續(xù)學(xué)習(xí)是可以在任何方向上進(jìn)行學(xué)習(xí)的;④遷移學(xué)習(xí)假設(shè)源域與目標(biāo)域非常相似,且這種相似性是人為決定的,然而在連續(xù)學(xué)習(xí)中并沒有做出這樣一個很強(qiáng)的限制性假設(shè).
Fig. 2 Illustration of learning without forgetting圖2 無遺忘學(xué)習(xí)方法示意圖
Li等人[16]在2017年提出了一種由卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)組成的無遺忘學(xué)習(xí)(learning without forgetting, LwF)方法,該方法將知識蒸餾(knowledge distillation, KD)[17]與細(xì)調(diào)方法[18]相結(jié)合,其中,利用知識蒸餾策略來避免對之前知識的遺忘.
假設(shè)給定一個CNN神經(jīng)網(wǎng)絡(luò),θshare為網(wǎng)絡(luò)的共享參數(shù),θold是任務(wù)特定的參數(shù).我們的目標(biāo)是為一個新任務(wù)增加一個任務(wù)特定的參數(shù)θn,并且只利用新的數(shù)據(jù)和標(biāo)簽(不使用已經(jīng)存在任務(wù)的標(biāo)簽數(shù)據(jù))對特定的任務(wù)參數(shù)θn進(jìn)行學(xué)習(xí),使得它能夠?qū)π碌娜蝿?wù)和之前的任務(wù)都有好的預(yù)測效果.無遺忘學(xué)習(xí)方法的示意圖如圖2所示:
(1)
Kirkpatrick等人[19]在2017年提出了一種結(jié)合監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方法,即彈性權(quán)重整合(elastic weight consolidation, EWC)方法.在提出的模型目標(biāo)函數(shù)中,包括了對新舊任務(wù)之間模型參數(shù)的懲罰項(xiàng),從而有效緩解對先前學(xué)習(xí)的知識中與當(dāng)下任務(wù)相關(guān)知識遺忘.彈性權(quán)重整合示意圖如圖3所示:
Fig. 3 Illustration of elastic weight consolidation圖3 彈性權(quán)重整合示意圖
具體而言,通過一個模型參數(shù)θ的后驗(yàn)概率分布p(θ|D)對于任務(wù)訓(xùn)練數(shù)據(jù)集D的模型參數(shù)θ進(jìn)行建模.假設(shè)學(xué)習(xí)場景有2個獨(dú)立的任務(wù)A(DA)和任務(wù)B(DB),那么根據(jù)貝葉斯規(guī)則,模型參數(shù)θ的后驗(yàn)概率的對數(shù)值表示為
logp(θ|D)=logp(DB|θ)+ logp(θ|DA)-logp(DB),
(2)
(3)
其中,LB(θ)為任務(wù)B的損失函數(shù),λ表示新舊任務(wù)之間的相關(guān)性權(quán)衡參數(shù),i表示參數(shù)的下標(biāo)索引,F(xiàn)表示FIM.因此,這種方法需要對學(xué)習(xí)任務(wù)的模型參數(shù)進(jìn)行對角線加權(quán),該加權(quán)值與FIM的對角線元素值成比例.
Lopez-Paz等人[20]在2017年提出梯度情景記憶模型(gradient episodic memory, GEM),該模型能夠?qū)崿F(xiàn)知識正向遷移到先前任務(wù)的功能,以及將先前任務(wù)學(xué)習(xí)的知識正向地遷移到當(dāng)前任務(wù)上.GEM模型最主要的特征是為每個任務(wù)k存儲一個情景記憶模型Mk來避免災(zāi)難性遺忘,該模型不僅能夠最小化當(dāng)前任務(wù)t的損失,而且可以將任務(wù)k (4) LwF方法僅需要使用新任務(wù)的數(shù)據(jù),對新任務(wù)進(jìn)行優(yōu)化,以提高新任務(wù)上模型預(yù)測的準(zhǔn)確性,并保持神經(jīng)網(wǎng)絡(luò)對以前任務(wù)的預(yù)測性能.這種方法類似于聯(lián)合訓(xùn)練方法,但是該學(xué)習(xí)方法不使用舊任務(wù)的數(shù)據(jù)和標(biāo)簽數(shù)據(jù).實(shí)驗(yàn)表明,LwF方法可以極大地提高算法的分類性能以及計算效率,簡化了學(xué)習(xí)過程,一旦學(xué)習(xí)了一個新的任務(wù),訓(xùn)練過的數(shù)據(jù)將不需要再被保存或者回放.然而,這種方法的缺點(diǎn)是學(xué)習(xí)的性能高度依賴于任務(wù)的相關(guān)性,并且單個任務(wù)的訓(xùn)練時間隨著學(xué)習(xí)任務(wù)的個數(shù)線性增加.雖然蒸餾方法為多任務(wù)學(xué)習(xí)提供了一個潛在的解決方案,但它需要為每個學(xué)習(xí)任務(wù)持久存儲數(shù)據(jù).另外需要注意,LwF方法不能被直接運(yùn)用到強(qiáng)化學(xué)習(xí)場景中;EWC方法通過使用FIM對網(wǎng)絡(luò)參數(shù)進(jìn)行約束,降低模型對以前所學(xué)知識的遺忘程度,此外,該方法在訓(xùn)練過程中不增加任何計算負(fù)擔(dān),但這是以計算FIM為代價的,需存儲FIM的值以及以前學(xué)習(xí)模型參數(shù)的副本;Lopez-Paz等人[20]的實(shí)驗(yàn)結(jié)果表明GEM模型,相較于LwF和EWC方法具有較好的實(shí)驗(yàn)效果,但是,該方法在訓(xùn)練時,由于對于每個任務(wù)都需要進(jìn)行情景記憶,因此需要更多的內(nèi)存空間,所需的內(nèi)存是EWC用于保存過去信息大小的2倍,與其他方法相比內(nèi)存開銷較大,并且隨著學(xué)習(xí)任務(wù)數(shù)量的增加,訓(xùn)練成本急劇增加,此外該方法也不能增量地對新的類別進(jìn)行學(xué)習(xí);同時提高性能也將加大計算負(fù)擔(dān). 災(zāi)難性遺忘是連續(xù)學(xué)習(xí)面臨的最大挑戰(zhàn).避免災(zāi)難性遺忘的問題,也就是說,在不斷完成有序到達(dá)的新任務(wù)學(xué)習(xí)的同時,也能夠在之前學(xué)習(xí)過的任務(wù)中表現(xiàn)得足夠好. Venkatesan等人[21]在2017年設(shè)計了一種結(jié)合生成式模型和知識蒸餾技術(shù)的全新采樣策略,用其來產(chǎn)生來自過去學(xué)習(xí)任務(wù)概率分布上的“幻覺數(shù)據(jù)”,使模型在不訪問歷史數(shù)據(jù)的前提下,緩解連續(xù)學(xué)習(xí)過程中的災(zāi)難性遺忘問題;文獻(xiàn)[22]從序列貝葉斯學(xué)習(xí)規(guī)則出發(fā),假定數(shù)據(jù)序列到達(dá)時,用前一個任務(wù)模型參數(shù)的后驗(yàn)概率分布作為新任務(wù)模型參數(shù)的先驗(yàn)概率分布,為緩解連續(xù)學(xué)習(xí)過程中的災(zāi)難性遺忘問題提供一種解決方案;文獻(xiàn)[19]提出的正則化方法在模型參數(shù)更新時增加約束,以此在保持已有知識的前提下,實(shí)現(xiàn)對新任務(wù)的學(xué)習(xí),來緩解災(zāi)難性遺忘等. 連續(xù)學(xué)習(xí)過程中的知識正向遷移,即連續(xù)學(xué)習(xí)應(yīng)該能夠在學(xué)習(xí)新任務(wù)的同時,利用以前的任務(wù)中學(xué)習(xí)到的知識來幫助新任務(wù)的學(xué)習(xí),從而提高學(xué)習(xí)的效率和質(zhì)量. 文獻(xiàn)[23]實(shí)驗(yàn)證明簡單的細(xì)調(diào)可以實(shí)現(xiàn)知識的正向遷移;文獻(xiàn)[24]提出保留訓(xùn)練好的模型基類信息編碼,可將其知識遷移到模型要學(xué)習(xí)的新類中;文獻(xiàn)[16]提出的LwF方法中,使用蒸餾損失來保存基類信息,進(jìn)而使用保存的基類信息用于新數(shù)據(jù)的訓(xùn)練;文獻(xiàn)[6]通過繼承之前任務(wù)所學(xué)的知識,完成對新任務(wù)的學(xué)習(xí);LGM模型是基于學(xué)生-教師的雙重體系結(jié)構(gòu)[25],教師的角色是保存過去的知識并幫助學(xué)生學(xué)習(xí)未來的知識,該模型通過優(yōu)化一個增廣的ELBO目標(biāo)函數(shù)很好地幫助完成師生知識的正向遷移;文獻(xiàn)[26]提出一種符號程序生成(symbolic program synthesis, SPS)的方法,來實(shí)現(xiàn)知識的正向遷移等. 知識在反向傳播過程中的正向遷移,即如何利用當(dāng)前任務(wù)所學(xué)到的知識來幫助之前任務(wù)的學(xué)習(xí)是連續(xù)學(xué)習(xí)模型研究的重點(diǎn)之一. 在連續(xù)學(xué)習(xí)場景中提出的LwF模型或者具有更為復(fù)雜正則化項(xiàng)的EWC模型,雖然可以在一定程度上緩解災(zāi)難性遺忘這一問題,然而卻無法實(shí)現(xiàn)利用當(dāng)前任務(wù)知識來幫助之前任務(wù)的學(xué)習(xí).Li等人[27]在2019年提出一種連續(xù)結(jié)構(gòu)學(xué)習(xí)框架,當(dāng)網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)搜索時,l層被選擇“重用”,即第l層能夠?qū)W習(xí)到一個與先前的某個任務(wù)非常相似的表示,這要求l層的2個學(xué)習(xí)任務(wù)之間存在語義相關(guān),因此,在第l層上使用正則化項(xiàng)對模型進(jìn)行相應(yīng)的約束來幫助之前任務(wù)的學(xué)習(xí),該模型的提出為解決利用當(dāng)前任務(wù)知識來幫助之前任務(wù)的學(xué)習(xí)提供了思路;Lopez-Paz等人[20]提出梯度情景記憶模型,實(shí)現(xiàn)知識正向遷移到先前任務(wù)功能,進(jìn)而提高模型對之前任務(wù)學(xué)習(xí)的學(xué)習(xí)能力. Fig. 4 Venn graph of the approaches for continual learning圖4 連續(xù)學(xué)習(xí)方法Venn圖 連續(xù)學(xué)習(xí)方法應(yīng)該具有可伸縮性或擴(kuò)展能力,也就是說,該方法既能完成小規(guī)模數(shù)據(jù)任務(wù)的訓(xùn)練,也能夠可伸縮地實(shí)現(xiàn)大規(guī)模任務(wù)上的訓(xùn)練學(xué)習(xí),同時需要能夠保持足夠的能力來應(yīng)付不斷增加的任務(wù). Schwarz等人[28]在2018年提出一種進(jìn)步和壓縮框架(progress and compress framework, P&C)的連續(xù)學(xué)習(xí)模型,P&C模型是由知識庫(knowledge base)和活動列(active column)兩部分組成,這個由快速學(xué)習(xí)和整合組成的循環(huán)結(jié)構(gòu),使模型不需要結(jié)構(gòu)的增長,也不需要訪問和存儲以前的任務(wù)或數(shù)據(jù),也不需要特定的任務(wù)參數(shù)來完成對新任務(wù)的學(xué)習(xí),此外,由于P&C模型使用了2個固定大小的列,所以可以擴(kuò)展到大規(guī)模任務(wù)上;文獻(xiàn)[9]提出一種動態(tài)生成記憶模型(dynamic generative memory, DGM),在DGM模型中,利用一個生成對抗結(jié)構(gòu)來替代之前模型的記憶模塊,來緩解災(zāi)難性遺忘問題.其中,該模型中還結(jié)合一個動態(tài)網(wǎng)絡(luò)擴(kuò)展機(jī)制,以確保有足夠的模型容量來適應(yīng)不斷傳入的新任務(wù);Yoon等人[29]在2018年提出了一種新型的面向終身連續(xù)學(xué)習(xí)的深度網(wǎng)絡(luò)結(jié)構(gòu),稱為動態(tài)可擴(kuò)展網(wǎng)絡(luò)(dynamically expandable network, DEN),它可以在對一系列任務(wù)進(jìn)行訓(xùn)練的同時動態(tài)地確定其網(wǎng)絡(luò)容量,從而學(xué)習(xí)任務(wù)之間緊密重疊的知識共享結(jié)構(gòu),進(jìn)而有效地對各任務(wù)間的共享和私有知識進(jìn)行學(xué)習(xí),不斷學(xué)習(xí)新任務(wù)的同時有效地緩解災(zāi)難性遺忘. 本節(jié)將具體介紹多個代表性的連續(xù)學(xué)習(xí)方法,本文將把目前的連續(xù)學(xué)習(xí)分為基于正則化方法、基于動態(tài)結(jié)構(gòu)方法和基于情景記憶方法三大類,并闡明不同方法之間的關(guān)系,還比較了這些方法在減輕災(zāi)難性遺忘性能的差異性.圖4是對近年來提出的一些流行的連續(xù)學(xué)習(xí)策略韋恩圖總結(jié). 連續(xù)學(xué)習(xí)中各個子類的分類圖如圖5~7所示.圖中從模型引出到下一模型的箭頭,代表了下一模型是在上一模型的基礎(chǔ)上發(fā)展演變得來. Fig. 5 Illustration of the classification for regularization model圖5 正則化模型分類示意圖 Fig. 6 Illustration of the classification for dynamic structural models圖6 動態(tài)結(jié)構(gòu)模型分類示意圖 Fig. 7 Illustration of the classification for the memory replay and complementary learning methods圖7 基于記憶回放以及互補(bǔ)學(xué)習(xí)方法分類示意圖 在神經(jīng)科學(xué)理論模型中,通過具有不同可塑性水平級聯(lián)狀態(tài)的觸突刺激,來保護(hù)鞏固學(xué)習(xí)的知識不被遺忘.受到這一機(jī)制的啟發(fā),從計算系統(tǒng)的角度來看,可以通過對模型施加正則化約束來避免遺忘.通過正則化方法在模型權(quán)重更新時加強(qiáng)約束,以此在保持已有知識的前提下實(shí)現(xiàn)對新任務(wù)的學(xué)習(xí),來緩解災(zāi)難性遺忘這一問題.以下對近年來常見的基于正則化連續(xù)學(xué)習(xí)方法進(jìn)行簡要概括總結(jié). 4.1.1 動態(tài)的長期記憶網(wǎng)絡(luò) 在人工神經(jīng)網(wǎng)絡(luò)中,當(dāng)不同的任務(wù)被依次學(xué)習(xí)時,連續(xù)學(xué)習(xí)會受到干擾和遺忘.Furlanello等人[30]受到McClelland關(guān)于海馬開創(chuàng)性理論[31]啟發(fā),在2016年提出一個新穎的基于知識蒸餾的主動長期記憶網(wǎng)絡(luò)模型(active long term memory network, A-LTM),它是一種順序多任務(wù)深度學(xué)習(xí)模型,能夠在獲取已知知識的同時,保持先前學(xué)習(xí)過的任務(wù)輸入和行為輸出之間的關(guān)聯(lián),也就是不遺忘之前所學(xué)習(xí)的知識. A-LTM模型主要由穩(wěn)定的網(wǎng)絡(luò)模塊N(neo-cortex)、靈活的網(wǎng)絡(luò)模塊H(hippocampus)和雙重機(jī)制3部分組成.其中,模塊N用于保持對長期任務(wù)的記憶,當(dāng)對新任務(wù)進(jìn)行學(xué)習(xí)時,模塊H的權(quán)重首先由模塊N初始化,進(jìn)而實(shí)現(xiàn)任務(wù)的學(xué)習(xí),雙重機(jī)制則允許在不忽略新輸入的情況下保持模塊N的穩(wěn)定性. 在模型訓(xùn)練發(fā)展階段,首先對模塊N進(jìn)行訓(xùn)練,其中,模塊N在一個受控環(huán)境下進(jìn)行訓(xùn)練,也就是說,訓(xùn)練樣例具有豐富的監(jiān)督信息且服從一個穩(wěn)定的概率分布.在進(jìn)行訓(xùn)練時,利用該包含監(jiān)督信息的訓(xùn)練樣例訓(xùn)練網(wǎng)絡(luò)模型,導(dǎo)致模型收斂.當(dāng)學(xué)習(xí)任務(wù)發(fā)生改變時,模塊H首先利用模塊N的知識信息直接初始化,進(jìn)而可以有效地利用之前任務(wù)的知識.通過動態(tài)地對梯度下降過程施加約束,實(shí)現(xiàn)在新舊任務(wù)間的權(quán)衡,進(jìn)而快速地達(dá)到局部最優(yōu),也即是說,模塊H具有快速適應(yīng)新任務(wù)能力. 4.1.2 SI模型 為緩解連續(xù)學(xué)習(xí)過程中EWC算法對FIM的計算實(shí)現(xiàn)較為復(fù)雜的問題,Zenke等人[32]在2017年提出了一種在線計算權(quán)重重要性的方法,即訓(xùn)練時根據(jù)各參數(shù)對損失貢獻(xiàn)的大小來動態(tài)地改變參數(shù)的權(quán)重,如果參數(shù)θi對損失的貢獻(xiàn)越大,則說明該參數(shù)越重要,該方法稱為SI(synaptic intellgence, SI)模型.權(quán)重的重要性計算為 (5) 4.1.3 AR1模型 4.1.4 Online-EWC模型 Schwarz等人[28]在2018年提出一種基于進(jìn)步和壓縮框架(progress and compress framework, P&C)的Online-EWC模型.該模型是一種結(jié)構(gòu)可伸縮的連續(xù)學(xué)習(xí)方法,主要由知識庫和活動列2部分組成,模型通過對這2部分進(jìn)行交替優(yōu)化,實(shí)現(xiàn)知識的正向遷移.這2部分可以被看作為網(wǎng)絡(luò)層的列,在監(jiān)督學(xué)習(xí)的情況下用于預(yù)測類的概率,在強(qiáng)化學(xué)習(xí)的情況下用于產(chǎn)生策略或獎勵值(policies/values).圖8表示將P&C框架應(yīng)用于強(qiáng)化學(xué)習(xí)時知識庫和活動列2個部分交替學(xué)習(xí)的過程. Fig. 8 Illustration of P&C圖8 P&C學(xué)習(xí)過程示意圖 如圖8所示,在對新任務(wù)進(jìn)行學(xué)習(xí)時,也就是在“progress”階段,首先固定知識庫(灰色背景)模塊,對活動列(網(wǎng)格背景)模塊參數(shù)進(jìn)行優(yōu)化,其中在該優(yōu)化過程中沒有施加任何約束或者正則化項(xiàng).值得注意的是,在該過程中可以通過一個面向知識庫的簡單分層適配器來實(shí)現(xiàn)對過去已學(xué)習(xí)到的知識(知識庫)進(jìn)行重用. 在“compress”階段,模型需要進(jìn)行知識蒸餾,也就是說,模型需要將新學(xué)習(xí)到的知識,正向地遷移到知識庫中.該階段的執(zhí)行過程與經(jīng)典的EWC相似,但是不同的是,該模型通過使用在線逼近算法來近似對角FIM,將克服EWC隨著任務(wù)個數(shù)的增加,計算量線性增加的問題. 4.1.5 R-EWC模型 Fig. 9 Illustration of R-EWC圖9 R-EWC示意圖 4.1.6 RWalk模型 連續(xù)學(xué)習(xí)模型在增量學(xué)習(xí)過程中,除了面臨遺忘問題之外,還容易遭受不妥協(xié)(intransigence)問題,即模型無法有效地對新任務(wù)學(xué)習(xí)的知識進(jìn)行更新,Chaudhry等人[12]對此問題進(jìn)行權(quán)衡,提出RWalk(Riemannian walk)模型.RWalk模型主要有3個關(guān)鍵的組成部分:1)基于KL-散度的條件似然正則化pθ(y|x),這是經(jīng)典EWC模型[19]的改進(jìn)版本,也稱其為EWC++;2)基于2個概率分布的KL散度大小實(shí)現(xiàn)對參數(shù)的重要性打分;3)記憶模塊,即從以前的任務(wù)中存儲一些有代表性的樣本策略.前2個組成部分緩解了模型災(zāi)難性遺忘的問題,而第3個部分對模型不妥協(xié)問題,即模型無法有效地對新任務(wù)學(xué)習(xí)的知識進(jìn)行更新處理. 首先,關(guān)于當(dāng)前任務(wù)學(xué)習(xí)的參數(shù),要求新的條件似然函數(shù)應(yīng)該與之前任務(wù)所學(xué)習(xí)的條件似然函數(shù)盡可能相近,即兩者的KL散度盡可能小.為了實(shí)現(xiàn)該過程,在該模型中利用新舊任務(wù)分布的KL散度對新任務(wù)的條件似然分布pθ(y|x)引入正則化約束: (6) 因此,給定模型對第k-1個任務(wù)學(xué)習(xí)后的參數(shù),那么對第k個任務(wù)進(jìn)行學(xué)習(xí)時的目標(biāo)函數(shù)可以表示為 (7) (8) 其中,m表示訓(xùn)練迭代次數(shù),α∈[0,1]是一個超參數(shù). 因此,該模型利用對權(quán)重的重要性評分來實(shí)現(xiàn)對FIM的增強(qiáng).該評分可以被定義為參數(shù)空間損失函數(shù)的改變率到每步的條件似然分布的距離,具體而言,對于參數(shù)從θi(m)~θi(m+1)的改變,把參數(shù)的重要性打分定義為損失的改變率對散度DKL(pθ(m)‖pθ(m+1))的影響.直觀而言,如果分布上一個小的改變可以對應(yīng)于一個更優(yōu)的損失改變,則說明該參數(shù)是更重要的.因此,該過程的權(quán)重重要性打分可以表述為 (9) 其中,Δθi(m)=θi(m+Δm)-θi(m),ε>0. 最后,考慮到模型的測試通常是在目前所學(xué)習(xí)的整個任務(wù)上進(jìn)行測試,而當(dāng)下的模型僅是完成第k個任務(wù)的訓(xùn)練后的模型,因此為了進(jìn)一步降低模型的困惑度,文獻(xiàn)[12]的作者選擇性地保存所有任務(wù)的部分代表性樣本進(jìn)行再訓(xùn)練. RWalk模型最終的損失函數(shù)為 (10) 其中,F(xiàn)θ∈P×P為參數(shù)θ的經(jīng)驗(yàn)費(fèi)雪矩陣,(θi)表示從第1個任務(wù)訓(xùn)練迭代m0到最后的任務(wù)訓(xùn)練迭代mk-1的分?jǐn)?shù)積累.由于分?jǐn)?shù)是隨著時間累積的,正則化將變得越來越嚴(yán)格.為了緩解這種情況,并使任務(wù)能夠進(jìn)行連續(xù)學(xué)習(xí),在每項(xiàng)任務(wù)訓(xùn)練完成后對分?jǐn)?shù)進(jìn)行平均: (11) 4.1.7 無記憶學(xué)習(xí) Dhar等人[36]提出一種基于注意力機(jī)制映射的無記憶學(xué)習(xí)方法(learning without memorizing, LwM),該方法通過約束教師-學(xué)生模型之間的差異來幫助模型去增量地學(xué)習(xí)新的類別,此外,該模型對新類進(jìn)行學(xué)習(xí)時不需要任何之前的信息.與之前研究方法不同的是,LwM模型考慮了教師-學(xué)生模型的梯度流信息,并利用梯度流信息生成注意力機(jī)制映射來有效地提高模型的分類準(zhǔn)確性.在進(jìn)行任務(wù)t的學(xué)習(xí)時,基于注意力機(jī)制的信息知識保存項(xiàng)LAD可以有效防止學(xué)生模型與教師模型偏離太多.在學(xué)生模型進(jìn)行學(xué)習(xí)時,為了有效利用教師模型中的“暗知識”,施加蒸餾損失LD懲罰項(xiàng).LwM模型示意圖如圖10所示: Fig. 10 Illustration of LwM圖10 LwM示意圖 LwM模型的損失函數(shù)為 LLwM=LC+βLD+γLAD, (12) 其中,LAD表示基于注意力機(jī)制映射的信息保存懲罰項(xiàng),LD表示蒸餾損失,LC表示分類損失,β和γ分別表示LD和LAD的權(quán)重因子. 4.1.8 SLNID模型 Aljundi等人[37]研究了利用具有固定容量的網(wǎng)絡(luò)進(jìn)行序列學(xué)習(xí)的問題,在連續(xù)學(xué)習(xí)的背景下研究發(fā)現(xiàn),相較于之前的網(wǎng)絡(luò)參數(shù)層,在表示層施加稀疏性約束,將更有利于序列任務(wù)的學(xué)習(xí).因此,受哺乳動物大腦側(cè)抑制作用的啟發(fā),提出了一種新的基于正則化手段,即通過局部神經(jīng)抑制和折扣的稀疏編碼(sparse coding through local neural inhibition and discounting, SLNID),它通過抑制神經(jīng)元來促進(jìn)特征稀疏.施加該正則化的主要目的是對相同情況下的活躍神經(jīng)元進(jìn)行懲罰,進(jìn)而產(chǎn)生一個更為稀疏和具有較低相關(guān)性的特征表示.同時考慮到,對于復(fù)雜任務(wù)的學(xué)習(xí),一般在同一層需要多個活躍神經(jīng)元來學(xué)習(xí)一個更強(qiáng)的特征表示,因此,只對局部的神經(jīng)元進(jìn)行懲罰.該模型通過局部神經(jīng)抑制為未來的任務(wù)留出學(xué)習(xí)能力,進(jìn)而有效地學(xué)習(xí)新任務(wù),同時考慮到神經(jīng)元的重要性來避免忘記以前的任務(wù). 為了避免災(zāi)難性遺忘,基于重要性權(quán)重的方法,例如EWC或MAS方法,通過在網(wǎng)絡(luò)中對每個參數(shù)θk引入重要權(quán)重Ωk,雖然這些方法在如何估計重要參數(shù)上有所不同,但是在學(xué)習(xí)新任務(wù)Tn時,所有這些方法都使用l2懲罰項(xiàng)對重要參數(shù)的變化進(jìn)行懲罰,在局部神經(jīng)抑制和折扣的稀疏編碼中,通過增加一個額外的正則項(xiàng)RSSL,在每層l的激活中對隱特征表示施加稀疏性約束.其優(yōu)化的目標(biāo)函數(shù)為 (13) RSSLRSLNID(Hl)= (14) 4.1.9 在線拉普拉斯近似 Ritter等人[38]為了緩解災(zāi)難性遺忘,從貝葉斯理論的角度出發(fā),提出一種Kronecker因子在線拉普拉斯近似(online Laplace approximation, Online-LA)方法.該方法是基于貝葉斯在線學(xué)習(xí)框架,在該框架中使用高斯函數(shù)遞歸逼近每個任務(wù)的后驗(yàn)函數(shù),從而產(chǎn)生有關(guān)權(quán)重變化的二次懲罰項(xiàng).拉普拉斯近似要求計算每個模式周圍的海森矩陣,然而該種計算方式通常計算成本較高.因此,為了使該方法具有良好的伸縮性,引入塊對角Kronecker因子逼近曲率,將該復(fù)雜的計算問題進(jìn)行了轉(zhuǎn)化.神經(jīng)網(wǎng)絡(luò)模型最大后驗(yàn)估計MAP形式為 (15) 其中,p(D|θ)是數(shù)據(jù)的似然函數(shù),p(θ)代表先驗(yàn)信息.MAP求解問題可以用損失函數(shù)加正則化項(xiàng)目標(biāo)函數(shù)得到.例如,假設(shè)參數(shù)為零均值高斯先驗(yàn)的MAP問題,對應(yīng)于交叉熵?fù)p失函數(shù)加模型參數(shù)l2范數(shù)正則化項(xiàng),使用標(biāo)準(zhǔn)的基于梯度的優(yōu)化器可以很容易地找到該目標(biāo)函數(shù)的局部最優(yōu)形式.在某一模態(tài)附近,利用二階泰勒展開式對后驗(yàn)函數(shù)進(jìn)行局部逼近,得到以MAP參數(shù)為均值、負(fù)對數(shù)后驗(yàn)函數(shù)的Hessian為精度的正態(tài)分布,MacKay[39]在神經(jīng)網(wǎng)絡(luò)中使用拉普拉斯近似技術(shù).因此,在Online-LA算法中,使用2個迭代步驟與貝葉斯在線學(xué)習(xí)類似,對于用高斯函數(shù)遞歸逼近每個任務(wù)的后驗(yàn)函數(shù),進(jìn)而可求得相應(yīng)的均值和精度矩陣. 4.1.10 分離變分推理 變分推理(variational inference, VI)已成為許多現(xiàn)代概率模型擬合的常用方法,因此,Bui等人[40]對此進(jìn)行研究,提出一種分離變分推理算法(par-titioned variational inference, PVI),文獻(xiàn)[40]中的實(shí)驗(yàn)結(jié)果證明,該方法也可以很好地應(yīng)用在連續(xù)學(xué)習(xí)的場景中,在該場景下新數(shù)據(jù)以非獨(dú)立同分布的方式到達(dá),任務(wù)可能隨著時間發(fā)生變化,并且可能出現(xiàn)全新的任務(wù).在這種情況下,PVI框架既可以利用局部自由能不動點(diǎn)更新方法(local free-energy fix point update)來更新后驗(yàn)分布q(θ),而且它也可以通過選擇性重新訪問舊數(shù)據(jù)來降低災(zāi)難性遺忘.其模型的更新步驟如圖11所示: Fig. 11 PVI algorithm step圖11 PVI算法步驟 4.1.11 分析比較 對于A-LTM模型在沒有外部監(jiān)督的情況下,通過知識蒸餾和回放機(jī)制,在接觸了數(shù)百萬個新例子之后,仍然能夠保持之前對象的識別能力.然而,A-LTM模型僅使用了一個小的數(shù)據(jù)集,例如,PASCAL,進(jìn)行舊任務(wù)的訓(xùn)練,而使用較大數(shù)據(jù)集進(jìn)行新任務(wù)的學(xué)習(xí),例如ImageNet,這將降低模型的準(zhǔn)確性;SI是在EWC基礎(chǔ)上,進(jìn)行在線計算權(quán)重重要性的方法,計算Fk所需的全部數(shù)據(jù)在SGD期間是可用,不需要額外的計算,有效地降低了計算成本;AR1模型是對基于結(jié)構(gòu)和正則化2種策略相結(jié)合,實(shí)驗(yàn)結(jié)果表明,將產(chǎn)生更低的遺忘;Online-EWC模型是通過知識庫和活動列2部分來完成對連續(xù)任務(wù)的學(xué)習(xí),這個由進(jìn)步學(xué)習(xí)和整合學(xué)習(xí)組成的循環(huán)結(jié)構(gòu),使得模型不需要框架的增長,也不需要訪問和存儲以前的任務(wù)或數(shù)據(jù),也不需要特定的任務(wù)參數(shù)來完成對新任務(wù)的學(xué)習(xí),此外,由于Online-EWC模型使用了2個固定大小的列,所以可以擴(kuò)展到大量任務(wù).實(shí)驗(yàn)驗(yàn)證可得,該模型在最小化遺忘的同時實(shí)現(xiàn)知識的正向遷移,并且也可以直接應(yīng)用到強(qiáng)化學(xué)習(xí)任務(wù);R-EWC通過對參數(shù)空間的因式旋轉(zhuǎn),更好地降低遺忘,然而,該方法為了實(shí)現(xiàn)對神經(jīng)網(wǎng)絡(luò)參數(shù)空間進(jìn)行旋轉(zhuǎn),需要增加2個額外的卷積層,這將直接導(dǎo)致網(wǎng)絡(luò)容量的增加;RWalk相較于之前的基準(zhǔn)模型具有更高的準(zhǔn)確性,并且對于模型的遺忘和不妥協(xié)上有較好的權(quán)衡,此外,在訓(xùn)練過程中,RWalk的空間復(fù)雜度是O(P),與任務(wù)的數(shù)量無關(guān);LwM模型對新類進(jìn)行學(xué)習(xí)時不需要任何之前的信息,降低內(nèi)存空間;Online-LA從貝葉斯角度出發(fā)來降低遺忘,此外,模型也具有一定的伸縮性. 總之,正則化方法提供了一種在特定條件下減輕災(zāi)難性遺忘的方法.然而,該方法包含了保護(hù)鞏固知識的額外損失項(xiàng),這些損失項(xiàng)在資源有限的情況下,可能導(dǎo)致對舊新任務(wù)性能的權(quán)衡問題. 基于動態(tài)結(jié)構(gòu)的連續(xù)學(xué)習(xí)方法是通過動態(tài)地對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整以適應(yīng)不斷變化的環(huán)境,該訓(xùn)練方法可以選擇性地訓(xùn)練網(wǎng)絡(luò),并在必要時擴(kuò)展網(wǎng)絡(luò)以適應(yīng)新任務(wù)的學(xué)習(xí).例如,使用更多的神經(jīng)元或網(wǎng)絡(luò)層進(jìn)行再訓(xùn)練,從而有效提取新任務(wù)信息.以下為針對近年來常見動態(tài)結(jié)構(gòu)的連續(xù)學(xué)習(xí)方法所進(jìn)行的概括總結(jié). 4.2.1 重新初始化復(fù)制權(quán)重 Lomonaco等人[34]在2017年提出一種使用重新初始化復(fù)制權(quán)重(copy weights with re-init, CWR)的連續(xù)學(xué)習(xí)方法,該方法可以作為一種基準(zhǔn)技術(shù)來實(shí)現(xiàn)對連續(xù)任務(wù)的識別. 為了不干擾對不同任務(wù)間權(quán)重的學(xué)習(xí),CWR方法為輸出分類層設(shè)定了2組權(quán)重:θcw是用于進(jìn)行長期記憶的穩(wěn)定權(quán)重,θtw是對當(dāng)前任務(wù)進(jìn)行快速學(xué)習(xí)的臨時權(quán)重.其中,θcw在第1個任務(wù)進(jìn)行訓(xùn)練前初始化為0;而θtw在每個任務(wù)訓(xùn)練前進(jìn)行隨機(jī)重新初始化,例如高斯分布抽樣初始化.在多任務(wù)連續(xù)學(xué)習(xí)場景下,由于不同任務(wù)間存在一定差異,所以在每個任務(wù)訓(xùn)練結(jié)束時,θtw中對應(yīng)于當(dāng)前任務(wù)的權(quán)重將會復(fù)制到θcw中.換句話說,θcw可以被看作是一種進(jìn)行長期記憶學(xué)習(xí)的機(jī)制,而θtw則是一種短期工作記憶機(jī)制,用來學(xué)習(xí)新任務(wù)知識而不遺忘之前所學(xué)習(xí)的任務(wù)知識. 此外,為了避免對神經(jīng)網(wǎng)絡(luò)較淺層連接邊的權(quán)值矩陣和偏置向量改變過于頻繁,在第1個任務(wù)訓(xùn)練完成之后,所有神經(jīng)網(wǎng)絡(luò)淺層級的權(quán)重將會被凍結(jié). 4.2.2 CWR+方法 Maltoni等人[33]2019年在CWR方法的基礎(chǔ)上進(jìn)行改進(jìn),提出一種CWR+的方法,該方法主要在CWR基礎(chǔ)上引入了均值偏移(mean-shift)和零初始化(zero initialization)技術(shù).均值偏移是對每批權(quán)重wi進(jìn)行自動補(bǔ)償,即用在每個任務(wù)中學(xué)習(xí)到的權(quán)重減去在所有任務(wù)上的全局平均值實(shí)現(xiàn)歸一化,這樣將不再需要對網(wǎng)絡(luò)權(quán)重進(jìn)行重新歸一化,實(shí)驗(yàn)發(fā)現(xiàn),相較于其他形式的歸一化,該方法可以取得較好的實(shí)驗(yàn)效果.此外,CWR+還引入了零初始化過程,即用0對權(quán)重進(jìn)行初始化替代原來典型的高斯分布抽樣初始化或Xavier初始化.實(shí)驗(yàn)結(jié)果證明,在連續(xù)學(xué)習(xí)的情況下,引入這些精細(xì)化的歸一化和初始化方法,即使是像零初始化這樣簡單方法,也能在一定程度上提高實(shí)驗(yàn)效果. 4.2.3 漸進(jìn)式網(wǎng)絡(luò) Rusu等人[6]考慮通過分配具有固定容量的新子網(wǎng)絡(luò)來防止對已學(xué)習(xí)知識的遺忘,這種通過分配具有固定容量的新子網(wǎng)來擴(kuò)展模型的結(jié)構(gòu),稱為漸進(jìn)式網(wǎng)絡(luò)方法(progressive networks, PN),該方法保留了一個預(yù)先訓(xùn)練的模型,也就是說,該模型為每個學(xué)習(xí)任務(wù)t都對應(yīng)一個子模型.給定現(xiàn)有的T個任務(wù)時,當(dāng)面對新的任務(wù)t+1時,模型將直接創(chuàng)建一個新的神經(jīng)網(wǎng)絡(luò)并與學(xué)習(xí)的現(xiàn)有任務(wù)的模型進(jìn)行橫向連接.為避免模型災(zāi)難性的遺忘,當(dāng)對新的任務(wù)t+1的參數(shù)θt+1進(jìn)行學(xué)習(xí)時,將保持已經(jīng)存在的任務(wù)t的參數(shù)θt不變. 實(shí)驗(yàn)表明,在各種各樣的強(qiáng)化學(xué)習(xí)任務(wù)上都取得了良好的效果,優(yōu)于常見的基準(zhǔn)方法.直觀地說,這種方法可以防止災(zāi)難性的遺忘,但是會導(dǎo)致體系結(jié)構(gòu)的復(fù)雜性隨著學(xué)習(xí)任務(wù)的數(shù)量增加而線性增加. 4.2.4 動態(tài)擴(kuò)展網(wǎng)絡(luò) Yoon等人[29]在2018年提出了一種新的面向終身連續(xù)學(xué)習(xí)任務(wù)的深度網(wǎng)絡(luò)模型,稱為動態(tài)可擴(kuò)展網(wǎng)絡(luò)(dynamically expandable network, DEN),它可以在對一系列任務(wù)進(jìn)行訓(xùn)練的同時動態(tài)地確定其網(wǎng)絡(luò)容量,從而學(xué)習(xí)任務(wù)之間共享的壓縮重疊知識.連續(xù)學(xué)習(xí)最主要的特征是,在對當(dāng)前的任務(wù)t進(jìn)行訓(xùn)練時,前t-1個任務(wù)上所有的訓(xùn)練樣例是不可用的,因此,在對任務(wù)t進(jìn)行學(xué)習(xí)時,模型參數(shù)wt的求解將轉(zhuǎn)化為最優(yōu)化問題: (16) 對目標(biāo)函數(shù)的求解過程,首先,DEN模型通過選擇性再訓(xùn)練,以在線的方式對訓(xùn)練樣例進(jìn)行高效訓(xùn)練;新的任務(wù)到達(dá)時,當(dāng)已學(xué)的特征不能準(zhǔn)確地表示新任務(wù)時,網(wǎng)絡(luò)模型將進(jìn)行動態(tài)擴(kuò)展,換句話說,模型將引進(jìn)額外的必要神經(jīng)元來對新的任務(wù)特征進(jìn)行表示.相較于之前的網(wǎng)絡(luò)擴(kuò)展模型,該模型能夠動態(tài)地對網(wǎng)絡(luò)容量進(jìn)行擴(kuò)展,進(jìn)而使整個網(wǎng)絡(luò)擁有恰當(dāng)合適的神經(jīng)元數(shù)量,完成對不同任務(wù)的學(xué)習(xí). 4.2.5 面向任務(wù)的硬注意力機(jī)制 通常情況下,任務(wù)的定義或者任務(wù)描述對網(wǎng)絡(luò)學(xué)習(xí)是至關(guān)重要的.如果對于2個任務(wù)訓(xùn)練數(shù)據(jù)是相同的,那么一個重要的不同就是任務(wù)的描述.例如,2個同樣都是貓和狗的訓(xùn)練數(shù)據(jù)集,第1個任務(wù)是區(qū)分貓和狗,第2個任務(wù)是區(qū)分毛的顏色. Fig. 12 Illustration of the forward-back propagation for HAT圖12 HAT模型前向-反向傳播示意圖 (17) (18) 其中,下標(biāo)i,j分別表示第l層的輸入和第l-1層的輸出.通過式(18)創(chuàng)建的注意力機(jī)制模型,進(jìn)而來避免對之前任務(wù)的重要參數(shù)的更新.這種方法在某種程度上與PathNet方法[45]類似,都是在不同層之間動態(tài)地創(chuàng)建路徑或損毀路徑達(dá)到不遺忘之前任務(wù)的知識,然而該方法的獨(dú)特之處在于,HAT不是基于模塊而是基于單個神經(jīng)元.因此并不需要事先分配一個模塊大小或者為每個任務(wù)設(shè)置最大模塊容量. 4.2.6 連續(xù)的結(jié)構(gòu)學(xué)習(xí)框架模型 盡管在連續(xù)學(xué)習(xí)過程中,不同的任務(wù)具有一定的相關(guān)性,然而,對于所有任務(wù)共享一個網(wǎng)絡(luò)結(jié)構(gòu),往往不是最優(yōu)的.Li等人[27]在2019年提出一個連續(xù)的學(xué)習(xí)框架模型(a continual learning framework, ACLF),該模型主要是由網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化和參數(shù)優(yōu)化2部分組成,通過這2個部分能夠顯式地分離特定任務(wù)模型結(jié)構(gòu)和模型參數(shù)的學(xué)習(xí).該模型的損失函數(shù)為 (19) 其中,s(θ)表示任務(wù)t的網(wǎng)絡(luò)結(jié)構(gòu),式(19)中等號右邊的第1項(xiàng)表示單個任務(wù)的損失;β>0和λ≥0是正則化因子;Rshare和Rsplit分別表示任務(wù)共享網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)的正則化項(xiàng)和特定分離模型參數(shù)的正則化項(xiàng).在訓(xùn)練過程中,首先使用一個網(wǎng)絡(luò)搜索框架為每個連續(xù)任務(wù)找到當(dāng)前的最優(yōu)結(jié)構(gòu),從而進(jìn)行當(dāng)前任務(wù)的學(xué)習(xí),當(dāng)模型的結(jié)構(gòu)確定以后,使用基于梯度的方法完成對模型的參數(shù)學(xué)習(xí).實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),相比于其他相同規(guī)模的網(wǎng)絡(luò)框架模型,該模型將顯著地降低災(zāi)難性遺忘問題,但是算法復(fù)雜性很高. 4.2.7 分析比較 生物學(xué)習(xí)機(jī)制既不需要存儲流數(shù)據(jù),也不需要以累積的方式學(xué)習(xí)知識,然而,生物卻能有效地處理增量學(xué)習(xí)任務(wù),其中不斷學(xué)習(xí)和鞏固新的知識,只有無用的知識被遺忘.CWR方法的提出實(shí)現(xiàn)了對連續(xù)學(xué)習(xí)對象的識別,該方法作為一種基準(zhǔn)方法為后續(xù)的研究開辟了道路.然而,CWR和CWR+方法的一個不足是:在每一個任務(wù)訓(xùn)練完后,為了避免對所學(xué)知識的遺忘,部分權(quán)重將被凍結(jié),因此無法實(shí)現(xiàn)知識的反向傳播,在一定程度上限制模型對新知識的學(xué)習(xí)能力;直觀地說,漸進(jìn)網(wǎng)絡(luò)框架方法可以防止災(zāi)難性的遺忘,但是會導(dǎo)致體系結(jié)構(gòu)的復(fù)雜性隨著學(xué)習(xí)任務(wù)的數(shù)量增加而線性增加;DEN通過顯式地挖掘任務(wù)間的關(guān)聯(lián)性,針對舊任務(wù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行部分再訓(xùn)練,同時在需要時增加神經(jīng)元個數(shù)以提高對新任務(wù)的解釋能力,有效防止語義漂移;HAT方法與PathNet[45]類似,當(dāng)學(xué)習(xí)新任務(wù)時,通過動態(tài)地創(chuàng)建和刪除跨層路徑來保存新學(xué)的知識.然而,與PathNet不同,HAT中的路徑不是基于模塊的,而是在單個神經(jīng)元的,因此,不需要預(yù)先分配模塊的大小,也不需要設(shè)置每個任務(wù)的最大神經(jīng)元數(shù)量.當(dāng)給定一個網(wǎng)絡(luò)框架后,HAT就可以學(xué)習(xí)并自動對單個神經(jīng)元路徑進(jìn)行選擇,進(jìn)而影響單層的權(quán)重;為避免隨著學(xué)習(xí)任務(wù)的數(shù)量增加模型結(jié)構(gòu)線性增加問題,ACLF方法使用一個網(wǎng)絡(luò)搜索框架為每個連續(xù)任務(wù)找到當(dāng)前的最優(yōu)結(jié)構(gòu),從而進(jìn)行當(dāng)前任務(wù)的學(xué)習(xí),當(dāng)模型的結(jié)構(gòu)確定以后,使用基于梯度的方法完成對模型的參數(shù)學(xué)習(xí),在相同結(jié)構(gòu)容量的情況下,模型將顯著降低遺忘問題.然而,基于動態(tài)結(jié)構(gòu)的方法,隨著任務(wù)數(shù)量的不斷增加,其模型結(jié)構(gòu)也將不斷變大,因此,無法應(yīng)用到大規(guī)模數(shù)據(jù),這也將是該模型應(yīng)用于實(shí)際的重要限制. 在生物學(xué)上,互補(bǔ)學(xué)習(xí)系統(tǒng)(complementary lear-ning systems, CLS)[46]主要包括海馬體和新皮質(zhì)系統(tǒng)2部分,其中,海馬體表現(xiàn)出短期的適應(yīng)性,并允許快速學(xué)習(xí)新知識,而這些新知識又會隨著時間的推移被放回到新皮質(zhì)系統(tǒng),以保持長期記憶.更具體地說,海馬體學(xué)習(xí)過程的主要特點(diǎn)是能夠進(jìn)行快速學(xué)習(xí),同時最小化知識間的干擾.相反,新大腦皮層的特點(diǎn)是學(xué)習(xí)速度慢,并建立了學(xué)習(xí)知識間的壓縮重疊表示.因此,海馬體和新皮質(zhì)系統(tǒng)功能相互作用對于完成環(huán)境規(guī)律和情景記憶的學(xué)習(xí)至關(guān)重要. 如圖13所示,CLS包括用于快速學(xué)習(xí)情景信息的海馬體和用于緩慢學(xué)習(xí)結(jié)構(gòu)化知識的新皮質(zhì)2部分,即海馬體通常與近期記憶的即時回憶有關(guān),例如短期記憶系統(tǒng),新皮層通常與保存和回憶遙遠(yuǎn)的記憶有關(guān),例如長期記憶.CLS理論為記憶鞏固和檢索建模計算框架提供了重要的研究基礎(chǔ). Fig. 13 CLS theory圖13 CLS理論 受該理論的啟發(fā),基于雙記憶系統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型的出現(xiàn)在一定程度上能夠有效緩解連續(xù)學(xué)習(xí)過程中的遺忘問題,因此,受此生物學(xué)習(xí)系統(tǒng)的啟發(fā),基于情景記憶和生成模型等一系列連續(xù)學(xué)習(xí)模型相繼提出,下文將對該類模型進(jìn)行詳細(xì)闡述. 4.3.1 BIIL模型 Gepperth等人[4]受生物學(xué)習(xí)過程啟發(fā),在2015年提出了一種新的仿生增量學(xué)習(xí)框架模型(a bio-inspired incremental learning architecture, BIIL),當(dāng)學(xué)習(xí)過程中數(shù)據(jù)具有非常高的維數(shù)(>1 000)時,仍然能有效地保持資源利用效率,同時在該模型中還增加一個短期記憶(STM)系統(tǒng)來提高模型性能,使其能夠在連續(xù)任務(wù)學(xué)習(xí)的場景下,保持良好的分類準(zhǔn)確性.具體而言,該模型研究了如何在不進(jìn)行再訓(xùn)練的情況下將一個新的任務(wù)添加到一個經(jīng)過訓(xùn)練的體系結(jié)構(gòu)中,同時緩解眾所周知的與此類場景相關(guān)的遺忘效應(yīng)問題.該結(jié)構(gòu)的核心是通過一種自組織的方法來對任務(wù)空間描述,進(jìn)而在2維平面上近似估計該任務(wù)空間中的鄰里關(guān)系.通過這種近似方法,即使在非常高維的情況下,也允許通過有效的局部更新規(guī)則來進(jìn)行增量學(xué)習(xí).此外,增加的短期記憶系統(tǒng)還可以通過在特定的“睡眠”階段對先前存儲的樣本進(jìn)行回放來防止遺忘.該模型的結(jié)構(gòu)圖如圖14所示: Fig. 14 Illustration of BIIL圖14 BIIL模型示意圖 如圖14所示,在該模型中使用了一個3層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)完成對連續(xù)任務(wù)的學(xué)習(xí).其中,使用改進(jìn)的自組織映射(self-organizing map, SOM)算法來訓(xùn)練網(wǎng)絡(luò)隱層的拓?fù)浣M織原型,通過線性回歸完成從隱層到輸出層的決策和學(xué)習(xí);此外,該結(jié)構(gòu)中引入調(diào)制機(jī)制來控制和限制隱層和輸出層的學(xué)習(xí). 4.3.2 增加的雙記憶學(xué)習(xí)結(jié)構(gòu)(GDM) Fig. 15 Illustration of GDM圖15 GDM模型示意圖 Parisi等人[7]在2018年提出了一種適用于連續(xù)學(xué)習(xí)場景的雙記憶自組織體系結(jié)構(gòu),將該方法稱為增量的雙記憶學(xué)習(xí)方法(growing dual-memory learning, GDM),該模型結(jié)構(gòu)主要包括一個深度卷積特征提取模塊和2個分層排列的遞歸自組織網(wǎng)絡(luò),模型原理示意圖如圖15所示: 如圖15所示,2個遞歸網(wǎng)絡(luò)是對Gamma-GWR(Gamma grow-when-required)模型[47]基礎(chǔ)上的擴(kuò)展,該網(wǎng)絡(luò)可以對模型按任務(wù)順序輸入動態(tài)地創(chuàng)建新的神經(jīng)元和連接.不斷增加的情景記憶(growing episodic memory, G-EM)以無監(jiān)督的方式從任務(wù)中學(xué)習(xí)而來,其網(wǎng)絡(luò)結(jié)構(gòu)也將根據(jù)網(wǎng)絡(luò)預(yù)測輸入的能力來進(jìn)行相應(yīng)調(diào)節(jié).相反,不斷增加的語義記憶模塊(growing semantic memory, G-SM)接收來自G-EM的神經(jīng)激活信號,并使用與該任務(wù)相關(guān)的信號來調(diào)節(jié)神經(jīng)元并進(jìn)行神經(jīng)元的更新,因此,該模型通過情景嵌入的方式形成一種更為壓縮緊湊的知識統(tǒng)計表示.同時,情景記憶也將周期性地進(jìn)行記憶回放,實(shí)現(xiàn)在沒有外部輸入情況下進(jìn)行知識的鞏固,防止對之前任務(wù)所學(xué)知識的遺忘. 4.3.3 LGM模型 Ramapuram等人[25]在2017年提出一種終生學(xué)習(xí)的生成模型(lifelong generative modeling, LGM),在該模型中通過一個學(xué)生-教師變分自編碼器(student-teacher variational autoencoder, STVA)[48],不斷地將新學(xué)習(xí)到的分布合并到所學(xué)的模型中,而不需要保留過去的數(shù)據(jù)或者過去的模型結(jié)構(gòu),實(shí)現(xiàn)模型對連續(xù)任務(wù)分布的學(xué)習(xí). 同時,受貝葉斯更新規(guī)則的啟發(fā),在該模型中引入一種新的跨模型正則化(cross-model regularizer)方法,使得學(xué)生模型可以有效地利用教師模型的信息,此外,正則化器的使用還可以減少對分布序列學(xué)習(xí)過程中的災(zāi)難性遺忘或干擾.LGM模型是一個基于學(xué)生-教師模型的雙重體系結(jié)構(gòu).其中,教師的角色是保存以前所學(xué)知識的分布記憶,并將這些知識傳遞給學(xué)生;學(xué)生的角色是有效利用從老師那里獲得的知識,進(jìn)而有效地學(xué)習(xí)新輸入數(shù)據(jù)的分布.因此,基于學(xué)生-教師模型的雙重體系結(jié)構(gòu)通過對教師模型和學(xué)生模型的聯(lián)合優(yōu)化訓(xùn)練,完成在學(xué)習(xí)新知識的同時不遺忘之前的知識. 4.3.4 CCL-GM模型 Lavda等人[49]在2018年提出一種基于生成模型的連續(xù)分類學(xué)習(xí)(continual classification learning using generative models, CCL-GM)方法,該方法是在LGM模型的基礎(chǔ)上給目標(biāo)函數(shù)增加額外的KL-離差項(xiàng),來保存之前所有任務(wù)的后驗(yàn)表示,以便加快模型的訓(xùn)練,加快來自關(guān)于教師模型中的隱表示和生成數(shù)據(jù)的負(fù)信息增益正則化項(xiàng)的收斂性. 4.3.5 平均梯度情景記憶 為了減輕經(jīng)典GEM模型的計算負(fù)擔(dān),Chaudhry等人[50]在2018年提出了平均梯度情景記憶模型(averaged gradient episodic memory, A-GEM).GEM模型的主要特征是確保在每個訓(xùn)練步驟中,每一個先前任務(wù)的損失不會增加,而在A-GEM模型中,為了降低計算復(fù)雜性,試圖確保在每個訓(xùn)練步驟中,相對于先前任務(wù)的平均記憶損失不會增加,有效降低計算成本.在學(xué)習(xí)任務(wù)t時,A-GEM的目標(biāo)函數(shù)為 (20) 式(20)優(yōu)化問題可轉(zhuǎn)化為 (21) 其中,gref表示之前所有記憶任務(wù)參數(shù)的梯度,從情景記憶中隨機(jī)抽取一批樣本計算平均梯度.換句話說,A-GEM用一個約束來替代GEM中的t-1個約束,gref表示從情景記憶的隨機(jī)子集計算出前一個任務(wù)梯度的平均值.因此,式(21)的約束優(yōu)化問題可以更快地求解,更新規(guī)則為 (22) 4.3.6 情景記憶回放 4.3.7 嵌入對齊的EMR 在嵌入對齊的情景記憶回放方法中(embedding alignment-episodic memory replay, EA-EMR),對于每一個任務(wù)k,除了需要在記憶M中存儲原來的訓(xùn)練樣本(x(k),y(k))之外,還需要存儲它的嵌入表示信息.模型在對一個新的任務(wù)進(jìn)行訓(xùn)練之后,模型參數(shù)將發(fā)生改變,因此,對于相同輸入(x(k),y(k)),嵌入表示包含的信息也將不同.直觀地說,連續(xù)學(xué)習(xí)算法應(yīng)該允許這樣的參數(shù)變化,但要確保這些變化不會過多改變之前任務(wù)所學(xué)習(xí)的嵌入空間. EA-EMR算法的提出是為了防止在嵌入空間上發(fā)生的過大失真,EA-EMR的想法為:如果在不同步驟中,嵌入空間并沒有太大失真,那么應(yīng)該存在一個足夠簡單的變換a,例如線性變換,可以將新學(xué)習(xí)的嵌入空間變換為原始嵌入空間,而不會對之前任務(wù)存儲的嵌入空間造成太大變化.因此,建議在原始嵌入的基礎(chǔ)上增加一個變換a,并自動學(xué)習(xí)基本模型f和嵌入空間的變換a.具體而言,在第k個任務(wù)中,首先學(xué)習(xí)模型f(k-1)和變換a(k-1),f(k-1)和a(k-1)是由之前的k-1個任務(wù)訓(xùn)練而來.進(jìn)而,學(xué)習(xí)基本模型f和變換a,以此來優(yōu)化模型處理新任務(wù)和存儲樣例的性能,而不會對前面的嵌入空間造成太大的影響.在關(guān)系檢測模型中加入嵌入對齊的方式如圖16所示. Fig. 16 Add the alignment model to the basic relationship detection model圖16 基本關(guān)系檢測模型上添加對齊模型 圖16顯示了如何在一個基本的關(guān)系檢測模型上添加對齊模型的過程,在本例中為線性模型.其中,使用2個BiLSTMs模塊[52]來對文本和關(guān)系進(jìn)行編碼,最后計算其嵌入對齊之間的余弦相似性進(jìn)行打分. 最終,完成對模型的學(xué)習(xí)過程.通過最小化如式(23)所示的目標(biāo)函數(shù): (23) 式(23)主要由2部分組成,前半部分是優(yōu)化基本模型f,在該步驟主要學(xué)習(xí)新任務(wù),且不會對存儲的樣例造成性能下降.后半部分是優(yōu)化變換a,保持當(dāng)前任務(wù)的嵌入空間,恢復(fù)之前存儲的樣本時的嵌入空間. 4.3.8 元經(jīng)驗(yàn)回放 Riemer等人[52]嘗試通過梯度對齊來權(quán)衡連續(xù)問題中知識的遷移(transform)和干擾(inter-ference)問題,因此提出一種元經(jīng)驗(yàn)回放方法(meta-experience replay, MER).該方法與之前的連續(xù)學(xué)習(xí)方法最主要的一個不同是,在該模型中不僅考慮當(dāng)前知識對之前知識的遷移,而且考慮到當(dāng)前知識動態(tài)地前向遷移過程.該算法將經(jīng)驗(yàn)回放與基于優(yōu)化的元學(xué)習(xí)方法[53]相結(jié)合,使得該方法保持當(dāng)前任務(wù)學(xué)習(xí)的參數(shù)對未來學(xué)習(xí)知識的干擾降到最小,而基于未來梯度的知識對當(dāng)前任務(wù)知識的遷移更有可能發(fā)生,充分考慮了在連續(xù)任務(wù)學(xué)習(xí)場景中的遷移-干擾的平衡問題. 對于連續(xù)學(xué)習(xí)問題中遷移-干擾的平衡,即考慮在時間上的正向和逆向的權(quán)重共享和穩(wěn)定性-可塑性平衡.在MER中,通過利用一個經(jīng)驗(yàn)回放模塊增強(qiáng)在線學(xué)習(xí),實(shí)現(xiàn)了對到目前為止看到的所有樣例的平穩(wěn)分布的近似優(yōu)化.同時,對于損失梯度計算困難的問題,使用元學(xué)習(xí)算法間接地將目標(biāo)近似為一階泰勒展開來解決這個問題.在線學(xué)習(xí)算法與元學(xué)習(xí)算法的結(jié)合,有效地實(shí)現(xiàn)知識的前向遷移. 4.3.9 小情景記憶回放 Chaudhry等人[54]在MER模型的基礎(chǔ)上進(jìn)行研究,提出一種新的記憶回放方法,稱其為小情景記憶回放(MER-Tiny),相較于之前的在特定時間進(jìn)行記憶回放,聯(lián)合訓(xùn)練當(dāng)前任務(wù)中的樣例和存儲在記憶模塊中的樣例將獲得更優(yōu)的性能.此外,實(shí)驗(yàn)驗(yàn)證表明,對小情景記憶的重復(fù)學(xué)習(xí)并不會降低模型對過去任務(wù)的泛化能力.對于記憶內(nèi)存的寫入方法,實(shí)驗(yàn)驗(yàn)證發(fā)現(xiàn),水庫抽樣(reservoir sampling)可以取得較優(yōu)的效果,但是該方法往往需要較大的內(nèi)存開銷.然而,在內(nèi)存非常小的情況下,犧牲隨機(jī)性保證所有類平衡,即為每個任務(wù)存儲特定個數(shù)的記憶樣例.因此,新的小記憶回放方法可以實(shí)現(xiàn)對兩者的權(quán)衡,提高模型性能. 與最簡單的基準(zhǔn)模型相比,MER-Tiny模型主要有2個修改:1)它有一個小情景記憶,且每一步都會更新;2)通過將當(dāng)前任務(wù)中的實(shí)際小批次記憶與從內(nèi)存中隨機(jī)抽取的小批次記憶疊加起來,以實(shí)現(xiàn)梯度下降的參數(shù)更新.實(shí)驗(yàn)結(jié)果表明:這2個簡單的修改將使模型具有了更好的泛化性能,并在很大程度上降低了災(zāi)難性遺忘問題. 4.3.10 端到端增量學(xué)習(xí) 傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)要用到整個數(shù)據(jù)集,即之前類和新類的所有樣本來更新模型,然而隨著類的數(shù)量不斷增加,該模型將無法連續(xù)學(xué)習(xí).Castro等人[55]在此研究基礎(chǔ)上,提出一種增量的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法,稱為端到端增量學(xué)習(xí)(end-to-end incremental learning),即只使用新任務(wù)數(shù)據(jù)和舊任務(wù)樣例對應(yīng)的小樣本集來解決該問題. 端到端增量學(xué)習(xí)方法使用交叉熵和蒸餾損失來訓(xùn)練深度網(wǎng)絡(luò),使用蒸餾損失來保留從舊類中獲得的知識,使用交叉熵作為損失函數(shù)來完成對新類的學(xué)習(xí),由于該方法具有較好的通用性,所以網(wǎng)絡(luò)的選取可以是基于任何為分類而設(shè)計的深層模型結(jié)構(gòu).增量式訓(xùn)練的整個框架是通過端到端的方式實(shí)現(xiàn)的,也就是,聯(lián)合學(xué)習(xí)數(shù)據(jù)表示和分類器.其典型的帶有分類層和分類損失的框架如圖17所示. Fig. 17 An end-to-end learning framework with classification layers and classification losses圖17 帶有分類層和分類損失的端到端學(xué)習(xí)框架 在訓(xùn)練階段,通過交叉熵蒸餾損失函數(shù)的對數(shù)計算梯度,更新網(wǎng)絡(luò)的權(quán)值.交叉蒸餾損失函數(shù)的定義為 (24) 4.3.11 分析比較 目前為緩解連續(xù)學(xué)習(xí)過程中的災(zāi)難性遺忘問題,主要集中在引入正則化策略、動態(tài)結(jié)構(gòu)策略和基于情景記憶策略這3個方向進(jìn)行研究.正則化方法在模型更新時,通過對權(quán)重進(jìn)行約束,實(shí)現(xiàn)在保持已有知識的前提下,完成對新任務(wù)的學(xué)習(xí),從而緩解災(zāi)難性遺忘這一問題,此外,這類方法通常不需要保存任何以前的數(shù)據(jù),只需要對每個任務(wù)進(jìn)行一次訓(xùn)練.然而,該類方法克服災(zāi)難性遺忘的能力是有限的,例如在類增量學(xué)習(xí)(class-incremental learning, Class-IL)場景下性能不佳,此外,隨著任務(wù)數(shù)目的不斷增加,對過去任務(wù)進(jìn)行正則化處理,可能導(dǎo)致特征漂移.動態(tài)地改變模型結(jié)構(gòu)以便在不干擾之前任務(wù)的學(xué)習(xí)知識的情況下學(xué)習(xí)新的任務(wù),該類方法也可以成功地緩解災(zāi)難性遺忘這一問題,然而,該類方法不能從任務(wù)之間的正向遷移中獲益,另外模型的大小隨著觀察到的任務(wù)數(shù)量的增加而急劇增長,這使得它在實(shí)際問題中往往不可行.基于情景記憶的方法,通過保存一些以前任務(wù)的樣例進(jìn)行記憶回放來緩解對之前所學(xué)習(xí)知識的遺忘,該類方法在減輕災(zāi)難性遺忘方面顯示出了巨大優(yōu)勢,然而,計算成本卻隨著先前任務(wù)的數(shù)量增加而快速增長,并且該方法需要保存之前樣例,不利于數(shù)據(jù)安全保護(hù).在基于情景記憶的方法中,為替代存儲所學(xué)任務(wù)的樣例數(shù)據(jù),提出使用深層生成模型來記憶以前見過的數(shù)據(jù)分布,然而該類方法往往需要從頭開始重新訓(xùn)練生成模型,訓(xùn)練效率低,此外,在每次生成以前任務(wù)的新的真實(shí)樣本時,還極易造成“語義漂移”,且隨著時間推移,模型訓(xùn)練準(zhǔn)確性逐漸下降. 本節(jié)將對近年來連續(xù)學(xué)習(xí)實(shí)驗(yàn)分析過程中常用的實(shí)驗(yàn)數(shù)據(jù)集以及公認(rèn)的評價準(zhǔn)則進(jìn)行詳細(xì)介紹. 表2和表3對連續(xù)學(xué)習(xí)過程中常用的分類數(shù)據(jù)集以及其主要特征進(jìn)行總結(jié).MNIST數(shù)據(jù)集[57]是對0~9這10個數(shù)字進(jìn)行手寫樣本的數(shù)據(jù)集,其中每個樣本的輸入是一個圖像,標(biāo)簽是圖像所代表的數(shù)字.為了在該數(shù)據(jù)集上進(jìn)行連續(xù)學(xué)習(xí)問題的評估,提出3種用于連續(xù)學(xué)習(xí)場景下的MNIST數(shù)據(jù)集:1)排列的MNIST數(shù)據(jù)集[19],該數(shù)據(jù)集是參考某個固定的排列,通過重新排列像素來創(chuàng)建任務(wù),即通過K個不同的排列來生成K個不同的任務(wù);2)旋轉(zhuǎn)的MNIST數(shù)據(jù)集,其中每個任務(wù)都是通過對數(shù)字旋轉(zhuǎn)固定的角度創(chuàng)建的,即選擇K個角度來創(chuàng)建K個任務(wù);3)分離的MNIST數(shù)據(jù)集,將原始的MNIST數(shù)據(jù)集分成5個訓(xùn)練任務(wù)得到分離手寫字體數(shù)據(jù)集.此外,其他常見的連續(xù)學(xué)習(xí)數(shù)據(jù)集包括:Fashion-MNIST數(shù)據(jù)集由相同大小的灰度圖像組成[58];Traffic Signs數(shù)據(jù)集包含交通標(biāo)志圖像,其中使用來自Udacity自動駕駛汽車github存儲庫的數(shù)據(jù)集[59];Bulatov等人[60]從公共可用字體中提取出的字形而創(chuàng)建的與MNIST類似的Not MNIST數(shù)據(jù)集;Netzer等人[61]在谷歌街景圖像中截取的房號創(chuàng)建了SVHN數(shù)據(jù)集;CIFAR10數(shù)據(jù)集和CIFAR100數(shù)據(jù)集[62]是由32×32像素的彩色圖像組成. Table 2 Introduction of Distributions for Seven Classified Datasets表2 7種分類數(shù)據(jù)集屬性介紹 Table 3 Introduction of Distributions for Six Object Recognition Datasets表3 6種對象識別數(shù)據(jù)集屬性介紹 iCubWorld變換數(shù)據(jù)集(iCubWorld transfor-mation, iCub-T)[63]和CORe50數(shù)據(jù)集是連續(xù)學(xué)習(xí)對象識別實(shí)驗(yàn)中最復(fù)雜,也是較為常用的2個數(shù)據(jù)集.這2個數(shù)據(jù)集是專為連續(xù)學(xué)習(xí)圖像而設(shè)計,是從某個人作為移動對象的一系列幀中生成的一系列圖像,例如,CORe50數(shù)據(jù)集包括在不同的條件下同一對象的多個視圖(不同的背景、對象的姿態(tài)和遮擋程度)的10個類別內(nèi)的50個對象.數(shù)據(jù)集收集了11個具有不同背景和亮度的圖像,其中,對于在每個場景下的每個對象使用Kinect 2.0傳感器[64]錄制一個15 s的視頻(20 Hz).最終數(shù)據(jù)集是包含164 866張128×128 RGB-D的11個場景50個對象的圖像.因此,這2個數(shù)據(jù)集是評估連續(xù)學(xué)習(xí)的理想數(shù)據(jù)集,因?yàn)楫?dāng)學(xué)習(xí)算法識別該對象時,該流數(shù)據(jù)不是IID形式,因此,很好地滿足連續(xù)學(xué)習(xí)過程的要求.Wang等人[65]提出一個以自我為中心、手工的以及多圖像的數(shù)據(jù)集(egocentric,manual,multi-image, EMMI),EMMI中的圖像來自可穿戴式攝像機(jī)記錄的常見家用物品和玩具被手動操作以進(jìn)行結(jié)構(gòu)化轉(zhuǎn)換,如旋轉(zhuǎn)和平移等,該數(shù)據(jù)集收集的目的是,視覺體驗(yàn)的外觀相關(guān)和分布特性如何影響學(xué)習(xí)的結(jié)果等.表3對常見的6個用于對象識別的數(shù)據(jù)集的主要特征進(jìn)行總結(jié)[66-68]. 連續(xù)學(xué)習(xí)算法可以從一系列連續(xù)的流數(shù)據(jù)中不斷地學(xué)習(xí),進(jìn)而實(shí)現(xiàn)對模型增量式更新.對于連續(xù)學(xué)習(xí)算法的性能可以從多方面進(jìn)行評估,目前大多集中于模型學(xué)習(xí)知識的準(zhǔn)確性和對之前所學(xué)知識的遺忘程度2方面[41].Lopez-Paz等人[20]認(rèn)為連續(xù)學(xué)習(xí)問題常涉及知識的正向以及反向遷移能力,因此,需要對模型的知識遷移性能進(jìn)行評估;Díaz-Rodríguez等人[69]考慮到連續(xù)學(xué)習(xí)算法往往還涉及模型框架的大小、內(nèi)存記憶的占用以及計算效率等問題,因此提出一系列更為全面的評價指標(biāo),從多個方面對連續(xù)學(xué)習(xí)算法性能進(jìn)行評估.以下從模型學(xué)習(xí)的準(zhǔn)確性、知識的遺忘、反向遷移、正向遷移、模型規(guī)模度量和計算效率這6個方面對近年來模型的學(xué)習(xí)性能評估進(jìn)行總結(jié). 5.2.1 準(zhǔn)確性(accuracy) (25) Díaz-Rodríguez等人[69]給定訓(xùn)練-測試樣本精度矩陣R∈T×T,其中包含每個條目Ri,j通過觀察任務(wù)i的最后一個樣本得到的模型在任務(wù)j上的測試分類精度[20].模型的準(zhǔn)確性是通過考慮矩陣R的對角元素,對實(shí)現(xiàn)對訓(xùn)練集Di和測試集Dj的平均精度進(jìn)行考慮.準(zhǔn)確性fA為 (26) 文獻(xiàn)[54]最初定義該準(zhǔn)則是為了在最后一個任務(wù)結(jié)束時評估模型的性能而定義的,而在文獻(xiàn)[69]中,該準(zhǔn)確性準(zhǔn)則應(yīng)該考慮到模型在每一時間點(diǎn)(every timestep)的性能的準(zhǔn)確性指標(biāo),這樣能夠更好地考慮連續(xù)學(xué)習(xí)模型的動態(tài)性能. 5.2.2 遺忘 Joan等人[41]引入遺忘率來獲得對模型遺忘量的測量.首先,對任務(wù)進(jìn)行權(quán)衡并統(tǒng)一隨機(jī)化它們的順序,在訓(xùn)練任務(wù)t之后計算所有的測試任務(wù)集τ≤t的精度. 因此,對于分類問題,當(dāng)模型已經(jīng)被增量訓(xùn)練至任務(wù)k(j≤k)之后,定義對于第j個任務(wù)的遺忘模型的量化形式為 (27) (28) 5.2.3 反向遷移 反向遷移能力(backward transfer, BWT)是衡量模型學(xué)習(xí)了一個新的任務(wù)后對先前任務(wù)的影響.當(dāng)需要在多任務(wù)或流數(shù)據(jù)背景下進(jìn)行學(xué)習(xí)時,往往就需要模型對其反向遷移性能的評估.模型對之前任務(wù)學(xué)習(xí)能力的提高和不降低的性能對連續(xù)學(xué)習(xí)是至關(guān)重要,因此,在其學(xué)習(xí)的整個過程中都應(yīng)該被評估.fBWT定義在學(xué)習(xí)了i之后,在同一測試集的最后一個任務(wù)結(jié)束時,對任務(wù)j(j (29) 因?yàn)閒BWT最初的取值規(guī)則是為后向遷移取正值,為災(zāi)難性遺忘取負(fù)值,因此,為了將fBWT映射到區(qū)間[0,1],同時更好地區(qū)分這2個不同語義的概念. 5.2.4 正向遷移 知識正向遷移(forward transfer, FWT)是衡量學(xué)習(xí)任務(wù)對未來任務(wù)的影響.根據(jù)之前Lopez-Paz等人[20]對準(zhǔn)確性的度量準(zhǔn)則,Díaz-Rodríguez等人[69]進(jìn)一步修改為訓(xùn)練-測試準(zhǔn)確度量,其中Ri,j的平均準(zhǔn)確性高于準(zhǔn)確率矩陣R的主對角線.因此定義fFWT為 (30) 5.2.5 模型規(guī)模度量 根據(jù)每個任務(wù)i的參數(shù)θ的數(shù)量來量化每個模型hi的存儲器的大小,記為fMem(θi),相對于第1個任務(wù)內(nèi)存大小fMem(θ1),隨著時間推移,模型對任務(wù)不斷地學(xué)習(xí),模型規(guī)模大小不應(yīng)該增長過快. 因此,模型的規(guī)模(model size, MS)fMS定義為 (31) 5.2.6 計算效率 由于模型的計算效率(computational efficiency, CE)受訓(xùn)練集Dt的乘法和加法運(yùn)算總數(shù)的限制,因此,文獻(xiàn)[41]定義任務(wù)之間的平均計算效率fCE為 (32) 其中,Ops(Dt)是指學(xué)習(xí)Dt所需要的操作數(shù);Ops↑↓(Dt)是指在Dt進(jìn)行一次知識的正向和反向傳播所需要的運(yùn)算次數(shù);ε的默認(rèn)值是大于1,該因子的使用使得fCE的計算更有意義,例如,避免了趨近于0的情況. 作為機(jī)器學(xué)習(xí)領(lǐng)域中的一個極具潛力的研究方向,連續(xù)學(xué)習(xí)方法已經(jīng)受到學(xué)者的極大青睞.隨著人工智能及機(jī)器學(xué)習(xí)不斷的發(fā)展,基于連續(xù)學(xué)習(xí)的方法已經(jīng)獲得了較多應(yīng)用,例如圖像分類、目標(biāo)識別以及自然語言處理等.以下將對近年來連續(xù)學(xué)習(xí)在各領(lǐng)域的主要應(yīng)用進(jìn)行介紹. Li等人[16]在2017年提出了一種由卷積神經(jīng)網(wǎng)絡(luò)組成的無遺忘學(xué)習(xí)方法,該方法將知識蒸餾與細(xì)調(diào)方法相結(jié)合,利用知識蒸餾的方法來加強(qiáng)與當(dāng)前學(xué)習(xí)任務(wù)相關(guān)的已經(jīng)學(xué)習(xí)過的知識,提高分類的準(zhǔn)確性;Kim等人[70]提出基于DOS的最大熵正則化增量學(xué)習(xí)模型(maximum entropy regularization and dropout sample for incremental learning, MEDIL),該模型通過最大熵正則化來減少對不確定遷移知識的優(yōu)化,以及利用DOS來通過從新任務(wù)中選擇性地刪除樣例減少對舊類的遺忘,以此減少記憶樣例中類的不平衡,有效地完成連續(xù)學(xué)習(xí)過程中的圖像分類;Smith等人[71]在2019年提出一種新穎的自學(xué)習(xí)聯(lián)想記憶框架(self-taught associative memory, STAM),有效解決在連續(xù)學(xué)習(xí)過程中的無監(jiān)督學(xué)習(xí)分類問題;Aljundi等人[37]提出一種基于稀疏編碼的正則化方法,實(shí)現(xiàn)利用具有固定容量的網(wǎng)絡(luò)進(jìn)行有序?qū)W習(xí)問題,在CIFAR100和MNIST數(shù)據(jù)集上進(jìn)行分類的結(jié)果表明,該模型能夠有效地提高模型的分類能力;Rostami等人[72]考慮到基于自編碼器的生成模型能夠很好地對輸入樣例進(jìn)行編碼,獲得較好的隱特征表示,同時受并行分布式處理學(xué)習(xí)和互補(bǔ)學(xué)習(xí)系統(tǒng)理論的啟發(fā),提出一種新穎的計算模型,該模型能夠?qū)⑿聦W(xué)習(xí)的概念與之前模型學(xué)習(xí)的概念經(jīng)過統(tǒng)一編碼,進(jìn)而形成一個統(tǒng)一的嵌入空間表示,實(shí)現(xiàn)了利用之前學(xué)習(xí)的概念知識來有效地幫助只有少量標(biāo)簽樣例的新領(lǐng)域知識的學(xué)習(xí),從而完成在連續(xù)學(xué)習(xí)背景下的樣例分類. Siam等人[73]提出一種新穎的教師-學(xué)生自適應(yīng)框架,在無需人工標(biāo)注的情況下,完成人機(jī)交互(human-computer interaction, HCI)背景下的視頻目標(biāo)對象分割(video object segmentation);Parisi等人[7]提出了一種適用于終身學(xué)習(xí)場景的雙記憶自組織體系結(jié)構(gòu),該模型結(jié)構(gòu)主要包括一個深度卷積特征提取模塊和2個分層排列的遞歸自組織網(wǎng)絡(luò),進(jìn)而實(shí)現(xiàn)在終身學(xué)習(xí)場景下的視頻序列中的目標(biāo)對象的識別;Tessler等人[74]提出一種新穎的分層深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)(hierarchical deep reinforcement learning network, H-DRLN)框架,該模型在Minecraft游戲場景中,通過重用在之前任務(wù)中學(xué)習(xí)到的知識,進(jìn)而完成對未來任務(wù)場景的目標(biāo)對象學(xué)習(xí),提高效率,同時,該模型的實(shí)驗(yàn)結(jié)果也展示了在不需要額外學(xué)習(xí)的情況下在相關(guān)Minecraft任務(wù)之間遷移知識的潛力;Michiel等人[10]將當(dāng)前的基于任務(wù)標(biāo)識已知的序列學(xué)習(xí)方法推向了在線無任務(wù)標(biāo)識的連續(xù)學(xué)習(xí)場景中,首先,假設(shè)有一個無限輸入的數(shù)據(jù)流,其中該數(shù)據(jù)流中包含現(xiàn)實(shí)場景中常見的逐漸或者突然的變化.文獻(xiàn)[10]中提出一種基于重要權(quán)重正則化的連續(xù)學(xué)習(xí)方法,與傳統(tǒng)的任務(wù)標(biāo)識已知場景中不同,在該場景中,該模型需要有效地檢測何時、如何以及在哪些數(shù)據(jù)上執(zhí)行重要性權(quán)重更新,進(jìn)而有效地在無任務(wù)標(biāo)識場景下進(jìn)行在線連續(xù)學(xué)習(xí).該文中在監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)過程中都成功地驗(yàn)證了該方法的有效性.其中,具體而言,相較于基準(zhǔn)學(xué)習(xí)方法,在電視劇人臉識別和機(jī)器人碰撞等具體應(yīng)用中,該方法的穩(wěn)定性和學(xué)習(xí)性能都有所提高.Tahir等人[75]考慮到當(dāng)下最先進(jìn)的有關(guān)食物識別的深度學(xué)習(xí)模型不能實(shí)現(xiàn)數(shù)據(jù)的增量學(xué)習(xí),經(jīng)常在增量學(xué)習(xí)場景中出現(xiàn)災(zāi)難性遺忘問題.因此,提出一種新的自適應(yīng)簡化類增量核極值學(xué)習(xí)機(jī)方法(adaptive reduced class incremental kernel extreme learning machine, ARCIKELM),進(jìn)而完成目標(biāo)食物對象的識別,其中在多個標(biāo)準(zhǔn)的食物數(shù)據(jù)集的最終分類準(zhǔn)確性證明了該模型可以有效地進(jìn)行增量學(xué)習(xí). d’Autume等人[76]介紹了一種連續(xù)學(xué)習(xí)背景下的自然語言學(xué)習(xí)模型,該模型實(shí)現(xiàn)了對在線文本數(shù)據(jù)的有效學(xué)習(xí).在文獻(xiàn)[76]中介紹了一種基于稀疏經(jīng)驗(yàn)回放的方法有效地防止災(zāi)難性遺忘,具體而言,對于每10 000個新的樣本隨機(jī)均勻選擇100個樣本在固定的時間間隔進(jìn)行稀疏經(jīng)驗(yàn)回放,實(shí)驗(yàn)表明,該模型在文本分類和問答系統(tǒng)等自然語言領(lǐng)域可以實(shí)現(xiàn)較好的應(yīng)用.Li等人[77]考慮到現(xiàn)有的方法大多集中在對輸入和輸出大小固定的標(biāo)簽預(yù)測連續(xù)學(xué)習(xí)任務(wù)上,因此,提出了一個新的連續(xù)學(xué)習(xí)場景,它處理自然語言學(xué)習(xí)中常見的序列到序列的學(xué)習(xí)任務(wù).實(shí)驗(yàn)結(jié)果表明,該方法比現(xiàn)有方法有明顯的改進(jìn),它能有效地促進(jìn)知識正向遷移,防止災(zāi)難性遺忘.Kruszewski等人[78]提出一種基于多語言和多領(lǐng)域背景下的語言建?;鶞?zhǔn),該基準(zhǔn)可以將任何明確的訓(xùn)練樣例劃分為不同的任務(wù).與此同時,提出一種基于產(chǎn)品專家(product of experts, PoE)的多語言連續(xù)學(xué)習(xí)方法,Kruszewski等人的實(shí)驗(yàn)結(jié)果證明,在進(jìn)行多語言連續(xù)學(xué)習(xí)時,該模型可以有效地緩解災(zāi)難性遺忘.Hu等人[79]對個性化在線語言學(xué)習(xí)問題(personalized online language learning, POLL)進(jìn)行研究,涉及到適應(yīng)個性化的語言模型以適應(yīng)隨著時間發(fā)展的用戶群體.為了有效地對POLL問題進(jìn)行研究,文獻(xiàn)[79]的作者收集了大量的微博帖子作為訓(xùn)練數(shù)據(jù)集,進(jìn)而對近年來流行的連續(xù)學(xué)習(xí)算法進(jìn)行了嚴(yán)格評估,并在此基礎(chǔ)上提出一種簡單的連續(xù)梯度下降算法(continual gradient descent, ConGraD),實(shí)驗(yàn)結(jié)果表明,該算法在Firehose數(shù)據(jù)集和早期基準(zhǔn)測試數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果優(yōu)于之前的連續(xù)學(xué)習(xí)方法. 作為機(jī)器學(xué)習(xí)領(lǐng)域中的一個新興方向,連續(xù)學(xué)習(xí)近幾年受到研究者們的極大關(guān)注,目前來看,連續(xù)學(xué)習(xí)在未來的研究中有10個潛在的方向: 1) 基于經(jīng)驗(yàn)回放(experience replay)的模型相較于其他連續(xù)學(xué)習(xí)模型有較好的性能,然而,容量的飽和是該類模型中所面臨的重要挑戰(zhàn),因此如何在保持原有知識的同時,不斷提高模型的能力是未來重要的研究方向. 2) 對于任務(wù)不可知場景下的連續(xù)學(xué)習(xí)算法尚需進(jìn)一步研究.目前,大多連續(xù)學(xué)習(xí)算法要求在任務(wù)邊界(task boundaries)已知的場景中來進(jìn)行訓(xùn)練和預(yù)測,即當(dāng)需要學(xué)習(xí)一個新的任務(wù)時,模型需要被告知有新的學(xué)習(xí)任務(wù),例如,改變損失函數(shù)中的參數(shù)等,以便系統(tǒng)能夠采取某些行動.然而,在任務(wù)之間沒有明顯邊界,即任務(wù)的轉(zhuǎn)變是逐漸的或者連續(xù)的,這些模型將不再適用.然而,在實(shí)際應(yīng)用中,往往需面對的是任務(wù)邊界不可知場景學(xué)習(xí)問題.文獻(xiàn)[9]從貝葉斯的角度提出一種貝葉斯梯度下降算法(Bayes gradient desent, BGD),對沒有明確定義的任務(wù)邊界的連續(xù)學(xué)習(xí)問題提供一種解決思路,然而,基于此場景的連續(xù)學(xué)習(xí)算法仍相對缺乏,尚需進(jìn)一步研究. 3) 利用多模態(tài)信息.現(xiàn)有的連續(xù)學(xué)習(xí)方法通常使用來自單一模態(tài)(如圖像或文本)的知識進(jìn)行建模,然而,雖然當(dāng)下訓(xùn)練集有一些當(dāng)前模態(tài)的樣例,但是,樣例可能還存在另一個模態(tài).因此,來自多模態(tài)的知識可以為連續(xù)學(xué)習(xí)提供較為豐富的樣例信息,進(jìn)而提高模型的建模能力.因此如何有效地利用這些多模態(tài)信息也是未來研究的重要方向. 4) 在未來可以對當(dāng)下連續(xù)學(xué)習(xí)模型應(yīng)用的靈活性進(jìn)行進(jìn)一步擴(kuò)展研究,例如多感知領(lǐng)域的擴(kuò)展.文獻(xiàn)[80]可以從視聽流中不斷學(xué)習(xí)任務(wù)的特征,使得連續(xù)學(xué)習(xí)的方法向更加廣泛的應(yīng)用邁進(jìn)一步.因此,可以通過將連續(xù)學(xué)習(xí)方法部署在具體的代理中,通過與環(huán)境的主動交互,在持續(xù)的時間內(nèi)可以增量地獲取和提取知識,以此來更好地完成對對象的識別等任務(wù). 5) 數(shù)據(jù)集太小也是連續(xù)學(xué)習(xí)過程所面臨的挑戰(zhàn)之一.例如,目前存在的iCub-T和CORe50數(shù)據(jù)集,只包含幾十個常見的家庭對象類,缺乏大規(guī)模和多樣性數(shù)據(jù)集.因此,創(chuàng)建一個更大的和更多樣化的數(shù)據(jù)集,即可以包括數(shù)百個或數(shù)千個類,也可以包括不同類型的識別,如人臉、場景以及活動等,對未來的研究工作是至關(guān)重要的. 6) 在實(shí)際分類問題中,數(shù)據(jù)的不平衡時常發(fā)生,易于導(dǎo)致數(shù)據(jù)的錯誤分類,因此如何從不平衡的數(shù)據(jù)集中進(jìn)行正確分類,也是未來連續(xù)學(xué)習(xí)研究的一個重要方向. 7) 在線學(xué)習(xí).當(dāng)前的連續(xù)學(xué)習(xí)方法多集中于對每個單獨(dú)的任務(wù)進(jìn)行離線訓(xùn)練,然而,在實(shí)際應(yīng)用中數(shù)據(jù)往往以數(shù)據(jù)流的形式存在[81].因此,如何對連續(xù)的數(shù)據(jù)流進(jìn)行學(xué)習(xí)是未來的一個重要的研究方向. 8) 正向遷移.在連續(xù)學(xué)習(xí)方法中,正向遷移即知識的正向遷移能力,也就是對新任務(wù)進(jìn)行學(xué)習(xí)時,如何有效地利用之前所學(xué)習(xí)的知識來有效地加快對當(dāng)前任務(wù)的學(xué)習(xí).近年來,元學(xué)習(xí)方法的出現(xiàn),為進(jìn)一步提高知識的正向遷移提供了前景.因此,如何有效地利用元學(xué)習(xí)技術(shù)來盡可能地加快對當(dāng)前任務(wù)的學(xué)習(xí)是未來的一個重要的研究方向. 9) 權(quán)衡模型的穩(wěn)定性與可塑性.模型的可塑性,即模型對學(xué)習(xí)新知識的能力.模型的穩(wěn)定性,即模型對已經(jīng)學(xué)習(xí)知識的保留能力.在連續(xù)學(xué)習(xí)過程中,如何有效地對模型的穩(wěn)定性和可塑性進(jìn)行權(quán)衡是一個值得研究的問題. 10) 應(yīng)用領(lǐng)域擴(kuò)展.大多實(shí)際應(yīng)用場景都涉及連續(xù)學(xué)習(xí)的問題,計算機(jī)視覺中圖像分類是連續(xù)學(xué)習(xí)最常用的實(shí)驗(yàn)平臺之一.連續(xù)學(xué)習(xí)最近在許多其他應(yīng)用中也引起了廣泛關(guān)注,如機(jī)器人技術(shù)、自然語言處理和視頻信號處理.總之,連續(xù)學(xué)習(xí)還有很多值得探索的領(lǐng)域和應(yīng)用. 連續(xù)學(xué)習(xí)是近年來機(jī)器學(xué)習(xí)領(lǐng)域的一個重要的研究方向.連續(xù)學(xué)習(xí)是模擬大腦學(xué)習(xí)的過程,按照一定的順序?qū)B續(xù)的非獨(dú)立同分布的流數(shù)據(jù)進(jìn)行增量學(xué)習(xí).連續(xù)學(xué)習(xí)的意義在于高效地轉(zhuǎn)化和利用已經(jīng)學(xué)過的知識來完成新任務(wù)的學(xué)習(xí),并且能夠極大程度地降低遺忘帶來的問題.本文系統(tǒng)地對近年來提出的連續(xù)學(xué)習(xí)方法進(jìn)行綜述,首先詳細(xì)闡述了連續(xù)學(xué)習(xí)的定義、學(xué)習(xí)場景以及其相關(guān)領(lǐng)域,然后詳細(xì)指出了各模型提出的原因以及具有的優(yōu)缺點(diǎn)、常用的實(shí)驗(yàn)數(shù)據(jù)集、評價指標(biāo)以及近年來的應(yīng)用,最后對未來的研究方向及其巨大的應(yīng)用潛力進(jìn)行了細(xì)致說明.總之,隨著對連續(xù)學(xué)習(xí)研究的不斷深入,未來勢必將發(fā)揮越來越重要的作用. 作者貢獻(xiàn)聲明:韓亞楠負(fù)責(zé)文獻(xiàn)調(diào)研、內(nèi)容設(shè)計、論文撰寫和論文校對;劉建偉負(fù)責(zé)提出論文的整體研究和分析思路、指導(dǎo)寫作、修改論文以及最終審核;羅雄麟?yún)⑴c論文校對.2.4 分析比較
3 連續(xù)學(xué)習(xí)的關(guān)鍵問題
3.1 災(zāi)難性遺忘
3.2 知識的正向遷移
3.3 知識的正向和反向遷移
3.4 可伸縮性能力
4 連續(xù)學(xué)習(xí)方法研究進(jìn)展
4.1 正則化方法
4.2 動態(tài)結(jié)構(gòu)
4.3 記憶回放以及互補(bǔ)學(xué)習(xí)系統(tǒng)
4.4 總 結(jié)
5 實(shí)驗(yàn)數(shù)據(jù)集與評價準(zhǔn)則
5.1 實(shí)驗(yàn)數(shù)據(jù)集介紹
5.2 評價準(zhǔn)則
6 連續(xù)學(xué)習(xí)的應(yīng)用
6.1 圖像分類
6.2 目標(biāo)識別
6.3 自然語言處理
7 未來的研究方向
8 總 結(jié)