吳伊萍
(泉州師范學院 數(shù)學與計算機科學學院,福建 泉州 362000)
機器學習中的負遷移探討
吳伊萍
(泉州師范學院 數(shù)學與計算機科學學院,福建 泉州 362000)
傳統(tǒng)的機器學習側重于研究單一任務,假設訓練數(shù)據(jù)和測試數(shù)據(jù)服從同樣的概率分布,然而實際中這一條件往往無法滿足,且對于不同任務的研究較少,這些就需要遷移學習.它可以從現(xiàn)有的任務中學習知識和技能用于將來的任務.然而使用遷移學習則要承擔負遷移的風險.本文介紹在增強學習、多任務學習和歸納學習中避免負遷移的方法.
遷移學習;避免負遷移;任務相關;綜述
漢語拼音的學習有助于學習英語發(fā)音;英語的學習有助于學習法語;練短跑有助于提高三級跳成績等.人們很早就懂得運用已掌握的知識和技能學習新任務.不同人的學習能力不同,隨著知識的積累,一般成人的學習能力比小孩高.而提高機器的學習能力則要使機器學習的能力不斷提高,繼承和發(fā)展過去已掌握的知識和技能,實現(xiàn)增量學習.但正如Porter和Duncan[1]的研究發(fā)現(xiàn)在A到B之間遷移有效,但A到BR之間就有害,及“一朝被蛇咬,十年怕井繩”.這些都表明負遷移的存在及其危害.
目前遷移學習在機器學習的一些領域,如神經(jīng)網(wǎng)絡、層次貝葉斯、增強學習、多任務學習和歸納學習的研究已經(jīng)取得了一定的進展.為了促進遷移學習在其他機器學習上的推廣,預防負遷移,這篇文章我們討論負遷移及其預防機制.主要討論其在增強學習、多任務學習和歸納學習上的避免方法.
2.1 遷移學習和負遷移研究現(xiàn)狀
遷移學習來源于認知科學[25],人們利用已掌握的經(jīng)驗知識學習新事物,它包括行為遷移和知識遷移.在機器學習領域,不同時期由于不同的研究對象人們提出了不同名稱的遷移學習.1995年,NIPS-95工作室提出“學會學習(learning to learn)”[23];Caruana“多任務學習 (Multi-task learning)”[18];Raina“自學習(self-taught leaning)”[24]等.有些人提出了一些遷移學習研究的統(tǒng)一框架,如戴文淵——特征遷移[4]等.目前從事遷移學習的研究機構有香港科技大學計算機科學與工程系,美國威斯康星大學(University of Wisconsin,USA)機器學習實驗室,加利福尼亞伯克利分校和麻省理工學院等.在近幾年的頂級國際會議上,如ICML,ECML/ PKDD,KDD,IJCAI等和遷移學習相關的文章有不少,可參見香港科大的網(wǎng)頁[3].隨著認知心理學等相關學科的發(fā)展,在未來的一段時間里,遷移學習將成為機器學習和人工智能研究領域的主要方向.
負遷移是遷移學習過程中不可回避的問題.如會開小汽車后學習開大卡車就比較容易,但會騎自行車就要學開大卡車就很困難.雖然都是車,由于大卡車和小汽車的結構、發(fā)動和駕駛原理相似,但和自行車相差甚遠.同樣學習系統(tǒng)在一個新的場景中,如果套用原有場景的方法一味蠻干則會降低學習質(zhì)量.
2.2 相關概念定義
遷移學習的概念目前沒有嚴格統(tǒng)一的定義,按照NIPS2005對遷移學習的定義進行描述.“Transfer Learning emphasizes the transfer ofknowledge across domains,tasks,and distributions that are similar but not the same.”遷移學習強調(diào)的是在相似但不同的領域、任務和分布之間知識的遷移.
源任務指機器已掌握的相對于新任務不同的數(shù)據(jù)集.
目標任務指機器要學習的新任務的數(shù)據(jù)集.
負遷移,在機器學習領域還沒有給出嚴格的定義.在此,我們定義為:舊的知識或經(jīng)驗阻礙或干擾新任務的學習.
遷移學習的三個要素是:What to transfer;How to transfer;When to transfer,即遷移什么,怎樣遷移和什么時候遷移.人們從縱多的經(jīng)驗知識中選擇適合于新任務的知識,要能在合適的時間用合適的方法遷移挑選的舊知識于新知識中.遷移的內(nèi)容從認知科學的角度包括知識和行為;遷移的方法Robins[25]指“analogy,skill transfer and metaphor”——類推,行為遷移和比喻.這對于人來說尚且不易,更不要說是機器.在機器進行遷移學習的過程中,如果候選任務選擇不當或遷移的內(nèi)容不當或遷移時機不當都會造成負遷移.在避免負遷移的研究中仍有許多問題值得探討,在此按照以下三方面討論:(1)排除有害信息(2)度量任務相似度(3)選擇源任務.
Table1:Approaches to avoid negative transfer
Table2:Different settings of negative transfer
3.1 排除有害信息
排除有害信息是避免負遷移的重要方法之一.對于相似度極高的源目標任務,學習系統(tǒng)可能忽略目標任務的特定屬性,進行簡單的模仿,由此降低系統(tǒng)的性能.在增強學習中,存在多系統(tǒng)或多任務交互的情況,代理遷移先前學習的知識如策略或Q值時,可能采用原有單一系統(tǒng)的方法,這樣就會造成負遷移.在交互任務中,學習系統(tǒng)要能夠排除來自于自身環(huán)境或外來任務的干擾或有害的信息,才能進行有效地遷移學習.
對于相似度極高的兩個任務,遷移學習有時會阻礙學習系統(tǒng)的性能,Rosenstein和Marx[8]給出了使用目標任務中的少量數(shù)據(jù)來檢測和避免負遷移的方法.他們提出層次樸素貝葉斯方法,在假設兩個任務具有相同的超驗分布,未知的均值和小方差,計算小樣本的后驗概率.樸素貝葉斯和分層體制結合,用來檢測和避免負遷移,簡潔有效地判斷是否進行遷移.不足在于,他們?yōu)檫m應Dirichlet分布為所有用戶設置一個共享參數(shù),但Dirichlet分布不適用于任意的雙峰分布,該模型無法處理多于一個任務的聚類.Roy和Kaelbling[28]提出Dirichlet過程混合模型,解決了這一問題.
在大規(guī)模順序決策問題上,增強學習的解決方法之一是關系強化學習.學習系統(tǒng)通過代理與環(huán)境中的其它系統(tǒng)交互.但對于復雜的場景代理要選擇一個最優(yōu)策略也是很困難的.Croonenborghs等人[16]試圖在關系強化學習中學習關系抉擇(relational options)進行歸納遷移.他們構造一個擴展的抉擇框架用于分層關系抽?。╤ierarchical relational abstractions)來學習相似但不同的域.他們按照行為的形式遷移知識,將這些行為表示成關系抉擇,并設定初始和結束條件及策略.顯然,用Q函數(shù)(Q-function)代替最優(yōu)策略表示上容易多,只要確定“狀態(tài)——動作”序列求出Q值(Q-value),構造決策樹就能確定下一步的動作.
Torrey等[19,20]提出征求建議來決定遷移源任務中的知識到目標任務中的方法.通過征求建議,遷移了共同知識,摒棄了不合理知識對目標任務的干擾.文中涉及的系統(tǒng)使用歸納邏輯程序涉及來分析源任務中的技能,根據(jù)遷移規(guī)則來決定采取什么行為.
3.2 度量任務相似度
任務或域的相似性度量是一個很難的問題,辨別新舊任務或域之間的相似點和相似程度,以確定是否進行遷移及遷移什么.針對不同的域和任務,人們提出了各種嘗試,經(jīng)過十幾年的研究,任務相似度的度量有了一定的進展.Silver等人[26],1996年,提出了基于相似度度量地使用動態(tài)學習比率的任務知識的并行遷移.
Thrun和O’Sullivan等[13]為我們介紹了任務聚類的算法,幫助我們識別內(nèi)在相關的任務.它有助于在多任務學習時,規(guī)避不相關任務帶來的風險和潛在的誤導,增強學習系統(tǒng)的魯棒性.在同一個聚類中,如果從任務N遷移的知識越有助于改善學習系統(tǒng)學習任務M,則說明這兩個任務越相關.任務聚類算法共三步:(1)對于每一組任務N和M:計算從任務M遷移的知識對任務N的性能增益;(2)在每個任務聚類中最大化性能增益,將所有任務安排在一個更小的聚類中;(3)如果一個新任務來臨,決定最相似的聚類.從該類的某任務中選擇性地遷移知識.對于每個新遇到的新任務,通過任務聚類算法,找到其所在聚類,根據(jù)該聚類的特征學習新任務,有效地實現(xiàn)知識和技能的遷移.[10]Bakker等人也在貝葉斯的多任務學習上進行任務聚類和控制來避免負遷移.
多任務學習是同時學習相關的任務,遷移學習是先學習一個相似但不同的源任務再將源任務中的知識遷移到目標任務.Ben-David和Schuler[9]在多任務學習中研究具有共同特征的相關任務集,并提出了針對相關任務的數(shù)據(jù)生成框模型及誤差界限.根據(jù)數(shù)據(jù)生成模型,學習者可以計算任務屬性值.如果任務P和T之間對于任意屬性Tri有P(Tri)=T(F(Tri)),則稱任務P和T滿足函數(shù)F相似,則這兩個任務稱為相關任務.這為任務相關又提供了一種改進的度量方法.不足之處在于,要找到函數(shù)F不易.
Carroll和Seppi[17],2005年在增強學習任務庫中,根據(jù)遷移方法的不同提出了任務相似性的度量的指標,包括時間、策略覆蓋、Q值和獎賞結構分別用dT,dP,dQ,和dR表示.
Mahmud和Ray[6]從貝葉斯的角度來逼近計算任務相似度.他們使用條件Kolmogorov復雜性的假設,巧妙地解決了任務相似度地度量.條件的Kolmogorov復雜性的輸入變量是h’,輸出變量是h,其概率分布式K(h|h’),用來衡量輸入對輸出的積極信息.對于目標任務,它的先驗概率來自于源任務的學習,因此計算每個候選項的概率P(·|h’)=2-K(·|h’),從而決定目標任務要從源任務重遷移適當?shù)男畔⒘?該方法的特點是一先驗概率的計算容易;二能達到預先的目的——合理的遷移先驗知識比不遷移先驗知識的好.
3.3 選擇源任務
遷移的知識各種各樣,如增強學習中的值函數(shù)或啟發(fā)式信息或關系.學習系統(tǒng)在遇到新任務時,存在某個遷移的知識點上有多個候選任務同時可以進行遷移.如果學習系統(tǒng)沒有篩選候選任務,可能因此造成負遷移.
當面對多任務時,增強學習中代理做出正確的抉擇很困難.Talvitie等人[21]使用直接的方法——基于Markov過程理論的隨機動態(tài)系統(tǒng)的最優(yōu)決策過程(Markov Decision Process,MDP)來遷移.首先,對于每個候選項,在目標任務上在固定的時間內(nèi)運行MDP并按照它們的性能排序;其次,從前一次的排序結果中選出最優(yōu)策略繼續(xù)執(zhí)行;比較第i次與第i+1次的最優(yōu)策略,如果第i+1次比第i次來得差,則結束.對于問題規(guī)模大的情況,該方法盡管費時,但簡單實用.此外,MDP具備完善的理論和評估指標.
在計算機和數(shù)學領域,圖是構建實體關系的工具.Kuhlmann和Stone[22]、Dai等人[4]和Eaton等人[7]在遷移學習的研究上葉提出構造圖來表示任務和規(guī)則.他們都提出基于來實現(xiàn)學習的遷移,但實現(xiàn)上卻有所不同.Kuhlmann和Stone[22]是尋求同構空間中的匹配,描述的是規(guī)則圖.節(jié)點代表一條規(guī)則中的邏輯語句、相關語句、常量和變量.順序邊連接的時連續(xù)的變量,為約束添加邊描述其前后因.通過計算目標任務和舊任務的規(guī)則圖是否同構,尋找同構的舊任務進行值函數(shù)遷移.
Dai等人[4]提出針對遷移學習的統(tǒng)一框架,描述的是任務圖.實例、特征和標簽作為節(jié)點,邊連接目標任務和輔助數(shù)據(jù).通過學習任務圖的頻譜可以獲取其所有節(jié)點的特征空間表示.作者還提出了“特征聚類:用于遷移學習的統(tǒng)一框架”算法,用于進行目標聚類任務.特征遷移框架可以有效地解決跨域學習、跨分類學習、自學習三類典型的遷移學習問題.
Eaton等人[7]對候選任務間的遷移關系建模,通過在一個圖中嵌入已學的源模型集合用于遷移性的度量.遷移到一個新的問題,通過把這個問題映射成一個圖.在這個圖上學習一個函數(shù),自動確定轉移到新任務的參數(shù).該方法類似于歸納遷移,沿著流形獲取任務間的遷關系.它直接對候選源任務間的關系建模,可以確保從多個候選任務中自動選擇相關信息遷移,避免人工選擇源任務帶來的負遷移.
遷移學習是機器學習和人工智能領域的重要研究方向,負遷移是遷移學習過程中必須面對的問題.遷移學習在增強學習、多任務學習、貝葉斯學習和歸納學習的研究已開展一段時間,這篇文章從三個方面介紹了它們避免負遷移的途徑——排除有害信息、度量任務相似度和選擇源任務.希望通過對負遷移避免方法的探討,有助于機器學習領域其他學習的遷移.此外,任務或域映射是與負遷移密切相關的問題,映射技術的提高有助于避免負遷移,是今后研究的一個方向.
〔1〕LW Porter,CP Duncan Negative Transfer in VerbalLearning [J].JournalofExperimental Psychology,1953.
〔2〕Sinno J.Pan,Qiang Yang.A Survey on Transfer Learning[C].IEEE Transactions on Knowledge and Data Engineering,2009,Vol.99,No.1.
〔3〕http://www.cse.ust.hk/~sinnopan/conferenceTL. htm.
〔4〕Wenyuan Dai,Gui-Rong Xue,Qiang Yang,Yong Yu,EigenTransfer:A Uni?ed Framework for Transfer Learning[C].Proceedings of the 26th International Conference on Machine Learning, 2009.
〔5〕Z.Marx, M.T.Rosenstein, L.P.Kaelbling,and T.G.Dietterich.Transfer learning with an ensemble of background tasks[C].In NIPS Workshop on Transfer Learning,2005.
〔6〕M.M.H.Mahmud and S.R.Ray.Transfer learning using kolmogorov complexity:Basic theory and empirical evaluations[C].Proceedings of Cambridge,MA:MIT Press,2008.985–992.
〔7〕E.Eaton,M.desJardins,and T.Lane.Modeling transfer relationships between learning tasks for improved inductive transfer[C].In Machine Learning and Knowledge Discovery in Databases,European Conference,2008.
〔8〕M.T.Rosenstein,Z.Marx,and L.P.Kaelbling.To transfer or not to transfer[C].In a NIPS-05Workshop on Inductive Transfer:10Years Later,December 2005.
〔9〕S.Ben-David and R.Schuller.Exploiting task relatedness for multiple task learning[C].In Proceedings of the Sixteenth Annual Conference on Learning Theory.San Francisco: Morgan Kaufmann,2003.825–830.
〔10〕B.Bakker and T.Heskes.Task clustering and gating for Bayesian multitask learning [J]. Journal of Machine Learning Reserch,vol.4. pp.83-99,2003.
〔11〕A.Argyriou,A.Maurer,and M.Ponti.An algorithm for transfer learning in a heterogeneous environment[C].Proceedings of Machine Learning and Knowledge Discovery in Databases,European Conference[C].ECML/PKDD,2008,ser. Lecture Notes in Computer Science.Antwerp, Belgium:springer,September 2008,pp.71–85.
〔12〕Jonathan Baxter.A model of inductive bias learning [J].Journal of Artificial Intelligence Research,12:149–198,2000.
〔13〕Sebastian Thrun,Joseph O’Sullivan.Clustering Learning Tasks and The Selective Cross-Task Transfer of Knowledge[M].1995.In S.Thrun and L.Y.Pratt (eds),editors,Learning To Learn, chapter 10.Kluwer Academic Publisher,1998.
〔14〕L.Torrey and J.Shavlik.Transfer Learning [M].In E.Soria,J.Martin,R.Magdalena, M.Martinez and A.Serrano,editors,Handbook of Research on Machine Learning Applications,IGI Global 2009.PP242-261.
〔15〕Matthew E.Taylor,PeterStone.Transfer Learning in Reinforcement Learning Domains: A Survey[J].Journal of Machine Learning Research,10(2009).PP.1633-1685.
〔16〕T.Croonenborghs,K.Driessens,andM.Bruynooghe. Learning relational skills for inductive transfer in relational reinforcement learning[C].In International Conference on Inductive Logic Programming,2007.
〔17〕C.Carroll and K.Seppi.Task similarity measuresfortransferin reinforcementlearning task libraries[C].In IEEE International Joint Conference on Neural Net-works,2005.
〔18〕R.Caruana.Multi-task learning[J].Machine Learning.1997,28(1):141-75.
〔19〕L.Torrey,T.Walker,J.Shavlik,and R.Maclin [C].Using Advice to Transfer Knowledge Acquired in One Reinforcement Learning Task to Another.Proceedings of the 16th European Conference on Machine Learning,2005.
〔20〕L.Torrey,J.Shavlik,T.Walker,and R.Maclin. Relational Skill Transfer via Advice Taking[C]. ICML Workshop on StructuralKnowledge Transfer for Machine Learning,2006.
〔21〕E.Talvitie and S.Singh.An expertsalgorithm for transfer learning[C].In International Joint Conference on Artificial Intelligence,2007.
〔22〕G.Kuhlmann and P.Stone.Graph-based domain mapping for transfer learning in general games[C].In European Conference on Machine Learning,2007.
〔23〕http://www-2.cs.cmu.edu/Groups/NIPS/NIPS95/
〔24〕Rajat Raina,Alexis Battle,Honglak Lee,Benjamin Packer and Andrew Y.Ng.Self-taught Learning:TransferLearning from Unlabeled Data[C].ICML2007.
〔25〕Anthony Robins.Transfer in Cognition [J]. Connection Scinece,Vol.8,No.2,1996.
〔26〕Daniel L.Silver,Robert E.Mercer.The Parallel Transfer of Task Knowledge Using Dynamic Learning Rates Based on a measure of Relatedness [J].Connection Science,Vol.8, No.2,1996.
〔27〕http://multitask.cs.berkeley.edu/.
〔28〕Daniel M.Roy and Leslie P.Kaelbling.Efficient Bayesian Task-Level Transfer Learning[C].Proceedings of the Twentieth International Joint Conference on Artificial Intelligence,2007.
TP274.1
A
1673-260X(2010)08-0039-04