王士同, 鐘富禮, 蔣亦樟, 鄧趙紅, 錢鵬江
(1.江南大學(xué)數(shù)字媒體學(xué)院,江蘇無(wú)錫214122;2.香港理工大學(xué)計(jì)算機(jī)系,香港)
傳統(tǒng)機(jī)器學(xué)習(xí)方法發(fā)展至今已取得了許多重 大研究成果[1-4],其學(xué)習(xí)模式通常包含無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)兩種。無(wú)監(jiān)督學(xué)習(xí)中,聚類分析[5-7]是一類代表方法;而對(duì)于有監(jiān)督學(xué)習(xí),分類和回歸[8-12]應(yīng)用更為普遍。就上述的兩種傳統(tǒng)機(jī)器學(xué)習(xí)模式而言,無(wú)論是無(wú)監(jiān)督學(xué)習(xí)還是有監(jiān)督學(xué)習(xí),其在學(xué)習(xí)過(guò)程中必須基于對(duì)大量數(shù)據(jù)的分析和學(xué)習(xí)方可構(gòu)建較好的模型,從而進(jìn)行進(jìn)一步的數(shù)據(jù)分析或預(yù)測(cè)。然而,在實(shí)際應(yīng)用中,大量可用及有用的數(shù)據(jù)由于時(shí)間、采集設(shè)備等因素而不易獲取。如在處理某一新興領(lǐng)域的建模問(wèn)題時(shí),模型構(gòu)建初期,數(shù)據(jù)量往往較少不足以構(gòu)建一個(gè)滿意的模型。這時(shí)通常需要借助大量且有效的歷史數(shù)據(jù)為模型得以充分訓(xùn)練起到支撐作用,但是歷史數(shù)據(jù)通常與當(dāng)前數(shù)據(jù)不同源或是雖然同源但由于生產(chǎn)環(huán)境與條件的不同,致使這些數(shù)據(jù)存在某種程度上的差異性。若繼續(xù)使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行建模,所得模型在新數(shù)據(jù)并不充分或數(shù)據(jù)自身采集時(shí)就存在信息缺失問(wèn)題,所建的系統(tǒng)必定變得不可靠,故難以用于實(shí)際的生產(chǎn)活動(dòng)中。此外,對(duì)于無(wú)監(jiān)督的學(xué)習(xí)方法,如聚類分析其同樣在面對(duì)數(shù)據(jù)量缺乏的聚類任務(wù)時(shí),由于數(shù)據(jù)缺乏導(dǎo)致聚類信息不明確,進(jìn)而造成最終所能獲取的聚類結(jié)果不佳。以上缺陷均因傳統(tǒng)的機(jī)器學(xué)習(xí)模式所導(dǎo)致,如何更智能的學(xué)習(xí)則是當(dāng)前的研究重點(diǎn)。
針對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)方法所存在的問(wèn)題,一種全新的學(xué)習(xí)模式——遷移學(xué)習(xí)方法已提出[13-17]。該方法在學(xué)習(xí)目標(biāo)任務(wù)的過(guò)程中,通常借鑒歷史相關(guān)領(lǐng)域(源域)的數(shù)據(jù)或知識(shí)以輔助當(dāng)前領(lǐng)域(目標(biāo)域)的學(xué)習(xí),其學(xué)習(xí)過(guò)程與人類的認(rèn)知過(guò)程一致,是一種類人學(xué)習(xí)方式。目前,遷移學(xué)習(xí)方法已成功應(yīng)用于分類、聚類以及回歸等方面,其中又以分類領(lǐng)域的成果最為豐富[18-22]。但是,遷移學(xué)習(xí)方法的應(yīng)用主要集中于基于概率論的機(jī)器學(xué)習(xí)方法,而作為機(jī)器學(xué)習(xí)領(lǐng)域另一大研究分支基于模糊論的機(jī)器學(xué)習(xí)方法,其在應(yīng)用遷移學(xué)習(xí)技術(shù)解決算法在面對(duì)數(shù)據(jù)量少或數(shù)據(jù)信息缺失等場(chǎng)景下性能下降等問(wèn)題的研究尚且不多。近年來(lái),本課題組基于模糊識(shí)別方法[7,23-25]和智能建模[26-29]的研究,針對(duì)如何將遷移學(xué)習(xí)技術(shù)引入經(jīng)典的模糊機(jī)器學(xué)習(xí)方法中進(jìn)行了一系列研究[30-36]。
文中在簡(jiǎn)述遷移學(xué)習(xí)基礎(chǔ)理論的基礎(chǔ)上,重點(diǎn)介紹了本課題組近年來(lái)如何將遷移學(xué)習(xí)理論應(yīng)用于模糊識(shí)別方法和智能建模方法。并就目前遷移學(xué)習(xí)在模糊識(shí)別和智能建模尚存在的問(wèn)題和未來(lái)發(fā)展的趨勢(shì)進(jìn)行總結(jié)和展望。
經(jīng)過(guò)對(duì)人類學(xué)習(xí)過(guò)程的分析,發(fā)現(xiàn)人類在認(rèn)知新事物過(guò)程中,必定會(huì)借鑒以往知識(shí)進(jìn)行類比遷移學(xué)習(xí)。例如當(dāng)人在認(rèn)知“梨”的過(guò)程中,必定會(huì)借鑒其認(rèn)知“蘋果”的知識(shí),這就是遷移學(xué)習(xí)在人類學(xué)習(xí)過(guò)程中的具體體現(xiàn)。遷移學(xué)習(xí)定義為:不同的領(lǐng)域或任務(wù)之間相互借鑒、學(xué)習(xí)、遷移轉(zhuǎn)化的能力[17]。
在傳統(tǒng)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法中,經(jīng)常采用帶標(biāo)簽或未帶標(biāo)簽的訓(xùn)練數(shù)據(jù)通過(guò)傳統(tǒng)的訓(xùn)練模型得到標(biāo)準(zhǔn)的應(yīng)用于未來(lái)數(shù)據(jù)的預(yù)測(cè)模型[1-4]。在半監(jiān)督分類過(guò)程中,帶標(biāo)簽的數(shù)據(jù)通常并非大量存在。因此,要建立一個(gè)良好的分類系統(tǒng),必須同時(shí)借助大量無(wú)標(biāo)簽的數(shù)據(jù)與少量有標(biāo)簽的數(shù)據(jù)。然而,以往大部分的研究成果都是建立在有標(biāo)簽的數(shù)據(jù)與無(wú)標(biāo)簽的數(shù)據(jù)分布一致的情況下。而遷移學(xué)習(xí)理論則恰恰相反,它允許用于訓(xùn)練和測(cè)試的數(shù)據(jù)源于不同的領(lǐng)域或具有不同的數(shù)據(jù)分布特征。1995年在NIPS有關(guān)機(jī)器學(xué)習(xí)的會(huì)議上,首次提出了遷移學(xué)習(xí)的相關(guān)理論。
自遷移學(xué)習(xí)理論提出以來(lái),已得到人們?cè)絹?lái)越多的關(guān)注,對(duì)于它的表述不同的研究人員有著不同的見解。其中,具有代表性的論述有:學(xué)習(xí)引導(dǎo)學(xué)習(xí),終身學(xué)習(xí),知識(shí)遷移,歸納遷移,多任務(wù)學(xué)習(xí),鞏固知識(shí),上下文敏感學(xué)習(xí),以知識(shí)為基礎(chǔ)的歸納學(xué)習(xí),元學(xué)習(xí),增量 /累積學(xué)習(xí)等[37]。其中,與遷移學(xué)習(xí)密切相關(guān)的一個(gè)技術(shù)是基于多任務(wù)的學(xué)習(xí)框架[38],該框架試圖同時(shí)對(duì)多個(gè)不同任務(wù)進(jìn)行學(xué)習(xí)。這種學(xué)習(xí)方式的傳統(tǒng)做法是通過(guò)對(duì)多任務(wù)中(包括源任務(wù)和目標(biāo)任務(wù))共同部分的學(xué)習(xí),進(jìn)而引導(dǎo)每個(gè)獨(dú)立單體各自學(xué)習(xí)。
2005年,美國(guó)國(guó)防部高級(jí)研究計(jì)劃局關(guān)于信息處理技術(shù)的有關(guān)公告中,又給遷移學(xué)習(xí)下了新的定義:一個(gè)系統(tǒng)在進(jìn)行新任務(wù)時(shí)應(yīng)該借鑒以往任務(wù)積累下的經(jīng)驗(yàn)與知識(shí)。在該定義中,遷移學(xué)習(xí)被用來(lái)從一個(gè)或多個(gè)源任務(wù)學(xué)習(xí)中強(qiáng)調(diào)對(duì)源和目標(biāo)任務(wù)的同時(shí)學(xué)習(xí),而遷移學(xué)習(xí)理論則更多地把精力用于目標(biāo)任務(wù)中提取歷史知識(shí)并將這些知識(shí)應(yīng)用于新的目標(biāo)任務(wù)中去。這一手段與多任務(wù)學(xué)習(xí)不同,在任務(wù)的學(xué)習(xí)方面,它使得源任務(wù)與目標(biāo)任務(wù)在遷移學(xué)習(xí)時(shí)所占的比重不再對(duì)等。
今天,遷移學(xué)習(xí)理論已在人工智能領(lǐng)域內(nèi)的多個(gè)方向得到了發(fā)展,尤其是數(shù)據(jù)挖掘(ACM KDD,IEEE ICDM and PKDD,etc)與機(jī)器學(xué)習(xí)(ICML,NIPS,etc)方面。這也進(jìn)一步的促使了該領(lǐng)域內(nèi)的研究人員將更多的目光轉(zhuǎn)移到遷移學(xué)習(xí)理論的應(yīng)用與研究方面。同時(shí)也為文中的研究工作提供了理論的依據(jù)。
根據(jù)遷移學(xué)習(xí)的理論[17],分析傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)與遷移學(xué)習(xí)機(jī)器學(xué)習(xí)技術(shù)之間的聯(lián)系與差異,具體如圖1所示。
圖1 不同的學(xué)習(xí)過(guò)程Fig.1 Different learning processes between the traditional machine learning and the transfer learning
由圖1(a)可以發(fā)現(xiàn),在傳統(tǒng)的機(jī)器學(xué)習(xí)過(guò)程,對(duì)于處理不同的任務(wù),其通過(guò)自有的學(xué)習(xí)方法,構(gòu)建出與之對(duì)應(yīng)的不同的學(xué)習(xí)系統(tǒng)。這樣的構(gòu)建方法,在遇到數(shù)據(jù)分布狀況發(fā)生變化時(shí),其必須重新進(jìn)行模型訓(xùn)練,因此,浪費(fèi)了當(dāng)初所建模型的時(shí)間與精力。
為使機(jī)器學(xué)習(xí)理論更加智能化,并使其具備與人類學(xué)習(xí)過(guò)程類似的能力,人們?cè)趥鹘y(tǒng)的機(jī)器學(xué)習(xí)方法的基礎(chǔ)上引入遷移學(xué)習(xí)機(jī)制,具體的學(xué)習(xí)過(guò)程如圖1(b)所示。因遷移學(xué)習(xí)理論強(qiáng)調(diào)借鑒歷史知識(shí),通過(guò)利用這些歷史知識(shí)指導(dǎo)系統(tǒng)對(duì)新任務(wù)或新數(shù)據(jù)域的學(xué)習(xí)掌握能力。當(dāng)然,這樣的建模設(shè)計(jì)也更加符合人類的認(rèn)知行為習(xí)慣,同時(shí)為機(jī)器學(xué)習(xí)領(lǐng)域?qū)崿F(xiàn)增量式學(xué)習(xí)打下了堅(jiān)實(shí)的基礎(chǔ)。
遷移學(xué)習(xí)方法通??煞譃?大類:①基于實(shí)例的遷移學(xué)習(xí)方法[39-41],該方法的主要原理是通過(guò)對(duì)源域數(shù)據(jù)的改造以滿足目標(biāo)域數(shù)據(jù)分布,從而增大目標(biāo)域的數(shù)據(jù)量實(shí)現(xiàn)樣本的遷移;②基于特征表征的遷移學(xué)習(xí)方法[42-44],該方法通過(guò)為目標(biāo)域?qū)W習(xí)得到一個(gè)有效的特征表征空間,在對(duì)目標(biāo)域?qū)W習(xí)時(shí)借鑒所獲取的特征表征空間,進(jìn)而提高目標(biāo)域的學(xué)習(xí)性能;③基于關(guān)聯(lián)知識(shí)的遷移學(xué)習(xí)方法[45-46],該方法基于一個(gè)假設(shè),即源域和目標(biāo)域的數(shù)據(jù)近似,通過(guò)遷移數(shù)據(jù)之間的關(guān)聯(lián)性以提高目標(biāo)域的學(xué)習(xí)性能;④ 基于模型參數(shù)的遷移學(xué)習(xí)方法[30-36,47-49],該方法通過(guò)對(duì)源域數(shù)據(jù)總結(jié)得到一系列的模型參數(shù)稱作源域模型知識(shí),然后在目標(biāo)域?qū)W習(xí)過(guò)程中利用這些知識(shí)進(jìn)行輔助學(xué)習(xí),從而得到性能更佳的目標(biāo)域模型。
遷移學(xué)習(xí)技術(shù)自被提出以來(lái),由于其獨(dú)特的學(xué)習(xí)認(rèn)知能力與人類的認(rèn)知過(guò)程基本一致,使得該理論在人工智能領(lǐng)域成為研究熱點(diǎn)[18-22]。目前,遷移學(xué)習(xí)理論已經(jīng)在分類、聚類以及回歸等方面得到了廣泛關(guān)注。2007年Raina等[18]將遷移學(xué)習(xí)的理論應(yīng)用到了未標(biāo)記數(shù)據(jù)的分類問(wèn)題上;Yang等[19-20]提出了基于遷移學(xué)習(xí)理論的TPLSA算法,并將其應(yīng)用于文本分類方向,并在此后提出了一種半監(jiān)督的域適應(yīng)遷移成分分析方法(TCA),該算法同樣被廣泛應(yīng)用到分類領(lǐng)域中;Glorot等[21]進(jìn)一步將域適應(yīng)的遷移學(xué)習(xí)方法成功應(yīng)用到了大規(guī)模情感數(shù)據(jù)的分類問(wèn)題上;Duan等[22]成功地將遷移學(xué)習(xí)理論與多核學(xué)習(xí)融合并應(yīng)用于分類領(lǐng)域;Dai等[50]將其應(yīng)用于聚類的遷移學(xué)習(xí),提出了一種自學(xué)習(xí)的聚類算法。
近年來(lái),遷移學(xué)習(xí)技術(shù)的研究工作主要集中于基于概率論基礎(chǔ)的機(jī)器學(xué)習(xí)方法,而基于模糊論的機(jī)器學(xué)習(xí)方法中利用遷移學(xué)習(xí)技術(shù)的相關(guān)報(bào)道還較少。本課題組對(duì)于如何將遷移學(xué)習(xí)技術(shù)引入經(jīng)典模糊機(jī)器學(xué)習(xí)方法,從而使得模糊機(jī)器學(xué)習(xí)過(guò)程變得更為智能進(jìn)行一系列的研究工作。主要在模糊識(shí)別方法即模糊聚類技術(shù)和模糊智能建模方法即模糊系統(tǒng)建模技術(shù)兩個(gè)方面開展了相關(guān)工作。
在模糊識(shí)別領(lǐng)域,模糊聚類得到了廣泛的應(yīng)用,如圖像分割[51]和目標(biāo)檢測(cè)[52]等。經(jīng)典的基于模糊理論的聚類分析方法有FCM算法及其相關(guān)變形算法[5-7]。但無(wú)論是經(jīng)典的FCM算法還是具備前沿性的FCM算法的變形算法,其良好的聚類性能一般需依靠大量包含豐富信息的聚類樣本。在實(shí)際生產(chǎn)中所采集到的數(shù)據(jù)常存在以下的幾種情況:①由于生產(chǎn)的保密性或該產(chǎn)業(yè)本身就是一新興產(chǎn)業(yè),以往并無(wú)數(shù)據(jù)積累,這就極易造成所能獲取的數(shù)據(jù)樣本非常有限同時(shí)所包含的聚類信息亦較少,最終得到聚類性能不佳;②由于數(shù)據(jù)本身在傳輸過(guò)程中受種種因素的干擾,造成了數(shù)據(jù)丟失或數(shù)據(jù)失真的狀況,這也會(huì)間接造成傳統(tǒng)的聚類算法失效。為此,經(jīng)研究發(fā)現(xiàn)遷移學(xué)習(xí)可作為一種有效策略以解決傳統(tǒng)聚類方法在樣本缺乏或失真情況下聚類性能不佳的問(wèn)題。
在經(jīng)典聚類算法中,一類重要的聚類策略是由不斷迭代更新的類中心驅(qū)動(dòng)空間的劃分,其中尤以FCM算法最為著名[6],其目標(biāo)函數(shù)如下:
其中:C為聚類數(shù);vi=(vi1,…,vik)為第i類的中心點(diǎn);μij為第j個(gè)樣本屬于i類的隸屬度;模糊指數(shù)m必須滿足m >1;xj為第j個(gè)樣本點(diǎn)。為了得到最優(yōu)的聚類中心V以及隸屬度U,利用拉格朗日條件極值的優(yōu)化理論可以得到如下的迭代表達(dá)式:
根據(jù)式(2)和式(3),迭代優(yōu)化終止后所獲取的隸屬度矩陣U在去模糊化之后得到空間劃分矩陣,根據(jù)該矩陣可最終獲取每一個(gè)樣本xj所對(duì)應(yīng)的類標(biāo)簽。
雖然上述經(jīng)典模糊聚類算法在面對(duì)各具特色的數(shù)據(jù)集時(shí)均被證實(shí)具有良好的聚類性能,但是由機(jī)器學(xué)習(xí)理論可知,此類傳統(tǒng)聚類算法的優(yōu)越性一般均是建立在大量待分析數(shù)據(jù)或數(shù)據(jù)所含信息非常充分的基礎(chǔ)上。這便造成了當(dāng)上述算法遇到待分析數(shù)據(jù)不足或是待分析數(shù)據(jù)所含信息缺失時(shí),算法的有效性將面臨嚴(yán)重的考驗(yàn),甚至得不到能夠滿足生產(chǎn)或生活需要的聚類結(jié)果[34]。
為解決經(jīng)典模糊聚類算法在待分析數(shù)據(jù)不足或數(shù)據(jù)信息缺失情況下性能下降的問(wèn)題。研究發(fā)現(xiàn)[34,36],通過(guò)解決下述兩大問(wèn)題即可實(shí)現(xiàn)具備遷移學(xué)習(xí)能力的模糊聚類算法,進(jìn)而提高算法的適應(yīng)性。
問(wèn)題1:采用何種方法進(jìn)行遷移學(xué)習(xí)?
在通過(guò)對(duì)FCM算法的長(zhǎng)期研究,發(fā)現(xiàn)類似FCM算法這類基于劃分的聚類方法,參數(shù)遷移是一種有效地遷移學(xué)習(xí)策略。通過(guò)對(duì)源域數(shù)據(jù)進(jìn)行聚類獲取對(duì)應(yīng)的模型參數(shù)(如類中心v和隸屬度U),這兩個(gè)重要參數(shù)內(nèi)包含了數(shù)據(jù)與類別之間的關(guān)聯(lián)關(guān)系,是一類可用的理想知識(shí)。只需利用上述兩參數(shù)構(gòu)造出合理的目標(biāo)函數(shù),使得目標(biāo)域在聚類的過(guò)程中有效地借鑒從源域中所獲取的上述知識(shí),即可實(shí)現(xiàn)源域到目標(biāo)域的遷移學(xué)習(xí)。
問(wèn)題2:如何在聚類過(guò)程中實(shí)現(xiàn)遷移?
為在聚類的過(guò)程中實(shí)現(xiàn)參數(shù)遷移亦即知識(shí)遷移,設(shè)計(jì)出了以下兩個(gè)遷移聚類準(zhǔn)則:
1)中心知識(shí)遷移準(zhǔn)則
2)隸屬度知識(shí)遷移準(zhǔn)則
上述兩種遷移準(zhǔn)則不僅利用了類中心知識(shí)還利用了隸屬度知識(shí),因此其遷移學(xué)習(xí)的能力是有保障的,通過(guò)調(diào)節(jié)遷移平衡參數(shù)λ和η可最終控制遷移的質(zhì)量。此外,由于類中心本身具有高度的數(shù)據(jù)抽象能力,因此使用類中心作為遷移知識(shí)并不會(huì)暴露源域數(shù)據(jù),對(duì)源域數(shù)據(jù)的隱私起到了保護(hù)的作用。
根據(jù)上述遷移思想,最終可構(gòu)造如下的融入上述兩種知識(shí)遷移的模糊聚類算法,即TFCM算法。其具體目標(biāo)函數(shù)如下:
其中,λ和η為遷移平衡參數(shù),且λ∈[0,+∞)及η∈[0,1]。值得注意的是,當(dāng)遷移平衡參數(shù)λ =0且η=1時(shí),文中算法實(shí)際上退化為經(jīng)典的FCM算法,這一性質(zhì)保證了TFCM算法式(5)的性能不會(huì)劣于經(jīng)典FCM算法,有效地避免了負(fù)遷移的影響。
為了得到最優(yōu)的目標(biāo)域聚類中心V以及隸屬度U,利用拉格朗日條件極值的優(yōu)化理論可以得到如下的迭代表達(dá)式:
具體的遷移FCM算法(TFCM)實(shí)現(xiàn)過(guò)程如下:
1)輸入:聚類中心數(shù)C,隸屬度模糊控制參數(shù)γ,最大迭代次數(shù)f,源域數(shù)據(jù)集XSource,目標(biāo)域數(shù)據(jù)集XTarget,遷移平衡參數(shù)λ和η,迭代終止條件ε;
2)輸出:目標(biāo)域類中心點(diǎn)V和隸屬度U。
模糊系統(tǒng)作為智能建模領(lǐng)域內(nèi)一個(gè)重要的研究分支,其依靠自身獨(dú)特的可解釋性以及強(qiáng)大的學(xué)習(xí)能力,被廣泛應(yīng)用于各個(gè)領(lǐng)域內(nèi),如智能控制、信號(hào)處理、模式識(shí)別等方面[53]。針對(duì)模糊系統(tǒng)的研究主要集中在系統(tǒng)的參數(shù)學(xué)習(xí)方面,經(jīng)典的學(xué)習(xí)方法主要包含以下兩個(gè)方面[54]:①利用專家經(jīng)驗(yàn)直接賦值;②通過(guò)大量的數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)。而在實(shí)際建模過(guò)程中后一種方法應(yīng)用的更為廣泛。但是,經(jīng)典的模糊系統(tǒng)建模方法同樣面臨著訓(xùn)練和測(cè)試分布不一致,或是數(shù)據(jù)缺乏導(dǎo)致所構(gòu)建的系統(tǒng)泛化性能達(dá)不到現(xiàn)實(shí)生產(chǎn)過(guò)程的期望。針對(duì)這種情況,有效地利用歷史相關(guān)領(lǐng)域(源域)積累的知識(shí)對(duì)當(dāng)前領(lǐng)域(目標(biāo)域)建模而言將是一種有益的補(bǔ)充。同樣,在利用源域數(shù)據(jù)進(jìn)行建模時(shí)與聚類一樣同樣存在以下兩個(gè)問(wèn)題:
1)采用何種方法進(jìn)行遷移學(xué)習(xí),是實(shí)例遷移?特征遷移?關(guān)聯(lián)知識(shí)遷移?還是參數(shù)遷移?
2)如何在建模過(guò)程中實(shí)現(xiàn)遷移?
經(jīng)典模糊系統(tǒng)模型可分為以下幾類,具體如表1所示。
表1 經(jīng)典模糊系統(tǒng)對(duì)應(yīng)之模糊規(guī)則Tab.1 Classical fuzzy models and their definition of the fuzzy rules
由于TSK模型較為簡(jiǎn)潔并具有一定的研究?jī)r(jià)值和可擴(kuò)展性,如大樣本拓展等[26]。文中將重點(diǎn)介紹如何基于TSK模糊系統(tǒng)進(jìn)行遷移學(xué)習(xí),具體給出具有遷移學(xué)習(xí)能力的TSK模糊系統(tǒng)的建模方法。
TSK型模糊系統(tǒng)的模糊推理規(guī)則表達(dá)如下:
式中:ujk為輸入向量 xj= [xj1,xj2,…,xjd]T隸屬于第k類的隸屬度;h為人工可調(diào)的尺度參數(shù)。
根據(jù)文獻(xiàn)[26]的策略,令
此時(shí),可將式(10)改寫為
通過(guò)上述描述,可知TSK型模糊系統(tǒng)的參數(shù)學(xué)習(xí)問(wèn)題最終可轉(zhuǎn)化為線性回歸問(wèn)題[26]。這也使得利用TSK模型進(jìn)行系統(tǒng)建模時(shí),可借鑒線性回歸模型加以探討。
為對(duì)TSK模糊系統(tǒng)模型后件參數(shù)進(jìn)行優(yōu)化,基于ε-不敏感損失函數(shù)構(gòu)造TSK模型的優(yōu)化目標(biāo)函數(shù)[26],具體表示如下:
由于式(24)引入了結(jié)構(gòu)風(fēng)險(xiǎn)項(xiàng),故其繼承了統(tǒng)計(jì)學(xué)習(xí)理論學(xué)習(xí)算法的一些優(yōu)點(diǎn),如對(duì)小樣本集具有一定的魯棒性。
盡管上述TSK模糊系統(tǒng)建模方法在面對(duì)傳統(tǒng)數(shù)據(jù)建模任務(wù)時(shí),表現(xiàn)出了一定的優(yōu)越性能,但在面對(duì)數(shù)據(jù)缺乏的建模任務(wù)時(shí),其性能受限于傳統(tǒng)的機(jī)器學(xué)習(xí)模式往往得不到令人滿意的建模效果。
在通過(guò)對(duì)TSK模糊系統(tǒng)的研究,發(fā)現(xiàn)有效利用歷史相關(guān)領(lǐng)域(源域)積累的知識(shí)對(duì)當(dāng)前領(lǐng)域(源域)建模則是一種有益的補(bǔ)充。針對(duì)TSK模糊系統(tǒng),其中一類有用的知識(shí)可以描述為該系統(tǒng)對(duì)應(yīng)的參數(shù)pg。因而對(duì)于某歷史場(chǎng)景受訓(xùn)得到的TSK模糊系統(tǒng),可把其對(duì)應(yīng)的pg作為已有的可用歷史知識(shí)進(jìn)行參數(shù)遷移。
為在建模過(guò)程中實(shí)現(xiàn)參數(shù)遷移也即知識(shí)遷移,設(shè)計(jì)出針對(duì)TSK模糊系統(tǒng)的模糊后件參數(shù)知識(shí)遷移準(zhǔn)則:
式中:pg0為從源域模糊系統(tǒng)中獲取的后件參數(shù)作為遷移知識(shí);pg為當(dāng)前目標(biāo)域有待訓(xùn)練優(yōu)化的模糊系統(tǒng)后件參數(shù)。
由于上述遷移準(zhǔn)則僅利用了高度抽象的后件參數(shù),其在遷移過(guò)程中并不暴露源域數(shù)據(jù),因此能夠?qū)υ从驍?shù)據(jù)的隱私起到保護(hù)作用。
根據(jù)上述遷移思想,在傳統(tǒng)TSK模糊系統(tǒng)建模技術(shù)(即式(24))的基礎(chǔ)上融入遷移學(xué)習(xí)準(zhǔn)則式(25)可得到具備遷移學(xué)習(xí)能力的TSK模糊系統(tǒng)建模方法,稱之為T-TSK-FS算法。其具體目標(biāo)函數(shù)如下:
其中,Θcurrent為利用目標(biāo)域數(shù)據(jù)對(duì)模型訓(xùn)練學(xué)習(xí);Θhistory為利用源域知識(shí)進(jìn)行遷移學(xué)習(xí),該項(xiàng)可有效利用源域知識(shí)盡可能地對(duì)目標(biāo)域數(shù)據(jù)的缺乏或信息缺失進(jìn)行信息補(bǔ)償。兩項(xiàng)的功能分別為使得學(xué)習(xí)得到的模型逼近目標(biāo)域采樣數(shù)據(jù)對(duì)應(yīng)的模型和源域已構(gòu)建的模型。參數(shù)λ使得最終學(xué)習(xí)得到的模型在兩者之間達(dá)到一個(gè)平衡。λ可人工設(shè)定,也可通過(guò)機(jī)器學(xué)習(xí)中常用的交叉驗(yàn)證策略[56]選擇一個(gè)合適的值。
具體的算法實(shí)現(xiàn)過(guò)程如下:
1)歷史總結(jié)階段:①設(shè)置模糊規(guī)則數(shù)Khis,正則參數(shù)τhis;②利用FCM算法得到源域的模糊系統(tǒng)前件參數(shù),進(jìn)而得到對(duì)應(yīng)于回歸模型的數(shù)據(jù)集
③利用式(24)優(yōu)化得到源域的模糊系統(tǒng)后件參數(shù)phis;
2)遷移學(xué)習(xí)階段:①設(shè)置模糊規(guī)則數(shù)K=Khis,正則參數(shù)τ及平衡參數(shù)λ,pg0=phis;②繼承源域模糊系統(tǒng)模型的前件參數(shù),并利用源域系統(tǒng)的前件參數(shù)和式(16)-式(17)得到對(duì)應(yīng)于目標(biāo)域系統(tǒng)的回歸數(shù)據(jù)集:
③利用式(26)優(yōu)化得到目標(biāo)域后件參數(shù)pg;④根據(jù)學(xué)習(xí)得到的后件參數(shù)和繼承的前件參數(shù)生成遷移學(xué)習(xí)TSK模糊系統(tǒng)。
著重介紹了兩種具有代表性的模糊遷移學(xué)習(xí)方法,即遷移FCM算法和遷移TSK模糊系統(tǒng),分別引入模糊遷移識(shí)別領(lǐng)域和模糊遷移智能建模領(lǐng)域。但就目前的研究而言,無(wú)論是模糊遷移識(shí)別領(lǐng)域還是模糊遷移智能建模領(lǐng)域均存在著各種技術(shù)問(wèn)題丞待進(jìn)一步解決:
1)針對(duì)遷移模糊聚類方法,其遷移性能的優(yōu)越往往偏重于遷移學(xué)習(xí)參數(shù)(如式(6)中的λ以及η)的取值,而由于聚類為無(wú)監(jiān)督學(xué)習(xí)方法,其參數(shù)無(wú)法像有監(jiān)督學(xué)習(xí)方法一樣通過(guò)交叉驗(yàn)證獲取,因此如何獲取合理的遷移學(xué)習(xí)參數(shù)依舊是值得深入研究的問(wèn)題。
2)針對(duì)遷移模糊系統(tǒng)建模方法,特別是遷移TSK模糊系統(tǒng)建模方法。目前文中僅對(duì)模糊系統(tǒng)的后件參數(shù)(如式(24)中的pg)進(jìn)行了遷移,如何對(duì)前件參數(shù)進(jìn)行遷移?采用何種方式進(jìn)行遷移是一件具備挑戰(zhàn)的工作。此外,如何在其他類型的模糊系統(tǒng)上進(jìn)行知識(shí)遷移,同樣也需要進(jìn)一步展開相關(guān)的研究工作。
3)無(wú)論是遷移模糊聚類方法,還是遷移模糊系統(tǒng)建模方法。目前均只采用了參數(shù)遷移這一種特殊的遷移學(xué)習(xí)策略。如何在上述兩大領(lǐng)域內(nèi)開展其他諸如實(shí)例遷移,特征遷移及關(guān)聯(lián)知識(shí)遷移將是今后研究了重點(diǎn),亦是一項(xiàng)有意義的工作。
[1]WANG J,Malakooti B.Characterization of training errors in supervised learning using gradient-based rules[J].Neural Networks,1993,6(8):1073-1087.
[2]Clapper J P,Bower G H.Learning and applying category knowledge in unsupervised domains[J].Psychology of Learning and Motivation,1991,27:65-108.
[3]周志華,王玨.機(jī)器學(xué)習(xí)及其應(yīng)用[M].北京:清華大學(xué)出版社,2007.
[4]ZHONG S.Semi-supervised model-based document clustering:a comparative study[J].Machine Learning,2006,65(1):3-29.
[5]Hall L O,Goldgof D B.Convergence of the single-pass and online fuzzy C-means algorithms[J].IEEE Transactions on Fuzzy Systems,2011,19(4):792-794.
[6]Bezdek J C.Pattern Recognition with Fuzzy Objective Function Algorithms[M].New York:Plenum Press,1981.
[7]ZHU L,Chung F L,WANG S T.Generalized fuzzy C-means clustering algorithm with improved fuzzy partitions[J].IEEE Transactions on Systems Man and Cybernetics:Part-B,2009,39(3):578-591.
[8]Mjolsness E,DeCoste D.Machine learning for science:state of the art and future[J].Science,2001,293:2051-2055.
[9]Kuncheva L I,Rodrlguez J J.Classifier ensembles with a random linear oracle[J].IEEE Transaction on Knowledge and Data Engineering,2007,19(4):500-508.
[10]Baralis E,Chiusano S,Garza P.A lazy approach to associative classification[J].IEEE Transaction on Knowledge and Data Engineering,2008,20(2):156-171.
[11]DENG Z H,JIANG Y Z,Chung F L,et al.Knowledge-leverage based fuzzy system and its modeling[J].IEEE Trans Fuzzy Systems,2013,21(4):597-609.
[12]DENG Z H,JIANG Y Z,Choi K S,et al.Knowledge-leverage-based TSK fuzzy system modeling[J].IEEE Trans Neural Networks and Learning Systems,2013,24(8):1200-1212.
[13]Thrun S.Is learning the n-th thing any easier than learning the first?[C]//Advances in Neural Information Processing System.Denver:MIT,1996:640-646.
[14]Ben-David B,Schuller R.Exploiting task relatedness for multiple task learning[C]//Proceedings of the 16th Annual Conference on Learning Theory.Washington:Springer,2003:825-830.
[15]Ando R K,Zhang T.A framework for learning predictive structures from multiple tasks and unlabeled data[J].Journal of Machine Learning Research,2005,6:1817.
[16]Cavallanti G,Cesa-Bianchi N,Gentile C.Linear algorithms for online multitask classification[J].Journal of Machine Learing Research,2010,11:2901 -2934.
[17]PAN S,YANG Q.A survey on transfer learning[J].IEEE Transactions on Knowledge and Data Engineering,2009,22(10):1345-1359.
[18]Raina R,Battle A,Lee H,et al.Self-taught learning:transfer learning from unlabeled data[C]//Proceedings of 24th International Conference on Machine Learning.New York:ACM,2007:759-766.
[19]XUE G R,DAI W Y,YANG Q,et al.Topic-bridged PLSA for cross-domain text classification[C]//Proceedings of 31th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2008:627-634.
[20]PAN S,Tsang I W,T Kwok J,et al.Domain adaptation via transfer component analysis[C]//Proceedings of 21th International jont Conference on Machine Learning.San Francisco,CA:ACM,2009:1187-1192.
[21]Glorot X,Bordes A,Bengio Y.Domain adaptation for large-scale sentiment classification:a deep learning approach[C]//Proceedings of 28th International Conference on Machine Learning.Bellevue,Washington:ACM,2011:513-520.
[22]DUAN L X,Tsang I W,XU D.Domain transfer multiple kernel learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(3):465-479.
[23]WANG S T,Chung F L,SHEN H B,et al.Note on the relationship between probabilistic and fuzzy clustering[J].Soft Computing,2004,8(5):366-369.
[24]WANG S T,Chung F L,DENT Z H,et al.Robust fuzzy clustering neural network based on epsilon-insensitive loss function[J].Applied Soft Computing,2007,7(2):577-584.
[25]DENT Z H,Choi K S,Chung F L,et al.Enhanced soft subspace clustering integrating within-cluster and between-cluster information[J].Pattern Recognition,2010,43(3):767-781.
[26]DENT Z H,Choi K S,Chung F L,et al.Scalable TSK fuzzy modeling for very large datasets using minimal-enclosing-ball approximation[J].IEEE Trans Fuzzy Systems,2011,19(2):210-226.
[27]DENG Z H,Choi K S,CAO L B,et al.T2FELA:type-2 fuzzy extreme learning algorithm for fast training of interval type-2 TSK fuzzy logic system[J].IEEE Trans Neural Netw Learning Syst,2014,25(4):664-676.
[28]JIANG Y Z,Chung F L,Ishibuchi H,et al.Multitask TSK fuzzy system modeling by mining intertask common hidden structure[J].IEEE Trans Cybernetics,2015,45(3):548-561.
[29]JIANG Y Z,DENG Z H,Chung F L,et al.Multi-task TSK fuzzy system modeling using inter-task correlation information[J].Information Science,2015,298:512-533.
[30]DENG Z H,JIANG Y Z,Chung F L,et al.Knowledge-leverage-based fuzzy system and its modeling[J].IEEE Trans Fuzzy Systems,2013,21(4):597-609.
[31]DENG Z H,JIANG Y Z,Choi K S,et al.Knowledge-leverage-based TSK fuzzy system modeling[J].IEEE Trans Neural Netw Learning Syst,2013,24(8):1200-1212.
[32]DENG Z H,JIANG Y Z,Cao L B,et al.Knowledge-leverage based TSK fuzzy system with improved knowledge transfer[C]//FUZZ-IEEE.Beijing:IEEE,2014:178-185.
[33]DENG Z H,Choi K S,JIANG Y Z,et al.Generalized hidden-mapping ridge pegression,knowledge-leveraged inductive transfer learning for neural networks,fuzzy systems and kernel methods[J].IEEE Trans Cybernetics,2014,44(12):2585-2599.
[34]蔣亦樟,鄧趙紅,王駿,等.基于知識(shí)利用的遷移學(xué)習(xí)一般化增強(qiáng)模糊劃分聚類算法[J].模式識(shí)別與人工智能,2013,26(10):975-984.JIANG Yizhang,DENG Zhaohong,WANG Jun,et al.Transfer generalized fuzzy c-means clustering algorithm with improved fuzzy partition by leveraging knowledge[J].PR and AI,2013,26(10):975-984.(in Chinese)
[35]蔣亦樟,鄧趙紅,王士同.0階L2型 TSK遷移學(xué)習(xí)模糊系統(tǒng)[J].電子學(xué)報(bào),2013,41(5):897-904.JIANG Yizhang,DENG Zhaohong,WANG Shitong.0-order-L2-norm-Takagi-Sugeno-Kang type transfer learning fuzzy system[J].Acta Electronica Sinica,2013,41(5):897-904.(in Chinese)
[36]QIAN P J,JIANG Y Z,DENG Z H,et al.Cluster prototypes and fuzzy memberships jointly leveraged cross-domain maximum entropy clustering[J].IEEE Transactions on Cybernetics,2015(99):1.
[37]Thrun S,Pratt L.Learning to Learn[M].New York:Springer,1998.
[38]Caruana R.Multitask learning[J].Machine Learning,1997,28(1):41-75.
[39]ZHENG W,SONG Y Q,ZHANG C S.Transferred dimensionality reduction[C]//Machine Learning and Knowledge Discovery in Databases.Antwerp:Springer,2008:550-565.
[40]DAI W Y.Boosting for transfer learning[C]//Proceedings of the 24th International Conference on Machine Learning.Corvallis:ACM,2007:193-200.
[41]LIAO X J,XUE Y,Carin L.Logistic regression with an auxiliary data source[C]//Proceedings of the 22nd International Conference on Machine Learning.Bonn:ACM,2005:505-512.
[42]Raina R,Battel A,Lee H,et al.Self-taught learning:transfer learning from unlabeled data[C]//Proceedings of the 24th International Conference on Machine Learning.Corvallis:ACM,2007:759-766.
[43]DAI W Y,XUE G R,YANG Q,et al.Co-clustering based classification for out-of-domain documents[C]//Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2007:210-219.
[44]Argyriou A,Pontil M,YING Y,et al.A spectral regularization framework for multi-task structure learning[C]//Advances in Neural Information Processing Systems.Whistler:MIT,2007:25-32.
[45]Mihalkova L,Mooney R J.Transfer learning by mapping with minimal target data[C]//Proceedings of the AAAI-08 Workshop on Transfer Learning for Complex Tasks.Chicago:AAAI,2008:31-36.
[46]Davis J,Domingos P.Deep transfer via second-order markov logic[C]//Proceedings of the 26th Annual International Conference on Machine Learning.Montreal:ACM,2009:217-224.
[47]Lawrence N D,Platt J C.Learning to learn with the informative vector machine[C]//Proceedings of the Twenty-First International Conference on Machine Learning.New York:ACM,2004:65.
[48]Schwaighofer A,Tresp V,YU K.Learning gaussian process kernels via hierarchical bayes[C]//Advances in Neural Information Processing Systems.Vancouver:MIT,2004:1209-1216.
[49]Evgeniou T,Pontil M.Regularized multi-task learning[C]//Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Seattle:ACM,2004:109-117.
[50]DAI W Y,YANG Q,XUE G R,et al.Self-taught clustering[C]//Proceedings of 25th International Conference on Machine Learning.New York:ACM,2008:200-207.
[51]LI K,GUO Z.Image segmentation with fuzzy clustering based on generalized entropy[J].J Comput,2014,9(7):1678-1683.
[52]LI L,JI H,GAO X.Maximum entropy fuzzy clustering with application to real-time target tracking[J].Signal Process,2006,86(11):3432-3447.
[53]AstrAom K J,McAvoy T J.Intelligent control[J].Journal of Process Control,1993,2(3):115-127.
[54]蔣亦樟,鄧趙紅,王士同.ML型遷移學(xué)習(xí)模糊系統(tǒng)[J].自動(dòng)化學(xué)報(bào),2012,38(9):1393-1409.JIANG Yizhang,DENG Zhaohong,WANG Shitong,Mamdani-larsen type transfer learning fuzzy system[J].Acta Automation Sinica,2012,38(9):1393-1409.(in Chinese)
[55]Azeem M F,Hanmandlu M,Ahmad N.Generalization of adaptive neuro-fuzzy inference systems[J].IEEE Transactions on Neural Networks,2000,11(6):1332-1346.
[56]Ito K,Nakano R.Optimizing support vector regression hyper parameters based on cross-validation[C]//Proceedings of the International Joint Conference on Neural Networks.Japan:IEEE,2003:2077-2082.