章林柯,崔立林
(海軍工程大學(xué) 振動與噪聲研究所,武漢430033)
在潛艇低速隱蔽工況下,機(jī)械振動通常是其水噪聲的主要來源。所以研究潛艇機(jī)械噪聲源識別或者噪聲的傳播途徑識別問題對于保證潛艇隱身性是至關(guān)重要的。而且,當(dāng)機(jī)器出現(xiàn)故障的時候,其振動或聲信號特征一般會發(fā)生改變,因而通過噪聲源識別定位的研究,也有助于對機(jī)器的狀態(tài)監(jiān)測及故障診斷[1-2]。
考慮到:(1)因為潛艇內(nèi)部機(jī)械設(shè)備眾多、結(jié)構(gòu)復(fù)雜和運(yùn)行工況多變等多方面因素的影響,導(dǎo)致潛艇機(jī)械噪聲源分類模式具有多樣性;(2)潛艇試驗成本昂貴,采集樣本也相對困難,通常難以獲得“足夠多”的訓(xùn)練樣本;(3)有時常因為測試采集時間過短導(dǎo)致訓(xùn)練樣本的數(shù)據(jù)長度不夠;(4)一些偶發(fā)或新的噪聲源的出現(xiàn)(發(fā)生次數(shù)本身就很少)導(dǎo)致能夠獲得的訓(xùn)練樣本不可能覆蓋所有的模式類型;(5)實際復(fù)雜環(huán)境中存在多種干擾樣本有效獲得的因素;所以,潛艇機(jī)械噪聲源分類識別中的一個突出的問題是缺乏足夠的訓(xùn)練樣本,使得識別系統(tǒng)構(gòu)建過程中難以很好地實現(xiàn)對源識別模式空間的完整覆蓋。因此,潛艇機(jī)械噪聲源分類識別是一個典型的小樣本模式識別問題[3]。
小樣本條件下模式識別面臨的主要困難是:其一、由于訓(xùn)練樣本的不足,導(dǎo)致通過學(xué)習(xí)得到的分類器往往存在欠學(xué)習(xí)(Underfitting)或過學(xué)習(xí)(overfitting),從而難以獲得理想的泛化性能(Generalization Ability);其二、由于已有訓(xùn)練樣本數(shù)據(jù)覆蓋的模式類別較少,導(dǎo)致對新出現(xiàn)的模式無法進(jìn)行有效識別。
本文嘗試從“信息”角度入手,歸納分析國內(nèi)外已進(jìn)行的有關(guān)小樣本條件下模式識別問題的一些主要研究,指出其中存在的一些問題,進(jìn)而結(jié)合作者自己的觀點(diǎn),對潛艇機(jī)械噪聲源識別研究中下一步可能需重點(diǎn)討論的問題作了展望。
在傳統(tǒng)模式識別領(lǐng)域已過去的幾十年間,國內(nèi)外很早就開始關(guān)注對小樣本問題的研究[4-5],但真正意義上探討小樣本條件下模式識別問題卻還是近十多年來的事[6-8]。從信息論的角度來看,國內(nèi)外就小樣本條件下模式識別問題的研究包括兩個方面:其一、針對已有模式訓(xùn)練樣本不足的情況,盡可能挖掘并充分利用小樣本本身所含的信息,其實質(zhì)是一個基于已有樣本信息的挖掘問題;其二、盡可能集成已有相關(guān)有用知識,對小樣本數(shù)據(jù)所含信息加以合理擴(kuò)充,其實質(zhì)是試圖將一個小樣本問題轉(zhuǎn)化為一個“相對足夠大樣本”問題。前者集中在構(gòu)建適合小樣本條件的分類器的研究,后者重在信息如何擴(kuò)容。
根據(jù)現(xiàn)有理論[9]:對于模式識別系統(tǒng)而言,訓(xùn)練樣本的數(shù)量不應(yīng)小于特征空間維數(shù)的5-10倍。而要得到較高的模式分類正確率,樣本數(shù)應(yīng)是特征空間維數(shù)的10倍以上。所以小樣本模式識別分類器研究又主要集中在兩個方面:第一、如何通過樣本預(yù)處理盡可能地控制輸入維數(shù);第二、改善學(xué)習(xí)方法以提高分類器性能。
2.1.1 樣本的預(yù)處理
很多情況下能否有效降低訓(xùn)練樣本的維數(shù)是學(xué)習(xí)系統(tǒng)成功與否的關(guān)鍵,當(dāng)樣本數(shù)量有限時尤其如此[10]。降維的手段主要是特征提?。‵eature Extraction)和特征選擇(Feature Selection)[11-12]。特征提取主要是通過對原有樣本特征進(jìn)行某種特定變換以得到降維后的新特征,常用算法包括處理線形問題的主元分析(Primary Component Analysis,PCA)和線性判別分析(Linear Discriminant Analysis,LDA)以及近年來提出的針對非線性情形的局部線性嵌入算法(Locally Linear Embedding,LLE)和等距映射算法(Isometrical Mapping,ISOMAP)等[13-15]。這方面其他可資借鑒的研究還包括直接線性判別分析(DLDA)和針對非線性問題提出的各類基于核技巧的學(xué)習(xí)算法[16-17]。特征選擇則是通過對原有樣本的特征進(jìn)行選取以得到一個維數(shù)較小的特征子集。Kohavi等人提出的特征子集選擇方法 (Feature Subset Selection Method)應(yīng)用較廣。2003年,Guyon[12]在其文章中給出了利用特征選擇進(jìn)行降維的一般性步驟。特征提取和特征選擇的基本思想都是通過特征的提取和壓縮,來控制輸入維數(shù),從而提高分類器的學(xué)習(xí)效率,獲得較好的學(xué)習(xí)效果。
2.1.2 改進(jìn)學(xué)習(xí)方法
一種典型的學(xué)習(xí)分類器是人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)。傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)是以傳統(tǒng)的統(tǒng)計學(xué)作為重要理論基礎(chǔ),而傳統(tǒng)統(tǒng)計學(xué)研究的是樣本數(shù)目趨于無窮大的漸近理論,因而傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法也多是基于此假設(shè),遵循的是經(jīng)驗風(fēng)險最小原則,追求的是在樣本趨于無窮時的最優(yōu)解。1995年,Vapnik等人[18-19]運(yùn)用統(tǒng)計學(xué)習(xí)理論對神經(jīng)網(wǎng)絡(luò)進(jìn)行研究,創(chuàng)立了一種全新的通用學(xué)習(xí)方法—支持向量機(jī)(Support Vector Machine,SVM)。與傳統(tǒng)統(tǒng)計學(xué)相比,統(tǒng)計學(xué)習(xí)理論是一種專門研究小樣本(樣本數(shù)有限)條件下機(jī)器學(xué)習(xí)規(guī)律的理論。支持向量機(jī)的核心思想是把樣本非線性映射到高維特征空間(甚至無窮維空間),以結(jié)構(gòu)風(fēng)險最小化為歸納原則,在高維空間中構(gòu)造具有低VC維的最優(yōu)分類超平面作為判決面,使分類風(fēng)險上界最小,從而兼顧了訓(xùn)練誤差和泛化能力。雖然SVM有比較堅實的理論基礎(chǔ)和嚴(yán)格的理論分析,但在實際運(yùn)用中仍存在大量問題,如結(jié)構(gòu)風(fēng)險最小化原則中的函數(shù)子集結(jié)構(gòu)的設(shè)計和內(nèi)積函數(shù)的選擇等,目前尚無明確的理論指導(dǎo)[20]。著名SVM學(xué)者Lin[21]于2003年1月在德國馬克斯—普朗克研究所(Max Planck Institute)所作的報告中說,支持向量機(jī)雖然是一個非常熱門的話題,但目前最主流的分類工具仍然是決策樹和神經(jīng)網(wǎng)絡(luò)。
1990年,Hansen和Salamon[22]開創(chuàng)性地提出了神經(jīng)網(wǎng)絡(luò)集成方法(Neural Network Ensembles)。他們證明,可以通過訓(xùn)練多個神經(jīng)網(wǎng)絡(luò)并將其結(jié)果進(jìn)行合成,顯著地提高神經(jīng)網(wǎng)絡(luò)系統(tǒng)的泛化能力。由于該方法易于使用且效果明顯,因此它被視為一種非常有效的工程化神經(jīng)計算方法。1996年,Sollich和Krogh為神經(jīng)網(wǎng)絡(luò)集成下了一個定義,即神經(jīng)網(wǎng)絡(luò)集成是用有限個神經(jīng)網(wǎng)絡(luò)對同一個問題進(jìn)行學(xué)習(xí),集成在某輸入示例下的輸出由構(gòu)成集成的各神經(jīng)網(wǎng)絡(luò)在該示例下的輸出共同決定[23]。Bagging[24]和Boosting[25]是目前研究中最有代表性的集成方法。以周志華教授為代表的國內(nèi)學(xué)者[26]從2002年開始對神經(jīng)網(wǎng)絡(luò)集成進(jìn)行了深入研究,并取得了一些有意義的成果。
小樣本擴(kuò)容研究的核心思想是基于一定的先驗知識的分析,盡可能集成已有相關(guān)信息,對原有小樣本集加以合理擴(kuò)充,使得新樣本集在數(shù)量和質(zhì)量上都能滿足分類系統(tǒng)訓(xùn)練的需求。從已有國內(nèi)外研究來看,主要涉及到兩個層面的問題:(1)同一個模式下包含的訓(xùn)練樣本數(shù)據(jù)過少無法覆蓋整個模式空間;(2)已有訓(xùn)練樣本覆蓋的模式類型較少。
2.2.1 針對某一個模式類,訓(xùn)練樣本不完備
(1)結(jié)合研究對象引入先驗知識
作為有效利用先驗信息(Prior)的手段之一,虛擬樣本(Virtual Sample)生成受到了廣泛關(guān)注[27]。1995年,Abu-Mostafa[28]提出了利用待解決問題的背景知識(Domain knowledge of the problem)來生成虛擬樣本的研究思路,他稱這種知識為“暗示”(Hints)。文中對Hint的定義是:已知的獨(dú)立于訓(xùn)練樣本的目標(biāo)函數(shù)的特性。例如已知目標(biāo)函數(shù)為偶函數(shù)時,則可生成對應(yīng)于訓(xùn)練樣本(x,y)的虛擬樣本(x,-y)。作者認(rèn)為Hints的作用相當(dāng)于在學(xué)習(xí)過程中引入先驗規(guī)則(Rule),與正則化(Regularization)方法類似。使用Hints最主要的步驟包括:1)利用虛擬樣本來表達(dá)Hints和2)利用目標(biāo)函數(shù)(Objective Function)來整合Hints。但作者同時也指出:Hints的形式化絕非易事。
在另一篇重要文獻(xiàn)中Niyogi等人[27]明確指出,在缺少先驗知識(Prior)的情況下,需要更大量的樣本來進(jìn)行學(xué)習(xí)。文中歸納了在學(xué)習(xí)過程中集成Prior的幾種方式:1)利用Prior指導(dǎo)特征選擇;2)利用Prior改進(jìn)學(xué)習(xí)方法;3)利用Prior生成新樣本;4)通過Prior提取Hints。同時作者利用徑向基函數(shù)的徑向?qū)ΨQ性(Symmetry of Radial Base Function)生成虛擬圖像,提高了人臉識別的正確率。
另外,如何將函數(shù)內(nèi)在的某些不變性(Invariance)引入生成算法亦是研究熱點(diǎn)之一[29]。文獻(xiàn)[30]提出了虛擬支持向量(Virtual Support Vector)的概念及基于此的支持向量機(jī)算法。
在工業(yè)應(yīng)用上,有限元方法(Finite Element Method,F(xiàn)EM)也被引入用于生成虛擬樣本[31-32]。
(2)基于已有樣本的虛擬樣本添加
常用的方法包括bootstrapping,cross-validation和Monte Carlo仿真等重采樣技術(shù)[33-35]。一般而言,在先驗分析的基礎(chǔ)上運(yùn)用上述手段,其得到的數(shù)據(jù)質(zhì)量是有一定保證的(數(shù)量當(dāng)然不是問題)。國內(nèi)在這方面也有嘗試性的研究,比如余嘉元等[36]基于均勻分布采用IRT模型用Monte Carlo方法產(chǎn)生虛擬的被試能力和項目參數(shù),滿足了神經(jīng)網(wǎng)絡(luò)訓(xùn)練時所需用到的較多的訓(xùn)練模式;2006年王衛(wèi)東等[37]在模式特征子空間中選取一組標(biāo)準(zhǔn)正交向量,使用這組向量可以生成大量的虛擬訓(xùn)練樣本,使模式分類正確率有顯著提高。2004年Huang Chongfu和Moraga等[38]提出了一種DNN(Diffusion Neural Network)模型,試圖借用信息擴(kuò)散理論對原有小樣本隱含的模糊信息加以利用,從而增大樣本量,滿足后繼神經(jīng)網(wǎng)絡(luò)訓(xùn)練的要求。但至今就如何尋找合適的信息擴(kuò)散函數(shù)尚沒有提出一般性的辦法。類似地,蔡東亦等[39]利用Mega-fuzzification技術(shù)來填補(bǔ)小樣本之間的樣本間距,并通過母體值域估計技術(shù)預(yù)測樣本行為,獲得了較好的效果。
還有一種比較常見的方法是采用噪聲疊加[40](Noise Injection,可理解為一種特殊的Injecting Randomness[41])。文獻(xiàn)[42]的結(jié)論表明在訓(xùn)練樣本中加入噪聲能夠有效提高系統(tǒng)的泛化性能。1995年,Bishop[43]從理論上證明了噪聲疊加相當(dāng)于進(jìn)行光滑正則化操作(Smoothness Regularization)。
(3)利用未標(biāo)注樣本
隨著數(shù)據(jù)采集與存儲技術(shù)的發(fā)展,很多領(lǐng)域都面臨一個問題,即要對實際樣本進(jìn)行詳細(xì)精確的標(biāo)注(Labeled)需要進(jìn)行代價昂貴的實驗,而獲取這些樣本(不標(biāo)注類別)的代價要小得多。所以使用主動學(xué)習(xí)或半監(jiān)督學(xué)習(xí)技術(shù)[44]盡可能利用大量未標(biāo)注樣本來提升分類器的泛化能力也是一條有效途徑。主動學(xué)習(xí)需要一部分已標(biāo)注樣本訓(xùn)練基準(zhǔn)分類器,而后使用不確定度縮減、版本空間縮減、誤差最小化等方法選擇未標(biāo)注樣本交給領(lǐng)域?qū)<覙?biāo)注,再在標(biāo)注后樣本上訓(xùn)練基準(zhǔn)分類器,通過多次循環(huán)提高泛化能力[45]。半監(jiān)督學(xué)習(xí)不需要人工干預(yù),如常用的Co-Training[46]和Tri-Training[47]方法。Co-Training方法基于多視圖思想,使用兩種相互獨(dú)立的完備特征來描述對象,對應(yīng)地建立兩個分類器,互相選擇樣本交對方更新訓(xùn)練集,并不斷重復(fù)這個過程[48],但在很多應(yīng)用領(lǐng)域中,這種相互獨(dú)立的完備性特征是很難劃分的[49]。Tri-Training方法使用重采樣技術(shù),在不同數(shù)據(jù)集上訓(xùn)練三個分類器,而后對未標(biāo)注樣本進(jìn)行分類,如果任兩個分類器分類結(jié)果相同,則標(biāo)注該樣本并將其加入第三個分類器的訓(xùn)練集中,以此互相擴(kuò)充訓(xùn)練集并不斷重復(fù)這個過程[50]。
2.2.2 訓(xùn)練樣本所覆蓋的模式類別不完備
針對訓(xùn)練樣本覆蓋模式類不完備的小樣本情況,確保機(jī)械噪聲源識別分類器具有輸出類增量學(xué)習(xí)能力非常重要。輸出類增量學(xué)習(xí)的研究主要包括三部分內(nèi)容:第一、對于沒有學(xué)習(xí)過的樣本應(yīng)該能夠加以有效拒識;第二、對于被拒識的大量樣本應(yīng)該能夠自動聚類;第三、針對第二步驟中得到的新的訓(xùn)練樣本,在原有知識庫的基礎(chǔ)上能夠?qū)W(xué)習(xí)模型進(jìn)行更新。
在進(jìn)行輸出類增量學(xué)習(xí)以前,已經(jīng)訓(xùn)練好的學(xué)習(xí)系統(tǒng)必須能夠?qū)π略鲱悩颖具M(jìn)行判別,也即上面提到的第一部分內(nèi)容,這是一個異類樣本的有效識別問題。針對異常類樣本的檢測,哥倫比亞大學(xué)的Eskin[51]等提出的基于聚類的估計算法、改進(jìn)的K近鄰方法以及one-class SVM方法是其中最為著名和具有影響力的3種方法。然而,現(xiàn)有異常檢測技術(shù)大都具有較高的誤報率,并且由于計算量過大而導(dǎo)致其實用性不強(qiáng)。針對這些情況,文獻(xiàn)[52]中提出了一種新型的基于TCM-KNN算法的異常檢測方法,其相對于傳統(tǒng)的方法具有較高的檢測率和較低的誤報率,并且,通過引入遺傳算法(Genetic Algorithm)[53]對算法的訓(xùn)練集進(jìn)行樣本選擇,以減少算法的運(yùn)算量,從而來提升其在真實網(wǎng)絡(luò)環(huán)境中的實用性。但該方法要窮盡未知樣本的所有可能分類,加之最近鄰分類器自身的特點(diǎn),導(dǎo)致該算法的計算代價高昂,難以控制計算花費(fèi);而且對訓(xùn)練集的質(zhì)量要求較高,如果訓(xùn)練集中混有異常類樣本,往往會極大影響最終的異類樣本檢測結(jié)果。
針對第二部分內(nèi)容,即被拒識樣本的自動聚類問題,其主要任務(wù)是把一個未標(biāo)記的樣本集按某種準(zhǔn)則劃分成若干類,要求同一類中的對象盡可能相似,而不同類中的對象盡可能相異。事實上,聚類是一個無監(jiān)督的分類,它沒有任何先驗知識可用[54]。聚類算法有多種分類方法,一般可分為層次化聚類算法、劃分式聚類算法、基于密度的聚類、基于網(wǎng)格的聚類和其他聚類算法[55]。2004年,Ma[56]提出一種新的基于移位網(wǎng)格概念的基于密度和網(wǎng)格的聚類算法SGC。2005年,Pileva等人[57]提出一種用于大型、高維空間數(shù)據(jù)庫的網(wǎng)格聚類算法GCHL。2007年張楓等提出了基于網(wǎng)格的DBSCAN算法GbDBSCAN[58]。2009年,程國慶等[59]提出網(wǎng)格相對密度的概念和邊界點(diǎn)提取技術(shù),在此基礎(chǔ)上給出了一種多密度聚類算法。但是,目前尚沒有任何一種聚類技術(shù)(聚類算法)可以普遍適用于揭示各種多維數(shù)據(jù)集所呈現(xiàn)出來的多種多樣的結(jié)構(gòu)[60]。在實際應(yīng)用中一般應(yīng)根據(jù)數(shù)據(jù)類型選擇合適的聚類算法和恰當(dāng)?shù)南嗨菩远攘糠绞?,以取得最佳的聚類效果?/p>
因為在解決真實世界的問題時,往往很難在訓(xùn)練好的系統(tǒng)投入使用之前就得到所有可能的訓(xùn)練例。所以上面提到的第三部分內(nèi)容,即機(jī)器學(xué)習(xí)方法的增量學(xué)習(xí)能力是非常重要的。在面臨新訓(xùn)練例時,學(xué)習(xí)方法應(yīng)該能夠?qū)τ?xùn)練好的系統(tǒng)進(jìn)行某些改動,以對新示例中蘊(yùn)含的知識進(jìn)行學(xué)習(xí),而且,對一個訓(xùn)練好的系統(tǒng)進(jìn)行修改的時間代價通常低于重新訓(xùn)練一個系統(tǒng)所需要的代價[61]。一般將增量學(xué)習(xí)問題劃分為三類,分別稱之為E-IL問題、C-IL問題和A-IL問題,這三個問題定義如下[61]:E-IL(Example-Incremental Learning)是學(xué)習(xí)系統(tǒng)訓(xùn)練好之后,又得到了新的訓(xùn)練例。C-IL(Class-Incremental Learning)指學(xué)習(xí)系統(tǒng)訓(xùn)練好之后,輸出表示發(fā)生了變化,增加了新的輸出分類。A-IL(Attribute-Incremental Learning)則是在學(xué)習(xí)系統(tǒng)訓(xùn)練好之后,輸入表示發(fā)生了變化,增加了新的輸出屬性?,F(xiàn)有的大多數(shù)增量學(xué)習(xí)方面的工作都是在解決新訓(xùn)練例引起的問題,在已有的支持向量機(jī)增量學(xué)習(xí)方法中,也主要是研究A-IL型的增量學(xué)習(xí)問題,目前對C-IL進(jìn)行研究的相對較少[62-65]。
綜合以上分析,目前國內(nèi)外尚沒有建立起系統(tǒng)、完善的小樣本模式識別理論,僅就解決潛艇機(jī)械噪聲源識別問題而言,本文作者認(rèn)為下一步應(yīng)該優(yōu)先研究以下問題:
(1)要明確“潛艇機(jī)械噪聲源識別小樣本”的定義。目前國內(nèi)外尚沒有統(tǒng)一的“小樣本”定義,給出的幾種常見定義是:
a.統(tǒng)計學(xué)的定義。最早的小樣本統(tǒng)計量是1908年由戈塞特提出的。他提出t-統(tǒng)計量如下[66]:
設(shè)X1,X2,…Xn是來自正態(tài)總體N(μ,σ2)的一個樣本,則,其中:。
因為在機(jī)械噪聲源識別中,通常對采集得到的數(shù)據(jù)采取減去均值,除以方差的處理,所以如果該數(shù)據(jù)來自正態(tài)總體,則處理后的數(shù)據(jù)應(yīng)該滿足t分布。一般說來,當(dāng)n>30時,t分布與正態(tài)分布N(0,1)就非常接近了,但n的值較小時,t分布與正態(tài)分布之間有較大差異,在t分布的尾部比在標(biāo)準(zhǔn)正態(tài)分布的尾部有著更大的概率。所以只有當(dāng)數(shù)據(jù)樣本的個數(shù)大于30時,得到的參數(shù)評估值才能準(zhǔn)確地代表正態(tài)總體的值,也就是參數(shù)估計才準(zhǔn)確,所以認(rèn)為當(dāng)樣本小于30時為小樣本。
b.一個不完備的數(shù)據(jù)集被稱為不完備樣本。在不完備樣本條件下,我們說我們面對的是一個小樣本問題[67]。
c.若目前所得到的樣本數(shù),沒有辦法使得所選用的方法,其準(zhǔn)確度隨著樣本數(shù)增加呈現(xiàn)遞增函數(shù),或者偏誤率隨著樣本數(shù)增加呈現(xiàn)遞減函數(shù),那就稱目前的樣本數(shù)為小樣本[39]。
d.在機(jī)器學(xué)習(xí)中,若訓(xùn)練樣本個數(shù)為n,學(xué)習(xí)機(jī)器函數(shù)的VC維為h,如果n/h的比值較小,例如小于20,則認(rèn)為這種訓(xùn)練樣本集是小樣本[5]。
(2)樣本特征選擇和特征提取已在人臉識別、互聯(lián)網(wǎng)文本搜索等領(lǐng)域得到大量應(yīng)用,取得了不少有價值的研究成果,但就如何將其應(yīng)用于潛艇等復(fù)雜系統(tǒng)機(jī)械噪聲源識別研究,還需要進(jìn)一步探索。
(3)通過引入新的信息或先驗知識對小樣本加以擴(kuò)容必須要結(jié)合應(yīng)用背景,而如何實現(xiàn)相關(guān)信息的合理添加有時往往不是一件容易的事情。
(4)基于已有樣本的虛擬樣本添加存在兩個問題:一個是已有樣本并不一定能夠代表該模式下真實樣本空間的分布,導(dǎo)致該種情況下得到的虛擬樣本可能是錯誤的;另一個問題是,如果已有的小樣本訓(xùn)練集不包含其他工況模式的信息,則無法通過該種方法得到新模式的訓(xùn)練樣本。
(5)研究如何利用實艇可能獲得的未標(biāo)注樣本,可能是解決小樣本條件下潛艇機(jī)械噪聲源識別的一個有效手段。
(6)目前幾乎所有增量學(xué)習(xí)方面的工作都是在解決新訓(xùn)練例或新訓(xùn)練屬性引起的問題,只有較少的研究者對輸出類增量學(xué)習(xí)(C-IL)進(jìn)行了深入研究。而這恰恰是解決潛艇機(jī)械噪聲源識別問題的一個重要方面。
小樣本模式識別問題也廣泛存在于其他領(lǐng)域,像醫(yī)學(xué)上的疾病診斷、化學(xué)領(lǐng)域中的炸藥判別、小子樣機(jī)械系統(tǒng)的壽命預(yù)測、宏觀經(jīng)濟(jì)分析中的協(xié)整檢驗、以及機(jī)械、冶金、航空、航天、船舶、海洋工程、石油化工等行業(yè)中普遍存在著的故障診斷和缺陷檢測問題等等。目前雖然沒有建立起系統(tǒng)、完善的小樣本模式識別理論,但結(jié)合各自不同的應(yīng)用領(lǐng)域,國內(nèi)外學(xué)者已取得了不少的研究成果。本文在系統(tǒng)評述小樣本條件下模式識別方面的一些主要工作基礎(chǔ)上,結(jié)合作者自己的研究領(lǐng)域,分析指出了潛艇機(jī)械噪聲源識別研究中存在的一些主要問題,并對下一步工作重點(diǎn)作了展望。
總的說來,基于“系統(tǒng)”和“信息”的分析觀點(diǎn),綜合集成“信息挖掘”和“信息擴(kuò)容”兩條技術(shù)路線,盡可能融合利用相關(guān)有用信息,將“小樣本”問題轉(zhuǎn)化為一個“相對足夠大樣本”問題,這是從根本上解決已有小樣本模式識別問題的出路所在。
致謝:本文工作得到了國家自然科學(xué)基金(編號:50775218)和國防預(yù)研基金(編號:9140A0050506JB11)的資助。
[1]楊德森.水下航行器噪聲分析及主要噪聲源識別[D].哈爾濱:哈爾濱工程大學(xué),1998.
[2]Tarassenko L,Nairac A,Townsend N.Novelty detection in jet engines[C]//In:IEE Colloquium on Condition Monitoring.Imagery,External Structures and Health.Birmingham,UK,1999.
[3]章林柯.潛艇聲學(xué)故障識別方法及應(yīng)用研究[D].武漢:海軍工程大學(xué),2006.
[4]Raudys S J,Jain A K.Small sample size effects in statistical pattern recognition:Recommendations for practitioners[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1991,13:252-264.
[5]張恒喜,郭基聯(lián),朱家元.小樣本多元數(shù)據(jù)分析方法及應(yīng)用[M].西安:西北工業(yè)大學(xué)出版社,2002.
[6]Hamamoto Y,Uchimura S,Kanaoka T,et al.Evaluation of artificial neural network classifiers in small sample size situations[C].International Joint Conference on Neural Networks,1993:1731-1735.
[7]Ueda N,Nakano R.Estimating expected error rates of neural network classifiers in small sample size situations:A comparison of cross-validation and bootstrap[C].International Joint Conference on Neural Networks,1995:101-104.
[8]Twomey J M,Smith A E.Bias and variance of validation methods for function approximation neural networks under conditions of sparse data[J].IEEE Trans on Systems,Man and Cybernetics,1998,28:417-430.
[9]Jain A K,Chandrasekaran B.Dimensionality and sample size considerations in pattern recognition practice[M].Handbook of Statistics,vol 2,Amsterdam:North Holland,1982:835-855.
[10]Skurichina M,Duin P.Stabilizing classifiers for very small sample sizes[C].13th International Conference on Pattern Recognition(ICPR’96)-Volume 2,1996:891-895.
[11]Yan J,Zhang B,Liu N,et al.Effective and efficient dimensionality reduction for large-scale and streaming data preprocessing[J].IEEE Trans on Knowledge and Data Engineering,2006,19:320-333.
[12]Guyon I,Elisseeff A.An introduction to variable and feature selection[J].Journal of Machine Learning Research,2003,1:1157-1182.
[13]Tenenbaum J,Silva V D,Langford J.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290:2319-2323.
[14]Roweis S T,Saul L K.Nonlinear Dimensionality Reduction by Locally Linear Embedding[J].Science,2000,290:2323-2326.
[15]Saul L K,Roweis S T.An introduction to locally linear embedding[J].Journal of Machine Learning Research,2003,7:119-155.
[16]Chen L F,Liao H Y,Ko M T,et al.A new LDA-based face recognition system which can solve the small sample size problem[J].Pattern Recognition,2000,1(33):1713-1726.
[17]Zheng W M,Zhao L,Zou C R.Foley-sammon optimal discriminant vectors using Kernel approach[J].IEEE Transacions on Neural Network,2005,16(1):1-9.
[18]Vapnik V N.The nature of statistical learning theory[M].NY:Springer-Verlag,1995.
[19]Vladimir N,Vapnik.Statistical theory[M].New York:Jonhn Wiley & Sons,Inc,1998.
[20]邊肇祺,張學(xué)工.模式識別(第二版)[M].北京:清華大學(xué)出版社,1999.
[21]周志華,曹存根.神經(jīng)網(wǎng)絡(luò)及其應(yīng)用[M].北京:清華大學(xué)出版社,2004.
[22]Hansen L K,Salamon P.Neural network ensembles[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1990,12:993-1101.
[23]Sollich P,Krogh A.Learning with ensembles:How over-fitting can be useful[M].Advances in Neural Information Processing Systems 8.MA:MIT Press,1996:190-196.
[24]Breiman L.Bagging predictors[J].Machine Learning,1996,24:123-140.
[25]Freund Y,Schapire R E.A decision-theoretic generalization of on-line learning and an application to boosting[J].Journal of Computer and System Sciences,1997,55:119-139.
[26]Zhou Z H,Wu J,Tang W.Ensembling neural networks:Many could be better than all[J].Artificial Intelligence,2002,137:239-263.
[27]Niyogi P,Girosi F,Poggio T.Incorporating prior information in machine learning by creating virtual examples[C].Proceedings of IEEE,1998:2196-2209.
[28]Abu-Mostafa Y S.Hints[J].Neural Computation,1995,7:639-671.
[29]Scholkopf B,Burges C,Vapnik V.Incorporating invariances in support vector learning machines[C].ICANN,1996:47-52.
[30]Decoste D,Scholkopf B.Training invariant support vector machines[J].Machine Learning,2002,46:161-190.
[31]Rodr?iguez P V J,Negrea M,Arkkio A.A simplified scheme for induction motor condition monitoring[J].Mechanical Systems and Signal Processing,2008,22:1216-1236.
[32]Novak D,Leh K D.ANN inverse analysis based on stochastic small-sample training set simulation[J].Engineering Applications of Artificial Intelligence.
[33]Efron B,Tibshirani R.An introduction to the bootstrap[M].London:Chapman and Hall,1993.
[34]Lachenbruch P A,Mickey R M.Estimation of error rates in discriminant analysis[J].Technometrics,1968,10:1-11.
[35]Neal R.Bayesian learning for neural networks[M].New York:Springer,1996.
[36]余嘉元.基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計[J].心理學(xué)報,2002,4:522-528.
[37]王衛(wèi)東,鄭宇杰,楊靜宇.采用虛擬訓(xùn)練樣本優(yōu)化正則化判別分析[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2006,18:1327-1331.
[38]Huang C,Moraga C.A diffusion-neural-network for learning from small samples[J].International Journal of Approximate Reasoning,2004:137-161.
[39]蔡亦東.以整體擴(kuò)展技術(shù)協(xié)助小樣本之學(xué)習(xí)[D].臺灣:臺灣國立成功大學(xué),2005.
[40]Grandvalet Y,Canu S,Boucheron S.Noise injection:Theoretical prospects[J].1996.
[41]Dietterich T G.Machine learning research:Four current directions[J].AI Magazine,1997,18(4):97-136.
[42]Sietsma J,Dow R J F.Creating artificial neural networks that generalize[J].Neural Networks,1991,4:67-79.
[43]Bishop C M.Training with noise is equivalent to tikhonov regularization[J].Neural Computation,1995,7(1):108-116.
[44]龍 軍.主動學(xué)習(xí)關(guān)鍵技術(shù)研究[D].長沙:國防科技大學(xué),2008:1-6.
[45]龍 軍,殷建平,祝 恩.主動學(xué)習(xí)研究綜述[J].計算機(jī)研究與發(fā)展,2008,45(S1):300-304.
[46]Blum A,Mitchell T.Combining Labeled and Unlabeled Data with Co-training[C]//Proceedings of the 11th Annual Conference on Computational Learning Theory.Madison,1998:92-100.
[47]Zhou Z H.Tri-training:Exploiting unlabeled data using three classifiers[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(11):1529-1541.
[48]王 路,卓 晴,王文淵.基于Co-Training的協(xié)同目標(biāo)跟蹤[J].計算機(jī)工程,2009,35(3):201-204.
[49]唐煥玲,林正奎,魯明羽.基于差異性評估對Co-Training文本分類算法的改進(jìn)[J].電子學(xué)報,2008,36(12A):138-143.
[50]王 嬌,羅四維,曾憲華.基于隨機(jī)子空間的半監(jiān)督協(xié)同訓(xùn)練算法[J].電子學(xué)報,2008,36(12A):60-65.
[51]Eskin E,Arnold A,Prerau M,et al.A geometric framework for unsupervised anomaly detection:Detecting intrusions in unlabeled data[C].Applications of Data Mining in Computer Security,2002:78-99.
[52]Li Yang,Fang Binxing,Guo Li,Chen You.A network anomaly detection method based on transduction scheme[J].Journal of Software,2007,18(10):2595-2604.
[53]李 洋,方濱興,郭 莉.基于TCM-KNN和遺傳算法的網(wǎng)絡(luò)異常檢測技術(shù)[J].通信學(xué)報,2007,28(12):48-52.
[54]孫吉貴,劉 杰,趙連宇.聚類算法研究[J].軟件學(xué)報,2008,19(1):48-61.
[55]揚(yáng)小兵.聚類分析中若干關(guān)鍵技術(shù)的研究[D].杭州:浙江大學(xué)博士學(xué)位論文,2005.
[56]Ma W M,Chow E,Tommy W S.A new shifting grid clustering algorithm[J].Pattern Recognition,2004,37(3):503-514.
[57]Pilevar A H,Sukumar M.A grid-clustering algorithm for high-dimensional very large spatial data bases[J].Pattern Recognition Letters,2005,26(7):999-1010.
[58]張 楓,邱保志.基于網(wǎng)格的高效DBSCAN算法[J].計算機(jī)工程與應(yīng)用,2007,43(17):167-169.
[59]程國慶,陳曉云.基于網(wǎng)格相對密度的多密度聚類算法[J].計算機(jī)工程與應(yīng)用,2009,45(1):156-169.
[60]Sambasivam S,Theodosopoulos N.Advanced data clustering methods of mining web documents[J].Issues in Informing Science and Information Technology,2006(3):563-579.
[61]周志華.神經(jīng)計算中若干問題的研究[D].南京:南京大學(xué),2000.
[62]Syed N,Liu H,Sung K.Incremental Learning with support vector machines[C]//Proceedings of the Workshop on Support Vector Machines at the International Joint Conference on Artificial Intelligence(IJCAI-99).Stockholm,Sweden:Morgan Kaufmann,1999:876-892.
[63]蕭 嶸,王繼成,孫正興等.一種SVM增量學(xué)習(xí)算法α-ISVM[J].軟件學(xué)報,2001,12(12):1818-1824.
[64]李 凱,黃厚寬.支持向量機(jī)增量學(xué)習(xí)算法研究[J].北方交通大學(xué)學(xué)報,2003,27(5):34-37.
[65]Pavel L.Incremental support vector learning:Analysis,implementation and applications[J].Journal of Machine Learning Research,2006,7:1909-1936.
[66]天津大學(xué)概率統(tǒng)計教研室.應(yīng)用概率統(tǒng)計[M].天津:天津大學(xué)出版社,1990.
[67]Huang C,Moraga C.A diffusion-neural-network for learning from small samples[J].International Journal of Approximate Reasoning,2004:137-161.