• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向信息特征模式識別的核方法研究綜述

      2014-08-08 02:45黃煒劉坤
      現(xiàn)代情報 2014年3期
      關鍵詞:支持向量機模式識別

      黃煒+劉坤

      基金項目:本文系國家自然科學基金項目“微博環(huán)境下實時主動感知網(wǎng)絡輿情事件的多核方法研究”(項目編號:71303075);中國博士后科學基金項目“基于核方法的網(wǎng)絡非常規(guī)突發(fā)事件的智能識別與應用研究”(項目編號:2012M511697)的研究成果之一。

      作者簡介:黃煒(1979-),男,副教授,博士后,碩士生導師,研究方向:網(wǎng)絡輿情,網(wǎng)絡信息智能處理?!ぞC述·

      〔摘要〕面對網(wǎng)絡大數(shù)據(jù)的挑戰(zhàn),特征信息的模式識別已成為信息情報領域的研究熱點。本文對模式識別的現(xiàn)狀進行了剖析,研究了現(xiàn)廣泛運用于信息模式識別中的核方法。梳理并對比分析了核方法的各種算法理念與思想,介紹了核算法的設計、核函數(shù)的構造與核參數(shù)的選擇方法,特別探討了在網(wǎng)絡輿情信息模式識別中的應用前景。

      〔關鍵詞〕模式識別;核方法;核參數(shù);支持向量機;信息模式

      DOI:10.3969/j.issn.1008-0821.2014.03.036

      〔中圖分類號〕G2528〔文獻標識碼〕A〔文章編號〕1008-0821(2014)03-0168-09

      Review on Kernel Algorithm of Information Pattern RecognitionHuang Wei1,2Liu Kun1

      (1.School of Management,Hubei University of Technology,Wuhan 430068,China;

      2.School of Management,Wuhan University of Technology,Wuhan 430070,China)

      〔Abstract〕Facing the challenge of big data from the network,the characteristic information of pattern recognition has become a hot research topic in the field of information intelligence.This paper analyzed the status quo of pattern recognition,and explored the kernel methods that widely used in information pattern recognition.By analyzing and combing the different kinds of kernel idea and thought that applied in kernel algorithm,the paper introduced the design of the kernel algorithm,the construction of the kernel function and the method of selecting kernel parameters,especially discussed the application prospect in network public opinion information pattern recognition.

      〔Keywords〕pattern recognition;kernel methods;kernel parameters;support vector machine;information pattern

      隨著人工智能的發(fā)展,人們亟待解決機器學習的各項問題,模式識別是人工智能中一項基本智能,并應用于我們生活中的各個領域,如生物識別(語音識別、人臉識別、指紋識別等)、數(shù)據(jù)挖掘、文本分類等。20世紀60年代初,模式識別迅速發(fā)展并成為一門新的學科。但是傳統(tǒng)的模式識別方法在大數(shù)據(jù)環(huán)境下,處理多類別的復雜的高維模式識別問題時效果不佳,在各模式存在復雜的非線性關系時甚至無解。20世紀90年代中期,出現(xiàn)了基于核的學習方法(簡稱為核方法),該方法最終使得研究人員能夠高效地分析復雜非線性問題。

      本文以當前核方法的重點研究方向為向?qū)?,收集并整理期刊文獻179篇,學位論文9篇,以及基于核方法的模式識別書籍2本。其中模式識別相關文獻16篇,核方法87篇,核函數(shù)及核參數(shù)56篇,增量學習相關文獻20篇,多核學習相關文獻8篇,大數(shù)據(jù)相關文獻3篇。文獻統(tǒng)計如圖1所示。

      本文重在總結和分析經(jīng)典的核算法,并對核函數(shù)和核參數(shù)的選擇進行探究。同時對在線動態(tài)模型(增量學習)的原理和方法進行概述,最后對多核學習也有一定的介紹和探討。通過對當前核方法的探究,給當前網(wǎng)絡大數(shù)據(jù)環(huán)境下的數(shù)據(jù)處理提出一種可行的理論方法,特別是給網(wǎng)絡信息情報模式識別的應用提供一種思路。

      1特征信息的模式識別

      一般認為,模式是通過對具體的事物進行觀測所得到的具有時間與空間分布的信息。模式所屬類別或同一類中

      圖1文獻統(tǒng)計

      模式的總體稱為模式類,其中個別具體的模式往往稱為樣本。模式識別(Pattern Recognition)是對表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關系的)信息進行處理和分析,以及對事物或現(xiàn)象進行描述、辨認、分類和解釋的過程[1]。

      通常情況下,希望模式識別的算法能夠具備3個性質(zhì):計算的高效性、健壯性以及統(tǒng)計穩(wěn)定性[2]。傳統(tǒng)的模式識別方法大致可以分為模板匹配、統(tǒng)計識別、結構識別、模糊識別和人工神經(jīng)網(wǎng)絡識別5種[3-4]。統(tǒng)計模式識別和結構模式識別是模式識別領域的兩大主流研究方向,模糊模式識別和神經(jīng)元網(wǎng)絡模式識別是新近發(fā)展起來的模式識別方法。然而,大量實際的模式識別問題是具有多類別的高維的復雜模式的識別,且各模式之間存在復雜的非線性關系,傳統(tǒng)的統(tǒng)計模式識別方法能高效率地解決具有線性關系的模式識別問題,但無法高效率地檢測非線性關系。此外,傳統(tǒng)統(tǒng)計學主要研究的是漸進理論,即當樣本數(shù)趨近于無窮大的統(tǒng)計性質(zhì),而現(xiàn)實中的模式識別問題由于各種因素的約束樣本數(shù)往往是有限的。雖然機器學習中神經(jīng)網(wǎng)絡模式識別的發(fā)展使得檢測非線性模式成為可能,然而這些非線性算法是建立在梯度下降法和貪婪啟發(fā)式法的基礎上,因而受到局部極小化的限制。這些算法還經(jīng)常遇到過擬合的問題,“過學習”的特點使得得出的算法結構表現(xiàn)出很差的推廣能力。

      而面對當前網(wǎng)絡信息環(huán)境,網(wǎng)絡信息呈現(xiàn)的特點是:(1)數(shù)量龐大、增長迅速;(2)內(nèi)容豐富、覆蓋面廣;(3)信息質(zhì)量參差不齊,有序與無序并存,數(shù)據(jù)類型繁多;(4)信息共享程度高、使用成本低;(5)內(nèi)容新穎實效性強。要實現(xiàn)網(wǎng)絡信息的分類管理或是對信息的有效甄別、控制等,傳統(tǒng)的模式識別方法顯然力不從心。20世紀90年代中期,出現(xiàn)了基于核的學習方法,該方法是從統(tǒng)計學習理論中發(fā)展出來的較新的學習方法,它有效克服了傳統(tǒng)模式識別方法的局部極小化和不完全統(tǒng)計分析的問題,在處理非線性關系的高維復雜模式識別問題時,有著顯著的優(yōu)勢。

      2基于核方法的模式識別

      endprint

      21核方法

      基于核的學習方法(簡稱為核方法),它以統(tǒng)計學習理論和核技術為基礎,該方法是統(tǒng)計分析方法的進一步發(fā)展。從計算、統(tǒng)計和概念的各個角度來看,核方法和線性算法一樣,在高維特征空間內(nèi)也能夠達到很高的識別效率,具有很好的推廣應用性。并且,神經(jīng)網(wǎng)絡和決策樹中典型局部極小化和過擬合問題,核方法也已得到解決。

      核方法的基本思想主要是利用樣本空間內(nèi)定義的核函數(shù)直接計算出映射空間的點積,不必顯式計算從樣本輸入空間到高維空間的映射,可以利用已有的線性求解算法訪問那些非常復雜的非線性空間。核方法是一種模塊的方法,可分為算法設計和核函數(shù)設計兩個部分,其核心部分是核函數(shù)。核函數(shù)的基本作用就是接收兩個低維空間的向量,并計算出經(jīng)過某個變換后在高維空間的內(nèi)積值?;诤撕瘮?shù)的方法具體實施步驟為:

      (1)收集和整理樣本,并進行標準化;

      (2)選擇或構造核函數(shù);

      (3)用核函數(shù)將樣本變換成為核函數(shù)矩陣。這一步相當于將輸入數(shù)據(jù)通過非線性函數(shù)映射到高維特征空間;

      (4)在特征空間對核函數(shù)矩陣實施各種線性算法;

      (5)得到輸入空間中的非線性模型。

      顯然,將樣本數(shù)據(jù)核化成核函數(shù)矩陣是核函數(shù)方法中的關鍵。核算法為處理許多模式識別問題提供了一個統(tǒng)一的框架。核算法的流程如圖2所示:

      數(shù)據(jù)→k(x,z)核函數(shù)→K〖〗核矩陣→A算法→f(x)=∑αik(xi,x)模式函數(shù)圖2核算法的流程

      核算法的特點可歸納為:

      (1)它是一類將非線性問題線性化的普適方法;

      (2)核算法的模塊性表明它是一個具有可重用性的算法;

      (3)核算法的計算量只與樣本數(shù)有關、與樣本維數(shù)無關,有效地避免了“維數(shù)災難”;

      (4)核函數(shù)的引用,使在無限維特征空間進行計算成為可能,提高了模式識別的能力;

      (5)無需關注低維向高維轉(zhuǎn)化的非線性函數(shù)Φ(·)的形式及其參數(shù);

      (6)核函數(shù)方法可以和不同的算法相結合,形成多種不同的基于核函數(shù)的方法,而且這兩部分的設計可以單獨進行,為不同的實際問題選擇不同的核函數(shù)和算法。

      22模式識別的核方法

      221基于核的最小平方誤差算法

      基于核的最小平方誤差算法即KMSE,MSE(Minimum Squared Error最小均方誤差)正如其名,其方法本質(zhì)為最小二乘法。該方法主要用于兩類分類。在使用其算法的過程中為解決非線性問題,把樣本由低維向高維映射,并引入核。KMSE的主要算法可描述為:

      用1和-1作為兩類樣本的類別標簽,設Φ為一非線性映射,在映射后的特征空間考慮分類問題。令樣本數(shù)為l,其中標記為1類的樣本有l1個,標記為-1類的樣本有l2個(l1+l2=l)。通過訓練樣本,構建逼近關系:

      ΦW=Y(1)

      其中,W=[w0wT]T,Y=1…-1T,Φ=11…1

      Φ(x1)Φ(x2)…Φ(xl),對式子ΦW=Y進行求解,可求出其最小二乘解,即為解方程組:

      ΦTΦW=ΦTY(2)

      根據(jù)再生核理論,鑒別方向W可改寫為:

      W=w0

      ∑li=1αliΦ(xi)(3)

      引入Mercer核k(xi,xj)=ΦT(xi)Φ(xj),公式(1)可轉(zhuǎn)化為:

      KA=Y(4)

      其中A=w0

      αl1

      αll,K=1k(x1,x1)…k(x1,xl)

      1k(x2,x1)…k(x2,xl)

      …

      1k(xl,x1)…k(xl,xl),公式(4)的最小二乘解的一般形式為:

      A=(KTK)-1KTY(5)

      由于KTK是病態(tài)矩陣,可引入正系數(shù)μ,及單位矩陣I,可得

      A=(KTK+μI)-1KTY(6)

      求出A后,不需要另外設計分類器即可實現(xiàn)分類。計算待測樣本x在鑒別方向上的投影值即可:

      lp(x)=w0+∑li=1αlik(x,xi)(7)

      若lp(x)>0,則樣本x分到1類,否則分到-1類。

      在這個算法中,有兩點值得注意:KMES模型中方程個數(shù)與訓練樣本數(shù)相同;該模型的物理意義是依據(jù)W對樣本進行變換時(即進行特征抽取的過程),特征抽取的結果與樣本的類別標簽具有最小均方誤差,達到最大程度地逼近所屬標簽的目的。

      222核主元分析

      主元分析(PCA,Principal Components Analysis)的技術原理是在最小均方誤差意義上壓縮數(shù)據(jù),即在維數(shù)不變的情況下,使用主分量分析的方法對原數(shù)據(jù)進行變換,變換后的數(shù)據(jù)中將包含最多的原數(shù)據(jù)中的信息,使得信息損失最小。獲得變換軸的方法為求解特征方程較大的特征值相對應的特征向量,這些特征向量即為變換軸。核主元分析KPAC(Kernel Principal Components Analysis)即在PCA方法中引入“核技巧”,借助“核技巧”將輸入空間由低維向高維映射后,處理非線性問題,在映射后的特征空間實現(xiàn)PCA。

      KPCA具體可描述為:

      設映射為Φ,且此時數(shù)據(jù)滿足“中心化”條件:

      ∑Ni=1Φ(xi)=0(8)

      則特征空間中協(xié)方差矩陣為:

      ∑=1N∑Ni=1Φ(xi)Φ(xi)T(9)

      由于變換軸ui必位于Φ(x1),Φ(x2),…,Φ(xN)的子空間中,即

      ui=∑Nj=1αijΦ(xj)(10)

      式中:αi=αi1αi2…αiNT。

      求解特征方程

      Kα=λα(11)

      設若干個較大的非零特征值按降序排列為λ1,λ2,…,λm(mN),相應的特征向量為α1,α2,…,αm,并假設特征空間中的單位變換軸分別為u1,u2,…,um,則:

      ui=1λi∑Nj=1αijΦ(xj),?i=1,2,…,m(12)

      基于上式變換軸的表達式,可得到特征空間中樣本Φ(x)在ui上投影的表達式,再將特征空間中前m個主分量相應的投影值組成新的向量,即可得到樣本x在特征空間中特征抽取的結果:y=1λ1∑Nj=1α1jk(xj,x)1λ2∑Nj=1α2jk(xj,x)…1λm∑Nj=1αmjk(xj,x)T(13)

      對KPCA方法分析可知:PCA主要為數(shù)據(jù)抽取技術,以抽取不相關的各個特征分量;從另一角度看,PCA也是一種使變化結果具有最大方差的技術,使得變換后的樣本信息,不僅具有代表性,且差異顯著;PCA在建模過程中不需要考慮訓練樣本的所屬類別,為無監(jiān)督學習;KPCA主要用于特征的抽取,要實現(xiàn)分類還需另外設置分類器;文獻[5]實驗證明了核主成分分析比主成分分析對分類器性能改善的效果更好,且若先對原始數(shù)據(jù)集進行特征選擇,再利用核主成分分析進行特征提取可進一步改善分類器的性能;文獻[6]用我國30個省市1993年農(nóng)民家庭消費狀況的數(shù)據(jù)進行了特征抽取,實驗結果表明采用KPCA可獲得比PCA更好的降維效果,且不論采用何種核函數(shù),第一主成分的貢獻率都在95%左右。

      223核Fisher鑒別分析

      核Fisher鑒別分析即KFDA(Kernel Fisher discriminant analysis),F(xiàn)DA基于尋求“最佳”投影方向(即變換抽)的思想:所有樣本投影到“最佳”投影方向后,應該具有最大的類間距離與類內(nèi)距離比值。并稱該方向?qū)南蛄繛镕isher最佳鑒別向量,稱樣本投影到投影方向后具有最大類間距離與最小類內(nèi)距離的準則為Fisher準則[7]。FDA基于最佳鑒別向量的思想,構建最具鑒別性的向量集,從而利用多個正交鑒別向量處理分類問題。

      endprint

      在FDA算法中引入“核技巧”后即為KFDA,該算法可描述為:

      設輸入空間為d維空間,相應的非線性映射為Φ,映射后的特征空間為F。在F中Fisher準則函數(shù)為:

      J(w)=wTSΦbwwTSΦww(14)

      其中,w為鑒別向量,滿足w∈F,SΦb和SΦw分別為F中的類間散布矩陣和類內(nèi)散布矩陣,且求得的鑒別向量w應使得式(14)達到最大值。以兩類分類為例,可設c1類樣本為x12,x12,…,x1l1,共l1個,c2類樣本為x21,x22,…,x2l2,共l2個(l1+l2=l)。假設樣本各類的先驗概率相等,則SΦb和SΦw分別表達為:

      SΦb=(mΦ1-mΦ2)(mΦ1-mΦ2)T(15)

      SΦw=∑2i=1∑lij=1(Φ(xij)-mΦi)(Φ(xij)-mΦi)T(16)

      式中:

      mΦi=1li∑lij=1Φ(xij)(17)

      根據(jù)再生核理論:鑒別向量w位于特征空間所有訓練樣本組成的子空間中,因此,鑒別向量可表示為:

      w=∑li=1αiΦ(xi)(18)

      引入核后,基于核的Fisher準則函數(shù)為:

      J(α)=αTMααTNα,α=α1…αlT(19)

      式中:

      M=(M1-M2)(M1-M2)T(20)

      N=∑2i=1Ki(I-Ili)KTi(21)

      其中,Mi為l維列向量,(Mi)j=1li∑lin=1k(xj,xin),j=1,2,…,l,i=1,2,I為單位矩陣,Ili為li×li階矩陣且所有元素都為1li,Ki為l×li階矩陣,Ki為ci類的核矩陣,(Kn)i,j=k(xi,xnj),i=1,2,…,l,j=1,2,…,ln,n=1,2。

      此時,求鑒別向量w的問題轉(zhuǎn)化為求向量α的問題,α可通過求解廣義特征方程

      Nα=λNα(22)

      的最大特征值所對應的特征向量得到。特別地,對于兩類問題,α=N-1(M1-M2)。

      在得到α后即可設計分類器,該分類器基于最小距離的原則。首先算出任意樣本xt關于KFDA的鑒別向量α的特征抽取結果:

      f(xt)=∑li=1αk(xt,xi)(23)

      式中,xi為訓練集中的第i個樣本。再計算f1的f2:

      fi=1li∑lij=1∑ln=1αnk(xn,xij),?i=1,2(24)

      最后采用最小分類器的原則進行分類:f(xt)與f1間距離小于與f2間距離,則xt的分類為c1類,否則,為c2類。

      由KFDA方法可以得出:FDA在訓練樣本的階段知道并運用了樣本的信息,屬于有監(jiān)督學習;相比于無監(jiān)督學習,在訓練樣本的學習階段有效地運用樣本的類別信息,可使得變換后的樣本有著更好的分離性[7];FDA方法中,訓練期鑒別向量的個數(shù)決定了變換后樣本信息的維數(shù);PCA和FDA都可用于降維;KFDA方法可直接用于多類分類,不需構造多個兩類分類,具體方法是根據(jù)不同的鑒別向量集來抽取不同類別的相應特征信息,從而實現(xiàn)多類分類。

      224SVM

      非傳統(tǒng)的學習方法如神經(jīng)網(wǎng)絡算法在解決非線性問題方面有一定的優(yōu)越性,但存在過擬合、局部極小值和網(wǎng)絡結構復雜度問題。1995年,Cortes和Vapnik提出了支持向量機(SVM)的概念和算法。這個新的模式識別的方法,主要用于解決小樣本、非線性及高維模式識別問題。

      SVM的關鍵在于核函數(shù)。由于低維空間向量集通常難于劃分,解決的方法是將它們映射到高維空間,而核函數(shù)的展開和計算方法避免了向高維映射后特征空間中的“維數(shù)災難”問題?;诤撕瘮?shù)的SVM可有效地解決有限樣本條件下的模式分類問題,并且具有很強的推廣能力。理論性強、適應性強、全局優(yōu)化性、推廣能力強,這些正是支持向量機在核方法中成為主流方法的原因。SVM算法基于最大間隔分類的思想,在尋找最優(yōu)分類超平面時,力求不同類別的樣本與分類面之間有最大距離[8]。最簡單的SVM模型可描述為:

      設有樣本l個,其中標記為1類的樣本有l1個,標記為-1類的樣本有l2個(l1+l2=l)。分隔兩類樣本的超平面數(shù)學表達式為:

      wTx+b=0(25)

      式中:w為分隔超平面的法向量,b為超平面與原點間的偏移。構建約束表達式,以求得w和b:

      min12w2

      yi(〈w,xi〉+b)1,?i=1,2,…l(26)

      最后,通過決策函數(shù):

      f(x)=sign(〈w,x〉+b)(27)

      來判定待測樣本屬于1類還是-1類。求解的過程中,為了提高計算多維特征向量的效率以及解決非線性問題而在算法中引入核技巧。

      SVM學習問題可以表示為凸優(yōu)化問題,因此可以利用已知的有效算法去發(fā)現(xiàn)目標函數(shù)的全局最小值;SVM通過最大化決策邊界的邊緣來控制模型的能力,但用戶必須提供其他參數(shù),如使用核函數(shù)類型和引入松弛變量等;未改進的SVM一般只能用在二類問題,對于多類問題需對SVM算法進行改進。

      對于以上4種模式識別過程中常規(guī)的核方法,可進行研究對比:這四種模式識別的核方法都是由低維向高維映射的非線性關系中引入核技巧,它們都是由線性思想的算法轉(zhuǎn)化來的核算法;核算法的構造思想不同,使得基于核的模式識別模型有很大的差異;KPCA與KFDA主要是對特征抽取過程中引入核,且具有降低樣本維數(shù)的特點,其變換后樣本的最大維數(shù)為訓練樣本的個數(shù);KMSE,KFDA,SVM為有監(jiān)督學習方法,KPCA為無監(jiān)督學習方法;應用于分類問題時,KPCA和KFDA能直接處理多類問題(KPCA和KFDA可直接對多類問題進行相應的特征抽取,并根據(jù)特征抽取結果直接實現(xiàn)多類分類),而KMSE和SVM只能直接處理兩類問題,若要多類分類,還需采取一對一或一對多的方案構造多個二值分類器來解決多類分類問題。

      23核函數(shù)及核參數(shù)選擇的研究

      SVM和其它核方法的性能在很大程度上取決于核函數(shù)的種類及參數(shù),但目前還沒有一種對具體問題普遍適用的核函數(shù)構造方法。如何進行核函數(shù)類別選擇和參數(shù)優(yōu)化,一直缺少理論指導,這是核算法研究急需解決的問題。

      231核函數(shù)選擇研究

      在算法的建立過程中,核函數(shù)至少要滿足兩個條件:一是滿足Mercer條件;二是能反映實際運用中訓練數(shù)據(jù)的分布特性[9]。常用的核函數(shù)可分為兩類,即平移不變核函數(shù)和內(nèi)積核函數(shù),如:

      (1)高斯核函數(shù)(也稱徑向基核函數(shù)):

      K(x,xi)=exp(-x-xi2/2σ2);

      (2)多項式核函數(shù):

      K(x,xi)=(〈x,xi〉+θ)d,?d=1,2,…,N;

      (3)感知器核函數(shù)(也稱Sigmoid核函數(shù))

      K(x,xi)=tanh(β〈x,xi〉+b),?β>0。

      由以上核函數(shù)的形式可看出高斯核函數(shù)為平移不變核,多項式核函數(shù)和感知器核函數(shù)為內(nèi)積核函數(shù),為旋轉(zhuǎn)不變核。

      核函數(shù)的選擇決定了特征空間的結構。在使用多項式核函數(shù)時,若特征空間維數(shù)很高則d值很大,則核算法的計算量激增甚至有時候不能得到正確的結果;多項式核函數(shù)中有兩個參數(shù),這對參數(shù)的選取帶來一定的麻煩;而Sigmoid核函數(shù)中的兩個參數(shù)β和b只對某些值滿足Mercer條件,因此它的使用也受到一定限制;徑向基核函數(shù)是一個普適的核函數(shù),在合理選擇參數(shù)σ的情況下,徑向基核函數(shù)可用于任意樣本的分布。

      當然,核函數(shù)之間也不是相互獨立的。文獻[10]中證明了線性核函數(shù)和多項式核函數(shù)是徑向基核函數(shù)的特殊形式;Lin等在文獻[11]中論述了在某些參數(shù)情況下,多項式核函數(shù)和徑向基核函數(shù)具有相似性。文獻[12]對徑向基核函數(shù)、多項式核函數(shù)、感知器核函數(shù)進行了特性的分析,通過仿真實驗得出結論:識別的正確率與樣本數(shù)量以及核函數(shù)及其參數(shù)的選擇有很大關系;相對于徑向基函數(shù)和感知機函數(shù),多項式核函數(shù)參數(shù)對樣本規(guī)模的變化更加敏感;當樣本較大時,采用徑向基和感知機的收斂效果和識別效果比多項式核函數(shù)好;徑向基核函數(shù)相對于其它兩種核函數(shù),無論對低維還是高維,大樣本還是小樣本的情況都適用,且有較寬的收斂域。

      endprint

      文獻[13]指出核函數(shù)主要有兩種類型:局部性核函數(shù)和全局性核函數(shù)。局部核函數(shù)僅對測試點附近的小范圍內(nèi)的數(shù)據(jù)有影響;全局核函數(shù)不僅對測試點附近的小范圍數(shù)據(jù)有影響,對遠離測試點的數(shù)據(jù)也有一定影響;結合這兩類核函數(shù)的特點混合起來可構造一個混合核函數(shù),仿真實驗證明,混合核函數(shù)確實比普通的單核有更好的性能。

      對于核函數(shù)不僅可以使用常見的核函數(shù),還可構造滿足Mercer條件的核函數(shù)運用于實際問題的解決。文獻[14]給出了核函數(shù)的基本性質(zhì)以及核函數(shù)的構造方法,并提出把實際問題的知識與核函數(shù)的設計集合起來,這對于提高SVM的性能很重要。文獻[15]介紹了子波核函數(shù)和多尺度核函數(shù),并證明了它們比傳統(tǒng)核函數(shù)更有效。

      對核函數(shù)、核參數(shù)選擇工作概括為2個方面:(1)針對具體問題改進或構造新的核函數(shù),以提高分類器的推廣能力。(2)利用不同的自適應優(yōu)化策略,選擇合適的核函數(shù)并控制參數(shù),提高系統(tǒng)的綜合性能[16]。

      232核參數(shù)選擇研究

      利用不同的自適應優(yōu)化策略,來提高系統(tǒng)的綜合性能是尋找最優(yōu)參數(shù)的最終目標。核參數(shù)的選擇標準可從兩個方面進行考慮:一是仿真實驗的對比結果;二是利用理論分析,需找與期望誤差最近的邊界[9]。

      參數(shù)選擇問題,其實就是一個優(yōu)化問題。目前核參數(shù)選取方法主要有:經(jīng)驗選擇法、實驗試湊法、梯度下降法、交叉驗證法、Bayesian法等。(1)K重交叉驗證(k Fold Cross Validation)

      將訓練數(shù)據(jù)集分成k份相等的子集,每次將其中k-1份數(shù)據(jù)作為訓練數(shù)據(jù),而將另外一份數(shù)據(jù)作為測試數(shù)據(jù)。這樣重復k次,根據(jù)k次迭代后得到的MSE平均值來估計期望泛化誤差,最后選擇一組最優(yōu)的參數(shù)。

      (2)留一法誤差估計(Leave-One-Out,LOO)

      LOO是交叉驗證法的一個特例。LOO的原理是從l個樣本中選擇其中的l-1個樣本進行分類學習,然后用得到的分類器去判斷剩下的一個樣本,將這個過程重復l次后,統(tǒng)計總的錯誤個數(shù)?;诮y(tǒng)計理論中留一法得到的錯誤率估計是分類器真實錯誤率的一個無偏估計[17],由此來判斷此參數(shù)下分類性能如何。對于基于核的SVM算法,由于LOO計算量很大,而在SVM中真正影響分類器的是起著決定作用的支持向量,自然可想到在“留一”的過程中若只留下支持向量,可在很大程度上減少計算量。

      對于核函數(shù)及其參數(shù)的選擇:各種實驗的觀察結果表明,某些問題用某些核函數(shù)效果很好,用另一些就很差。但是一般來講,使用徑向基核函數(shù)不會出太大的分類偏差,當難以選擇核函數(shù)時,徑向基核函數(shù)可作為首選;依據(jù)待解決的實際問題具體分析,結合核函數(shù)的特點選取適合于樣本分布特征的核函數(shù),是可以改善分類器的性能的;核函數(shù)及參數(shù)的選擇可針對具體的算法(如KFDA和KMSE)使參數(shù)的選擇具有相應的明確的意義,這樣可以提高分類器的性能;選擇合適的核函數(shù)和參數(shù),可實現(xiàn)在解決分類問題的前提下大大減少計算量;核函數(shù)和參數(shù)的選擇要綜合考慮模型的泛化能力,不能使選出的函數(shù)和參數(shù)在訓練中有很好的效果,但在實際運用中達不到理想的分類精度;使用混合核函數(shù)或多核學習,能達到更好的分類性能;利用已有的選擇方案用于類似的實際問題中(例如待解決的問題是異常數(shù)據(jù)的檢測問題,可參照單值SVM的核函數(shù)選擇方案);根據(jù)核函數(shù)的性質(zhì),可根據(jù)當前模式識別模型構造一個新的合適的核函數(shù)來解決實際問題。

      24核方法的問題與改進

      241核方法的現(xiàn)狀及存在的問題

      模式識別由一般的線性方法,到一般的非線性方法,再到20世紀90年代出現(xiàn)的基于核函數(shù)的模式識別方法,特別是以SVM算法為研究對象的主流算法,攻克了模式識別領域中遇到的各種問題?;诤说姆椒ㄔ诶碚撋弦呀?jīng)很成熟,但是在具體的實際應用中還有很對問題待解決,這些問題主要表現(xiàn)在:

      (1)新的核方法的提出:在普通的線性算法中,凡是出現(xiàn)向量內(nèi)積的運算形式,便可將其核化。

      (2)核函數(shù)的選擇及其參數(shù)的優(yōu)化:不同的應用問題中,核函數(shù)的選擇及參數(shù)的優(yōu)化對識別效率有著很大的影響,但目前核函數(shù)及參數(shù)的選擇沒有明確的理論指導。

      (3)核算法的正則化:將線性問題轉(zhuǎn)化為非線性問題的這一核化過程中通常會產(chǎn)生不適定問題,正則化技術是處理不適定問題的有效途徑。

      (4)高效算法的實現(xiàn),降低核算法的復雜度:核算法的過程中仍然會遇到大樣本對存儲空間和時間效率的要求,因此對核算法進行改進以獲得對系統(tǒng)資源需要少,效率高的算法是很必要的。

      (5)建立在線動態(tài)模性:在解決模式識別的過程中,有很多系統(tǒng)具有時效性,不同時間的模型特點有所改變,如何進行動態(tài)的識別技術也是難點之一。

      (6)多類分類的實現(xiàn):多數(shù)核方法與SVM一樣,其本質(zhì)為二值模式分類器,如何利用二值分類算法推廣到多值分類實現(xiàn)快速分類,是當前很有實用意義的一個課題。

      (7)核算法與其他模式識別技術相結合:研究核算法的內(nèi)在共性和聯(lián)系,構造多種核算法結合運用的新算法以及將核技術與其他模式識別技術相結合,往往會得到更好的效果。

      242基于核的模式識別方法改進研究

      對核方法的改進主要有兩種思路:一是對已有算法進行優(yōu)化改造,解決核算法中計算量很大的問題或是提高原有方法的分類性能;二是根據(jù)實際運用問題的特點,想辦法構建新模型,保證分類精度和泛化能力。

      (1)對常規(guī)核算法:KMSE,KPCA,KFDA的簡單改進

      首先,對于22節(jié)中提到的算法KMSE,KPCA,KFDA,都有一個較為簡單的共通的改進方法:抽取少于原始樣本的數(shù)量的“節(jié)點”,設這些節(jié)點為x′1,x′2,…,x′r,這些節(jié)點能代替(幾乎)全部訓練樣本(設有l個)中的信息,來表征特征空間中的鑒別向量,即:

      w≈∑ri=1βiΦ(x′i),?r<l(28)

      這樣,在盡量不損失原始樣本信息的情況下,很大程度上降低了計算的復雜度。而且雖然選出的節(jié)點只是訓練樣本的一部分,但所有的訓練樣本和類別標簽都參與了訓練(因為改進后的模型中,方程個數(shù)仍與訓練樣本數(shù)相同)。

      KMSE,KPCA,KFDA在訓練時,選取這些節(jié)點所采用的原則一般不同:KPCA中,認為對于所有的訓練樣本,其中一部分占較大的權重,找出這些比較重要的樣本。具體選取方法為依據(jù)特征方程中特征值的大小來判斷訓練樣本在構造最優(yōu)變換抽中的重要程度,相應的較大的特征向量組成得到的變換抽對原數(shù)據(jù)進行變化時包含的原數(shù)據(jù)的信息最多,于是按降序選取前m個較大的特征值相應的特征向量作為變換抽;核Fisher鑒別分析基于Fisher準則函數(shù)(內(nèi)間距離與內(nèi)類距離的比值最大)取得最大值,等價于求解過程中求解廣義特征方程取得最大值,并取廣義特征方程中前若干個最大的特征值對應的特征向量組成鑒別向量集。此外,在多類分類中,不同類別的樣本進行不同的特征抽取時,特征向量由不同的特征方程產(chǎn)生;至于KMSE還沒有一定的原則標準來選出這些重要的“節(jié)點”。

      (2)普通SVM算法的簡單改進

      現(xiàn)實中的樣本數(shù)據(jù)往往不是理想的,最典型的問題便是出現(xiàn)非線性問題本可以轉(zhuǎn)換為線性問題進行解決,可是由于若干樣本點反常狀態(tài)而影響了整個學習機的效率。為了解決這幾個“頑固的”異常點所引起的問題,引入一個為松弛變量的概念,這種方法叫做“軟間隔”。

      此時,優(yōu)化模型如下:

      min12w2+C∑li=1ξi

      yi(〈w,xi〉+b)1-ξi,?ξi0,?i=1,2,…,l(29)

      endprint

      其中,ξi即為松弛變量,若取松弛變量為ξ2i,則稱作“二階軟間隔”;常數(shù)C為事先為已經(jīng)確定的值,稱作懲罰因子,根據(jù)待解決問題的實際經(jīng)驗對不同的樣本點給予不同的重視,賦予不同的C值。

      此外,懲罰因子還有另外一個很重要的作用,用于解決“數(shù)據(jù)集偏斜”的問題。此時,懲罰因子和松弛變量的形式可改進為:

      C+∑pi=1ζi+C-∑p+qj=p+1ζj(30)

      式中,i=1,…,p都是正類樣本,j=p+1,…,p+q都是負類樣本。對賦予C-較大值即可對負類引起足夠重視,從而在一定程度上解決樣本集偏斜問題。文獻[18]給出了算法的實現(xiàn)過程,且實驗證明了增加了懲罰因子和松弛變量SVM的有效性。

      文獻[9,19-20]等文獻,給出了一種孤立點監(jiān)測(或稱異常點檢測)的改進支持向量機——單值SVM(One-class SVM)方法。其學習機構造的思想為:

      單值SVM基于異常樣本點的檢測只有兩個結果“是”或“不是”的特點,以及基于目標樣本在特征空間的分布具有相似性,而非目標樣本則相對較分散的特點。該方法只建立目標樣本的數(shù)據(jù)分布模型,用正常狀態(tài)的樣本信息作為目標樣本的惟一檢測信息,并找到此類樣本的支撐點描述區(qū)域,對于未知樣本的檢測即看此樣本是否在目標樣本的描述區(qū)域內(nèi),即用用正常狀態(tài)的模型庫來檢測未知樣本是否異常。支持向量的區(qū)域描述(Support Vector Domain Description,SVDD)就是構造一個半徑最小超球,在超球的這個高維空間里只包含目標樣本,拒絕其他樣本進入球內(nèi)。球表面上的樣本點即為支持向量。其模型數(shù)學描述為:

      設訓練樣本集Ω={xi},i=1,2,…,l,xi∈Rn,向高維映射的非線性線性關系為Φ。超球的中心用α表示,球體半徑用R表示。同樣在建立模型時,為每個樣本加以松弛變量ξi0以及懲罰因子C,以消除噪聲對分類結果的影響。ξi定義為:

      ξi=(Φ(xi)-α2-R2)+(31)

      當樣本點落在超球體的內(nèi)部,其值為0;當落在外部,它表示樣本點到球心a的距離的平方超過R2的程度(離超球體的平方距離)。

      超球體滿足如下關系式:

      minR2+C∑li=1ξi

      s.t.Φ(xi)-a2R2+ξi,?ξi0(32)

      根據(jù)對偶理論[21],原始問題求解轉(zhuǎn)化為對偶問題求解:

      maxL(α)=∑iαik(xi,xi)-∑i,jαiαjk(xi,xi)

      s.t.∑iαi=1,?0αiC(33)

      若此二次優(yōu)化問題α的最優(yōu)解為α,則所要求的超球體即可解出來。其中,球心由樣本點的線性組合構成α=∑li=1αiΦ(xi),球半徑R為球面上的支持向量xk到球心α的距離:

      R2=Φ(xk)-α2=k(xk,xk)-2∑iαik(xk,xi)+∑i,jαiαjk(xi,xj)(34)

      對于未知樣本z,其到球心的距離為:

      Φ(z)-a2=k(z,z)-2α∑iαik(z,xi)+∑i,jαiαjk(xi,xj)(35)

      因此可定義判別函數(shù)為:

      fSVDD=sgn(R2-Φ(z)-α2)=sgn(A)=1A0

      0A<0(36)

      若函數(shù)fSVDD輸出0,表明測試樣本落在超球的外部,從而z是異常數(shù)據(jù)。

      單值SVM沒有用到訓練樣本類別的信息,隸屬于無監(jiān)督學習;不同于經(jīng)典的無監(jiān)督學習方法,單值SVM無需求出所有樣本點的密度估計;SVDD方法中不同的核函數(shù)導致對應輸入空間不同的描述邊界,該學習機的分類效果受核函數(shù)及其參數(shù)的影響。

      3大數(shù)據(jù)在線識別處理的多核學習方法

      31大數(shù)據(jù)環(huán)境

      當今世界每天所產(chǎn)生的數(shù)據(jù)浩瀚無比,隨著軟硬件以及信息技術的飛速發(fā)展,信息無論在流量、種類、速度還是活力上都是爆炸式增長。據(jù)估算,現(xiàn)在每兩天全球產(chǎn)生的數(shù)據(jù)就相當于從人類文明起源至2003年間全部數(shù)據(jù)的總和,而新的數(shù)據(jù)還在以每天25EB(約107億GB)的量級高速增長[22]。

      大數(shù)據(jù)(Big data)通常用來形容大量非結構化和半結構化數(shù)據(jù),而目前業(yè)內(nèi)流行的一般數(shù)據(jù)挖掘方法和通用商業(yè)數(shù)據(jù)庫無法滿足大數(shù)據(jù)時代的挑戰(zhàn)。這些海量、高增長率和多樣化的信息資產(chǎn)需要新的處理模式才能挖掘出它無形的價值。

      大數(shù)據(jù)技術的意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。能夠在不同的數(shù)據(jù)類型中進行交叉分析的技術,是大數(shù)據(jù)的核心技術之一。語義分析技術、圖文轉(zhuǎn)換技術、模式識別技術、地理信息技術等等,都在大數(shù)據(jù)分析時獲得應用[23]。

      32網(wǎng)絡實時大數(shù)據(jù)處理需求

      大眾傳媒如此發(fā)達的今天,信息浪潮以小眾、體驗化為特征,以微博、Facebook為代表的網(wǎng)絡信息傳播形態(tài)恰恰把“小眾”們組織起來,借助“社會認同”效應迅速放大他們的影響。這些新興的傳播形態(tài)顛覆了傳統(tǒng)的信息傳播路徑,使傳統(tǒng)的單中心、單向的傳播方式,向多中心、網(wǎng)狀裂變傳播方式轉(zhuǎn)變[24],具有顛覆性的力量。要對網(wǎng)絡信息的傳播進行控制以及對不良信息的傳播進行實時發(fā)現(xiàn)和預警,這對大數(shù)據(jù)環(huán)境下網(wǎng)絡實時數(shù)據(jù)處理提出了更高的要求。

      網(wǎng)絡信息的實時變化,即模式識別中的樣本總是在變動的,固定的一次性訓練不能解決模式識別中問題的不確定性。對于這種現(xiàn)狀,利用隨時間滾動的新增樣本來不斷修正分類器的正確性,稱作增量學習或在線學習。增量學習的特點表現(xiàn)在:不需要保存所有的歷史數(shù)據(jù),減少了內(nèi)存空間;充分利用了歷史數(shù)據(jù)的信息的同時縮短了學習的時間;具有隨系統(tǒng)變化而變化的自學習能力;增量學習的過程中,訓練樣本為滿足新的KKT條件,對參數(shù)進行調(diào)整,這樣非支持向量可能變?yōu)檫吔缰С窒蛄?,邊界支持向量可能變?yōu)榉沁吔缰С窒蛄俊?/p>

      33多核學習解決方案

      核方法是解決非線性模式識別問題的一種數(shù)據(jù)處理技術,但在一些復雜情形下,尤其是在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)表現(xiàn)出量大、多樣、實時的特點,由單個核函數(shù)構成的核機器已不能滿足諸如數(shù)據(jù)異構或不規(guī)則、樣本規(guī)模巨大、樣本分布不均勻等實際的應用需求,因此將多個核函數(shù)進行組合,以獲得更好的結果是一種必然選擇[25]。

      設k1和k2是定義在X×X上的核,XRn,αR+,f(·)是X上的一個實值函數(shù),:Χ→RN,k3是定義在RN×RN上的核,B是一個 的半正定對稱矩陣,則下面的函數(shù)都是核:

      (1)k(x,z)=k1(x,z)+k2(x,z)

      (2)k(x,z)=αk1(x,z)

      (3)k(x,z)=k1(x,z)k2(x,z)

      (4)k(x,z)=f(x)f(z)

      (5)k(x,z)=k3((x),(z))

      (6)k(x,z)=f(x)k1(x,z)f(z)

      (7)k(x,z)=xTBz

      由上面的式子可以看出,用簡單的核可構造出復雜的核。在核算法中使用不同的核比單核更能提高分類性能。如何運用簡單的核構造復雜的核,要根據(jù)實際問題給不同的簡單核施予不同的權重。

      線形多核學習(MKL)就基于此思想[26]:若有數(shù)據(jù)集{(xi,yi),?i=1,2,…,n,?yi∈{1,-1}},設xi對應的核集為{Km}(m=1,…,M),每個核對應一個希爾伯特空間Fm。則經(jīng)過多核的線性組合后,新核為:

      K(xi,xj)=∑Mm=1σmKm(xi,xj)(37)

      式中M是核矩陣的數(shù)目,{σm}Mm=1(σm0)是要學習的凸組合約束的系數(shù)。

      endprint

      文獻[26]的仿真實驗證明了線性多核學習SVM不會差于單核學習的SVM,若考慮不同核間的相互作用,用非線性多核組合(NCMK)的方法來提取不同核間相互作用產(chǎn)生的信息,會得到更好的分類性能。文獻[27]從合成核、多尺度核、無限核3個角度,系統(tǒng)地綜述了多核方法的構造理論,并給出了多核學習的進一步研究方向。多核學習在一定程度上解決了核函數(shù)的選擇和構造問題,提高了分類性能。此外,超核函數(shù)由常見核進行多項式組合而成,具有平移不變性和旋轉(zhuǎn)不變性雙重性質(zhì),能更好地適應不同問題的需要。多核方法為網(wǎng)絡大數(shù)據(jù)的實時處理提供了一個解決方法。

      4總結與展望

      本文對模式識別中最常見的核方法進行了討論,從模式識別的傳統(tǒng)方法到基于核的方法,并詳細介紹了模式識別中核方法應用,特別是基于核函數(shù)的支持向量機算法。正是SVM這種基于嚴格的統(tǒng)計學習理論和數(shù)學分析的算法,使核方法成為機器學習的主流算法,并推動了核方法研究與應用的熱潮。對于核方法的關鍵部分,核函數(shù)與核參數(shù)的選擇問題上本文也通過一定的文獻分析進行了研究和總結?;诤朔椒ǖ哪J阶R別會在解決智能化、復雜化問題上發(fā)揮效用。

      今后核方法的研究主要會在降低核方法計算的復雜度,核參數(shù)的優(yōu)化,以及多核學習3個方面展開。面對當前的大數(shù)據(jù)環(huán)境,多核學習和在線式學習將是研究的發(fā)展方向。如何將核方法中的各種技巧結合起來,合理的運用到具體的問題中,特別是對大數(shù)據(jù)環(huán)境下的網(wǎng)絡信息的分析,網(wǎng)絡信息情報模式識別的應用,如網(wǎng)絡輿情事件的實時分析,這將是筆者進一步研究的課題。

      參考文獻

      [1]代小紅.基于圖像模式識別的數(shù)字圖書資料修復及應用[J].圖書情報工作,2009,53(3):111-114.

      [2]李晉博.特征提取的核方法與非線性多核學習的研究[D].上海:華東師范大學,2009.

      [3]厲小潤.模式識別的核方法研究[D].杭州:浙江大學,2007.

      [4]羅新,王兆禮,路永和.基于蟻群智能算法的文本分類研究[J].圖書情報工作,2011,(2):103-106.

      [5]劉權,郭武.基于核主成分分析的話題跟蹤系統(tǒng)[J].清華大學學報:自然科學版,(6):865-868.

      [6]吳今培.基于核函數(shù)的主成分分析及應用[J].系統(tǒng)工程,2005,23(2):117-120.

      [7]徐勇,張大鵬,楊健.模式識別中的核方法及其應用[M].北京:國防工業(yè)出版社,2010:33-35.

      [8]杜樹新,吳鐵軍.模式識別中的支持向量機方法[J].浙江大學學報:工學版,2003,37(5):521-527.

      [9]杜京義,候媛彬.基于核方法的故障診斷理論及方法的研究[M].北京:北京大學出版社,2010:55-110.

      [10]Keerthi SS.,Chin-Jen Lin.Asymptotic Behavior of Support Vector Machine with Gaussian Kernel[J].Neural Computation,2003,15(7):1167-1689.

      [11]Hsuan-Tien Lin,Chih-Jen Lin.A Study on Sigmoid Kernel for SVM and the Training of non-PSD Kernels by SMO-type Methods[EB/OL].http:∥www.csie.ntu.edu.tw/-cjlin/libsvm.

      [12]張家凡,黃之初,王小明.基于支持向量異常檢測算法的新故障檢測[J].武漢理工大學學報,2006,28(12):109-112.

      [13]鄧乃楊,田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機[M].北京:科學出版社,2004:34-38.

      [14]王國勝.核函數(shù)的性質(zhì)及其構造方法[J].計算機科學,2006,33(6):172-174,178.

      [15]周林峰,丁永生.基于遺傳算法的Mercer核聚類方法[J].模式識別與人工智能,2006,19(3):307-311.

      [16]白如江,王效岳.一種混合文本分類方法研究[J].圖書情報工作,2009,53(14):115-117.

      [17]Vapnik VN..Statistical Learning Theory[M].New York:John Wiley & Sons Inc,1988:10-40.

      [18]趙曉翠,王來生.基于投影尋蹤和支持向量機的模式識別方法[J].計算機應用研究,2007,24(2):86-88.

      [19]王自強,段愛玲,張德賢.基于支持向量數(shù)據(jù)描述的高效異常數(shù)據(jù)檢測算法[J].吉林大學學報:工學版,2009,39(2):499-503.

      [20]李盼池,許少華.支持向量機在模式識別中的核函數(shù)特性分析[J].計算機工程與設計,2005,26(2):302-304.

      [21]黃嘯.支持向量機核函數(shù)的研究[D].蘇州:蘇州大學,2008.

      [22]李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012,27(6):647-657.

      [23]孟小峰,慈祥.大數(shù)據(jù)管理:概念,技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.

      [24]吳金紅,張飛,鞠秀芳.大數(shù)據(jù):企業(yè)競爭情報的機遇,挑戰(zhàn)及對策研究[J].情報雜志,2013,32(1):5-9.

      [25]汪洪橋,孫富春,蔡艷寧,等.多核學習方法[J].自動化學報,2010,36(8):1037-1050.

      [26]李晉博.特征提取的核方法與非線性多核學習的研究[D].上海:華東師范大學,2009.

      [27]賈磊,廖士中.超核函數(shù)支持向量機[J].計算機科學,2008,35(12):148-155,166.

      (本文責任編輯:孫國雷)

      endprint

      文獻[26]的仿真實驗證明了線性多核學習SVM不會差于單核學習的SVM,若考慮不同核間的相互作用,用非線性多核組合(NCMK)的方法來提取不同核間相互作用產(chǎn)生的信息,會得到更好的分類性能。文獻[27]從合成核、多尺度核、無限核3個角度,系統(tǒng)地綜述了多核方法的構造理論,并給出了多核學習的進一步研究方向。多核學習在一定程度上解決了核函數(shù)的選擇和構造問題,提高了分類性能。此外,超核函數(shù)由常見核進行多項式組合而成,具有平移不變性和旋轉(zhuǎn)不變性雙重性質(zhì),能更好地適應不同問題的需要。多核方法為網(wǎng)絡大數(shù)據(jù)的實時處理提供了一個解決方法。

      4總結與展望

      本文對模式識別中最常見的核方法進行了討論,從模式識別的傳統(tǒng)方法到基于核的方法,并詳細介紹了模式識別中核方法應用,特別是基于核函數(shù)的支持向量機算法。正是SVM這種基于嚴格的統(tǒng)計學習理論和數(shù)學分析的算法,使核方法成為機器學習的主流算法,并推動了核方法研究與應用的熱潮。對于核方法的關鍵部分,核函數(shù)與核參數(shù)的選擇問題上本文也通過一定的文獻分析進行了研究和總結。基于核方法的模式識別會在解決智能化、復雜化問題上發(fā)揮效用。

      今后核方法的研究主要會在降低核方法計算的復雜度,核參數(shù)的優(yōu)化,以及多核學習3個方面展開。面對當前的大數(shù)據(jù)環(huán)境,多核學習和在線式學習將是研究的發(fā)展方向。如何將核方法中的各種技巧結合起來,合理的運用到具體的問題中,特別是對大數(shù)據(jù)環(huán)境下的網(wǎng)絡信息的分析,網(wǎng)絡信息情報模式識別的應用,如網(wǎng)絡輿情事件的實時分析,這將是筆者進一步研究的課題。

      參考文獻

      [1]代小紅.基于圖像模式識別的數(shù)字圖書資料修復及應用[J].圖書情報工作,2009,53(3):111-114.

      [2]李晉博.特征提取的核方法與非線性多核學習的研究[D].上海:華東師范大學,2009.

      [3]厲小潤.模式識別的核方法研究[D].杭州:浙江大學,2007.

      [4]羅新,王兆禮,路永和.基于蟻群智能算法的文本分類研究[J].圖書情報工作,2011,(2):103-106.

      [5]劉權,郭武.基于核主成分分析的話題跟蹤系統(tǒng)[J].清華大學學報:自然科學版,(6):865-868.

      [6]吳今培.基于核函數(shù)的主成分分析及應用[J].系統(tǒng)工程,2005,23(2):117-120.

      [7]徐勇,張大鵬,楊健.模式識別中的核方法及其應用[M].北京:國防工業(yè)出版社,2010:33-35.

      [8]杜樹新,吳鐵軍.模式識別中的支持向量機方法[J].浙江大學學報:工學版,2003,37(5):521-527.

      [9]杜京義,候媛彬.基于核方法的故障診斷理論及方法的研究[M].北京:北京大學出版社,2010:55-110.

      [10]Keerthi SS.,Chin-Jen Lin.Asymptotic Behavior of Support Vector Machine with Gaussian Kernel[J].Neural Computation,2003,15(7):1167-1689.

      [11]Hsuan-Tien Lin,Chih-Jen Lin.A Study on Sigmoid Kernel for SVM and the Training of non-PSD Kernels by SMO-type Methods[EB/OL].http:∥www.csie.ntu.edu.tw/-cjlin/libsvm.

      [12]張家凡,黃之初,王小明.基于支持向量異常檢測算法的新故障檢測[J].武漢理工大學學報,2006,28(12):109-112.

      [13]鄧乃楊,田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機[M].北京:科學出版社,2004:34-38.

      [14]王國勝.核函數(shù)的性質(zhì)及其構造方法[J].計算機科學,2006,33(6):172-174,178.

      [15]周林峰,丁永生.基于遺傳算法的Mercer核聚類方法[J].模式識別與人工智能,2006,19(3):307-311.

      [16]白如江,王效岳.一種混合文本分類方法研究[J].圖書情報工作,2009,53(14):115-117.

      [17]Vapnik VN..Statistical Learning Theory[M].New York:John Wiley & Sons Inc,1988:10-40.

      [18]趙曉翠,王來生.基于投影尋蹤和支持向量機的模式識別方法[J].計算機應用研究,2007,24(2):86-88.

      [19]王自強,段愛玲,張德賢.基于支持向量數(shù)據(jù)描述的高效異常數(shù)據(jù)檢測算法[J].吉林大學學報:工學版,2009,39(2):499-503.

      [20]李盼池,許少華.支持向量機在模式識別中的核函數(shù)特性分析[J].計算機工程與設計,2005,26(2):302-304.

      [21]黃嘯.支持向量機核函數(shù)的研究[D].蘇州:蘇州大學,2008.

      [22]李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012,27(6):647-657.

      [23]孟小峰,慈祥.大數(shù)據(jù)管理:概念,技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.

      [24]吳金紅,張飛,鞠秀芳.大數(shù)據(jù):企業(yè)競爭情報的機遇,挑戰(zhàn)及對策研究[J].情報雜志,2013,32(1):5-9.

      [25]汪洪橋,孫富春,蔡艷寧,等.多核學習方法[J].自動化學報,2010,36(8):1037-1050.

      [26]李晉博.特征提取的核方法與非線性多核學習的研究[D].上海:華東師范大學,2009.

      [27]賈磊,廖士中.超核函數(shù)支持向量機[J].計算機科學,2008,35(12):148-155,166.

      (本文責任編輯:孫國雷)

      endprint

      文獻[26]的仿真實驗證明了線性多核學習SVM不會差于單核學習的SVM,若考慮不同核間的相互作用,用非線性多核組合(NCMK)的方法來提取不同核間相互作用產(chǎn)生的信息,會得到更好的分類性能。文獻[27]從合成核、多尺度核、無限核3個角度,系統(tǒng)地綜述了多核方法的構造理論,并給出了多核學習的進一步研究方向。多核學習在一定程度上解決了核函數(shù)的選擇和構造問題,提高了分類性能。此外,超核函數(shù)由常見核進行多項式組合而成,具有平移不變性和旋轉(zhuǎn)不變性雙重性質(zhì),能更好地適應不同問題的需要。多核方法為網(wǎng)絡大數(shù)據(jù)的實時處理提供了一個解決方法。

      4總結與展望

      本文對模式識別中最常見的核方法進行了討論,從模式識別的傳統(tǒng)方法到基于核的方法,并詳細介紹了模式識別中核方法應用,特別是基于核函數(shù)的支持向量機算法。正是SVM這種基于嚴格的統(tǒng)計學習理論和數(shù)學分析的算法,使核方法成為機器學習的主流算法,并推動了核方法研究與應用的熱潮。對于核方法的關鍵部分,核函數(shù)與核參數(shù)的選擇問題上本文也通過一定的文獻分析進行了研究和總結?;诤朔椒ǖ哪J阶R別會在解決智能化、復雜化問題上發(fā)揮效用。

      今后核方法的研究主要會在降低核方法計算的復雜度,核參數(shù)的優(yōu)化,以及多核學習3個方面展開。面對當前的大數(shù)據(jù)環(huán)境,多核學習和在線式學習將是研究的發(fā)展方向。如何將核方法中的各種技巧結合起來,合理的運用到具體的問題中,特別是對大數(shù)據(jù)環(huán)境下的網(wǎng)絡信息的分析,網(wǎng)絡信息情報模式識別的應用,如網(wǎng)絡輿情事件的實時分析,這將是筆者進一步研究的課題。

      參考文獻

      [1]代小紅.基于圖像模式識別的數(shù)字圖書資料修復及應用[J].圖書情報工作,2009,53(3):111-114.

      [2]李晉博.特征提取的核方法與非線性多核學習的研究[D].上海:華東師范大學,2009.

      [3]厲小潤.模式識別的核方法研究[D].杭州:浙江大學,2007.

      [4]羅新,王兆禮,路永和.基于蟻群智能算法的文本分類研究[J].圖書情報工作,2011,(2):103-106.

      [5]劉權,郭武.基于核主成分分析的話題跟蹤系統(tǒng)[J].清華大學學報:自然科學版,(6):865-868.

      [6]吳今培.基于核函數(shù)的主成分分析及應用[J].系統(tǒng)工程,2005,23(2):117-120.

      [7]徐勇,張大鵬,楊健.模式識別中的核方法及其應用[M].北京:國防工業(yè)出版社,2010:33-35.

      [8]杜樹新,吳鐵軍.模式識別中的支持向量機方法[J].浙江大學學報:工學版,2003,37(5):521-527.

      [9]杜京義,候媛彬.基于核方法的故障診斷理論及方法的研究[M].北京:北京大學出版社,2010:55-110.

      [10]Keerthi SS.,Chin-Jen Lin.Asymptotic Behavior of Support Vector Machine with Gaussian Kernel[J].Neural Computation,2003,15(7):1167-1689.

      [11]Hsuan-Tien Lin,Chih-Jen Lin.A Study on Sigmoid Kernel for SVM and the Training of non-PSD Kernels by SMO-type Methods[EB/OL].http:∥www.csie.ntu.edu.tw/-cjlin/libsvm.

      [12]張家凡,黃之初,王小明.基于支持向量異常檢測算法的新故障檢測[J].武漢理工大學學報,2006,28(12):109-112.

      [13]鄧乃楊,田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機[M].北京:科學出版社,2004:34-38.

      [14]王國勝.核函數(shù)的性質(zhì)及其構造方法[J].計算機科學,2006,33(6):172-174,178.

      [15]周林峰,丁永生.基于遺傳算法的Mercer核聚類方法[J].模式識別與人工智能,2006,19(3):307-311.

      [16]白如江,王效岳.一種混合文本分類方法研究[J].圖書情報工作,2009,53(14):115-117.

      [17]Vapnik VN..Statistical Learning Theory[M].New York:John Wiley & Sons Inc,1988:10-40.

      [18]趙曉翠,王來生.基于投影尋蹤和支持向量機的模式識別方法[J].計算機應用研究,2007,24(2):86-88.

      [19]王自強,段愛玲,張德賢.基于支持向量數(shù)據(jù)描述的高效異常數(shù)據(jù)檢測算法[J].吉林大學學報:工學版,2009,39(2):499-503.

      [20]李盼池,許少華.支持向量機在模式識別中的核函數(shù)特性分析[J].計算機工程與設計,2005,26(2):302-304.

      [21]黃嘯.支持向量機核函數(shù)的研究[D].蘇州:蘇州大學,2008.

      [22]李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012,27(6):647-657.

      [23]孟小峰,慈祥.大數(shù)據(jù)管理:概念,技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.

      [24]吳金紅,張飛,鞠秀芳.大數(shù)據(jù):企業(yè)競爭情報的機遇,挑戰(zhàn)及對策研究[J].情報雜志,2013,32(1):5-9.

      [25]汪洪橋,孫富春,蔡艷寧,等.多核學習方法[J].自動化學報,2010,36(8):1037-1050.

      [26]李晉博.特征提取的核方法與非線性多核學習的研究[D].上海:華東師范大學,2009.

      [27]賈磊,廖士中.超核函數(shù)支持向量機[J].計算機科學,2008,35(12):148-155,166.

      (本文責任編輯:孫國雷)

      endprint

      猜你喜歡
      支持向量機模式識別
      紫地榆HPLC指紋圖譜建立及模式識別
      淺談模式識別在圖像識別中的應用
      第四屆亞洲模式識別會議
      基于改進支持向量機的船舶縱搖預報模型
      基于支持向量機的金融數(shù)據(jù)分析研究
      可拓模式識別算法中經(jīng)典域的確定方法
      第3屆亞洲模式識別會議
      電氣設備的故障診斷與模式識別
      江西省| 尚义县| 泸州市| 乌鲁木齐县| 洛宁县| 漳平市| 庆城县| 钦州市| 鄂伦春自治旗| 仁化县| 江陵县| 泰来县| 尼玛县| 台前县| 安岳县| 手机| 绥宁县| 蓬溪县| 固镇县| 呼伦贝尔市| 杭州市| 乐安县| 常山县| 镇江市| 汪清县| 西贡区| 佛教| 桓台县| 右玉县| 临泉县| 城市| 光山县| 扎兰屯市| 大兴区| 荃湾区| 兴海县| 军事| 富顺县| 凤冈县| 巴马| 澄迈县|