• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于支持向量機的實踐及應(yīng)用

      2021-01-06 08:47:15雷湘琦
      家園·電力與科技 2021年9期
      關(guān)鍵詞:超平面內(nèi)核線性

      雷湘琦

      摘要:本文使用的支持向量機以訓(xùn)練誤差作為優(yōu)化問題的約束條件,以置信范圍值最小化作為優(yōu)化目標(biāo),即SVM是一種基于結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則的學(xué)習(xí)方法,其推廣能力優(yōu)于其他的一些機器學(xué)習(xí)方法?,F(xiàn)今運用的都是一些比較經(jīng)典的算法,如傳統(tǒng)的決策樹算法等,同時這些算法也是學(xué)習(xí)數(shù)據(jù)挖掘算法的根基。文中主要列舉相關(guān)算法并應(yīng)用相應(yīng)的實例加以佐證,指出其中的不足和需要改進的地方。

      關(guān)鍵詞:支持向量機;鳶尾花數(shù)據(jù)

      引言

      支持向量機(Support Vector Machine,SVM)SVM被提出于1964年,在二十世紀(jì)90年代后得到快速發(fā)展并衍生出一系列改進和擴展算法,在人像識別、文本分類等模式識別問題中有得到應(yīng)用。它是一類按監(jiān)督學(xué)習(xí)方式對數(shù)據(jù)進行二元分類的廣義線性分類器,其決策邊界是對學(xué)習(xí)樣本求解的最大邊距超平面。SVM使用鉸鏈損失函數(shù)計算經(jīng)驗風(fēng)險并在求解系統(tǒng)中加入了正則化項以優(yōu)化結(jié)構(gòu)風(fēng)險,是一個具有稀疏性和穩(wěn)健性的分類器。SVM可以通過核方法進行非線性分類,是常見的核學(xué)習(xí)方法之一。

      1 基本原理

      標(biāo)準(zhǔn)SVM是基于二元分類問題設(shè)計的算法,無法直接處理多分類問題。利用標(biāo)準(zhǔn)SVM的計算流程有序地構(gòu)建多個決策邊界以實現(xiàn)樣本的多分類,通常的實現(xiàn)為“一對多”和“一對一”。一對多SVM對m個分類建立m個決策邊界,每個決策邊界判定一個分類對其余所有分類的歸屬;一對一SVM是一種投票法,其計算流程是對m個分類中的任意2個建立決策邊界,樣本的類別按其對所有決策邊界的判別結(jié)果中得分最高的類別選取。一對多SVM通過對標(biāo)準(zhǔn)SVM的優(yōu)化問題進行修改可以實現(xiàn)一次迭代計算所有決策邊界

      傳統(tǒng)的統(tǒng)計模式識別方式只有在樣本趨向無窮大的時候,其性能才有理論的保證。統(tǒng)計學(xué)習(xí)理論研究有限樣本情況下的機器學(xué)習(xí)問題。SVM的理論基礎(chǔ)就是統(tǒng)計學(xué)習(xí)理論。

      根據(jù)統(tǒng)計學(xué)習(xí)理論,學(xué)習(xí)機器的實際風(fēng)險由經(jīng)驗風(fēng)險值和置信范圍值兩部分組成。而基于經(jīng)驗風(fēng)險最小化準(zhǔn)則的學(xué)習(xí)方法只強調(diào)了訓(xùn)練樣本的經(jīng)驗風(fēng)險最小誤差,沒有最小化置信范圍值,因此其推廣能力較差。

      1.1 尋找最佳超平面

      SVM的主要目標(biāo)是找到最佳超平面,以便在不同類的數(shù)據(jù)點之間進行正確分類。超平面維度等于輸入特征的數(shù)量減去1(例如,當(dāng)使用三個特征時,超平面將是二維平面)。

      為了分離兩類數(shù)據(jù)點,可以選擇許多可能的超平面。我們的目標(biāo)是找到一個具有最大邊距的平面,即兩個類的數(shù)據(jù)點之間的最大距離。最大化邊距的目的是最大概率的對未知的數(shù)據(jù)點進行正確分類。

      1.2超平面和支持向量

      超平面是決策邊界,有助于對數(shù)據(jù)點進行分類。落在超平面兩側(cè)的數(shù)據(jù)點可歸因于不同的類。此外,超平面的尺寸取決于特征的數(shù)量。如果輸入要素的數(shù)量是2,則超平面只是一條線。如果輸入要素的數(shù)量是3,則超平面變?yōu)槎S平面。當(dāng)特征數(shù)量超過3時,就超出我們的想象了。

      最接近超平面的數(shù)據(jù)點稱為支持向量。支持向量確定超平面的方向和位置,以便最大化分類器邊界(以及分類分?jǐn)?shù))。SVM算法應(yīng)該使用的支持向量的數(shù)量可以根據(jù)應(yīng)用任意選擇。

      1.3 SVM內(nèi)核

      如果我們使用的數(shù)據(jù)不是線性可分的(因此導(dǎo)致線性SVM分類結(jié)果不佳),則可以應(yīng)用稱為Kernel Trick的技術(shù)。此方法能夠?qū)⒎蔷€性可分離數(shù)據(jù)映射到更高維空間,使我們的數(shù)據(jù)可線性分離。使用這個新的維度空間SVM可以很容易地實現(xiàn)。

      SVM中有許多不同類型的內(nèi)核可用于創(chuàng)建這種更高維度的空間,例如線性,多項式,Sigmoid和徑向基函數(shù)(RBF)。在Scikit-Learn中,可以通過添加內(nèi)核參數(shù)來指定內(nèi)核函數(shù)svm.SVC,也可以通過gamma參數(shù)來指定內(nèi)核對模型的影響。如果特征數(shù)量大于數(shù)據(jù)集中的樣本數(shù)量,則建議使用線性內(nèi)核(否則RBF可能是更好的選擇)。

      1.4 特征選擇

      減少機器學(xué)習(xí)中的功能數(shù)量起著非常重要的作用,尤其是在處理大型數(shù)據(jù)集時。實際上,這可以:加速訓(xùn)練,避免過度擬合,并最終通過降低數(shù)據(jù)噪音來獲得更好的分類結(jié)果。例如下圖中顯示了在Pima Indians糖尿病數(shù)據(jù)庫中使用SVM識別的主要特征。在綠色中顯示對應(yīng)于負(fù)系數(shù)的所有特征,而藍色顯示為正系數(shù)。

      1.5 支持向量機的算法

      比較經(jīng)典的如1)Vapnik提出的Chunking方法;其出發(fā)點是刪除矩陣中對應(yīng)Lagrange乘數(shù)為零的行和列將不會影響最終結(jié)果,然而,在訓(xùn)練集的支持向量數(shù)很大的時候,Chunking算法仍然無法將矩陣放入內(nèi)存中;2)Qsuna提出的Qsuna算法;該算法存在效率問題,因為在每一步中,進行一次QP問題的最優(yōu)化只能使一個樣本符合Kuhn-Tucker條件;3)Plat提出的序貫最小優(yōu)化方法(sequential minimal optimization,簡稱SMO);將一個大型的QP問題分解為一系列最小規(guī)模的QP子問題,即僅具有兩個Lagrange乘數(shù)的QP問題,從而使得原問題可以通過分析的方法加以解決,避免了在內(nèi)循環(huán)中使用數(shù)值算法進行QP最優(yōu)化。該算法在訓(xùn)練線性SVM時,可以獲得非常好的性能。

      2 數(shù)據(jù)選擇

      Iris 鳶尾花數(shù)據(jù)集是一個經(jīng)典數(shù)據(jù)集。數(shù)據(jù)集內(nèi)包含 3 類共 150 條記錄,每類各 50 個數(shù)據(jù),每條記錄都有 4 項特征:花萼長度、花萼寬度、花瓣長度、花瓣寬度,可以通過這4個特征預(yù)測鳶尾花卉屬于中的哪一品種。

      3利用Support_Vector_Machines對Iris data進行分類

      利用SVM對Iris data進行二分類后的到結(jié)果:

      SVM是一種有堅實理論基礎(chǔ)的新穎的適用小樣本學(xué)習(xí)方法。它基本上不涉及概率測度及大數(shù)定律等,也簡化了通常的分類和回歸等問題。計算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。因此可以利用已知的有效算法發(fā)現(xiàn)目標(biāo)函數(shù)的全局最小值,有優(yōu)秀的泛化能力。

      參考文獻:

      [1]程一芳.數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述[J].數(shù)字通信世界,2021(02):136-137+140.

      [2]韓成成,增思濤,林強,曹永春,滿正行.基于決策樹的流數(shù)據(jù)分類算法綜述[J].西北民族大學(xué)學(xué)報(自然科學(xué)版),2020,41(02):20-30.

      [3]李建新. 基于小波支持向量機的邊坡變形預(yù)測研究[D].江西理工大學(xué),2020.

      [4]姚奇峰,楊連賀.數(shù)據(jù)挖掘經(jīng)典分類聚類算法的研究綜述[J].現(xiàn)代信息科技,2019,3(24):86-88.

      [5]李璐. 基于機器學(xué)習(xí)的滑坡地質(zhì)災(zāi)害預(yù)報模型研究[D].西安工程大學(xué),2019.

      [6]郭天頌. 基于粒子群優(yōu)化支持向量機的滑坡易發(fā)性評價與滑坡位移預(yù)測[D].長安大學(xué),2019.

      猜你喜歡
      超平面內(nèi)核線性
      萬物皆可IP的時代,我們當(dāng)夯實的IP內(nèi)核是什么?
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      全純曲線的例外超平面
      強化『高新』內(nèi)核 打造農(nóng)業(yè)『硅谷』
      涉及分擔(dān)超平面的正規(guī)定則
      線性回歸方程的求解與應(yīng)用
      以較低截斷重數(shù)分擔(dān)超平面的亞純映射的唯一性問題
      基于嵌入式Linux內(nèi)核的自恢復(fù)設(shè)計
      Linux內(nèi)核mmap保護機制研究
      二階線性微分方程的解法
      桃源县| 荥经县| 岳阳市| 九龙坡区| 襄汾县| 乌兰察布市| 庆城县| 凌海市| 武冈市| 板桥市| 屯留县| 奉化市| 滨海县| 宣城市| 曲周县| 丹寨县| 竹北市| 韩城市| 定兴县| 塘沽区| 三江| 侯马市| 札达县| 峨眉山市| 巍山| 东平县| 邢台市| 宁夏| 盖州市| 武陟县| 沙田区| 德安县| 阳泉市| 榆中县| 宣化县| 合阳县| 营山县| 霸州市| 阜宁县| 延边| 昌宁县|