• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于灰狼算法與套索算法的支持向量機(jī)模型在高維數(shù)據(jù)診斷中的應(yīng)用

      2021-03-28 23:13:14楊智翔李茂媛
      河南科技 2021年29期
      關(guān)鍵詞:參數(shù)優(yōu)化支持向量機(jī)

      楊智翔 李茂媛

      摘 要:針對(duì)傳統(tǒng)支持向量機(jī)模型對(duì)高維數(shù)據(jù)分類準(zhǔn)確率低、計(jì)算量大的問題,本研究設(shè)計(jì)并實(shí)現(xiàn)了灰狼算法(GWO)與套索算法(LASSO)相結(jié)合的支持向量機(jī)模型,即GSL算法,并將其應(yīng)用到高維數(shù)據(jù)診斷中。結(jié)果表明,利用GSL算法進(jìn)行高維數(shù)據(jù)進(jìn)行分類具有更高的準(zhǔn)確率、更小的誤差,能選擇出性能更優(yōu)的參數(shù)。

      關(guān)鍵詞:灰狼尋優(yōu)算法;支持向量機(jī);參數(shù)優(yōu)化

      中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2021)29-0019-04

      Application of Support Vector Machine Model Based on Gray

      Wolf Algorithm and LASSO Algorithm in High-Dimensional Data Diagnosis

      YANG Zhixiang LI Maoyuan

      (School of Electronic & Information Engineering, Chongqing Three Gorges University,Chongqing 404020)

      Abstract: Aiming at the problems of low accuracy and large amount of calculation of traditional support vector machine model for high-dimensional data classification, this study designs and implements a support vector machine model based on the combination of Gray Wolf algorithm (GWO) and lasso algorithm (LASSO), that is, GSL algorithm, and applies it to high-dimensional data diagnosis. The results show that the proposed GSL algorithm has higher accuracy, less error and can select better parameters for high-dimensional data classification.

      Keywords: support vector machines;grey wolf optimize;parameter optimization

      圖像識(shí)別、自然語言處理等機(jī)器學(xué)習(xí)方法不斷發(fā)展,對(duì)目前存在的特征降維算法及機(jī)器學(xué)習(xí)模型分類模型算法構(gòu)成了嚴(yán)峻的挑戰(zhàn)。目前,高維算法存在計(jì)算量大、信息冗余等問題。因此,迫切需要在處理高維數(shù)據(jù)集的同時(shí)擁有高效率及高準(zhǔn)確率的算法模型。

      高維數(shù)據(jù)集類型復(fù)雜,所以試驗(yàn)人員在對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理(如人工標(biāo)記、篩選等)和對(duì)高維數(shù)據(jù)進(jìn)行標(biāo)記及篩選時(shí),往往需要花費(fèi)大量的時(shí)間及精力。在分類問題中,經(jīng)常會(huì)出現(xiàn)特征向量的維度高于可獲得的訓(xùn)練樣本的現(xiàn)象。在多數(shù)情況下,只有一部分特征對(duì)分類是有意義的,其余數(shù)據(jù)集拿來訓(xùn)練反而會(huì)影響模型的分類訓(xùn)練效果,因此在使用分類器對(duì)高維數(shù)據(jù)進(jìn)行分類前,往往需要先對(duì)數(shù)據(jù)集進(jìn)行降維,然后使用分類器進(jìn)行分類。除了分類問題外,其他模型也需要對(duì)高維數(shù)據(jù)進(jìn)行降維,然后進(jìn)一步進(jìn)行數(shù)據(jù)分析處理。常見的特征降維方法包括變量重組和特征提取。

      目前,關(guān)于特征降維的研究較多。TANG T基于聚類方法來選擇滾動(dòng)軸故障診斷原始特征集的重要子集[1]。董玉璽等人將皮爾遜相關(guān)系數(shù)和有向圖符號(hào)相結(jié)合,以提取特征子集[2]。在高維數(shù)據(jù)降維方面,往往采用特征提取的方法。目前,特征提取比較常用的方法有主成分分析法(Principal Component Analysis,PCA)、局部線性嵌入算法(Locally Linear Embedding,LLE)。這些算法需要人為指定篩選后的特征數(shù)量,缺陷是用戶需要對(duì)數(shù)據(jù)集特征有一定的先驗(yàn)知識(shí),以對(duì)數(shù)據(jù)特征進(jìn)行比較。筆者使用套索算法(Least Absolute Shrinkage and Selection Operator,LASSO)算法來對(duì)高維數(shù)據(jù)進(jìn)行降維,該算法的優(yōu)點(diǎn)是能更好地找出數(shù)據(jù)集中重要的特征。將經(jīng)特征提取后的數(shù)據(jù)用于機(jī)器學(xué)習(xí)模型的訓(xùn)練通常能取得更好的效果。目前,在機(jī)器學(xué)習(xí)的應(yīng)用中,幾乎所有模型都需要對(duì)參數(shù)進(jìn)行優(yōu)化,以提高模型的準(zhǔn)確率。參數(shù)優(yōu)化比較常見的方法有粒子群算法(Particle Swarm Optimization,PSO)[3]、遺傳算法(Genetic Algorithm,GA)[4]、人工蜂群算法(Artificial Bee Colony,ABC)[5]。粒子群算法(PSO)對(duì)目標(biāo)函數(shù)僅能提供極少搜索最優(yōu)值的信息,在其他算法無法辨別搜索方向的情況下,粒子群算法(PSO)的粒子具有飛越性的特點(diǎn),使其能跨過搜索平面上信息嚴(yán)重不足的障礙,飛抵全局最優(yōu)目標(biāo)值,但有時(shí)粒子群在俯沖過程中會(huì)錯(cuò)失全局最優(yōu)解。粒子飛翔過程中的俯沖動(dòng)作使搜索行為不夠精細(xì),不容易發(fā)現(xiàn)全局最優(yōu)目標(biāo)值,所以對(duì)粒子的最大飛翔速度進(jìn)行限制既是為了使粒子不要沖出搜索區(qū)域的邊界,也是為了使搜索行為不至于太粗糙。最重要的是,粒子群算法(PSO)是一種概率算法,算法理論不完善,缺乏獨(dú)特性,理論成果偏少。使用遺傳算法(GA)優(yōu)化參數(shù),其優(yōu)化結(jié)果與初始條件無關(guān),算法獨(dú)立于求解域,具有較強(qiáng)的魯棒性;但是,存在收斂速度慢、局部搜索能力差、需要控制的變量多、無確定的終止準(zhǔn)則等問題。人工蜂群算法(ABC)同樣具有陷入局部最優(yōu)解的情況。

      使用灰狼算法(Grey Wolf Optimizer,GWO)對(duì)參數(shù)進(jìn)行優(yōu)化,該算法具有步驟簡(jiǎn)單、需要調(diào)整的參數(shù)少、收斂速度快、能跳出局部最優(yōu)解的優(yōu)點(diǎn)。綜上,筆者提出了基于灰狼優(yōu)化算法的優(yōu)化LASSO與支持向量機(jī)參數(shù)的學(xué)習(xí)框架。該框架結(jié)合了GWO參數(shù)優(yōu)化算法與LASSO特征選擇模型和支持向量機(jī)(Support Vector Machin,SVM)分類器(GWO-SVM Based on LASSO, GSL)。為了驗(yàn)證所提出的學(xué)習(xí)框架用于高維數(shù)據(jù)的準(zhǔn)確性與高效性,采用電子病歷數(shù)據(jù)集進(jìn)行測(cè)試,并與一些相關(guān)方法進(jìn)行對(duì)比。結(jié)果表明,GSL方法能夠有效地提高準(zhǔn)確率,降低計(jì)算量。

      1 理論框架

      支持向量機(jī)是一種二分類算法模型,其核心思想是構(gòu)建一個(gè)最大間隔面,將數(shù)據(jù)劃分到最大間隔面的兩端,從而達(dá)到分類的目的。在使用支持向量機(jī)進(jìn)行分類的過程中,需要人為調(diào)節(jié)參數(shù)大小。在特征維度較復(fù)雜的數(shù)據(jù)集上,支持向量機(jī)分類模型需要選用高斯核函數(shù)對(duì)數(shù)據(jù)集進(jìn)行升維處理,因此在使用支持向量機(jī)進(jìn)行分類的過程中,有必要對(duì)高維數(shù)據(jù)進(jìn)行降維處理。支持向量機(jī)參數(shù)的選擇決定了分類效果,所以要對(duì)支持向量機(jī)的參數(shù)進(jìn)行優(yōu)化。

      為了獲得高準(zhǔn)確率與效率的分類模型,基于LASSO特征選擇模型及SVM分類模型,并用GWO算法優(yōu)化相關(guān)參數(shù),提出了GSL的高維數(shù)據(jù)分類框架。使用該學(xué)習(xí)框架進(jìn)行高維數(shù)據(jù)分類主要包括以下步驟:①將得到的試驗(yàn)數(shù)據(jù)進(jìn)行適當(dāng)預(yù)處理,最終得到含有440條并且維度為46的特征矩陣;②將經(jīng)過預(yù)處理的試驗(yàn)數(shù)據(jù)投入訓(xùn)練模型中,并且使用GWO算法得到相關(guān)的最優(yōu)參數(shù);③將第二個(gè)步驟得到的參數(shù)作為模型參數(shù);④將試驗(yàn)數(shù)據(jù)輸入支持向量機(jī)分類器進(jìn)行訓(xùn)練分類。

      2 基于灰狼優(yōu)化套索向量機(jī)的高維數(shù)據(jù)分類模型

      2.1 模型參數(shù)

      在高維數(shù)據(jù)分類領(lǐng)域,相關(guān)研究采用決策樹來作為分類器,其核心思想是通過遍歷整個(gè)決策樹,使測(cè)試集數(shù)據(jù)找到?jīng)Q策樹中葉子節(jié)點(diǎn)對(duì)應(yīng)的類別標(biāo)簽。而較多研究使用支持向量機(jī)作為分類器,并且試驗(yàn)結(jié)果優(yōu)于決策樹,所以筆者采用支持向量機(jī)作為分類器。

      式中:a為求解參數(shù)有關(guān)的拉格朗日乘子;?(x,x)為核函數(shù),選擇合適的核函數(shù)可以提高模型的分類效果。其中,高斯核可以解決線性與非線性兩類問題,因?yàn)楦呔S數(shù)據(jù)類型之間存在一定的隨機(jī)性與非線性,所以選用高斯核函數(shù)作為支持向量機(jī)的核函數(shù)。高斯核函數(shù)如式(2)所示,可以通過調(diào)節(jié)高斯核函數(shù)的半徑[δ]得到分類效果更好的模型。

      由于原始數(shù)據(jù)的特征維度較大,需要對(duì)原始數(shù)據(jù)進(jìn)行特征篩選。使用套索算法(LASSO)對(duì)數(shù)據(jù)進(jìn)行特征篩選,LASSO回歸的特點(diǎn)是無論數(shù)據(jù)的因變量是連續(xù)的還是離散的,其都能處理。此外,LASSO對(duì)數(shù)據(jù)的要求極低,所以應(yīng)用程度較廣;LASSO還能對(duì)變量進(jìn)行篩選,降低模型復(fù)雜程度。這里的變量篩選不是把所有變量都放入模型中進(jìn)行擬合,而是有選擇地把變量放入模型,從而得到更好的性能參數(shù)。復(fù)雜度調(diào)整是指通過一系列參數(shù)控制模型的復(fù)雜度,從而避免過度擬合。對(duì)線性模型來說,復(fù)雜度與模型的變量數(shù)有直接關(guān)系,變量數(shù)越多,模型復(fù)雜度越高。較多變量在擬合時(shí)往往可以給出一個(gè)看似更好的模型,但同時(shí)也面臨過度擬合的危險(xiǎn)。LASSO的基本思想是在回歸系數(shù)的絕對(duì)值之和小于一個(gè)常數(shù)的約束條件下,使殘差平方和最小化,從而能夠產(chǎn)生某些嚴(yán)格等于0的回歸系數(shù),得到可以解釋的模型。與其他特征選擇算法相比,可以在變量比較多的情況下有效提取出重要的模型。對(duì)于數(shù)據(jù)集,LASSO算法的模型函數(shù)如式(3)所示:

      式中:λ是關(guān)系到特征提取效果的參數(shù)。

      2.2 灰狼優(yōu)化算法優(yōu)化模型參數(shù)

      對(duì)于優(yōu)化SVM分類模型的懲罰因子[C]和核函數(shù)參數(shù)[δ]以及LASSO算法懲罰因子[λ]的參數(shù)組合,使用灰狼優(yōu)化算法來進(jìn)行參數(shù)優(yōu)化,該方法相較于其他優(yōu)化算法具有步驟簡(jiǎn)單、需要調(diào)整的參數(shù)少、收斂速度快、不容易陷入局部最優(yōu)解的優(yōu)點(diǎn)。

      灰狼優(yōu)化算法的原理是模擬狼群捕獵等級(jí),其過程主要有包圍、狩獵、攻擊3個(gè)步驟。

      2.2.1 包圍過程。在灰狼優(yōu)化算法中,獵物的位置就是全局的最優(yōu)解,設(shè)狼群中有[N]只狼,搜索的空間維度即所需要優(yōu)化的參數(shù)數(shù)量為[M],則其中第[i]只狼的位置可以表示為X=X,X,…,X(i=1,2,…, n)。狼群搜索獵物過程的數(shù)學(xué)模型為:

      式中:t代表算法迭代的次數(shù);X代表獵物即最優(yōu)解的位置向量;X表示當(dāng)前灰狼的位置向量;A與C代表系數(shù)向量來控制灰狼搜索速度;r與r是在(0,1之間取值的隨機(jī)數(shù);q是隨著迭代次數(shù)從2逐漸線性衰減到0的收斂因子。

      2.2.2 狩獵過程。在灰狼算法中,假定α、β和δ三只灰狼更清楚獵物即最優(yōu)解X的潛在位置,并利用α、β和δ三只灰狼的位置來優(yōu)化候選狼ω的位置,從而達(dá)到逐漸逼近獵物即最優(yōu)解X的目的。狩獵的數(shù)學(xué)模型為:

      式中:D、D、D分別表示α、β和δ三只狼與其他候選狼個(gè)體間的距離;X是當(dāng)前候選狼ω的位置;X、X、X代表當(dāng)前α、β和δ三只灰狼的位置;C、C、C是隨機(jī)向量;X(t+1)代表候選狼ω的優(yōu)化位置。

      2.2.3 攻擊獵物。在式(4)中,[q]的值隨著迭代次數(shù)從2逐漸線性衰減到0,A的波動(dòng)范圍也隨著q的逐漸減小而減小,最終可以使灰狼在逐漸靠近獵物即求最優(yōu)解時(shí)的精確度提高,最終當(dāng)A<1時(shí),灰狼會(huì)向獵物發(fā)起進(jìn)攻。

      2.2.4 灰狼算法優(yōu)化。利用灰狼優(yōu)化算法對(duì)模型參數(shù)進(jìn)行優(yōu)化,得到最優(yōu)參數(shù)后再進(jìn)行訓(xùn)練。具體步驟如下。第一,初始化灰狼的規(guī)模與最大迭代次數(shù)t,將SVM模型的參數(shù)C、核函數(shù)參數(shù)δ與LASSO算法參數(shù)λ設(shè)置為灰狼的位置,即X=C,δ,λ,根據(jù)準(zhǔn)確率來優(yōu)化SVM模型的參數(shù)C、核函數(shù)參數(shù)δ與LASSO算法參數(shù)λ,若適應(yīng)值為當(dāng)前最優(yōu),則保存適應(yīng)值與α、β和δ三只狼的位置。第二,更新式(4)q、A和[C]的值,以及α、β和δ所代表的三只狼的位置。當(dāng)?shù)螖?shù)達(dá)到最大迭代次數(shù)t時(shí),就得到最優(yōu)參數(shù)SVM模型的參數(shù)C、核函數(shù)參數(shù)δ與LASSO算法參數(shù)λ的值。第三,采用最優(yōu)參數(shù)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練。

      3 配置試驗(yàn)

      3.1 試驗(yàn)數(shù)據(jù)與環(huán)境

      本試驗(yàn)采用的編程語言為Python,基于Sklearn機(jī)器學(xué)習(xí)進(jìn)行模型試驗(yàn)。本次試驗(yàn)平臺(tái)為Windows操作系統(tǒng),8 GB、2 666 Hz頻率內(nèi)存,CPU采用的是英特爾i5-7500。

      本研究將電子病歷作為數(shù)據(jù)集,特征維度為46維度,數(shù)量為440條。

      3.2 模型設(shè)置

      為了測(cè)試本學(xué)習(xí)模型的效果,本次試驗(yàn)采用交叉驗(yàn)證法將試驗(yàn)數(shù)據(jù)集平均劃分為10個(gè)子集,并按照比例4∶6劃分為測(cè)試集及訓(xùn)練集。在經(jīng)過一次試驗(yàn)后,將數(shù)據(jù)集打亂重新平均劃分為10個(gè)子集,再按照4∶6的比例重新劃分測(cè)試集及訓(xùn)練集。依次重復(fù)5次,計(jì)算5次試驗(yàn)的平均準(zhǔn)確率、受試者工作特征(Receiver Operating Characteristic,ROC)[6]曲線下面積(Area Under Curve,AUC)等指標(biāo),并與其他算法進(jìn)行對(duì)比,將其他算法的最大迭代次數(shù)[t]預(yù)設(shè)為30。

      3.3 試驗(yàn)結(jié)果與分析

      在本次試驗(yàn)中,在先使用GWO算法優(yōu)化LASSO算法的參數(shù)[λ],再對(duì)數(shù)據(jù)集進(jìn)行特征選擇,最終會(huì)得到15條特征,故將PCA與LLE篩選特征的維度設(shè)置為15。

      評(píng)價(jià)指標(biāo)主要包括準(zhǔn)確率、F值(準(zhǔn)確率和召回率的調(diào)和平均數(shù))、ROC曲線與AUC值。其中,準(zhǔn)確率=預(yù)測(cè)正確的樣本數(shù)/總的樣本數(shù)×100%,F(xiàn)1值=2/(1/準(zhǔn)確率+1/召回率)。從ROC曲線有夠多看出算法模型最優(yōu)閾值的識(shí)別能力。AUC通過對(duì)ROC曲線下各部分的面積求和得出。相關(guān)結(jié)果如表1和圖1所示。

      由表1可知,使用GSL算法在數(shù)據(jù)集上得到的準(zhǔn)確率與F值最高,LASSO-SVM模型的準(zhǔn)確率最低,LLE-SVM的F值最低。可見,相較于傳統(tǒng)的特征提取方法,GSL算法所得到的準(zhǔn)確率與F值相對(duì)較好,并且擁有穩(wěn)定的檢測(cè)效率。

      圖1中,橫坐標(biāo)為假陽(yáng)率(False Positive Rate,F(xiàn)PR),即在所有實(shí)際為陰性的樣本中,被錯(cuò)誤地判斷為陽(yáng)性之比率;縱坐標(biāo)為真陽(yáng)率(True Positive Rate,TPR),即在所有實(shí)際為陽(yáng)性的樣本中,被正確地判斷為陽(yáng)性之比率。ROC曲線的評(píng)價(jià)標(biāo)準(zhǔn)是計(jì)算該算法的ROC曲線與坐標(biāo)右下角所包圍的面積,當(dāng)面積越大或者曲線越靠近左上角時(shí),該算法的分類性能越好。AUC值即面積值。由圖1可以看出,相較于其他算法,GSL算法的ROC曲線更靠近左上角,說明GSL的性能相較于其他方法更好。GSL算法的AUC值最高,LASSO-SVM與PCA-SVM的AUC值相對(duì)較低,LLE-SVM的AUC值最低??梢?,GSL算法對(duì)高維數(shù)據(jù)集的分類效果較傳統(tǒng)算法有更好的性能。

      綜上所述,使用GSL模型檢測(cè)準(zhǔn)確率高,穩(wěn)定性強(qiáng),適用于高維數(shù)據(jù)的分類。

      4 結(jié)語

      使用GSL進(jìn)行了高維數(shù)據(jù)的分類。LASSO算法在數(shù)據(jù)集中變量具有高維度和多重共線性的情況下具有良好的效果,使用LASSO算法對(duì)高維數(shù)據(jù)進(jìn)行特征提取,能提取高維數(shù)據(jù)特征中最為關(guān)鍵的特征,從而提高模型的準(zhǔn)確率。GWO具有收斂性強(qiáng)、參數(shù)少、易實(shí)現(xiàn)等優(yōu)點(diǎn),在求解最優(yōu)化問題時(shí)具有較大優(yōu)勢(shì)。試驗(yàn)中,將該算法用于優(yōu)化SVM與LASSO的參數(shù)選擇,從而提高模型的分類準(zhǔn)確率。在高維數(shù)據(jù)電子病歷的特征提取方面,從分類準(zhǔn)確率、F值、ROC曲線、AUC值4項(xiàng)指標(biāo)對(duì)比GSL與PCA-SVM、LLE-SVM、LASSO-SVM。結(jié)果表明:GSL算法的效果最好。

      參考文獻(xiàn):

      [1]TANG T,BO L,LIU X,et al. Variable predictive model class discrimination using novel predictive models and adaptive feature selection for bearing fault identification[J]. Journal of Sound and Vibration,2018(7):137-148.

      [2]董玉璽,李樂寧,田文德.基于多層優(yōu)化PCC-SDG方法的化工過程故障診斷[J].化工學(xué)報(bào),2018(3):1173-1181.

      [3]楊維,李歧強(qiáng).粒子群優(yōu)化算法綜述[J].中國(guó)工程學(xué),2004(5):87-94.

      [4]張鈴,張鈸.遺傳算法機(jī)理的研究[J].軟件學(xué)報(bào),2000(7):945-952.

      [5]秦全德,程適,李麗,等.人工蜂群算法研究綜述[J].智能系統(tǒng)學(xué)報(bào),2014(2):127-135.

      [6]王彥光,朱鴻斌,徐維超.ROC曲線及其分析方法綜述[J].廣東工業(yè)大學(xué)學(xué)報(bào),2021(1):46-53.

      猜你喜歡
      參數(shù)優(yōu)化支持向量機(jī)
      基于正交試驗(yàn)法的路基沖擊碾壓施工參數(shù)優(yōu)化
      基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
      基于神經(jīng)網(wǎng)絡(luò)的動(dòng)力電池組焊接參數(shù)優(yōu)化研究
      基于SVM的煙草銷售量預(yù)測(cè)
      動(dòng)態(tài)場(chǎng)景中的視覺目標(biāo)識(shí)別方法分析
      論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
      研究LTE與WCDMA系統(tǒng)間小區(qū)互操作與參數(shù)優(yōu)化
      基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
      基于磁流變技術(shù)的汽車發(fā)動(dòng)機(jī)隔振系統(tǒng)的參數(shù)優(yōu)化
      科技視界(2016年23期)2016-11-04 08:17:36
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      寻乌县| 崇礼县| 永宁县| 西城区| 平度市| 浦县| 靖西县| 宁河县| 资中县| 博白县| 榆中县| 亚东县| 财经| 个旧市| 南木林县| 巩留县| 米林县| 丹巴县| 措勤县| 泉州市| 大安市| 山阳县| 信宜市| 阳东县| 廉江市| 廊坊市| 福鼎市| 筠连县| 昆明市| 安远县| 城步| 甘南县| 枝江市| 博乐市| 盐亭县| 称多县| 砀山县| 乐业县| 阳西县| 土默特右旗| 汉源县|