石昀 凱里學(xué)院 大數(shù)據(jù)工程學(xué)院
關(guān)于小樣本數(shù)據(jù)預(yù)測(cè)模型,前人在此之前進(jìn)行過(guò)大量的研究,如Delphi 法、TOPISIS 法、AHP 法、BP 法、DEA 法、GRA 等[1,2,3]。上述方法存在著如下不足:一是過(guò)于依賴(lài)定量數(shù)據(jù)[4],如DEA、AHP等;二是主觀因素影響過(guò)大[4],如Delphi法、模糊評(píng)價(jià)法等[5][6]。三是容易出現(xiàn)收斂速度慢以及過(guò)擬合的情況,如BP 法、SVM 法[6]。
相關(guān)向量機(jī)(Relevance Vector Machine, RVM)是Tipping在SVM(支持向量機(jī))的基礎(chǔ)上提出的一種新的機(jī)器學(xué)習(xí)算法,它具有以下優(yōu)點(diǎn):
(1).通過(guò)引入超參數(shù)α以及計(jì)算超參數(shù)的權(quán)重后驗(yàn)分布迭代計(jì)算出最優(yōu)權(quán)值,最終獲得稀疏化模型[3];
(2).顯著提升了核函數(shù)的運(yùn)算效率,增強(qiáng)了解的稀疏性[8];
(3).整個(gè)訓(xùn)練無(wú)需調(diào)整過(guò)多的參數(shù);
(4).核函數(shù)不需要滿足正定條件。
算法執(zhí)行過(guò)程可以概括為如下幾步:
1)選擇核函數(shù),并設(shè)置相關(guān)參數(shù),通過(guò)核函數(shù)創(chuàng)建核矩陣;
6)重復(fù)步驟4,5 直至所有訓(xùn)練樣本均代入算法執(zhí)行完畢。
為對(duì)比RVM、SVM 以及BP 三種算法的性能,使用公開(kāi)數(shù)據(jù)集網(wǎng)站UCI(http://archive.ics.uci.edu/ml/datasets.html)中汽車(chē)油耗量數(shù)據(jù)集進(jìn)行性能對(duì)比實(shí)驗(yàn)。使用RVM、SVM、BP 三種算法來(lái)對(duì)汽車(chē)油耗量數(shù)據(jù)集進(jìn)行模型訓(xùn)練,通過(guò)運(yùn)行時(shí)間以及測(cè)試結(jié)果誤差率來(lái)得出實(shí)驗(yàn)結(jié)論。汽車(chē)油耗量數(shù)據(jù)集如表3-1 所示。
其中,數(shù)據(jù)一共392 條,mpg 為油耗量,數(shù)值范圍[9,46.4];cyl為氣缸數(shù),數(shù)值范[3,8];dis為行駛距離,數(shù)值范圍[68,455];hor 為馬力,數(shù)值范圍[46,230];wei 為汽車(chē)自重,數(shù)值范圍[1613,5140];acc 為加速度,數(shù)值范圍[8,24.8];ye為制造廠年份,數(shù)值范圍[70,82];or為產(chǎn)地,數(shù)值范圍[1,3]。
首先,將表一數(shù)據(jù)通過(guò)min-max方法[9]進(jìn)行歸一化處理。第二,歸一化處理完成后,將歸一化后的392 條數(shù)據(jù)分為兩個(gè)集合,前352條作為訓(xùn)練集,后40 條作為測(cè)試集。第三,使用訓(xùn)練集進(jìn)行樣本訓(xùn)練,使用數(shù)據(jù)集進(jìn)行結(jié)果測(cè)試,計(jì)算出運(yùn)行時(shí)間以及測(cè)試結(jié)果誤差率。其中,誤差率為平均相對(duì)誤差[10],同時(shí),平均相對(duì)誤差不超過(guò)5%時(shí)為可接受誤差[11]。上述實(shí)驗(yàn)結(jié)果如表2 所示。
實(shí)驗(yàn)結(jié)果表明RVM 模型預(yù)測(cè)出的結(jié)果明顯優(yōu)于BP,相比SVM 則大致相當(dāng)。但是RVM 模型是用極少數(shù)相關(guān)向量即可得到最終評(píng)價(jià)結(jié)果,因此從效率上來(lái)說(shuō)明顯優(yōu)于SVM 算法,更適用于小樣本數(shù)據(jù)分析。
本本文將RVM 算法成功應(yīng)用于小樣本數(shù)據(jù)預(yù)測(cè)分析中,實(shí)驗(yàn)結(jié)果表明,相比于BP 算法以及SVM 算法,RVM 在精確性上優(yōu)于BP。在運(yùn)行效率上優(yōu)于SVM,精度與SVM 大致相當(dāng)。同時(shí)實(shí)例分析表明,RVM 算法動(dòng)態(tài)地對(duì)各因素間權(quán)重參數(shù)進(jìn)行調(diào)整,使得無(wú)需過(guò)多關(guān)注評(píng)價(jià)模型內(nèi)各指標(biāo)相互間的關(guān)系,從而驗(yàn)證了該理論模型應(yīng)用于小樣本數(shù)據(jù)預(yù)測(cè)分析領(lǐng)域的可行性。