劉衛(wèi)華 王春蘭
摘 要:以生物醫(yī)學(xué)中實(shí)際分類問題為應(yīng)用背景,提出一種基于半無限線性規(guī)劃算法(Semi-Infinite Linear Program, SILP)的多核支持向量機(jī)(SVM)的分類診斷方法,并利用生物醫(yī)學(xué)中典型的心臟單光子發(fā)射計算機(jī)化斷層顯像(SPECT)圖像數(shù)據(jù)以及麻省理工學(xué)院(MIT-BIH)的心電圖數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行訓(xùn)練和測試,仿真結(jié)果表明,這種改進(jìn)的多核SVM分類器在分類精度、運(yùn)行時間上都優(yōu)于普通單核LSSVM與SVM,能夠有效地處理實(shí)際分類問題。
關(guān)鍵詞:分類問題;生物醫(yī)學(xué);心電圖;多核SVM
1 概述
近年來,已有許多機(jī)器學(xué)習(xí)算法如決策樹、貝葉斯分類、人工神經(jīng)網(wǎng)絡(luò)、小波變換、支持向量機(jī)(support vector machines, SVM)等用于生物醫(yī)學(xué)實(shí)際分類問題中,其中SVM以結(jié)構(gòu)風(fēng)險最小化為原則[1],克服了傳統(tǒng)統(tǒng)計分類方法的許多缺點(diǎn)。文章將一種改進(jìn)的基于SILP算法的多核SVM[2]應(yīng)用于生物醫(yī)學(xué)中心臟單光子發(fā)射計算機(jī)化斷層顯像(SPECT)圖像數(shù)據(jù)以及心電圖ECG信號的分類診斷中[3]。
2 基于改進(jìn)SILP算法的多核SVM
由于核學(xué)習(xí)強(qiáng)大的非線性映射能力,多核SVM越來越受到人們的重視,對于規(guī)模較大、分布不規(guī)則的數(shù)據(jù)樣本,多核SVM具有更高的分類精度及更好的適用性[4]。
多核SVM的本質(zhì)是將不同類型的核函數(shù)進(jìn)行凸組合得到新的等價核函數(shù)[2]:
3 實(shí)驗(yàn)及結(jié)果分析
3.1 SPECTF圖像數(shù)據(jù)試驗(yàn)
SPECTF數(shù)據(jù)集描述的是心臟診斷的單質(zhì)子發(fā)射計算機(jī)斷層攝影圖像,該數(shù)據(jù)集有267個病人的SPECTF圖像,每個病人被分為正常和不正常兩大類[3],通過特征提取出44個特征用于訓(xùn)練。
文章在同等條件下,將基于SILP的不同核函數(shù)組合的多核SVM與經(jīng)典LS-SVM、C-SVM進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中SPECTF數(shù)據(jù)取80個樣本為訓(xùn)練數(shù)據(jù),剩下的作為測試數(shù)據(jù)。以下實(shí)驗(yàn)結(jié)果均為20次的平均值。
選取SPECTF數(shù)據(jù)中的兩個屬性作為橫縱坐標(biāo),給出多核SVM對于測試數(shù)據(jù)的二維分類效果圖如圖1所示。
從表1可看出,對于SPECTF數(shù)據(jù),幾種方法都能達(dá)到較好的分類效果,從分類精度來看,基于SILP算法的多核SVM分類器略優(yōu)于普通LS-SVM和C-SVM分類器,但從運(yùn)行時間來看,同等條件下,基于SILP算法的多核SVM明顯縮短了耗時[3]。
3.2 ECG數(shù)據(jù)實(shí)驗(yàn)
ECG數(shù)據(jù)是取自美國麻省理工學(xué)院心律失常數(shù)據(jù)庫,把ECG信號分成正常的和不正常兩類[8],通過特征提取,提取了74182個樣本,每個樣本有10個屬性[9]。在實(shí)驗(yàn)中,隨機(jī)選取40000個樣本作為訓(xùn)練數(shù)據(jù),其余的都作為測試數(shù)據(jù)進(jìn)行實(shí)驗(yàn)[3]。仍在同等條件下,將多核SVM與經(jīng)典LS-SVM、C-SVM和V-SVM進(jìn)行實(shí)驗(yàn),以比較其方法的分類性能。以下實(shí)驗(yàn)結(jié)果均為20次的平均值。實(shí)驗(yàn)結(jié)果如表2所示。
從表2可看出:幾種分類器在選取各自理想?yún)?shù)值的情況下都能得到較好的分類精度。使用RBF多核函數(shù)的多核SVM略優(yōu)于使用混合核函數(shù)的多核SVM,并且明顯優(yōu)于C-SVM和V-SVM,而且多核SVM與單核SVM相比,大大縮短了運(yùn)行時間。說明此改進(jìn)的多核SVM算法在解決大樣本數(shù)據(jù)時,在分類精度不受影響的情況下會大大減少訓(xùn)練耗時。
圖2給出了使用RBF多核函數(shù)的多核SVM對于ECG數(shù)據(jù)集分類的ROC曲線圖。
4 結(jié)束語
文章將一種改進(jìn)的基于SILP算法的多核SVM分類算法應(yīng)用在生物醫(yī)學(xué)中的心臟單光子發(fā)射計算機(jī)化斷層顯像(SPECT)圖像數(shù)據(jù)和心電圖數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明,與普通單核LSSVM和SVM相比,基于SILP的多核SVM分類算法在分類精度、運(yùn)行時間以及適用的樣本規(guī)模上都表現(xiàn)出了十足的優(yōu)越性。
參考文獻(xiàn)
[1]張學(xué)工.關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機(jī)[J].自動化學(xué)報,2000,26(1):32-42.
[2]汪洪橋,孫富春,等.多核學(xué)習(xí)方法[J].自動化學(xué)報,2010,36(8):1037-1050.
[3]劉衛(wèi)華.最小二乘支持向量機(jī)在分類中的應(yīng)用研究[D].蘭州:蘭州交通大學(xué),2013:9-4.
[4]汪洪橋,蔡艷寧,孫富春,等.多尺度核方法的自適應(yīng)序列學(xué)習(xí)及應(yīng)用[J].模式識別與人工智能,2011,24(1):72-81.
[5]劉衛(wèi)華.MK-LSSVM與AdaBoost-SVM在分類中的比較研究[J].自動化儀表,2013,34(5):13-15.
[6]崔清亮,李軍.多核學(xué)習(xí)方法在分類中的應(yīng)用研究[J].科學(xué)技術(shù)與工程,2013,13(32):9531-9535.
[7]崔清亮.多核學(xué)習(xí)方法在分類問題中的應(yīng)用研究[D].蘭州:蘭州交通大學(xué),2014:32-39.
[8]王麗蘋,董軍.心電圖模式分類方法研究進(jìn)展與分析[J].中國生物醫(yī)學(xué)工程學(xué)報,2010,29(6):916-925.
[9]趙傳敏,馬小虎.基于非負(fù)矩陣分解和支持向量機(jī)的心電圖分類[J].計算機(jī)工程,2012,38(9):174-176.
作者簡介:劉衛(wèi)華(1987-),女,陜西富平,工學(xué)碩士,助教,研究方向:模式識別、圖像處理等。