吳疆 劉歡 董婷
摘 要:?判別式分類器通過生成不同復雜度的指示函數(shù)去調節(jié)算法與所解決問題的適應性,能有效地避免過擬合現(xiàn)象。分類器融合方法就是應用單個分類器對特定樣本預報的特異性來提高模型的整體預測精度,應用支持向量機(SVM)對乳腺癌數(shù)據(jù)進行建模,通過選取不同的模型參數(shù)(徑向基核函數(shù)參數(shù)gamma和正則化約束參數(shù)cost)構建9個單分類器,通過投票策略在單分類器上構建融合分類器,融合模型對乳腺癌數(shù)據(jù)的預測精度為98.59%,相比單分類模型對此數(shù)據(jù)集的預測精度97.72%有明顯的競爭力,試驗結果表明融合模型能有效提升分類器的泛化能力。
關鍵詞:?支持向量機; 交叉驗證; 分類器融合
中圖分類號: TP 391? ? ? 文獻標志碼: A
Classifier Fusion Learning Model Based on Standard Dataset
WU Jiang, LIU Huan, DONG Ting
(School of Information of Engineering, Yulin University, Yulin, Shanxi? 719000, China)
Abstract:
The discriminant classifier generates indicators with different complexitres that adjusts flexibility between method and problems, which can efficiently avoid the over-learning. Fusion method is to improve the prediction accuracy by summarizing the specificities of individual classifiers. The purpose of the study is to predict breast cancer with support vector machine (SVM). Nine individual classifiers are trained by selecting different parameters (gamma of radial basis function, cost of regularization parameter), on which the fusion classifier is construct by using voting strategy. 98.59% prediction accuracy is obtained, it is very promising compared with 97.72% obtained by optimal individual classifier. The experimental results indicate that the ensemble model can enhance the prediction accuracy.
Key words:
support vector machine; cross validation; classifier fusion
0 引言
融合方法(Ensemble methods)能有效提高個體分類器預測精度,通過組合單個分類器或者不同的輸出特征來提高分類器的預測精度,其核心內容是將多個單分類器的輸出結果通過某種決策給出最終的融合結果,期望融合多個分類器對樣本預測的特異性來提高對樣本的整體預測性能,得到比單個分類器更好的泛化能力。融合分類器主要有以下幾種方式:(1)單分類器輸出的對待測樣本的類別決策(預測結果),然后通過某種決策,如投票策略來確定最終的融合結果,這個方式也叫做決策層融合;(2)將每個單分類器對待測樣本的決策輸出(樣本類別或決策實值)構建新的訓練集訓練二級決策模型,這種方法也叫做度量層融合。
分類器融合方法在很多領域的應用取得巨大成功,應用玉米葉部病害識別[1]、手語識別 [2]、多分類器融合提取土壤養(yǎng)分特征波[3]、基于多分類器融合的衛(wèi)星圖像艦船目標識別[4]及結合時序方法與環(huán)境變量的煤礦生產過程控制[5]等。
實驗通過投票策略構建支持向量機[6-7]融合分類器對乳腺癌數(shù)據(jù)進行預測,期望融合方法能有效提高單分類器的預測準確率。
1 方法和數(shù)據(jù)
1.1 數(shù)據(jù)來源
試驗所用數(shù)據(jù)威斯康星乳腺癌數(shù)據(jù)庫(Wisconsin Breast Cancer Database),如圖1所示。
來源于機器學習標準數(shù)據(jù)庫(UCI Repository of Machine Learning Databases),共有569條數(shù)據(jù),其中有212條數(shù)據(jù)來源于惡性的乳腺細胞的測試數(shù)據(jù),占整體數(shù)據(jù)的37.26%;剩余的357條均來源于良性的乳腺細胞的測試數(shù)據(jù),占到整體乳腺癌數(shù)據(jù)的62.74%。其中每一條數(shù)據(jù)都具有30個特征,原始數(shù)據(jù)中第一列表示數(shù)據(jù)的Id號,第二列是數(shù)據(jù)類別,表示數(shù)據(jù)的屬性是良性還是惡性,M代表惡性乳腺細胞,B代表良性乳腺細胞。剩余的數(shù)據(jù)項為乳腺癌數(shù)據(jù)的30個診斷特征,對乳腺癌數(shù)據(jù)30個屬性的統(tǒng)計結果,如表1所示。
1.2 模型評價參數(shù)
靈敏度(Sensitivity)、特異性(Specificity)、準確度(Accuracy)用來評價模型的預報性能和泛化能力。其中TP代表將正樣本預測為正樣本的個數(shù),TN代表將負樣本模型預測為負樣本的個數(shù),F(xiàn)N代表將正樣本模型預測為負樣本的個數(shù),F(xiàn)P代表將負樣本模型預測為正樣本的個數(shù)。靈敏度評價模型對正樣本預測的準確度,特異性表達模型是對負樣本的預測精度,準確度評價模型對樣本數(shù)據(jù)的整體預報能力,三個評價參數(shù)的聯(lián)合應用就可以評價模型對樣本數(shù)據(jù)預報的穩(wěn)定性,如式(1)—(3)。
2 試驗結果與討論
2.1 支持向量機算法用于乳腺癌數(shù)據(jù)建模
本實驗數(shù)據(jù)集共兩類樣本569條數(shù)據(jù),屬于小樣本學習問題,將良性乳腺細胞定義為正樣本,惡性乳腺細胞定義為負樣本訓練SVM分類器。選用徑向基核函數(shù),8-fold交叉驗證和Grid方法用來挑選最優(yōu)分類器參數(shù)gamma, cost。
首先將數(shù)據(jù)集平分為8個子集(7個子集樣本數(shù)為71,一個子集樣本數(shù)為72)。然后依次選取其中7個子集作為訓練集,剩余的一個子集作為預測集構建8個最優(yōu)分類器,分類模型對乳腺癌數(shù)據(jù)的預測結果。如表2所示。
2.2 融合分類器算法用于乳腺癌數(shù)據(jù)建模
分類器融合方法通過一定的融合決策組合個體分類器對樣本預測的特異性來提高整體分類性能,大量的研究結果表明分類器融合方法能有效提高分類器的預測精度,融合模型如何組合個體分類器對特定樣本預測的特異性來提高模型對樣本數(shù)據(jù)的預測精度,如圖2所示。
通過選取不同的參數(shù)g, c訓練9個支持向量機單分類器(選取訓練奇數(shù)個單分類器可以避免融合模型投票策略出現(xiàn)沖突現(xiàn)象),假設乳腺癌樣本x, SVM(j,x)表示第j個分類器對樣本x的預測結果,二分類問題中預測結果用于乳腺癌數(shù)據(jù)預測流程將所有個體分類器對乳腺癌樣本x的預測結果進行統(tǒng)計分析,半單分類器的預測結果半數(shù)以上是融合模型對樣本的最終預測結果,則融合分類器對乳腺癌樣本x的預測結果C(x)運用投票規(guī)則可以表示為公式(5)所示。
在公式(5)中,a用來控制投票機制的松弛度,當a取值為1時,要求所有個體分類器對樣本x的預測結果一致,在本實驗中,選取a=0.5,也就是說融合模型對樣本x的預測結果以半數(shù)以上單分類器對樣本x的預測結果為準。融合SVM分類器對乳腺癌數(shù)據(jù)的預測結果,如表3所示。
運用多數(shù)投票法對個體分類器的特定樣本的預測特異性進行融合,能獲得更好的預測準確度,與二分類SVM在相同數(shù)據(jù)集上所得到的預測結果相比,能夠得到比之前更好的預報能力,降低對正負樣本預測偏置,融合分類器具有更好的置信度和穩(wěn)定性。融合模型與最優(yōu)SVM單分類器對乳腺癌數(shù)據(jù)的預測結果,如表4所示。
運用多數(shù)投票法構建融合模型對乳腺癌數(shù)據(jù)的預測結果可以看出,靈敏度相較于單分類器提高了0.22%,特異性提高了0.72%,準確度提高了0.87%。融合模型對數(shù)據(jù)集的預測精度提高不大是因為單分類模型本身具有很好的泛化能力,在這個基礎上仍然能提高預測準確率說明這種融合算法能有效提升單分類器的預報精度,獲得更加平衡穩(wěn)定的模型。
3 總結
SVM融合分類器方法用乳腺癌數(shù)據(jù)建模,實驗結果表明分類器融合方法能有效提高模型的預測性能。在實驗過程中發(fā)現(xiàn)選擇不同的單分類器構建融合分類器,導致具有不同泛化能力的融合模型。如何選擇合適的單分類器來融合是構造出具有更好泛化能力融合分類器的關鍵環(huán)節(jié),在后續(xù)工作中將重點研究一種主動的方法來挑選具有顯著預測特異性的單分類器,從而構建性能更優(yōu)異的融合分類器。
參考文獻
[1] 許良鳳,徐小兵,胡敏,等.基于多分類器融合的玉米葉部病害識別[J]. 農業(yè)工程學報,2015(14):194-201.
[2] 林亞飛,曾曉勤. 融合SURF與sEMG特征的手語識別研究[J]. 微型電腦應用, 2019,35(4):55-57
[3] 李雪瑩,范萍萍, 劉巖, 等. 多分類器融合提取土壤養(yǎng)分特征波長[J]. 光譜學與光譜分析, 2019, 39(9):2862-2867.
[4] 張曉,王莉莉. 基于多分類器融合的衛(wèi)星圖像艦船目標識別[J]. 通信技術,2019, 52(9):2143-2148.
[5] Feng Z, Zhu S, Wu J, et al. Theory and Method of Time-varying Computational Experiments for the Fully Mechanized Mining Process in an Artificial System Environment[J]. IEEE Access, 2019, 7(6): 168162-168174.
[6] 吳迪,焦東升,張筱,等. 基于SVM 的鋼坯號自動識別算法[J]. 微型電腦應用, 2011, 27(10): 49-51.
[7] 曹納. 基于支持向量機的企業(yè)財務風險預警系統(tǒng)設計[J]. 微型電腦應用,2018,34(8):73-77.
(收稿日期: 2019.07.28)