朱林杰
摘要:丟失值填補在數(shù)據(jù)挖掘領(lǐng)域是非常重要的。針對數(shù)據(jù)集中出現(xiàn)屬性丟失值的情況,本論述提出了一種屬性丟失值分塊填補(ABNS)的方法。首先對數(shù)據(jù)集進行標(biāo)準化處理,然后將其數(shù)據(jù)分成相等的 n 個塊,接著驗證每一塊來獲取相對應(yīng)的最優(yōu)的 K 值,最后使用最優(yōu)的 K 值進行數(shù)據(jù)填補來得到相應(yīng)的數(shù)據(jù)。實驗采用公開數(shù)據(jù)集 Horse Colic、Vote 和Diabe? tes進行實驗,并且在使用貝葉斯、KNN 和 SMO 算法進行分類評估的情況下,對所提出的方法與傳統(tǒng)均值填補方法和概率填補方法進行對比。實驗結(jié)果分析表明,所提方法的填補效果較對比的方法具有一定優(yōu)勢。
關(guān)鍵詞:分類;KNN;屬性丟失值
中圖分類號:TP391????????????????????????????????????????? 文獻標(biāo)志碼:A
0 引言
隨著信息技術(shù)的迅速發(fā)展,相應(yīng)的伴隨著大量數(shù)據(jù)的產(chǎn)生。由于各種原因,數(shù)據(jù)處理有時會出現(xiàn)屬性丟失值的結(jié)果,屬性丟失值能影響分類器的性能,影響數(shù)據(jù)分析的情況。因此,提高數(shù)據(jù)質(zhì)量很有必要。例如:水污染數(shù)據(jù)和風(fēng)力發(fā)電數(shù)據(jù)都會存在屬性丟失值的現(xiàn)象,尤其在醫(yī)學(xué)數(shù)據(jù)研究中,對屬性丟失值的處理顯得更加重要。在處理數(shù)據(jù)集的過程中,發(fā)現(xiàn)屬性丟失值的情況比較常見,數(shù)據(jù)集的各個屬性都可能會出現(xiàn)丟失值的情況。在數(shù)據(jù)集中,當(dāng)有些數(shù)據(jù)字段為空,或者是出現(xiàn)“?”號以及出現(xiàn)“N/A”和“Not Available”等值的時候,就表明這是一個不正常的屬性值。還有一些情況,有時會因為某一些屬性值的丟失,將直接導(dǎo)致整個數(shù)據(jù)集不可用。
屬性丟失值處理是數(shù)據(jù)挖掘領(lǐng)域重要的研究方向之一。近年來,幾個處理方法已經(jīng)被提出用于屬性丟失值填補,因此就如何對屬性丟失值進行處理也是非常重要的。同時,該問題在諸多領(lǐng)域中受到廣泛的關(guān)注,許多研究人員對丟失值進行相關(guān)的理論研究,提出解決方法并且進行了相關(guān)的實驗。隨后,在所有提出的解決方法中,發(fā)現(xiàn)采用填補方法對屬性丟失值進行處理的方法具有更大的優(yōu)勢。該方法從如何利用現(xiàn)有的數(shù)據(jù)進行填補屬性丟失值,使得數(shù)據(jù)更加完整,依照丟失的重要性和類型進行區(qū)域填補,在數(shù)據(jù)合理性上有一定的優(yōu)勢。
K 最近鄰(KNN,K- NearestNeighbor)算法一直是機器學(xué)習(xí)領(lǐng)域研究的焦點。但是 K 值有著不同的選擇,K 值選擇也比較重要,因為 K 值的不同會使得同樣的數(shù)據(jù)有著不同的結(jié)果。尤其是對于稀疏數(shù)據(jù)來說,由于數(shù)據(jù)的相異性,當(dāng)使用 KNN 算法做數(shù)據(jù)分析時,不同的 K 值可能會出現(xiàn)信息檢測時丟失信息的情況。
本論述在使用 KNN 算法基礎(chǔ)上,提出了一種 ABNS 填補方法,并將它與均值填補和概率填補方法在 Horse Colic、Vote 和 Diabetes 數(shù)據(jù)集上進行了比較。
1 相關(guān)工作
屬性丟失值近年來一直被人們關(guān)注,為了解決屬性丟失值問題,研究者也提出了許多處理丟失值的方法,加深了丟失值處理的進一步研究。文獻[1 ]回顧了由于分析儀器產(chǎn)生的數(shù)據(jù)受各種因素影響,需要預(yù)處理數(shù)據(jù),同時分析了化學(xué)計量學(xué)的預(yù)處理融合的集成方法,表明預(yù)處理集成允許幾種技術(shù)選擇和它們的組合,以一種互補的方式,進而來改進模型。文獻[2 ]使用沒有缺失值的訓(xùn)練數(shù)據(jù)對自編碼器進行訓(xùn)練,使其更好地預(yù)測缺失值的能力,利用自動編碼神經(jīng)網(wǎng)絡(luò)去重建自己,并做了進一步估計,將丟失值最小化。數(shù)據(jù)不平衡問題一直是研究的焦點之一。文獻[3]通過研究信用風(fēng)險評估,針對不平衡數(shù)據(jù)學(xué)習(xí)問題提出了一種新型的組合動態(tài)集合選擇(DES,dynamic ensemble selection) 模型,并且采用 DES-KNN 的兩步選擇策略來對于分類的能力和多樣性進行權(quán)衡。
高維數(shù)據(jù)經(jīng)常造成嚴重的計算復(fù)雜度,對它進行分析和學(xué)習(xí)一直是一個挑戰(zhàn)。文獻[4 ]提出了一種新的監(jiān)督差異性降維方法,通過優(yōu)化新設(shè)計的有效目標(biāo)函數(shù)來學(xué)習(xí)每個類別的變化。與單一變化的情況相比,所提方法可以從每個單一類別的數(shù)據(jù)中捕捉到更多的有用信息。醫(yī)學(xué)數(shù)據(jù)集在醫(yī)學(xué)領(lǐng)域是非常重要的,文獻[5]討論了一個新的丟失值填補框架,采用基于類的聚類方法來填補丟失值,本質(zhì)上,這可以降低醫(yī)療數(shù)據(jù)的維度。由于丟失值會對分類精度產(chǎn)生影響,文獻[6]利用貝葉斯附加回歸樹提出了一種自動刪除不相關(guān)變量的方法。所提模型方法可以對不完整數(shù)據(jù)集進行分類的精度提高,同時避免了一些不必要的步驟。
特征選擇是機器學(xué)習(xí)中的一個非常重要過程,文獻[7 ]引入一種相容類的概念,以減少原始數(shù)據(jù)中不必要的相容類。同時為了更有效地處理高維數(shù)據(jù)集,在每個循環(huán)后確定冗余的特征,并將其從候選特征子集中刪除,設(shè)計一個有效的啟發(fā)式算法以找到比較小的約簡集。文獻[8]驗證特征選擇對醫(yī)學(xué)數(shù)據(jù)集丟失值填充的影響,實驗結(jié)果表明,對于許多醫(yī)療數(shù)據(jù)集來說,為了產(chǎn)生最好的結(jié)果,應(yīng)該謹慎選擇特征選擇算法。遺傳算法和信息增益模型適用于低維數(shù)據(jù)集,而決策樹模型則是高維數(shù)據(jù)集的更好選擇。文獻[9]介紹了數(shù)據(jù)挖掘中處理缺失屬性值的方法,方法主要分為順序法和平行法兩種,并且重點強調(diào)了規(guī)則歸納原則。另外,在醫(yī)療數(shù)據(jù)方面,因為醫(yī)療數(shù)據(jù)經(jīng)常有丟失值,使用丟失值填補方式進行提高研究結(jié)果也是比較有效的。 Huang 等提出了醫(yī)療數(shù)據(jù)安全區(qū)域填補方法,填補結(jié)果有所提高。因此,利用屬性丟失值填補的方法會取得比較好的結(jié)果,它們是非常必要的填補方法,在提高分類性能方面也是非常有用的[10-12] 。294FC53E-C618-4B3C-9018-E7D2C95232C9
2 方法及步驟
數(shù)據(jù)填補是一種比較有效能夠減少對原有數(shù)據(jù)集的影響的一種方式。由于對于全部數(shù)據(jù)集,使用傳統(tǒng)算法計算樣本會增加復(fù)雜性,選擇數(shù)據(jù)填補方法是非常重要的,因此本論述提出了一種基于 KNN 算法的數(shù)據(jù)分塊填補屬性丟失值方法。這種方法將會提高分類的結(jié)果,提高分類的精度,該方法先對數(shù)據(jù)集進行預(yù)處理,然后把它分成 n 個塊,分別為 b1 , b2 , …, bn? ,然后為每個塊選擇最適合本塊的最優(yōu) K 值,接著使用這個 K 值對相應(yīng)的數(shù)據(jù)進行填補,從而達到最優(yōu)填補的效果。
所提方法的流程如圖1 所示。
ABNS 方法詳細的算法步驟:
步驟1 給定數(shù)據(jù)集 D ={(x1 ,y1),(x2 ,y2), …,(xn ,yn)} ,n 為樣本的數(shù)量,xi 為每個實例,yi為每個實例的標(biāo)簽。
步驟2 對數(shù)據(jù)進行預(yù)處理,對數(shù)據(jù)集進行標(biāo)準化。
步驟3將數(shù)據(jù)集隨機劃分成 n 個塊,分別標(biāo)注為 b1 , b2 , …, bn? 。對于每一個塊,分別計算當(dāng) K 取為2、3、4和 5時的情況,并與分塊前采用 KNN 分類算法比較,從而來確定每一塊最優(yōu)的 K 值。
步驟4 使用最優(yōu) K 值填補數(shù)據(jù),對填補的數(shù)據(jù)集進行分類,驗證所得的結(jié)果。
3 實驗結(jié)果與分析
為了提高分類的精度,評估所提出方法的性能,將所提方法與傳統(tǒng)的均值填補方法和概率填補方法在貝葉斯,KNN 和 SMO 分類算法進行比較分析,采用精度、召回率和 F- score 度量方式。使用公開數(shù)據(jù)集 Horse? Colic、Vote 和 Diabetes 進行實驗。實驗平臺 Intel Core, i5-9400F,CPU 2.90GHz,8G 內(nèi)存,編程語言 Python 3.7,Windows10操作系統(tǒng)。
數(shù)據(jù)集見表1 所列,包括數(shù)據(jù)集的名稱,數(shù)據(jù)集的屬性,數(shù)據(jù)集的數(shù)量以及類型。
精度、召回率與 F-score 如下圖所示。
從圖2、3、4中可以看出,在 Horse-colic 數(shù)據(jù)集中, ABNS 填補方法精確度分別為91%、92.9%和97.3%,遠優(yōu)于對比的填補方法;在Vote 數(shù)據(jù)集上,ABNS 填補方法精確度略優(yōu)于均值填補方法,遠好于概率填補方法;在 Diabetes 數(shù)據(jù)集中,用貝葉斯算法進行分類,ABNS 填補方法精確度最高。用 KNN 進行分類時候,均值填補方法的精確度最好。ABNS 填補的精確略低于均值填補,優(yōu)于概率填補方法。用 SMO 進行分類時,概率填補最好,ABNS 次之,兩種方法優(yōu)于均值填補的精確度。所以,就從精確度方面而言,所提出的方法在大部分情況下對于屬性丟失值填補會優(yōu)于其他兩種方法。
從圖5、6、7中可以看出,與表2 類似,與其他兩種方法對比,ABNS 填補方法在Horse-colic 和Vote 數(shù)據(jù)集上,表現(xiàn)都是最優(yōu)的。在 Diabetes 數(shù)據(jù)集上,僅僅采用 KNN 分類時,結(jié)果不是最優(yōu)的,其他的情況下,都是最優(yōu)的。
F-score 指標(biāo)是用來綜合權(quán)衡精確率和召回率的評價指標(biāo)。從圖8、9、10可以發(fā)現(xiàn),對于 Horse- colic 和 Vote 數(shù)據(jù)集,ABNS 填補方法的F-score 都是最高的,均值填補次之,概率填充結(jié)果最差。但是對于 Diabetes 數(shù)據(jù)集時,只有使用 KNN 分類時,ABNS 填補方法的 F- score 不是最高的,其他分類條件時,ABNS 填補方法的 F-score 都是最高的。即在綜合權(quán)衡精確率和召回率的條件下,所提方法的填補性能與對比方法相比具有一定的優(yōu)勢。
4 結(jié)論
在高速發(fā)展的信息時代,數(shù)據(jù)是非常重要的,要從數(shù)據(jù)中發(fā)現(xiàn)有用的信息,對數(shù)據(jù)集中的屬性丟失值進行處理很有必要。通過分析數(shù)據(jù)集中屬性丟失值的情況,分析了屬性丟失值的相關(guān)技術(shù)研究,針對數(shù)據(jù)集數(shù)據(jù)的特點,討論采用分塊的方法的可行性,隨后提出了一種屬性丟失值分塊填補(ABNS)的方法,進而實現(xiàn)對數(shù)據(jù)集中屬性丟失值的填補。這種方法把數(shù)據(jù)集劃分為 n 個子塊,每個子塊各自選擇最優(yōu)的 K 值,接著利用最優(yōu)的 K 值對于屬性丟失值進行填補,進而改善了屬性丟失值的情況。并且通過實驗結(jié)果表明了在部分數(shù)據(jù)集上,所提方法填補后的數(shù)據(jù)在精確度、召回率和 F- score 指標(biāo)上具有一定的優(yōu)勢。所提方法與傳統(tǒng)的方法相比,處理部分丟失值的效果明顯提升,也為屬性丟失值填補提供一種新的思路。面對深度學(xué)習(xí)的廣泛應(yīng)用,屬性丟失值研究對于深度學(xué)習(xí)也有重要的的影響,下一步工作將進一步探索新的方法,把該方法用于如何與深度學(xué)習(xí)結(jié)合來提高分類能力等方面做更深入的研究。
參考文獻:
[1 ]?? Mishra P,Roger J M,Rutledge D N,et al. New data prepro?cessing trends based on ensemble of multiple preprocessing techniques[J]. TrAC Trends in Analytical Chemistry,2020,132.
[2 ]?? Choudhury S J,Pal N R. Imputation of missing data with neu?ral networks for classification[J]. Knowledge-Based Systems,2019,182(C):104838.
[3 ]?? Hou W H,Wang X K,Zhang H Y,et al. A novel dynamic ensemble selection classifier for an imbalanced data set:An application for credit risk assessment[J]. Knowledge- Based Systems,2020,208:106462.294FC53E-C618-4B3C-9018-E7D2C95232C9
[4 ]?? Rajabzadeh H,Jahromi M Z,Ghodsi A. Supervised discrimi ?native dimensionality reduction by learning multiple transfor? mation? operators [J].? Expert? Systems? with? Applications,2021,164:113958.
[5]?? Yelipe U,Sammulal P. A Novel Approach for Imputation ofMissing Attribute Values for Efficient Mining of Medical Data? sets - Class Based Cluster Approach[J].Revista Técnica De La Facultad De Ingeniería Universidad Del Zulia,2016,39( 2):184-196.
[6]?? Mehrabani- Zeinabad K,Doostfatemeh M ,Ayatollahi T. AnEfficient and Effective Model to Handle Missing Data in Clas ? sification[J]. BioMed Research International,2020:8810143.
[7 ]?? Thuy? N? N,Wongthanavasu? S. A? Novel? Feature? Selection Method? for? High- Dimensional? Mixed? Decision? Tables [J]. IEEE? Transactions? on? Neural? Networks? and? Learning? Sys ? tems,2021(99):1-14.
[8]?? Liu C H,Tsai C F,Sue K L,et al. The Feature Selection Ef?fect on Missing Value Imputation of Medical Datasets[J]. Ap? plied Sciences,2020,10(7):1-12.
[9]?? Grzymala- Busse J W,Grzymala- Busse W J. Handling Miss ?ing Attribute Values[ M ].2005.
[10]?? Huang S F,Cheng C H. A Safe- Region Imputation Methodfor Handling Medical Data with Missing Values[J]. Symme? try,2020,12( 11):1792.
[11]?? N. S.Altman. An Introduction to Kernel and Nearest- Neigh ?bor? Nonparametric? Regression [J].The? American? Statisti? cian,2012,46(3):175-185.
[12]?? Jones P J,James M K,Davies M J,et al. FilterK:A new out?lier detection method for k- means clustering of physical ac ? tivity[J]. Journal of Biomedical Informatics,2020,104(9):1-10.294FC53E-C618-4B3C-9018-E7D2C95232C9