張 壯,王士同
江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無(wú)錫 214122
TSK 模型是由Takagi、Sugeno 和Kang 提出的一種模糊模型,它將復(fù)雜的非線性問(wèn)題轉(zhuǎn)化為在不同小線段上的線性問(wèn)題,使用多個(gè)線性子系統(tǒng)擬合一個(gè)非線性系統(tǒng)。它由一組if-then 模糊規(guī)則來(lái)描述,每個(gè)規(guī)則代表一個(gè)子系統(tǒng),其形式為“ifis,then=()”,其中()是的線性函數(shù)。TSK 模糊模型是眾多模糊模型之中最具影響力且應(yīng)用最廣泛的一種,它具有高可解釋性和強(qiáng)大的逼近能力,已經(jīng)在很多領(lǐng)域得到了成功的應(yīng)用。但是,在實(shí)踐中,模糊模型的性能取決于可用數(shù)據(jù)的數(shù)量和質(zhì)量,需要充分的訓(xùn)練才能獲得較好的泛化能力,而集成學(xué)習(xí)為構(gòu)建模型提供了一種有效的方法,它通過(guò)結(jié)合多個(gè)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù),通??梢垣@得比個(gè)體學(xué)習(xí)器更加優(yōu)越的泛化性能。集成學(xué)習(xí)可大致分為兩類(lèi):必須串行生成的Boosting和可以同時(shí)并行生成的Bagging與隨機(jī)森林。在本文中使用Boosting 族算法中最著名的代表AdaBoost,將AdaBoost方法與TSK 模糊模型結(jié)合,先從原始數(shù)據(jù)中訓(xùn)練出一個(gè)子模糊模型,再根據(jù)子模糊模型的訓(xùn)練效果對(duì)訓(xùn)練樣本分布進(jìn)行調(diào)整,使得之前子模糊模型訓(xùn)練效果差的樣本在接下來(lái)的工作中受到更多關(guān)注,然后重復(fù)進(jìn)行這一步驟,直到子模糊模型的數(shù)量達(dá)到預(yù)先設(shè)置的值,最終將這個(gè)子模型結(jié)合。AdaBoost 算法可以使TSK 模糊模型得到大量的算法訓(xùn)練,但是如果數(shù)據(jù)不平衡會(huì)導(dǎo)致系統(tǒng)的訓(xùn)練精度下降,泛化能力差。由于少數(shù)類(lèi)樣本數(shù)量太少,導(dǎo)致模型的準(zhǔn)確率更加偏向于多數(shù)類(lèi),然而現(xiàn)實(shí)中存在大量不平衡的數(shù)據(jù),如故障檢測(cè)、疾病診斷等,這些數(shù)據(jù)訓(xùn)練錯(cuò)誤的代價(jià)往往是巨大的,因此提高少數(shù)類(lèi)的訓(xùn)練精度至關(guān)重要。Chawla 等人提出了合成少數(shù)類(lèi)過(guò)采樣技術(shù)(synthetic minority oversampling technique,SMOTE)方法,它通過(guò)添加人工構(gòu)造的少數(shù)類(lèi)樣本來(lái)改變?cè)静黄胶鈹?shù)據(jù)集的數(shù)據(jù)分布,減少數(shù)據(jù)失衡的程度,SMOTE 方法與隨機(jī)過(guò)采樣方法的復(fù)制樣本不同,它通過(guò)線性插值的方法合成新樣本,對(duì)數(shù)據(jù)集的處理更加有效,緩解了隨機(jī)過(guò)采樣引起的過(guò)擬合問(wèn)題,提高了模型在測(cè)試集上的泛化性能。
本文通過(guò)利用SMOTE 方法處理不平衡的數(shù)據(jù)集,使類(lèi)別分布相對(duì)均衡,再引入針對(duì)TSK 模型的集成方法,形成了訓(xùn)練不平衡數(shù)據(jù)的集成TSK 模糊模型,不斷重復(fù)迭代訓(xùn)練獲得更好的結(jié)果,并且通過(guò)改變規(guī)則數(shù)、模型數(shù)量等參數(shù)研究模型的性能,提高預(yù)測(cè)精度。一階TSK 模糊模型是應(yīng)用最廣泛的模糊模型,為了進(jìn)一步提高模型的逼近精度,在本文中還將加入二階模糊模型進(jìn)行實(shí)驗(yàn)。
TSK 模糊模型是一種以局部線性化為基礎(chǔ),通過(guò)模糊推理實(shí)現(xiàn)在全局上的非線性的方法,它通過(guò)if-then 規(guī)則給出非線性系統(tǒng)的局部線性表示,每一條規(guī)則代表一個(gè)局部線性子系統(tǒng),一個(gè)多輸入單輸出(multiple input single output,MISO)TSK 模糊模型由條規(guī)則組成,其規(guī)則如下表示:
其中,=1,2,…,,是規(guī)則數(shù)目,R表示模糊模型的第條規(guī)則,每一條規(guī)則都有與之對(duì)應(yīng)的維輸入向量,=[,,…,x],y是系統(tǒng)輸出,A()是規(guī)則前件模糊集合,它是輸入向量所對(duì)應(yīng)的第條規(guī)則的模糊子集,f()為線性函數(shù),采用多項(xiàng)式的形式表示。當(dāng)f()為一階線性函數(shù)時(shí),對(duì)應(yīng)的模糊模型為一階模糊模型,如式(2)所示,當(dāng)f()為二階線性函數(shù)時(shí),對(duì)應(yīng)的模糊模型為二階模糊模型,如式(3)所示,其中α,α,…,α為規(guī)則后件線性參數(shù)。
由式(1)可以看到,在TSK 模糊模型中,if-then 規(guī)則可以分為兩部分:規(guī)則前件和規(guī)則后件。規(guī)則前件對(duì)應(yīng)輸入變量在各個(gè)子空間的隸屬度函數(shù),規(guī)則后件則是每個(gè)局部子空間的線性函數(shù),TSK 模糊模型的主要任務(wù)就是對(duì)規(guī)則前件參數(shù)學(xué)習(xí)和規(guī)則后件參數(shù)學(xué)習(xí)兩方面進(jìn)行研究,下面分別介紹二者的辨識(shí)方法。
對(duì)規(guī)則前件的辨識(shí)就是將模糊模型的輸入空間劃分成一系列的模糊子空間,子空間的劃分方法有模糊聚類(lèi)、模糊搜索樹(shù)和模糊網(wǎng)格等,最常用的為模糊聚類(lèi)法。模糊聚類(lèi)在模糊模型中起著非常重要的作用,通過(guò)模糊聚類(lèi)不僅能得到數(shù)據(jù)的詳細(xì)結(jié)構(gòu),還可以細(xì)化模型的功能模塊,一般情況下使用模糊C 均值(fuzzy C-means,F(xiàn)CM)算法。FCM 通過(guò)優(yōu)化目標(biāo)函數(shù),計(jì)算每個(gè)樣本到每個(gè)聚類(lèi)中心的隸屬度,再根據(jù)隸屬度計(jì)算聚類(lèi)中心,不斷迭代從而決定一個(gè)樣本歸屬于哪個(gè)聚類(lèi)中心。迭代結(jié)束后,生成聚類(lèi)中心,按照式(4)計(jì)算規(guī)則前件部分的隸屬度函數(shù):
再將式(2)和式(3)代入之后可以得到一階模型和二階模型的輸出分別為式(6)和式(7)。
整理之后得:
根據(jù)式(9)即可優(yōu)化得到。
本文將使用TSK 模糊模型處理分類(lèi)問(wèn)題,根據(jù)訓(xùn)練結(jié)果估計(jì)某種事物的可能性。例如,對(duì)于二分類(lèi)(0 或1)問(wèn)題,根據(jù)結(jié)果更接近0 還是更接近1,判斷它屬于0 或1 的程度,從而將結(jié)果分類(lèi)。
在基于規(guī)則的TSK 模糊模型中,模型的性能取決于可用數(shù)據(jù)的質(zhì)量和數(shù)量,它需要大量的訓(xùn)練才能獲得更好的結(jié)果。在這種情況下,集成學(xué)習(xí)提供了有效的解決辦法,使用集成學(xué)習(xí)構(gòu)建模型,通過(guò)結(jié)合不同模型的輸出,使得到的模型更加可靠。集成學(xué)習(xí)結(jié)合一組基本學(xué)習(xí)器,可以將弱小的學(xué)習(xí)器轉(zhuǎn)化為一個(gè)更強(qiáng)大的學(xué)習(xí)器,預(yù)期的模型可能比所有單個(gè)模型都要好。在本實(shí)驗(yàn)中,使用TSK 模糊模型作為集成學(xué)習(xí)的基本學(xué)習(xí)器,根據(jù)TSK 模糊模型的表現(xiàn)對(duì)樣本分布進(jìn)行調(diào)整,重復(fù)這一步驟達(dá)到預(yù)先設(shè)定的值。但當(dāng)集成TSK 模糊模型直接用于不平衡數(shù)據(jù)集時(shí),其學(xué)習(xí)性能很容易受到數(shù)據(jù)集不平衡性的影響,導(dǎo)致集成模型訓(xùn)練精度下降,而在實(shí)際應(yīng)用中,少數(shù)類(lèi)樣本的正確識(shí)別與多數(shù)類(lèi)樣本相比更加具有意義,也通常是研究的重點(diǎn)對(duì)象。因此,針對(duì)這一問(wèn)題,本節(jié)設(shè)計(jì)了訓(xùn)練不平衡數(shù)據(jù)的集成TSK 模糊模型,使用線性插值的方法在兩個(gè)少數(shù)類(lèi)樣本之間人工合成新的樣本,以此來(lái)降低數(shù)據(jù)集的不平衡度,降低過(guò)擬合的可能性,并通過(guò)結(jié)合多個(gè)學(xué)習(xí)器來(lái)獲得更好的性能,提高模型在各種應(yīng)用場(chǎng)景下的訓(xùn)練效果。
首先,用過(guò)采樣方法對(duì)不平衡數(shù)據(jù)集預(yù)處理,在本研究中采用的過(guò)采樣方法的思想為:依次取所有少數(shù)類(lèi)樣本,搜索其最近鄰的個(gè)樣本(這個(gè)近鄰都屬于少數(shù)類(lèi)樣本,一般是奇數(shù),如=5),從這個(gè)近鄰中隨機(jī)選擇若干個(gè)樣本作為合成新樣本的輔助樣本,使用原樣本與這些輔助樣本進(jìn)行線性插值,取原樣本與其輔助樣本的差值,為了確保樣本點(diǎn)盡可能得多樣化,將這個(gè)差值乘以0 到1 之間的隨機(jī)數(shù),最終可以生成與輔助樣本相同數(shù)量的合成樣本。例如,如果過(guò)采樣量為原樣本的倍,則從個(gè)近鄰中選擇個(gè)鄰居,每個(gè)鄰居都可以和原樣本一起生成一個(gè)新樣本。這樣,對(duì)每一個(gè)樣本,都生成了個(gè)相對(duì)應(yīng)的新樣本。若原樣本與輔助樣本均處于少數(shù)類(lèi)區(qū)域,則使用這種方法合成的新樣本就是合理的,如果輔助樣本屬于多數(shù)類(lèi),則新樣本就有可能也屬于多數(shù)區(qū)域,此時(shí)的新樣本就屬于噪聲數(shù)據(jù)影響結(jié)果。這種方法是基于隨機(jī)過(guò)采樣方法的一種改進(jìn)算法,隨機(jī)過(guò)采樣采取的是簡(jiǎn)單復(fù)制樣本的策略,會(huì)使得模型學(xué)習(xí)到的信息過(guò)于特別而產(chǎn)生過(guò)擬合的問(wèn)題。而過(guò)采樣算法是在特征空間中采樣的,由于特征空間上鄰近的點(diǎn)其特征都是相似的,使用這種方法產(chǎn)生新樣本的質(zhì)量高于傳統(tǒng)的隨機(jī)過(guò)采樣方法,準(zhǔn)確率也更高。
由上節(jié)中建立模型的方法可以得到算法結(jié)構(gòu)如圖1 所示,先使用過(guò)采樣算法處理不平衡數(shù)據(jù)集,再用集成學(xué)習(xí)訓(xùn)練TSK 模糊模型,算法的步驟如下:
(1)從少數(shù)類(lèi)樣本中依次選取每個(gè)樣本,每次取得的樣本記為,計(jì)算該樣本到少數(shù)類(lèi)樣本中其他樣本的歐幾里德距離,得到樣本的個(gè)近鄰。
(2)設(shè)置采樣倍率,從的個(gè)近鄰中隨機(jī)抽取個(gè)樣本,將抽取的樣本記為x,=1,2,…,。取決于數(shù)據(jù)的不平衡程度。
(3)將x中的樣本分別與原樣本進(jìn)行線性插值操作構(gòu)建新的樣本,構(gòu)建方式如式(10)所示。其中為新產(chǎn)生的樣本,表示0 到1 之間的隨機(jī)數(shù)。
(4)使用新合成的樣本與原樣本一起組成新的平衡數(shù)據(jù)集,新數(shù)據(jù)集的樣本個(gè)數(shù)為。
圖1 不平衡數(shù)據(jù)的集成TSK 模糊模型的構(gòu)建流程Fig.1 Steps of ensemble TSK fuzzy models for imbalanced data
(5)初始化新數(shù)據(jù)集中所有樣本的權(quán)值,用表示,=[,,…,w],初始值全部設(shè)置為1/。設(shè)置閾值(0 <<1),設(shè)置集成學(xué)習(xí)中的模型數(shù)量和當(dāng)前迭代次數(shù)=1。
(6)根據(jù)權(quán)值分布對(duì)數(shù)據(jù)集隨機(jī)采樣,組成數(shù)據(jù)集。
(7)在數(shù)據(jù)集上使用FCM 算法生成聚類(lèi)。
(8)在生成的模糊聚類(lèi)的基礎(chǔ)上構(gòu)建模糊模型作為集成學(xué)習(xí)的第個(gè)子模型,并按照式(6)和式(7)計(jì)算模型的預(yù)測(cè)值Y()。
(12)判斷是否滿足停止條件:若<,令=+1,并轉(zhuǎn)到步驟(6),否則結(jié)束迭代。
(13)計(jì)算集成模型的最終輸出:
算法的時(shí)間復(fù)雜度主要分為兩步,分別對(duì)應(yīng)于算法過(guò)程的過(guò)采樣過(guò)程與集成學(xué)習(xí)兩部分。過(guò)采樣時(shí),若少數(shù)類(lèi)樣本數(shù)量為,特征數(shù)為,采樣倍率為,由算法步驟(2)到(3)知,對(duì)于每一個(gè)樣本,都要生成個(gè)新樣本,且每個(gè)新樣本都有個(gè)特征,需要進(jìn)行三種循環(huán),每次迭代的復(fù)雜度依次為()、()、(),則總的時(shí)間復(fù)雜度為()。在集成模型中,由步驟(5)知模糊模型數(shù)量為,則每次迭代的復(fù)雜度依次為()。由步驟(7)和(8)知每次迭代中都要在模糊聚類(lèi)的基礎(chǔ)上構(gòu)建模糊模型,如果樣本數(shù)量為,聚類(lèi)數(shù)量為,用表示FCM 算法的迭代次數(shù),則FCM 算法的復(fù)雜度為(),再按照式(9)計(jì)算規(guī)則后件參數(shù),使用式(6)計(jì)算模型輸出,可得一階模型的時(shí)間復(fù)雜度為((+1)+(+1)+(+1)),可化簡(jiǎn)為(),因此一階TSK 模型的時(shí)間復(fù)雜度為(+),一階集成TSK 模型的時(shí)間復(fù)雜度為(+)。同樣的,由式(7)得二階TSK 模型復(fù)雜度為(+),二階集成TSK 模型為(+)。綜上,一階模型算法總時(shí)間復(fù)雜度為(++),二階模型算法總時(shí)間復(fù)雜度為(++),改進(jìn)后的算法在時(shí)間復(fù)雜度上的影響較小。
為了驗(yàn)證所提出模型的總體性能,本章中對(duì)提出的算法在KEEL 數(shù)據(jù)集網(wǎng)站(http://www.keel.es/)和UCI 數(shù)據(jù)集網(wǎng)站(http://archive.ics.uci.edu/ml)上的不同數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),這些數(shù)據(jù)集都為二分類(lèi)數(shù)據(jù)集,將被用來(lái)比較TSK 模糊模型、集成TSK 模糊模型(ensemble TSK fuzzy models,ETSK)、不平衡數(shù)據(jù)的集成TSK 模糊模型(ensemble TSK fuzzy models for imbalance data,ETSK-ID)三種模型下的效果。數(shù)據(jù)集的具體信息如表1 所示。實(shí)驗(yàn)中的采樣倍率根據(jù)數(shù)據(jù)的不平衡度確定,這些數(shù)據(jù)集的不平衡程度約為3∶1,則將采樣倍率設(shè)置為2。
為了保證實(shí)驗(yàn)結(jié)果的真實(shí)準(zhǔn)確,每個(gè)數(shù)據(jù)集都采用十折交叉驗(yàn)證,將數(shù)據(jù)集隨機(jī)分成10 份,輪流將其中的9 份作為訓(xùn)練數(shù)據(jù),1 份作為測(cè)試數(shù)據(jù)進(jìn)行實(shí)驗(yàn),計(jì)算10 次結(jié)果的平均值和標(biāo)準(zhǔn)差作為對(duì)模型精度的最終結(jié)果。將算法中的加權(quán)指數(shù)設(shè)置為2,這是聚類(lèi)中最常用的值。閾值設(shè)置為0.01,如果閾值設(shè)置得過(guò)低,就很難產(chǎn)生足夠數(shù)量的正確預(yù)測(cè);如果閾值設(shè)置得過(guò)高,就會(huì)只有一些異常的離群值被訓(xùn)練。經(jīng)過(guò)本文的實(shí)驗(yàn),這個(gè)閾值在這幾個(gè)數(shù)據(jù)集上都能取得較好的效果。而2.1 節(jié)中提到權(quán)值更新參數(shù)取2 為宜,過(guò)大或過(guò)小都會(huì)影響性能。以magic數(shù)據(jù)集為例,取1、2、3 時(shí)的ETSK-ID 均方誤差分別為0.115 9、0.114 8、0.120 5。
表1 數(shù)據(jù)集概要Table 1 Summary of datasets
為了說(shuō)明所提出算法的有效性,在表2 與表3 中分別給出了一階模型與二階模型下,TSK、ETSK 和ETSK-ID 三者的均方誤差。將規(guī)則數(shù)量設(shè)置為9,使用集成學(xué)習(xí)時(shí)模糊模型的數(shù)量選擇為6,這樣的參數(shù)設(shè)置下模型通??梢匀〉米銐蚝玫慕Y(jié)果,具體的參數(shù)設(shè)置將在后文中討論。不僅如此,本文還進(jìn)一步采用精度作為衡量標(biāo)準(zhǔn),列舉了二階情況下各模型的對(duì)比,結(jié)果在表4 中給出。
表2 各種一階模型的均方誤差(c=9,T=6)Table 2 MSE obtained for various first-order models (c=9,T=6)
表3 各種二階模型的均方誤差(c=9,T=6)Table 3 MSE obtained for various second-order models(c=9, T=6)
表4 各種二階模型的精度(c=9,T=6)Table 4 Accuracy obtained for various second-order models (c=9, T=6)%
在圖2 中直觀展示了使用模型后的提升效果,圖左邊為一階模型下TSK、ETSK 和ETSK-ID 的均方誤差對(duì)比,圖右邊為二階模型下TSK、ETSK 和ETSKID 的均方誤差對(duì)比??梢钥吹?,由于二階模糊模型中規(guī)則后件參數(shù)更多,輸入屬性的數(shù)量較多會(huì)提升線性函數(shù)的性能,使得二階模糊模型比一階模糊模型精度更高,且無(wú)論是使用一階模型還是二階模型,ETSK 都比TSK 性能更好,因?yàn)榧蓪W(xué)習(xí)將多個(gè)TSK模糊模型相結(jié)合,通??梢垣@得比單一TSK 模糊模型更加優(yōu)越的泛化性能,而ETSK-ID 的性能還能進(jìn)一步提升,這是因?yàn)閿U(kuò)充了少數(shù)類(lèi)樣本之后,使模型增加了對(duì)少數(shù)類(lèi)的偏向,這證明了本文算法在不平衡數(shù)據(jù)集上的有效性。但banana、banknote 等數(shù)據(jù)集在二階模型下過(guò)采樣之后的性能提升較小,這可能是因?yàn)閿?shù)據(jù)集已經(jīng)得到了比較充分的訓(xùn)練,因此與一階模型相比波動(dòng)更小。
圖2 在不同數(shù)據(jù)集上的模型MSE 值Fig.2 MSE of models on different datasets
模糊模型的優(yōu)化與FCM 算法中的主要參數(shù)有關(guān),即模糊系數(shù)和聚類(lèi)中心,聚類(lèi)中心與模型中的規(guī)則數(shù)量相同。一般認(rèn)為,聚類(lèi)中心數(shù)量越大,模型的準(zhǔn)確率越高,但數(shù)量太高會(huì)導(dǎo)致模型復(fù)雜度過(guò)高,而在集成學(xué)習(xí)中,模型數(shù)量對(duì)模型的性能有最直接的影響。因此,本文將針對(duì)規(guī)則數(shù)和模型數(shù)分析二者對(duì)模型的影響。
對(duì)于ETSK-ID 模型,針對(duì)不同數(shù)量的子模型尋找最優(yōu)的結(jié)果。由于二階ETSK-ID 模型的預(yù)測(cè)精度更高,將詳細(xì)展示二階ETSK-ID 模型下參數(shù)設(shè)置對(duì)輸出結(jié)果的影響。在合適的規(guī)則數(shù)量(如=9)的前提下,使用不同數(shù)量的模糊模型,分別計(jì)算它們的均方誤差,結(jié)果在圖3 中給出。在圖4 中,再探究規(guī)則數(shù)對(duì)性能的影響,當(dāng)模型數(shù)量設(shè)置適當(dāng)(如=6)時(shí),通過(guò)改變規(guī)則數(shù)量觀察它對(duì)均方誤差大小的影響。
從圖3 中可以看到,ETSK-ID 模型中模糊模型的數(shù)量較少時(shí),模糊模型的數(shù)量對(duì)模型性能的影響更加顯著,通常模糊模型數(shù)量越多,模型性能越好,當(dāng)模型增加到一定數(shù)量之后,模型的均方誤差的變化減小,這是因?yàn)榧赡:P碗S著訓(xùn)練的增加,系統(tǒng)已經(jīng)較為穩(wěn)定。再繼續(xù)提升模型數(shù)量,系統(tǒng)性能反而會(huì)下降,因?yàn)閷?duì)于加權(quán)投票制的集成模型,并不是模型數(shù)量越多預(yù)測(cè)越準(zhǔn)確,在本文使用的這些數(shù)據(jù)集中,最佳的模型數(shù)量大約為6 到8。
圖4 中的數(shù)據(jù)表示,一般情況下,ETSK-ID 模型規(guī)則數(shù)(聚類(lèi)數(shù))越多,模型精度越高,這是因?yàn)榫垲?lèi)越多,聚類(lèi)的過(guò)程就更有能力捕獲數(shù)據(jù)的詳細(xì)結(jié)構(gòu)。但在一些數(shù)據(jù)集上,聚類(lèi)數(shù)太大也會(huì)導(dǎo)致模型精度降低,因?yàn)榫垲?lèi)越多會(huì)導(dǎo)致模型越復(fù)雜,也會(huì)導(dǎo)致規(guī)則庫(kù)的可讀性降低。
圖3 在不同數(shù)據(jù)集上模型數(shù)量對(duì)性能的影響Fig.3 Impact of the number of models on performance on different datasets
圖4 在不同數(shù)據(jù)集上規(guī)則數(shù)量對(duì)性能的影響Fig.4 Impact of the number of rules on performance on different datasets
總之,本文比較了不平衡數(shù)據(jù)集與過(guò)采樣之后的平衡數(shù)據(jù)集在集成模糊模型上的總體性能。首先,采用AdaBoost 集成方法,結(jié)合不同的模糊模型來(lái)降低單個(gè)模型預(yù)測(cè)的方差,使得模型具有更高的準(zhǔn)確性與穩(wěn)定性。然后,加入SMOTE 過(guò)采樣算法,讓模型更加關(guān)注少數(shù)類(lèi),提高模型在不平衡數(shù)據(jù)集的精度。實(shí)驗(yàn)結(jié)果表明,所提出的算法能實(shí)現(xiàn)比原始模型更好的性能,平衡的數(shù)據(jù)集預(yù)測(cè)效果比不平衡數(shù)據(jù)集更好,且在一定范圍內(nèi),隨著集成學(xué)習(xí)中模型數(shù)量和TSK 模糊模型中規(guī)則數(shù)量的增加,模型性能隨之提高。這是一個(gè)普遍趨勢(shì),但這二者過(guò)大也會(huì)導(dǎo)致預(yù)測(cè)效果變差,對(duì)于模型數(shù)量與規(guī)則數(shù)量,并沒(méi)有一個(gè)確切的數(shù)值使系統(tǒng)性能一定會(huì)更好,因?yàn)樾阅苋Q于數(shù)據(jù)。
本研究使用SMOTE 方法來(lái)形成平衡的數(shù)據(jù)集,再使用針對(duì)TSK 模型的集成方法,形成了訓(xùn)練不平衡數(shù)據(jù)的集成TSK 模糊模型,并報(bào)告了一系列實(shí)驗(yàn)結(jié)果。主要結(jié)果表明,對(duì)不平衡數(shù)據(jù)的TSK 模糊集成模型可以獲得更好的性能。未來(lái)的工作中,仍然有一些問(wèn)題有待研究,應(yīng)建立一些其他類(lèi)型的模糊模型、集成方法和過(guò)采樣算法,或?qū)ふ易顑?yōu)的規(guī)則數(shù)、模型數(shù)和閾值,并在其他的一些領(lǐng)域?qū)嵤┻@些模型。