鄭忠仁,程 勇,王 軍,,鐘水明,徐利亞
(1.南京信息工程大學(xué) 計算機與軟件學(xué)院,南京 210044; 2.南京信息工程大學(xué) 信息化建設(shè)與管理處,南京 210044;3.九江學(xué)院 信息科學(xué)與技術(shù)學(xué)院,江西 九江 332005)(*通信作者電子郵箱zrzheng@foxmail.com)
基于遺傳算法的氣象觀測數(shù)據(jù)區(qū)間值屬性約簡算法
鄭忠仁1*,程 勇2,王 軍1,2,鐘水明1,徐利亞3
(1.南京信息工程大學(xué) 計算機與軟件學(xué)院,南京 210044; 2.南京信息工程大學(xué) 信息化建設(shè)與管理處,南京 210044;3.九江學(xué)院 信息科學(xué)與技術(shù)學(xué)院,江西 九江 332005)(*通信作者電子郵箱zrzheng@foxmail.com)
針對氣象觀測數(shù)據(jù)采集目的性弱、數(shù)據(jù)冗余度較高以及觀測數(shù)據(jù)區(qū)間化中單值較多、等價類劃分精度低的問題,提出一種基于遺傳算法的氣象觀測數(shù)據(jù)區(qū)間值屬性約簡算法(MOIvGA)。首先,通過改進區(qū)間值相似度,使其能夠同時適用于單值等價關(guān)系判斷和區(qū)間值相似度分析;其次,通過改進自適應(yīng)遺傳算法,提高其收斂性;最后,通過仿真實驗證明,相對于運行自適應(yīng)遺傳屬性約簡(AGAv)算法求解最優(yōu)值,所提算法迭代代數(shù)減少了22代;在區(qū)間長度為1 h降水分類中,基于依賴度的區(qū)間值決策表λ-約簡(MOIvGA)平均分類準確率比RIvD算法提高了6.3%,對無雨的預(yù)測準確率提高了7.13%;同時約簡后的屬性子集顯著提高了分類準確率。由此可見,MOIvGA在區(qū)間值氣象觀測數(shù)據(jù)分析中能夠提高收斂速度以及分類準確率。
氣象觀測數(shù)據(jù);屬性約簡;區(qū)間值相似度;遺傳算法; 屬性子集
隨著信息化進程的加快和現(xiàn)代化探測儀、傳感器等信息采集技術(shù)不斷更新,以及人們對氣象服務(wù)的需求迅速增加,氣象監(jiān)測的密度和頻率也隨之大幅增加,數(shù)以萬計的氣象觀測數(shù)據(jù)成倍地增長,氣象大數(shù)據(jù)的格局已經(jīng)形成[1]。氣象觀測數(shù)據(jù)規(guī)模的迅速增長,不僅表現(xiàn)在數(shù)量上的增加,同時數(shù)據(jù)的維數(shù)也在急劇增加,即形成所謂的高維數(shù)據(jù)[2]。
由于氣象觀測數(shù)據(jù)在采集時目的性較弱,同時天氣現(xiàn)象的發(fā)生往往是由屬性集中的一部分的變化引起的,因此在氣象觀測大數(shù)據(jù)中屬性的冗余度較大。粗糙集理論作為一種處理模糊、不確定信息的數(shù)學(xué)工具,其核心內(nèi)容之一就是屬性約簡[3]。屬性約簡是指在保持知識庫分類能力不變的前提下,刪除冗余的屬性,簡化信息系統(tǒng),從而方便知識獲取[4]。氣象數(shù)據(jù)作為一種典型的時間序列行為數(shù)據(jù),在相當(dāng)一段時空范圍內(nèi)相關(guān)性較大。然而屬性約簡處理對象都是離散型的,必須將氣象要素數(shù)據(jù)離散為單值數(shù)據(jù),但這樣往往會造成處理結(jié)果在一定程度上物理意義不明確,造成知識的遺漏[5]。
因此,本文提出一種基于氣象數(shù)據(jù)離散化的區(qū)間值信息系統(tǒng)分析方案。相比于單值數(shù)據(jù),屬性區(qū)間化不僅可以減少計算量,還可以反映氣象要素在該段時間內(nèi)的變化情況;由于溫、濕度等氣象要素在相當(dāng)長的時間內(nèi)變化較小,隨著采樣頻率的增加,屬性區(qū)間化可以有效地降低相鄰時間內(nèi)同一屬性的值變化不大以及個別屬性值缺失對分類的影響;并且對于溫、濕度等連續(xù)性屬性可以根據(jù)區(qū)間值的長度判斷該段時間內(nèi)是否存在異常數(shù)據(jù)。
1982年粗糙集理論提出,經(jīng)過幾十年的發(fā)展,粗糙集理論廣泛應(yīng)用于各領(lǐng)域,并取得了豐碩的成果[6-12],例如模式識別與分類[10]、股票預(yù)測分析[11]、決策分析[12]等。屬性約簡作為粗糙集理論研究的重點,已有證明求解最小屬性約簡是一個NP-hard問題,即當(dāng)數(shù)據(jù)量增大時,問題復(fù)雜度將以指數(shù)增長[13],這也給傳統(tǒng)的屬性約簡算法帶來了挑戰(zhàn)。因此,當(dāng)前屬性約簡的研究主要集中在基于啟發(fā)式的屬性約簡。
目前,基于啟發(fā)式的單值信息系統(tǒng)的屬性約簡已經(jīng)很多。許多學(xué)者已經(jīng)逐漸意識到傳統(tǒng)屬性約簡的不足,開始深入研究區(qū)間值信息系統(tǒng)的屬性約簡。文獻[14]以一種優(yōu)勢關(guān)系來判定區(qū)間值的優(yōu)劣,一定程度上提高了算法的準確率。文獻[15]提出基于屬性依賴度和互信息的區(qū)間值啟發(fā)式約簡,并將其應(yīng)用于電力大數(shù)據(jù)中;但該文中僅依靠單個閾值限制等價類的劃分,誤分率較高。文獻[16]提出了一種α-極大相容類的概念,有效地提高了分類的近似精度;但其求取兩個區(qū)間的相似率分類粒度較粗,容易造成知識遺漏。文獻[17]提出了容差關(guān)系的概念,該方法有效利用區(qū)間值的特性,一定程度上降低了誤分率,提高了分類精度。
為了進一步提高屬性約簡的效率,融通其他優(yōu)化算法顯得十分必要。遺傳算法作為一種模擬生物進化的啟發(fā)式搜索算法,具有極好的全局搜索能力,同時具有自組織性、自適應(yīng)性以及并行性等特點;隨著多年來不斷地發(fā)展與完善,效率也大大提高,也使其在應(yīng)用領(lǐng)域都取得令人滿意的效果。而標準的遺傳算法交叉概率和變異概率通常使用常量系數(shù),導(dǎo)致收斂速度慢和容易早熟等問題。
基于此,本文提出了基于遺傳算法的氣象觀測數(shù)據(jù)區(qū)間值屬性約簡算法(Meteorological Observation data Interval-value attribute reduction algorithm based on Genetic Algorithm, MOIvGA)。針對氣象觀測數(shù)據(jù)的時空相關(guān)性,提出將屬性值域區(qū)間化,從而討論區(qū)間值信息系統(tǒng),增強算法的實用性;針對氣象觀測數(shù)據(jù)采集量大、屬性冗余度高等特點,利用遺傳算法的并行性和全局搜索能力等優(yōu)勢,將自適應(yīng)遺傳算法和粗糙集理論相結(jié)合應(yīng)用于氣象觀測數(shù)據(jù)進行屬性約簡,提高了約簡算法的性能。
2.1 區(qū)間值決策表的概念和性質(zhì)
2.1.1 區(qū)間值決策表概念
2.1.2 區(qū)間值決策表的相容類
粗糙集理論的核心是等價關(guān)系,對于單值決策表往往通過屬性值的等價關(guān)系實現(xiàn)對論域的劃分[15]。而與經(jīng)典粗糙集中的決策表(屬性值為單值)不同,在區(qū)間值決策表中,條件屬性值很難滿足完全等價,因此,通過等價關(guān)系對論域進行劃分就不再適用。為此,將區(qū)間值相似度引入到區(qū)間值決策表,用兩個區(qū)間的共同部分的大小來衡量區(qū)間的相似程度,從而通過區(qū)間值相似度實現(xiàn)對論域的劃分。
區(qū)間化的氣象觀測數(shù)據(jù)不同于其他區(qū)間值決策表,由于氣象觀測數(shù)據(jù)中存在一部分的隨機性數(shù)據(jù),例如降雨量、能見度等,當(dāng)這些氣象要素作為條件屬性時,可能存在恒為單值的情況,例如降水量為條件屬性時,無雨的天氣屬性值均為0。如果忽略這種情況,勢必影響分類的質(zhì)量。因此,本文將區(qū)間值相似度定義如下:
(1)
(2)
其中,card(*)表示區(qū)間值的長度。式(1)將單值數(shù)據(jù)視為區(qū)間值數(shù)據(jù)中的一個特例,此時的相似度公式同樣能夠滿足判斷單值屬性的等價關(guān)系。相似度作為衡量兩個區(qū)間值的近似等價程度,為區(qū)間值決策表論域的劃分提供了一種有效的度量標準。
文獻[16]中,算法僅通過α一個閾值來限制等價類的劃分可能導(dǎo)致某些知識被遺漏。例如α=0.7時,對象xi和xj的相似度為(0.9,0.9,0.9,0.69),這時依據(jù)文獻[16],對象xi和xj是不相容的。而事實上這種情況下的相容概率并不比(0.7,0.7,0.7,0.7)差,因此本文將近似等價關(guān)系的限制條件中加入了聯(lián)合相似度。定義如下:
定義3 設(shè)區(qū)間值決策表S=(U,C∪D,V,f),屬性子集A?C,α∈[0,1]為給定閾值,將區(qū)間值決策表中對象xi和xj關(guān)于屬性A的α-近似等價關(guān)系定義為:
(3)
2.1.3 區(qū)間值決策表的屬性依賴度
上面介紹的定義和性質(zhì)都是圍繞區(qū)間值決策表的條件屬性,并沒有涉及到?jīng)Q策表的決策屬性。定義區(qū)間值決策表的決策屬性D關(guān)于條件屬性子集A的正域為:
定義4[18]設(shè)區(qū)間值決策表S=(U,C∪D,V,f),α∈[0,1],決策屬性D對論域的劃分為{ω1,ω2,…,ωn},任意條件屬性子集A?C,則決策屬性D關(guān)于A的正域為:
(4)
定義5[15]正域的大小反映了分類問題在給定屬性空間中的可分離程度。為了度量條件屬性與決策屬性關(guān)系的重要程度,定義決策屬性D相對于條件屬性子集A的α-依賴度為:
(5)
定義6[15]設(shè)區(qū)間值決策表S=(U,C∪D,V,f),A?C,α∈[0,1],如果屬性子集A滿足以下條件,則稱屬性子集A是條件屬性C的一個α-約簡:
條件1)要求屬性子集保持決策表的分類能力不變;條件2)要求約簡中刪除冗余屬性。這與粗糙集屬性約簡的定義完全一致。
2.2 遺傳算法
遺傳算法以模擬生物進化過程來尋找最優(yōu)解,其一般由編碼、適應(yīng)度函數(shù)、選擇算子、交叉算子以及變異算子五部分組成[19]。
2.2.1 編碼方式
本文采用二進制染色體定長編碼的方式,即每個染色體都對應(yīng)一個條件屬性子集,染色體的每一位基因?qū)?yīng)一個條件屬性?;蛭蝗 ?”和“1”分別表示不選擇和選擇對應(yīng)的條件屬性。例如,在決策表S中,每個對象有6個條件屬性{a1,a2,a3,a4,a5,a6}。若求得一個可能的約簡為{a2,a3,a5,a6},則染色體應(yīng)表示為011011。
2.2.2 適應(yīng)度函數(shù)
適應(yīng)度函數(shù)是遺傳算法的關(guān)鍵步驟,控制著群體的進化方向,也是評價和選擇染色體的重要依據(jù)。根據(jù)粗糙集屬性約簡的定義可知,適應(yīng)度函數(shù)的目標是在滿足原分類質(zhì)量不變的同時使得染色體屬性個數(shù)盡可能少,因此,本文將屬性依賴度和條件屬性個數(shù)引入到適應(yīng)度函數(shù)中,定義如下:
(6)
2.2.3 選擇算子
選擇算子是指以何種方式選擇群體中的染色體來進行交叉和變異操作。本文采用適應(yīng)度比例選擇方法,即輪盤賭的方式選擇染色體,即每個染色體vi的適應(yīng)度值占所有染色體適應(yīng)度值總和的比例。具體定義如下:
(7)
以此作為染色體vi被挑選出來進行下一步操作。
2.2.4 交叉算子和變異算子
傳統(tǒng)遺傳算法的交叉概率和變異概率均是常量,很容易導(dǎo)致收斂速度慢和早熟等問題。自適應(yīng)遺傳算法則采用動態(tài)的交叉概率和變異概率一定程度上避免了這些現(xiàn)象[20]。算法早熟主要是因為種群中優(yōu)良染色體大量繁殖,以致占據(jù)整個種群,破壞了群體的多樣性。標準自適應(yīng)遺傳算法采用種群中最大適應(yīng)度值和平均適應(yīng)度值的差作為衡量收斂性的度量,而早熟往往是由適應(yīng)度值較大的染色體引起的,為了降低較差染色體對收斂性的影響,提出用最大適應(yīng)度值與適應(yīng)度值大于平均適應(yīng)度值染色體的平均適應(yīng)度值差值作為衡量標準。同時從算法的進化過程來看,隨著算法的進行交叉概率和變異概率應(yīng)該逐漸變小。
基于此,本文將交叉概率Pc和變異Pm分別定義如下:
(8)
(9)
其中:fmax為當(dāng)代種群中最大的適應(yīng)度值,ftmax為當(dāng)代種群中適應(yīng)度值大于平均適應(yīng)度值染色體的平均適應(yīng)度值;G為種群的進化代數(shù);b1、b2分別代表交叉概率和變異概率關(guān)于進化代數(shù)的變化曲率,通常均取最大遺傳代數(shù)的倒數(shù);C1和M1分別為交叉概率和變異概率的收斂極限;l1為控制因子,通常取0.2。
2.3 MOIvGA
屬性依賴度作為條件屬性對決策屬性重要性的度量,描述了條件屬性對分類的貢獻,因此可以作為屬性約簡中屬性重要程度的評價標準。而遺傳算法作為一種隱含并行性的啟發(fā)式搜索算法,常用來解決復(fù)雜的優(yōu)化問題。根據(jù)屬性約簡的定義將屬性依賴度和條件屬性個數(shù)作為遺傳算法適應(yīng)度函數(shù)的參數(shù),控制種群的進化方向。從而將粗糙集理論和遺傳算法相結(jié)合,借助遺傳算法模擬生物的進化過程,可使得種群不斷優(yōu)化,并在優(yōu)化過程中尋找全局最優(yōu)解。
算法1 基于遺傳算法的氣象觀測數(shù)據(jù)區(qū)間值屬性約簡算法(MOIvGA)。
輸入:S=(U,C∪D,V,f),α、b1、b2、C1、M1、l1、λ;
輸出:屬性約簡red。
步驟3 對任意ak∈C,若ak∈Core(C),即為核屬性,則對應(yīng)的染色體基因位為1;若ak?Core(C),則可隨機選擇,對應(yīng)的染色體基因位為0或1。
步驟4 根據(jù)式(5)分別計算決策屬性對群體中每個染色體的條件屬性依賴度值,再由式(6)計算每個染色體的適應(yīng)度值,并將染色體按適應(yīng)度值的大小進行排序,以淘汰概率np淘汰適應(yīng)度值較差的個體。
步驟5 進行選擇操作;并根據(jù)式(8)的交叉概率Pc選擇配對的染色體進行等基因片段交換操作。
步驟6 基本位變異,根據(jù)式(9)的變異概率Pm決定染色體是否進行變異操作,如果需要進行變異操作,則隨機選擇變異的基因位,當(dāng)選擇的屬性為核屬性時不發(fā)生變異,重新選取染色體其他屬性進行變異操作。
步驟7 判斷是否達到最大迭代次數(shù)和群體連續(xù)三代適應(yīng)度是否滿足||Fi-2-Fi-1|-|Fi-1-F||<ε,如果滿足一個則停止執(zhí)行,并輸出最優(yōu)染色體;否則轉(zhuǎn)步驟4。
α值需要根據(jù)數(shù)據(jù)的具體情況設(shè)定,其值的大小直接影響了分類的結(jié)果。α值越大,要求越嚴格,即相容類元素個數(shù)越少。為了檢驗MOIvGA的性能,對氣象觀測數(shù)據(jù)中影響降水量的相關(guān)因素進行屬性約簡測試,并且與文獻[15]中的基于依賴度的區(qū)間值決策表λ-約簡(λ-Reduction in Interval-valued decision table based on Dependence, RIvD)算法在算法性能方面進行了比較與評價。
3.1 實驗數(shù)據(jù)
氣象觀測數(shù)據(jù)是一種典型的時間序列數(shù)據(jù),每年的降水多集中在4—7月份,為了降低地域等因素對降水的影響,本文實驗僅采用相近四個氣象站點2016年4—7月份采集的10萬余條數(shù)據(jù)集,除去區(qū)站號、經(jīng)緯度以及時間,共有26個屬性(均為數(shù)值型)。并根據(jù)表1降水量等級劃分表將觀測數(shù)據(jù)中降水量改為對應(yīng)的等級,形成決策屬性,從而得到一個大型的決策表。
表1 降水量等價劃分表
屬性約簡是在不改變知識庫分類能力的前提下,刪除冗余屬性,因此評價約簡算法的性能還需用約簡的屬性子集進行分類預(yù)測,根據(jù)分類結(jié)果判斷約簡算法的優(yōu)劣。在分類預(yù)測時,測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)時間間隔相同,將測試結(jié)果與測試數(shù)據(jù)實際的決策屬性進行比較,統(tǒng)計預(yù)測正確的個數(shù),整個過程采用十折交叉計算分類準確率。MOIvGA中C1、M1分別取0.12、0.01。
3.2 結(jié)果與分析
3.2.1 遺傳算法收斂度
首先,為了驗證MOIvGA中改進的自適應(yīng)遺傳算法的性能,與標準的自適應(yīng)遺傳屬性約簡(Adaptive Genetic Attribute Reduction, AGAv)算法對區(qū)間長度為2 h的觀測數(shù)據(jù)運行比較。為了直觀地比較算法的收斂過程,將算法的終止條件設(shè)置為滿足最大迭代次數(shù)。由于種群初始化時,除核屬性外是隨機產(chǎn)生的,因此并不能保證兩種算法的初始最佳個體相同;同時數(shù)據(jù)集的屬性約簡往往不止一個,因此需要對兩種算法進行多次實驗,選取約簡屬性子集相同的兩次進化過程進行比較。選取的兩次進化過程如圖1所示。
圖1 最佳個體適應(yīng)度值變化過程
由圖1可知,MOIvGA和AGAv算法分別在23代和45代收斂到最優(yōu)解。根據(jù)圖中平均適應(yīng)度值變化過程可以看出,MOIvGA的進化也優(yōu)于AGAv算法。
為了更直觀比較兩種算法的進化過程,提出用遺傳算法收斂率來比較兩種算法的尋優(yōu)效率,收斂率為當(dāng)代最佳個體適應(yīng)度值和第一代最佳個體適應(yīng)度值的差值與最終收斂值的比值。兩種算法的收斂率變化如圖2所示。
圖2 兩種算法收斂率比較
由圖2可知,兩種算法最終的收斂率并未重合。這是由于兩種算法的初始化結(jié)果不同,即第一代最佳個體不同。從圖2還可以看出在進化的初期,兩種算法的收斂率差異不大,但隨著進化過程的進行,MOIvGA以更快的收斂率達到最優(yōu)解。這是由于前期種群多樣性復(fù)雜,種群中染色體變化較大。但隨著進化的進行,MOIvGA的保優(yōu)操作以及選擇操作的優(yōu)勢逐漸突顯出來,從而提高了算法的收斂速度。
3.2.2 不同時間間隔約簡的準確率
為了考察MOIvGA在氣象觀測數(shù)據(jù)中的有效性,將MOIvGA和文獻[15]中RIvD算法分別對時間間隔為30 min、1 h、2 h、3 h、6 h、12 h數(shù)據(jù)集進行約簡操作,并對約簡的屬性子集在K最近鄰(K-Nearest Neighbor,KNN)(K=3)分類器中進行分類預(yù)測,兩種算法的區(qū)間相似度均取0.7。結(jié)果如圖3所示。
圖3 不同時間間隔下的平均分類準確率
從圖3可以看出在時間間隔小于3 h的情況下,平均分類準確率均都能達到70%以上,間隔為1 h的情況下兩種算法的分類準確率均達到最高,并且 MOIvGA比RIvD算法提高了6.3%。而在6 h和12 h的時間間隔下,兩種算法的分類準確率都明顯下降。主要是由于氣象數(shù)據(jù)在相近時間內(nèi)的時空相關(guān)性較大,隨著時間間隔的增長,變化性因素較大,時空相關(guān)性的特征有所減弱;同時隨著間隔的增長,數(shù)據(jù)量大量減少。從圖中還可以看出MOIvGA整體的平均分類準確率都優(yōu)于RIvD算法,這是由于氣象數(shù)據(jù)在區(qū)間化后仍然有較多的單值數(shù)據(jù),而RIvD算法并不能處理單值數(shù)據(jù),以及MOIvGA中加入了聯(lián)合相似度的限制,使得MOIvGA約簡效果更好。
3.2.3 約簡前后數(shù)據(jù)準確率
為了進一步比較約簡后的屬性子集與原數(shù)據(jù)的分類能力,選取MOIvGA和RIvD算法對時間間隔為1 h約簡結(jié)果在KNN(K=2)分類器中進行降水等級分類預(yù)測,兩種算法的約簡結(jié)果如表2所示。在分類預(yù)測過程中的測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)均為同一數(shù)據(jù)集。分類結(jié)果如圖4所示。
由表2可知,MOIvGA剩余屬性個數(shù)少于RIvD算法。由于RIvD算法采用的是以屬性重要度為指標的前向搜索算法,即每次從屬性重要度中選擇最大的屬性逐個加入約簡集合中。而MOIvGA則用屬性依賴度和屬性個數(shù)兩個因素控制進化方向,并借助遺傳算法將多個個體作為可能解,從而在全局范圍內(nèi)尋找最優(yōu)解。因此一般情況下MOIvGA的約簡結(jié)果優(yōu)于RIvD算法。
表2 MOIvGA和RIvD算法的約簡結(jié)果
由圖4可知,兩種算法約簡的屬性子集的分類準確率均高于原數(shù)據(jù)。在無雨預(yù)測中,本文算法的分類準確率比RIvD算法提高了7.13%,比原數(shù)據(jù)提高了14.24%。但隨著降水等級的增加,分類準確率逐漸降低。這是由于分類預(yù)測準確率和樣本數(shù)據(jù)有著顯著的關(guān)系,隨著降水等級的增加,對應(yīng)的樣本數(shù)目大量減少,蘊含的信息量也大幅度減少,因此分類準確率也就很低。
圖4 KNN分類準確率
本文針對氣象觀測數(shù)據(jù)時空相關(guān)性較強的特點,提出將氣象觀測數(shù)據(jù)區(qū)間化,并借助改進的自適應(yīng)遺傳算法尋找全局最優(yōu)解。通過實驗證實,MOIvGA能夠以較快的速度收斂到最優(yōu)解。對不同區(qū)間長度的氣象觀測數(shù)據(jù)降水影響因素約簡中,MOIvGA在間隔為1 h的情況下優(yōu)勢最明顯。與原數(shù)據(jù)的分類預(yù)測算法相比,MOIvGA約簡的屬性子集有明顯的提高。MOIvGA在不影響數(shù)據(jù)的分類能力下,有效地降低了屬性維度,但單個節(jié)點的運算能力仍然有限,后期將圍繞如何在Map-Reduce分布式平臺下實現(xiàn)算法的并行化處理,從而應(yīng)用在實際的氣象大數(shù)據(jù)環(huán)境。
References)
[1] 白雪.氣象領(lǐng)域事件挖掘相關(guān)問題的研究[D].上海:復(fù)旦大學(xué),2013:1-10.(BAI X. Research on relevant issues of event mining in meteorological field [D]. Shanghai: Fudan University, 2013: 1-10.)
[2] 趙方霞.基于氣象數(shù)據(jù)的數(shù)據(jù)挖掘算法研究[D].北京:北方工業(yè)大學(xué),2011:1-14.(ZHAO F X. Research on data mining algorithm based on the meteorological data[D]. Beijing: North China University of Technology, 2011: 1-14.)
[3] LI P, WU J, QIAN H. Groundwater quality assessment based on rough sets attribute reduction and TOPSIS method in a semi-arid area, China [J]. Environmental Monitoring and Assessment, 2012, 184(8): 4841-4854.
[4] CHANG S. A novel attribute reduction method based on rough sets and its application [J]. International Journal of Advancements in Computing Technology, 2012, 4(3): 99-104.
[5] 于瑩瑩,曾雪蘭,孫興星.優(yōu)勢關(guān)系下的區(qū)間值信息系統(tǒng)及其屬性約簡[J].計算機工程與應(yīng)用,2011,47(35):122-124.(YU Y Y, ZENG X L, SUN X X. Interval-valued information system based on dominance relation and its attribute reduction [J]. Computer Engineering and Applications, 2011, 47(35): 122-124.)
[6] ZENG A, PAN D, ZHENG Q L, et al. Knowledge acquisition based on rough set theory and principal component analysis [J]. IEEE Intelligent Systems, 2006, 21(2): 78-85.
[7] JEON G, KIM D, JEONG J. Rough sets attributes reduction based expert system in interlaced video sequences [J]. IEEE Transactions on Consumer Electronics, 2006, 52(4): 1348-1355.
[8] SINHA D, LAPLANTE P. A rough set-based approach to handling spatial uncertainty in binary images [J]. Engineering Applications of Artificial Intelligence, 2004, 17(1): 97-110.
[9] KAYA Y, UYAR M. A hybrid decision support system based on rough set and extreme learning machine for diagnosis of hepatitis disease [J]. Applied Soft Computing, 2013, 13(8): 3429-3438.
[10] ASHARAF S, MURTY M N. A rough fuzzy approach to web usage categorization [J]. Fuzzy Sets & Systems, 2004, 148(1): 119-129.
[11] CHENG C H, CHEN T L, WEI L Y. A hybrid model based on rough sets theory and genetic algorithms for stock price forecasting [J]. Information Sciences, 2010, 180(9): 1610-1629.
[12] GRECO S, MATARAZZO B, SLOWINSKI R. Rough sets theory for multicriteria decision analysis [J]. European Journal of Operational Research, 2001, 129(1): 1-47.
[13] ZHAO H, MIN F, ZHU W. Test-cost-sensitive attribute reduction based on neighborhood rough set [C]// Proceedings of the 2011 IEEE International Conference on Granular Computing. Piscataway, NJ: IEEE, 2011: 802-806.
[14] 楊青山,王國胤,張清華,等.基于優(yōu)勢關(guān)系的區(qū)間值粗糙集擴充模型[J].山東大學(xué)學(xué)報(理學(xué)版),2010,45(9):7-13.(YANG Q S, WANG G Y, ZHANG Q H, et al. The interval-valued rough set extended model based on the dominance relation [J]. Journal of Shandong University (Natural Science), 2010, 45(9): 7-13.)
[15] 徐菲菲,雷景生,畢忠勤,等.大數(shù)據(jù)環(huán)境下多決策表的區(qū)間值全局近似約簡[J].軟件學(xué)報,2014,25(9):2119-2135.(XU F F, LEI J S, BI Z Q, et al. Approaches to approximate reduction with interval-valued multi-decision tables in big data [J]. Journal of Software, 2014, 25(9): 2119-2135.)
[16] 張楠,苗奪謙,岳曉冬.區(qū)間值信息系統(tǒng)的知識約簡[J].計算機研究與發(fā)展,2010,47(8):1362-1371.(ZHANG N, MIAO D Q, YUE X D. Approaches to knowledge reduction in interval-valued information systems [J]. Journal of Computer Research and Development, 2010, 47(8): 1362-1371.)
[17] 陳子春,秦克云.區(qū)間值信息系統(tǒng)在變精度相容關(guān)系下的屬性約簡[J].計算機科學(xué),2009,36(3):163-166.(CHEN Z C, QIN K Y. Attribute reduction of interval-valued information system based on variable precision tolerance relation [J]. Computer Science, 2009, 36(3): 163-166.)
[18] 賈凡,薛佩軍,許嘉.決策區(qū)間值信息系統(tǒng)的交互相容關(guān)系及屬性約簡[J].計算機科學(xué),2012,39(s3):245-248.(JIA F, XUE P J, XU J. Interactive tolerance relation in interval-valued decision table and attribute reduction [J]. Computer Science, 2012, 39(s3): 245-248.)
[19] 鄧剛鋒,黃先祥,高欽和,等.基于改進型遺傳算法的虛擬人上肢運動鏈逆運動學(xué)求解方法[J].計算機應(yīng)用,2014,34(1):129-134. (DENG G F, HUANG X X, GAO Q H, et al. Solution method for inverse kinematics of virtual human’s upper limb kinematic chain based on improved genetic algorithm [J]. Journal of Computer Applications, 2014, 34(1):129-134.)
[20] 孫越泓,魏建香,夏德深.基于自適應(yīng)遺傳算法的B樣條曲線擬合的參數(shù)優(yōu)化[J].計算機應(yīng)用,2010,30(7):1878-1882.(SUN Y H, WEI J X, XIA D S. Parameter optimization for B-spline curve fitting based on adaptive genetic algorithm [J]. Journal of Computer Applications, 2010, 30(7): 1878-1882.)
Interval-valueattributereductionalgorithmformeteorologicalobservationdatabasedongeneticalgorithm
ZHENG Zhongren1*, CHENG Yong2, WANG Jun1,2, ZHONG Shuiming1, XU Liya3
(1.SchoolofComputer&Software,NanjingUniversityofInformationScienceandTechnology,NanjingJiangsu210044,China;2.InformationConstructionandManagementDepartment,NanjingUniversityofInformationScienceandTechnology,NanjingJiangsu210044,China;3.SchoolofInformationScienceandTechnology,JiujiangUniversity,JiujiangJiangxi332005,China)
Aiming at the problems that the purpose of the meteorological observation data acquisition is weak, the redundancy of data is high, and the number of single values in the observation data interval is large, the precision of equivalence partitioning is low, an attribute reduction algorithm for Meteorological Observation data Interval-value based on Genetic Algorithm (MOIvGA) was proposed. Firstly, by improving the similarity degree of interval value, the proposed algorithm could be suitable for both single value equivalence relation judgment and interval value similarity analysis. Secondly, the convergence of the algorithm was improved by the improved adaptive genetic algorithm. Finally, the simulation experiments show that the number of the iterations of the proposed algorithm is reduced by 22, compared with the method which operated AGAv (Adaptive Genetic Attribute reduction) algorithm to solve the optimal value. In the time interval of 1 hour precipitation classification, the average classification accuracy of the MOIvGA (λ-Reduction in Interval-valued decision table based on Dependence) algorithm is 6.3% higher than that of RIvD algorithm; the accuracy of no rain forecasting is increased by 7.13%; at the same time, the classification accuracy can be significantly impoved by the attribute subset
by operating the MOIvGA algorithm. Therefore, the MOIvGA algorithm can increase the convergence rate and the classification accuracy in the analysis of interval value meteorological observation data.
meteorological observation data; attribute reduction; interval-value similarity; genetic algorithm; attribute subset
2017- 03- 17;
2017- 04- 25。
國家自然科學(xué)基金資助項目(61402236, 61373064); 江蘇省“六大人才高峰”項目(2015-DZXX-015); 賽爾網(wǎng)絡(luò)下一代互聯(lián)網(wǎng)技術(shù)創(chuàng)新項目(NGⅡ20160318)。
鄭忠仁(1991—),男,江蘇淮安人,碩士研究生,主要研究方向:大數(shù)據(jù); 程勇(1980—),男,重慶人,高級工程師,博士,CCF會員,主要研究方向:無線傳感器網(wǎng)絡(luò)、大數(shù)據(jù); 王軍(1970—),男,安徽銅陵人,教授,博士,CCF會員,主要研究方向:無線傳感器網(wǎng)絡(luò)、大數(shù)據(jù);鐘水明(1971—),男,江西瑞金人,講師,博士,CCF會員,主要研究方向:人工神經(jīng)網(wǎng)絡(luò)、模式識別、數(shù)據(jù)挖掘; 徐利亞(1984—),男,江西九江人,講師,博士,主要研究方向:無線傳感器網(wǎng)絡(luò)、大數(shù)據(jù)。
1001- 9081(2017)09- 2678- 06
10.11772/j.issn.1001- 9081.2017.09.2678
TP18; TP301.6
A
This work is partially supported by the National Natural Science Foundation of China (61402236, 61373064), the “Six Talent Peaks Project in Jiangsu Province (2015-DZXX-015), CERNET Innovation Project (NGⅡ20160318).
ZHENGZhongren, born in 1991, M. S. candidate. His research interests include big data.
CHENGYong, born in 1980, Ph.D., senior engineer. His research interests include wireless sensor network, big data.
WANGJun, born in 1970, Ph. D., professor. His research interests include wireless sensor network, big data.
ZHONGShuiming, born in 1971, Ph. D., lecturer. His research interests include artificial neural network, pattern recognition, data mining.
XULiya, born in 1984, Ph. D., lecturer. His research interests include wireless sensor network, big data.