張 進, 李 超, 劉孫俊
(成都信息工程學院計算機學院,四川成都 610225)
隨著計算機和網(wǎng)絡的飛速發(fā)展,信息技術(shù)的不斷發(fā)展和普及,人類積累的數(shù)據(jù)量以指數(shù)級的方式增長,并且在網(wǎng)絡上還存在著各種豐富的數(shù)據(jù)資源。不過與數(shù)據(jù)量的增長迅速形成了鮮明的對比,人類分析數(shù)據(jù)的能力和從數(shù)據(jù)中提取知識的能力卻與之存在著相當大的差距,大量的數(shù)據(jù)被收集在大型數(shù)據(jù)庫中常年不被訪問,造成了”數(shù)據(jù)墳墓”。因此如何有效、科學、合理、正確地應用這些數(shù)據(jù)擺在了科學家的面前,知識挖掘技術(shù)就在這個時候產(chǎn)生了。但是對大量數(shù)據(jù)分析和挖掘時遇到了很大的問題,大量的數(shù)據(jù)具有不完全、模糊、冗余的特性,只有很少一部分能夠滿足數(shù)據(jù)挖掘算法的要求,因此需要對數(shù)據(jù)進行預處理,并且需要去除其中無意義的成分,粗糙集理論由此誕生了。
粗糙集理論是由波蘭杰出的數(shù)學家Z.Pawlak在1982年提出來的一種數(shù)據(jù)分析理論,剛開始時主要集中在東歐國家,當時并沒有引起國際計算機界和數(shù)學界的重視,直到1990年左右該理論在數(shù)據(jù)的知識發(fā)現(xiàn),模式識別,決策與分析中的成功應用才引起了各國學者的廣泛關注。1991年Z.Pawlak的專著《粗糙集一關于數(shù)據(jù)推理的理論》的問世,標志著粗糙集理論及其應用的研究進入活躍時期[1-2]。
粗糙集理論是一種刻畫不完整性和不精確性的數(shù)學工具,能夠有效地分析和處理不完備性數(shù)據(jù),通過發(fā)現(xiàn)其中的隱藏關系,從而提取出有效數(shù)據(jù)揭示其規(guī)律,簡化信息處理。屬性約簡算法是粗糙集理論的核心內(nèi)容之一。
中國是一個自然災害頻繁的國家,而洪水災害則是對整個社會經(jīng)濟發(fā)展影響最大的自然災害之一。僅僅依靠工程防洪根本無法抵御洪水的侵襲,所以在建立完善的防洪工程體系的基礎上通過災情評估,防洪調(diào)度等非工程措施對于實現(xiàn)防洪減災的正規(guī)化和現(xiàn)代化具有非常重要的意義。洪水災害風險評估是一項復雜的系統(tǒng)工程,涉及到社會,經(jīng)濟等諸多方面,選擇洪水災害評估指標是進行洪水災害評估的前提和關鍵。此前的洪水風險評估一般都是集中在評估算法的優(yōu)化,而用于評估的指標都是由專家根據(jù)經(jīng)驗和知識總結(jié)出來的,為了評估的準確性可能一些并沒有意義或者對洪水風險評估不起作用的指標也被加入指標體系,從而導致參照的指標多達上百個,嚴重影響了評估算法的精確度和收斂速度。
通過對粗糙集中屬性約簡算法的研究,首次提出對用于洪水風險評估的指標進行約簡,剔除無意義的指標,然后利用約簡后的屬性進行風險評估,不僅降低了專家在對指標進行打分時的模糊性,并且提高風險評估的準確性和效率[3-4]。
粗糙集理論是處理不精確和不完備問題的數(shù)學工具,主要思想是在保持分類能力不變的前提下通過約簡導出問題的分類規(guī)則。
定義1 設非空集U是我們感興趣的對象組成的非空有限集合,稱為論域。
定義2 設R施U上的一個等價關系,U/R表示R的所有等價類構(gòu)成的集合。
定義3 給定一個論域U和U上的一簇等價關系,若P?S且P≠?,則∩P仍是論域U上的一個等價關系,稱為P上的不可分辨關系,記為 IND(P)。
顯然不可區(qū)分關系是一個等價關系,U/IND(P)表示不可區(qū)分關系 IND(P)在論域U上形成的一個區(qū)分,稱為U的一個知識,可以簡記為 U/P。
屬性約簡是粗糙集理論的核心內(nèi)容之一,所謂屬性約簡就是在保持知識庫分類能力不變的前提下刪除其中不相關或不重要的屬性。
定義4 給定一個知識庫K=(U,S)和知識庫中的一個等價關系簇P?S,∨P∈P若IND(P)=IND(P-{R})成立,則稱知識 R為P中不必要的,否則稱R為P中必要的。其中必要的條件屬性組成的集合稱為核。
定義5 給定一個知識庫K=(U,S)和知識庫中的一簇等價關系P?S,對任意的G?P,若G滿足以下兩條:
(1)G是獨立的;
(2)IND(G)=IND(P);
則稱G是P的一個約簡,記為G∈RED(P)。其中RED(P)表示P的全體約簡組成的集合。
顯然,知識的任何一個約簡與知識本身對數(shù)據(jù)庫中的任意一個范疇的表達都是等同的,即它們對論域的分類能力相同。一般而言,知識約簡不唯一,可以有多種約簡。
粗糙集理論對給定的對象集合由若干個屬性描述,對象按照屬性的取值情況分成若干個等價類,統(tǒng)一等價類中的對象不可區(qū)分[5]。
定義8 對于決策表 T=(U,A,V,F),A=C∪D,C∩D=?,C為條件屬性集,D為決策屬性集,可以用類似的方法計算其相對約簡和相對核。
定義9 令S=(U,A,V,F)是一個只是表達系統(tǒng),|U|=n,決策表S的區(qū)分矩陣是一個n*n矩陣。
基于區(qū)分矩陣的約簡算法的基本過程一般如下:
(1)基于決策表生成區(qū)分矩陣;
(2)從區(qū)分矩陣中找到屬性組合數(shù)為1的屬性,即為核屬性;
(3)從區(qū)分矩陣中找到不包含核屬性的條件屬性組合;
(4)將這些條件屬性組合轉(zhuǎn)化成合取范式的形式,并且利用吸收率進行約簡;
(5)根據(jù)要求選擇合適的約簡。
因為當決策表條件屬性很多時,基于區(qū)分矩陣的屬性約簡算法邏輯轉(zhuǎn)換運算代價太大,計算復雜度很大,所以本過程利用任何一個相對約簡都包含核屬性這一特性對基于屬性依賴度的約簡算法進行改進,將大大降低計算的復雜度[6]。
根據(jù)區(qū)分矩陣中屬性的特點,可以得知,區(qū)分矩陣中某個屬性出現(xiàn)的頻率越大和它所在的項越短,則該屬性的潛在區(qū)分能力就會越大,該屬性就會越重要
因此可以得到屬性的重要性函數(shù):
其中k為項長,指屬性a是否出現(xiàn)在該項中,如果出現(xiàn)則值為1,否則值為0。該函數(shù)能夠很好的體現(xiàn)屬性的重要性,因此把其作為啟發(fā)函數(shù)。
由區(qū)分矩陣可以得知,區(qū)分矩陣中的每一項與系統(tǒng)的約簡都不為空,因為如果為空就說明該約簡對該兩個對象不可區(qū)分。可以根據(jù)區(qū)分矩陣中屬性長度為1的作為核元素,在區(qū)分矩陣中凡是含有約簡中屬性的項都可以用約簡代替。因此可以將這些項直接置空,從而得到過濾矩陣。
綜上得到約簡算法的步驟:
(1)根據(jù)構(gòu)造的區(qū)分矩陣得到核元素,既項長為1的就是核元素;
(2)利用核元素對約簡進行初始化,然后用約簡和區(qū)分矩陣中的每一項進行與運算,將結(jié)果不為空的項刪除,從而得到過濾矩陣;
(3)利用上述的啟發(fā)函數(shù)對約簡以外的屬性計算重要性,將屬性重要性最大的屬性加入到約簡中;
(4)計算約簡與區(qū)分矩陣中每一項的交集,如果為空則結(jié)束,否則轉(zhuǎn)到(3);
(5)返回約簡。
首先應該選定進行洪水風險評估的特定地區(qū),這里選定武漢市作為洪水風險評估的區(qū)域。
通過詢問專家和實地調(diào)查得到可能影響該地洪水風險的因子包括:地形,植被,土壤含水量,降雨,水庫分布,人口密度,耕地面積,人均收入水平,水利設施建設,防災意識,河網(wǎng)密度,年齡結(jié)構(gòu),健康狀況,教育程度,基礎設施密度,生產(chǎn)總值等。
通過查詢1991~2005年《中國城市統(tǒng)計年鑒》中武漢市當時相關統(tǒng)計數(shù)據(jù)和中國氣象科學數(shù)據(jù)共享服務網(wǎng)中暴雨洪澇災害數(shù)據(jù)集、中國地面國際交換站氣候標準值年值數(shù)據(jù)集、中國農(nóng)作物生長發(fā)育和農(nóng)田土壤濕度旬值數(shù)據(jù)集得到武漢市對應各屬性的數(shù)值。
表1是通過對上述查詢數(shù)據(jù)進行一致性處理:即根據(jù)一定的標準劃分等級,這里采用中華人民共和國水利部于1994年6月2日發(fā)布的防洪標準(GB50201-94),其中決策屬性劃分為特大洪水,大洪水,小洪水,無4個等級;而條件屬性則根據(jù)防洪標準劃分為4個等級,然后再根據(jù)等級數(shù)據(jù)構(gòu)造洪水信息決策表。
表1 歷年洪水信息決策表
根據(jù)區(qū)分矩陣的定義,可以知道區(qū)分矩陣具有如下性質(zhì):首先,區(qū)分矩陣是一個對稱矩陣,因此只需要計算上三角矩陣或者下三角矩陣就可以了。其次可以根據(jù)定義得知區(qū)分矩陣的元素內(nèi)容是由區(qū)分兩個對象的屬性構(gòu)成的:當兩個對象的條件屬性和決策屬性完全相同時,則它們所對應的區(qū)分矩陣的元素為0;當兩個對象可以通過條件屬性取值不同加以區(qū)分時,則它們所對應的區(qū)分矩陣元素取值為這兩個對象不同的條件屬性集合;當這兩個對象的所有條件屬性取值相同而決策屬性取值不同時,則對應的區(qū)分矩陣中的元素取值為空。
表2是根據(jù)歷年洪水信息決策表構(gòu)建的區(qū)分矩陣,由于區(qū)分矩陣是對稱矩陣,所以這里只計算了下三角矩陣。
表2 區(qū)分矩陣
從區(qū)分矩陣中找到屬性組合數(shù)為1的條件屬性,則這些條件屬性的組合即為核屬性,得到的核屬性是降雨,將核屬性加入到約簡集中。
表3 過濾矩陣
表3就是用約簡集和區(qū)分矩陣中的每一項進行與操作后得到的過濾矩陣,然后根據(jù)過濾矩陣計算矩陣中所有屬性的重要性:
由以上計算可知,在過濾矩陣中重要性最大的是d(國民生產(chǎn)總值),因此將d加入到約簡集中,然后再次用約簡集與過濾矩陣相交,得到新的過濾矩陣,再按屬性的重要度依次將屬性加入到約簡集中,直到約簡集與過濾矩陣的相交為空,返回約簡集。
得到的相對約簡包括的條件屬性:降雨,國民生產(chǎn)總值,植被覆蓋率,人口密度,財產(chǎn)密度,基礎設施密度,中小企業(yè)密度,防洪設施建設。
由于在此應用的是粗糙集的基于區(qū)分矩陣的約簡算法,能夠得到所有約簡,因此這里還需要專家根據(jù)經(jīng)驗選擇合適的約簡作為指標集構(gòu)建風險評估指標體系。用約簡的結(jié)果和以前一些用于洪水評估的指標進行對比,不難發(fā)現(xiàn)條件屬性中土壤含水量,地勢,國民受教育程度等因素都沒有被用于構(gòu)建評價指標體系。因為根據(jù)武漢市的歷史資料發(fā)現(xiàn)這些因素對武漢市的洪水災情并沒有起到作用,因此在這里對這些因素進行了刪除,以免影響后面進行的風險評估。
圖1是武漢市的洪水風險評估的指標體系,分為3層結(jié)構(gòu):第一層是該地區(qū)的洪水風險等級;第二層是因素集;第三層是子因素集。
圖1 洪水風險評估的指標體系
根據(jù)模糊層次分析法所建立的數(shù)學評估模型如下:
其中F為系統(tǒng)總得分,C為系統(tǒng)評估矩陣;S為專家評定的洪水風險的安全等級加權(quán)值;A為指標體系第二層的因素權(quán)重分配集;B為由Bi組成的總評估矩陣;Ai為第三層子因素的權(quán)重分配集;Ri各因素對應的評估矩陣,是由專家根據(jù)評語集即表4投票得出的[7-8]。
表4 洪水風險等級加權(quán)值
表5 洪水風險等級
應用模糊層次分析法進行洪水風險評估介紹:
(1)要采用層次分析法確定武漢市洪水評估指標因素的權(quán)重值:洪水風險評估指標體系遞減層次結(jié)構(gòu)的構(gòu)成確定了上下級之間的關系,可對每一層次各個因素相對于上一層某一準則的重要性進行兩兩比對,從而構(gòu)造出判斷矩陣。其中表6是因素層中各因素對于系統(tǒng)的權(quán)重所建立的判斷矩陣,求得的權(quán)重集是(0.45,0.27,0.10,0.18)。類似還需要求出子因素層中各子因素對于因素層中對應因素的權(quán)重判斷矩陣,并且求出權(quán)重集。
表6 判斷矩陣
(2)求得武漢市洪水風險的總得分:利用表4根據(jù)所建立的模糊層次評估模型計算得到的武漢市的風險評估得分為51。
(3)確定武漢市洪水風險等級:根據(jù)表5,武漢市的風險的風險評估得分為51屬于45-59范疇,因此風險等級為較差。
查看了武漢市2005年至今的洪水災害損失情況都是比較嚴重的,其中重大洪水兩次,排在了全國城市洪水損失的前列,可見評估得到的結(jié)果與武漢市的現(xiàn)實情況基本相符。因此在對武漢市的洪水風險進行評估時利用粗糙集約簡理論對用于評估的屬性集進行約簡,利用約簡后的屬性進行風險評估,最終的結(jié)果是可靠的。由此可見土壤,地勢等屬性對于武漢市的洪水風險評估是多余的,是可以剔除的,并不影響最終評估結(jié)果的準確性。
運用粗糙集理論的基于區(qū)分矩陣的改進的屬性約簡算法對洪水風險評估中的指標集進行了約簡,得到了在洪水風險評估中起作用的指標,剔除了無意義的指標,比傳統(tǒng)的專家投票等單純依靠經(jīng)驗的方法具有科學依據(jù)和數(shù)據(jù)支持。由于指標數(shù)量減少更易于專家對各個指標進行打分,提高了區(qū)域洪水風險評估的準確性和效率。因為應用粗糙集的屬性約簡算法需要大量的樣本數(shù)據(jù),當數(shù)據(jù)量不充足時可能會導致最終的結(jié)果出現(xiàn)偏差,所以在應用粗糙集的屬性約簡算法時應該保證樣本數(shù)據(jù)的正確性和充分性。
[1] 張文修,吳偉志,梁吉業(yè),李德.粗糙集理論與方法[M].北京:機械工業(yè)出版社,2002.
[2] 殷杰,柴毅,郭茂耘.應用粗糙集提取柴油機故障數(shù)據(jù)特征[J].計算機工程與應用,2011,(29).
[3] 劉新立.區(qū)域水災風險評估的理論與實踐[D].北京:北京師范大學,2000.
[4] 王保生,江西旱澇災害風險評估與農(nóng)業(yè)可持續(xù)發(fā)展[J].同濟大學學報(自然科學版),2005,(8):31-34.
[5] 梁蒙.基于粗糙集的屬性約簡算法研究[D].河南:河南大學,2011.
[6] 趙永安.基于粗糙集的屬性約簡算法研究[D].內(nèi)蒙古:內(nèi)蒙古大學,2008.
[7] 王為人.基于層次分析法的流域水資源配置權(quán)重測算[M].北京:中國林業(yè)出版社,1998.