高天宇,王慶榮,楊 妍,馬辰坤
(蘭州交通大學(xué)電子與信息工程學(xué)院,蘭州 730070)
應(yīng)急信息化響應(yīng)是國(guó)家應(yīng)急管理體制的發(fā)展趨勢(shì),數(shù)據(jù)處理與分析方法作為應(yīng)急信息化響應(yīng)的基礎(chǔ),被應(yīng)用于應(yīng)急工作的各個(gè)階段。分析應(yīng)急數(shù)據(jù)的特點(diǎn)是應(yīng)急數(shù)據(jù)處理與分析的合理性保障,連續(xù)數(shù)據(jù)的離散化是數(shù)據(jù)分析與挖掘的關(guān)鍵預(yù)處理方法,其決定最終數(shù)據(jù)處理與挖掘結(jié)果的質(zhì)量。
連續(xù)數(shù)據(jù)的離散化方法包括有監(jiān)督離散化方法和無(wú)監(jiān)督離散化方法。常用的有監(jiān)督離散化方法包括信息熵[1]、粗糙集[2]以及類(lèi)-屬性關(guān)聯(lián)性[3-5]等離散化方法。信息熵離散化方法是一種基于數(shù)據(jù)混亂程度的不確定性計(jì)算方法;粗糙集離散化方法能較好地處理數(shù)據(jù)邊界的不確定性;類(lèi)-屬性關(guān)聯(lián)離散化方法可應(yīng)用于數(shù)據(jù)的自動(dòng)離散和混合過(guò)程[6-7]。無(wú)監(jiān)督離散化方法主要包括等寬離散化、等頻離散化、近似等頻離散化[8-10]以及聚類(lèi)離散化[11]等方法。等寬離散化方法能在不同區(qū)間保持原數(shù)據(jù)分布進(jìn)行離散,操作靈活簡(jiǎn)單;等頻離散化方法是基于數(shù)據(jù)頻率分布進(jìn)行離散;聚類(lèi)離散化方法是根據(jù)數(shù)據(jù)分布采用層次聚類(lèi)方式進(jìn)行離散。
目前關(guān)于有監(jiān)督離散化方法的研究重點(diǎn)針對(duì)離散化方法特點(diǎn)進(jìn)行[12],對(duì)無(wú)監(jiān)督離散化方法的研究主要圍繞數(shù)據(jù)特點(diǎn)展開(kāi)[13]。然而現(xiàn)有無(wú)監(jiān)督離散化方法對(duì)應(yīng)急數(shù)據(jù)特點(diǎn)考慮不足,其采用的時(shí)間序列離散化[14]方式不適用于多量級(jí)應(yīng)急數(shù)據(jù)離散。此外,在無(wú)監(jiān)督離散化方法中,當(dāng)應(yīng)急數(shù)據(jù)量小且數(shù)據(jù)間差異較大時(shí),如果僅以離散系數(shù)為指標(biāo)進(jìn)行離散,則會(huì)出現(xiàn)大量的離散類(lèi)數(shù)據(jù),導(dǎo)致離散結(jié)果失去指導(dǎo)意義。當(dāng)集中分布的數(shù)據(jù)存在多個(gè)量級(jí)差異時(shí),現(xiàn)有無(wú)監(jiān)督離散化方法難以找到全部有效的量級(jí)變化點(diǎn)。
針對(duì)應(yīng)急數(shù)據(jù)多量級(jí)差異的特點(diǎn),本文提出一種無(wú)監(jiān)督的多量級(jí)應(yīng)急數(shù)據(jù)離散化方法。在難以獲得應(yīng)急數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)時(shí),不考慮應(yīng)急數(shù)據(jù)的復(fù)雜性與數(shù)據(jù)之間的關(guān)聯(lián)性,采用擬合函數(shù)結(jié)合二階導(dǎo)數(shù)計(jì)算得到數(shù)據(jù)截?cái)帱c(diǎn),移出較大數(shù)據(jù)更新待離散數(shù)據(jù)集,并重復(fù)此操作直到完成全部數(shù)據(jù)的離散。
應(yīng)急數(shù)據(jù)處理較困難的主要原因在于未針對(duì)數(shù)據(jù)特點(diǎn)分別對(duì)其進(jìn)行處理,缺少對(duì)隱藏?cái)?shù)據(jù)特點(diǎn)的深度剖析。將連續(xù)數(shù)據(jù)轉(zhuǎn)換為非連續(xù)數(shù)據(jù)是一種從數(shù)據(jù)中獲取信息的方法,稱(chēng)為數(shù)據(jù)離散化。連續(xù)數(shù)據(jù)可通過(guò)離散化被處理為多個(gè)離散類(lèi)數(shù)據(jù),離散后集中數(shù)據(jù)類(lèi)型的個(gè)數(shù)即為數(shù)據(jù)離散類(lèi)個(gè)數(shù)。離散化作為一種有效的數(shù)據(jù)預(yù)處理方法,其結(jié)果對(duì)數(shù)據(jù)分析結(jié)果有本質(zhì)影響[15],在數(shù)據(jù)處理中需根據(jù)數(shù)據(jù)特征進(jìn)行離散化[16]。在離散化時(shí)可采用靜態(tài)、分類(lèi)或者動(dòng)態(tài)組合等不同策略,合理的策略有助于有效挖掘數(shù)據(jù)特點(diǎn)[17]。
應(yīng)急數(shù)據(jù)是一種特點(diǎn)明顯的數(shù)據(jù),其噪聲多且在相同數(shù)據(jù)集內(nèi)數(shù)據(jù)之間差異大,對(duì)聚類(lèi)邊界與離散點(diǎn)的分析較困難[18-19]。
在應(yīng)急數(shù)據(jù)離散化過(guò)程中,具有多量級(jí)差異的數(shù)據(jù)最難離散。將數(shù)據(jù)由大到小排序后,可看到數(shù)據(jù)之間差異變化存在多個(gè)數(shù)據(jù)量級(jí)跳躍,多量級(jí)數(shù)據(jù)離散化即找到這些量級(jí)跳躍的點(diǎn)。數(shù)據(jù)集中數(shù)據(jù)之間存在多個(gè)量級(jí),其中較小數(shù)據(jù)的量級(jí)差異被隱藏,如圖1 所示(虛線框?yàn)榇x散的應(yīng)急數(shù)據(jù)集)。當(dāng)數(shù)據(jù)1 存在時(shí),數(shù)據(jù)2 易被歸為其他離散類(lèi),若去掉數(shù)據(jù)1 后再離散,則會(huì)發(fā)現(xiàn)數(shù)據(jù)2 與其他數(shù)據(jù)并非同一個(gè)離散類(lèi)。
圖1 較小隱藏?cái)?shù)據(jù)的量級(jí)差異顯現(xiàn)過(guò)程Fig.1 Process of showing the magnitude difference of hidden smaller data
量級(jí)差異在傳統(tǒng)數(shù)學(xué)中主要指以“10”為冪的數(shù)據(jù)之間的差異,然而在實(shí)際研究中量級(jí)差異并不局限于此,為更好地還原事件特征,需根據(jù)實(shí)際情況重新定義量級(jí)來(lái)保留更多數(shù)據(jù)特性[20]。應(yīng)急事件中各因素的細(xì)微變化均會(huì)造成應(yīng)急數(shù)據(jù)之間的巨大差異,其中存在多個(gè)量級(jí)變化點(diǎn),利用傳統(tǒng)方法難以找出這些變化點(diǎn)。為此,本文提出一種找出隱藏變化點(diǎn)的數(shù)據(jù)離散化方法,下文先對(duì)離散化數(shù)據(jù)截?cái)帱c(diǎn)的確定進(jìn)行介紹。
為找出數(shù)據(jù)集中各個(gè)量級(jí)的變化點(diǎn),先對(duì)數(shù)據(jù)按照大小進(jìn)行排序,再判斷數(shù)據(jù)開(kāi)始突增的位置,并將該位置作為截?cái)帱c(diǎn)的截?cái)鄶?shù)據(jù)集,使截?cái)鄶?shù)據(jù)歸為一個(gè)離散類(lèi),并將剩余數(shù)據(jù)作為新數(shù)據(jù)集,然后重復(fù)上述操作直到達(dá)到所需離散量或者數(shù)據(jù)每個(gè)離散類(lèi)的離散系數(shù)符合要求為止,如圖2 所示。
圖2 多量級(jí)數(shù)據(jù)的離散化過(guò)程Fig.2 Discretization process of multi-magnitudes data
在多量級(jí)數(shù)據(jù)離散化過(guò)程中,每找出一個(gè)截?cái)帱c(diǎn)就確定并去除一個(gè)離散類(lèi),然后在剩余數(shù)據(jù)中繼續(xù)尋找截?cái)帱c(diǎn),如此反復(fù)最終完成動(dòng)態(tài)的離散,同時(shí)根據(jù)需要對(duì)離散系數(shù)大于閾值要求的離散類(lèi)數(shù)據(jù)重新計(jì)算截?cái)帱c(diǎn)并再次進(jìn)行截?cái)唷?/p>
1)確定擬合函數(shù)的多項(xiàng)式
使用多項(xiàng)式對(duì)數(shù)據(jù)進(jìn)行擬合,計(jì)算公式如下:
其中,x、y分別為被擬合函數(shù)的自變量和因變量,α、β、γ、η、σ為待定系數(shù)。
2)確定數(shù)據(jù)截?cái)帱c(diǎn)
若將數(shù)據(jù)中突增的數(shù)據(jù)截?cái)嗖⒄业揭粋€(gè)截?cái)帱c(diǎn),則可顯示出當(dāng)前較小數(shù)據(jù)之間的量級(jí)差異。該截?cái)帱c(diǎn)為數(shù)據(jù)突增的起始點(diǎn),截?cái)帱c(diǎn)的斜率等于擬合函數(shù)最大值與最小值連接線所在直線的斜率,對(duì)多項(xiàng)式y(tǒng)求導(dǎo)如下:
截?cái)帱c(diǎn)的判定式如下:
其中,k為截?cái)帱c(diǎn)的導(dǎo)數(shù)。
對(duì)多項(xiàng)式導(dǎo)數(shù)進(jìn)行回歸計(jì)算得到截?cái)帱c(diǎn)的位置,計(jì)算公式如下:
其中,突增點(diǎn)x_j是數(shù)據(jù)離散化所需的一個(gè)截?cái)帱c(diǎn)。
3)根據(jù)步驟1 和步驟2 得到截?cái)帱c(diǎn)后,從截?cái)帱c(diǎn)進(jìn)行數(shù)據(jù)截?cái)?,并將較大的數(shù)據(jù)歸為一個(gè)離散類(lèi),其他數(shù)據(jù)重新執(zhí)行步驟1 和步驟2 計(jì)算下一個(gè)截?cái)帱c(diǎn),在數(shù)據(jù)呈現(xiàn)均勻分布后,統(tǒng)計(jì)所有離散類(lèi)作為最終離散化結(jié)果。
本文進(jìn)行多量級(jí)應(yīng)急數(shù)據(jù)離散實(shí)驗(yàn),數(shù)據(jù)源自國(guó)家地震科學(xué)數(shù)據(jù)共享中心、國(guó)家數(shù)據(jù)網(wǎng)、中國(guó)地震臺(tái)網(wǎng)、中國(guó)應(yīng)急信息網(wǎng)以及大量的相關(guān)新聞報(bào)道和論文數(shù)據(jù),通過(guò)篩查得到99 個(gè)應(yīng)急數(shù)據(jù)用于本文研究。表1 為我國(guó)不同地區(qū)地震傷亡人數(shù)相關(guān)影響因素統(tǒng)計(jì)情況。
表1 傷亡人數(shù)相關(guān)影響因素統(tǒng)計(jì)情況Table 1 Statistical situation of influencing factors related to number of casualties
2.1.1 多量級(jí)數(shù)據(jù)離散化
本文對(duì)地震案例中傷亡人數(shù)與災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)進(jìn)行離散化,所有案例的傷亡人數(shù)統(tǒng)計(jì)結(jié)果如圖3 所示。其中,橫坐標(biāo)為地震案例序號(hào)(以震發(fā)地省會(huì)名稱(chēng)拼音排序,所有案例均從第0 個(gè)開(kāi)始計(jì)數(shù))。可以看出,序號(hào)為6 的案例傷亡人數(shù)最多,其他大部分案例傷亡人數(shù)較少。在數(shù)據(jù)處理過(guò)程中,因?yàn)榇嬖谳^大數(shù)據(jù),所以較小數(shù)據(jù)之間的差異被隱藏。
圖3 傷亡人數(shù)Fig.3 Number of casualties
圖4 為將地震案例中傷亡人數(shù)由小到大排序的結(jié)果。為體現(xiàn)圖1 中的數(shù)據(jù)量級(jí)差異,從圖4 中隨機(jī)找一個(gè)截?cái)帱c(diǎn)68 對(duì)較大數(shù)據(jù)進(jìn)行截?cái)?,剩余?shù)據(jù)的分布如圖5 所示。由圖5 可以看出,去掉部分較大數(shù)據(jù)后,剩余數(shù)據(jù)仍呈現(xiàn)指數(shù)函數(shù)的分布特點(diǎn),說(shuō)明數(shù)據(jù)中存在不止一個(gè)數(shù)據(jù)量級(jí)差異。對(duì)圖4 中按傷亡人數(shù)排序的數(shù)據(jù)進(jìn)行函數(shù)擬合,得到的擬合結(jié)果如圖6 所示。其中,離散分布的點(diǎn)表示數(shù)據(jù)值,曲線為數(shù)據(jù)點(diǎn)的擬合函數(shù)曲線。
圖4 按傷亡人數(shù)排序后的結(jié)果Fig.4 Results sorted by number of casualties
圖5 傷亡人數(shù)排序后隨機(jī)截?cái)嘟Y(jié)果Fig.5 Random truncation results after ranking of number of casualties
圖6 傷亡人數(shù)擬合結(jié)果Fig.6 Fitting result of number of casualties
由圖6 可以看出,該函數(shù)曲線在趨近末端時(shí)突然升高,這是數(shù)據(jù)的量級(jí)突然改變所致。表2 為圖6 中擬合函數(shù)的多項(xiàng)式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計(jì)算得到k=4 067.95,截?cái)帱c(diǎn)x_j=87。從截?cái)帱c(diǎn)87 對(duì)數(shù)據(jù)進(jìn)行截?cái)嗤瓿傻? 次離散,得到的第1 個(gè)離散類(lèi)為排序后的數(shù)據(jù)88~數(shù)據(jù)99,剩余數(shù)據(jù)為數(shù)據(jù)0~數(shù)據(jù)87。
表2 圖6 中擬合函數(shù)的參數(shù)設(shè)置Table 2 Parameter setting of fitting function in Fig.6
對(duì)第1 次數(shù)據(jù)截?cái)嗪蟮氖S鄶?shù)據(jù)進(jìn)行函數(shù)擬合,并計(jì)算下一個(gè)截?cái)帱c(diǎn),得到擬合函數(shù)曲線如圖7所示??梢钥闯?,剩余數(shù)據(jù)分布差異仍較大,這是隱藏的數(shù)據(jù)量級(jí)差異所致。表3 為圖7 中擬合函數(shù)的多項(xiàng)式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計(jì)算得到k=228.98,下一個(gè)截?cái)帱c(diǎn)為64。
圖7 第1 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果Fig.7 Fitting result of residual data after the first truncation
表3 圖7 中擬合函數(shù)的參數(shù)設(shè)置Table 3 Parameter setting of fitting function in Fig.7
從截?cái)帱c(diǎn)64 對(duì)數(shù)據(jù)進(jìn)行截?cái)?,得到? 個(gè)離散類(lèi),對(duì)第2 次數(shù)據(jù)截?cái)嗪蟮氖S鄶?shù)據(jù)進(jìn)行函數(shù)擬合,并計(jì)算下一個(gè)截?cái)帱c(diǎn),得到擬合函數(shù)曲線如圖8 所示。表4 為圖8 中擬合函數(shù)的多項(xiàng)式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計(jì)算得到k=12.86,下一個(gè)截?cái)帱c(diǎn)為39。
圖8 第2 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果Fig.8 Fitting result of residual data after the second truncation
表4 圖8 中擬合函數(shù)的參數(shù)設(shè)置Table 4 Parameter setting of fitting function in Fig.8
從截?cái)帱c(diǎn)39 對(duì)數(shù)據(jù)進(jìn)行截?cái)?,得到? 個(gè)離散類(lèi),對(duì)第3 次數(shù)據(jù)截?cái)嗪蟮氖S鄶?shù)據(jù)進(jìn)行函數(shù)擬合,并計(jì)算下一個(gè)截?cái)帱c(diǎn),得到擬合函數(shù)曲線如圖9 所示。表5為圖9 中擬合函數(shù)的多項(xiàng)式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計(jì)算得到k=3.775,下一個(gè)截?cái)帱c(diǎn)為22。由圖9 可以看出,數(shù)據(jù)從截?cái)帱c(diǎn)39 截?cái)嗪?,其函?shù)曲線數(shù)值分布較均勻,呈現(xiàn)出主要數(shù)據(jù)的量級(jí)差異,進(jìn)而獲得第4 個(gè)離散類(lèi),截?cái)帱c(diǎn)為87、64 和39。在不斷進(jìn)行數(shù)據(jù)截?cái)嗟倪^(guò)程中,每次截掉的數(shù)據(jù)都被離散為一個(gè)離散點(diǎn),對(duì)離散點(diǎn)賦值后即完成離散。
圖9 第3 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果Fig.9 Fitting result of residual data after the third truncation
表5 圖9 中擬合函數(shù)的參數(shù)設(shè)置Table 5 Parameter setting of fitting function in Fig.9
本文將數(shù)據(jù)離散量作為判定離散完成的指標(biāo),設(shè)置傷亡人數(shù)和災(zāi)區(qū)受災(zāi)人數(shù)的離散量為4,其他數(shù)據(jù)離散量為3。在將離散系數(shù)閾值作為判定條件下,當(dāng)離散系數(shù)較低時(shí)多量級(jí)應(yīng)急數(shù)據(jù)產(chǎn)生離散量過(guò)多(見(jiàn)2.2 節(jié)),實(shí)驗(yàn)結(jié)果不具有實(shí)際指導(dǎo)意義。
2.1.2 突增點(diǎn)的判斷
本文離散方法在計(jì)算斜率時(shí)將導(dǎo)函數(shù)的凸函數(shù)部分作為突增點(diǎn),并以地震災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)的截?cái)帱c(diǎn)判斷過(guò)程為例進(jìn)行分析,結(jié)果如圖10 所示(實(shí)線為數(shù)據(jù)的擬合函數(shù)曲線)。圖10(a)和圖10(b)分別為地震災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)原始數(shù)據(jù)擬合結(jié)果以及第1 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果。由圖10(b)可以看出,截?cái)帱c(diǎn)在數(shù)據(jù)60~數(shù)據(jù)80 范圍內(nèi)。圖10(c)為第2 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果,可以看出截?cái)嗪髷?shù)據(jù)圖像與圖10(b)的計(jì)算結(jié)果差異較大,說(shuō)明截?cái)帱c(diǎn)判斷錯(cuò)誤。在計(jì)算中將凸函數(shù)作為突增點(diǎn)是截?cái)帱c(diǎn)判斷錯(cuò)誤的原因,若在程序判斷中加入“當(dāng)二階導(dǎo)函數(shù)大于零時(shí):將一階導(dǎo)函數(shù)設(shè)置為10 000”,則在判斷式(4)計(jì)算結(jié)果的最小值時(shí)就無(wú)需考慮因凸函數(shù)產(chǎn)生的斜率。對(duì)數(shù)據(jù)截?cái)嗪蟮氖S鄶?shù)據(jù)進(jìn)行函數(shù)擬合,并計(jì)算下一個(gè)截?cái)帱c(diǎn),擬合結(jié)果如圖11 所示,可見(jiàn)截?cái)帱c(diǎn)回到數(shù)據(jù)60~數(shù)據(jù)80 范圍內(nèi),函數(shù)曲線上升較平緩,未出現(xiàn)突增現(xiàn)象,截?cái)帱c(diǎn)判斷錯(cuò)誤的情況消失。
圖10 地震災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)截?cái)帱c(diǎn)判斷過(guò)程Fig.10 Judgment process of the cut off points of number of towns in earthquake stricken areas
圖11 截?cái)帱c(diǎn)判斷錯(cuò)誤消失Fig.11 Disappearance of error in judgment of truncation point
2.1.3 離散化結(jié)果分析
震發(fā)地受災(zāi)人數(shù)的離散、災(zāi)區(qū)人口密度數(shù)據(jù)的離散、震發(fā)地人均GDP 數(shù)據(jù)的離散等其他類(lèi)型應(yīng)急數(shù)據(jù)的多量級(jí)離散化結(jié)果如圖12~圖17 所示。其中,圖12、圖14 和圖16 為各類(lèi)數(shù)據(jù)未離散時(shí)的數(shù)據(jù)排序,圖13、圖15 和圖17 為各類(lèi)數(shù)據(jù)離散后各離散類(lèi)的數(shù)據(jù)分布??梢钥闯?,采用本文方法離散后的數(shù)據(jù)在各離散類(lèi)數(shù)量區(qū)間中分布較均勻,無(wú)較大的量級(jí)差異。為量化這種均勻性,下文從離散系數(shù)分析本文方法的必要性與合理性。
圖12 受災(zāi)人口原始數(shù)據(jù)Fig.12 Raw data of affected population
圖13 受災(zāi)人口數(shù)據(jù)的不同離散類(lèi)Fig.13 Different discrete categories of affected population data
圖14 受災(zāi)人口密度原始數(shù)據(jù)Fig.14 Raw data of affected population density
圖15 受災(zāi)人口密度數(shù)據(jù)的不同離散類(lèi)Fig.15 Different discrete categories of affected population density data
圖16 災(zāi)區(qū)人均GDP 原始數(shù)據(jù)Fig.16 Raw data of per capita GDP in disaster area
圖17 災(zāi)區(qū)人均GDP 數(shù)據(jù)的不同離散類(lèi)Fig.17 Different discrete categories of per capita GDP data in disaster area
離散系數(shù)又稱(chēng)變異系數(shù),常用于衡量數(shù)據(jù)的離散程度和變異程度,其表達(dá)式為σ/-a(σ為離散標(biāo)準(zhǔn)差,-a為離散平均值)。本文利用該系數(shù)衡量各個(gè)離散類(lèi)的數(shù)據(jù)均勻分布程度,同一個(gè)數(shù)據(jù)集離散系數(shù)越低,數(shù)據(jù)分布越均勻,說(shuō)明離散效果越好。
2.2.1 確定離散類(lèi)個(gè)數(shù)時(shí)不同方法的離散系數(shù)
本文設(shè)定傷亡人數(shù)與受災(zāi)人數(shù)的離散類(lèi)個(gè)數(shù)均為4,其他數(shù)據(jù)的離散類(lèi)個(gè)數(shù)為3,計(jì)算得到不同數(shù)據(jù)集經(jīng)本文方法、層次聚類(lèi)離散化方法、等頻離散化方法、等距離散化方法以及2-Flou 數(shù)離散化方法離散后的離散類(lèi)平均離散系數(shù),其中2-Flou 數(shù)離散化方法是基于模糊區(qū)間與等距離散化的柔性離散化方法[21],采用不同方法得到的5 種數(shù)據(jù)集平均離散系數(shù)如表6 所示。
表6 不同方法下5 種數(shù)據(jù)集的平均離散系數(shù)Table 6 Mean values of discrete coefficients of five database with different methods
由表6 可以看出,在5 種數(shù)據(jù)集中本文方法的離散系數(shù)較其他方法有一定程度的降低,僅在災(zāi)區(qū)人均GDP 數(shù)據(jù)集中離散系數(shù)高于層次聚類(lèi)離散化方法與等距離散化方法。由于層次聚類(lèi)與等距離散化方法所得離散系數(shù)平均值較高,因此每個(gè)離散類(lèi)包含的數(shù)據(jù)較少。綜合不同數(shù)據(jù)集的平均離散系數(shù)給出各方法的平均離散系數(shù)如表7 所示,可以看出本文方法在規(guī)定離散類(lèi)個(gè)數(shù)下平均離散系數(shù)低于其他方法,其各個(gè)離散類(lèi)的數(shù)據(jù)分布較均勻,證明本文方法具有一定的必要性。
表7 不同方法的平均離散系數(shù)Table 7 Average discrete coefficients of different methods
2.2.2 設(shè)定離散系數(shù)閾值后的離散類(lèi)特征
從統(tǒng)計(jì)學(xué)上看,若數(shù)據(jù)集內(nèi)離散系數(shù)低于0.15,則數(shù)據(jù)集中的數(shù)據(jù)分布較均勻,否則認(rèn)為數(shù)據(jù)分布異常,可據(jù)此設(shè)定較低離散系數(shù)閾值。使用本文方法對(duì)各個(gè)大于閾值的離散類(lèi)繼續(xù)離散,直到小于規(guī)定閾值,并給出兩種閾值設(shè)定方法以及數(shù)據(jù)集離散后的離散類(lèi)個(gè)數(shù)、平均離散系數(shù)等離散類(lèi)特征。當(dāng)閾值為0.15 和0.30 時(shí),5 種數(shù)據(jù)集的離散類(lèi)特征分布分別如表8 和表9 所示??梢钥闯觯c較高離散系數(shù)閾值下的離散結(jié)果相比,平均離散系數(shù)有所降低,最大的離散類(lèi)個(gè)數(shù)達(dá)到26,大部分?jǐn)?shù)據(jù)離散后的離散類(lèi)個(gè)數(shù)超過(guò)10。如果99 個(gè)數(shù)據(jù)離散后存在超過(guò)10 個(gè)離散類(lèi)時(shí),則在后續(xù)粗糙集等數(shù)據(jù)分析中將難以找到數(shù)據(jù)的主要特征,此類(lèi)數(shù)據(jù)離散化并未降低數(shù)據(jù)間的復(fù)雜性。由于應(yīng)急數(shù)據(jù)的量級(jí)差異變化較大,離散系數(shù)高于0.15 并不表示數(shù)據(jù)之間關(guān)聯(lián)性差,因此應(yīng)急數(shù)據(jù)需通過(guò)確定離散類(lèi)個(gè)數(shù)進(jìn)行離散化。由離散類(lèi)數(shù)據(jù)、離散類(lèi)個(gè)數(shù)與離散類(lèi)離散系數(shù)分析結(jié)果可知,本文方法具有一定的合理性。
表8 閾值為0.15 時(shí)5 種數(shù)據(jù)集的離散類(lèi)特征Table 8 Discrete class characteristics of five datasets at a threshold of 0.15
表9 閾值為0.30 時(shí)5 種數(shù)據(jù)集的離散類(lèi)特征Table 9 Discrete class characteristics of different datasets at a threshold of 0.30
針對(duì)具有多量級(jí)差異性的應(yīng)急數(shù)據(jù),本文提出一種無(wú)監(jiān)督的數(shù)據(jù)離散化方法。將應(yīng)急數(shù)據(jù)由大到小排序,在函數(shù)擬合的基礎(chǔ)上計(jì)算量級(jí)差異變化點(diǎn)作為數(shù)據(jù)截?cái)帱c(diǎn),對(duì)數(shù)據(jù)進(jìn)行截?cái)嘁瞥鲚^大數(shù)據(jù)完成一次離散,并不斷重復(fù)此操作直到完成全部數(shù)據(jù)離散。實(shí)驗(yàn)結(jié)果表明,該方法的離散系數(shù)較等頻離散化、層次聚類(lèi)離散化等傳統(tǒng)方法更低,對(duì)隱藏多量級(jí)差異的應(yīng)急數(shù)據(jù)具有良好的離散效果。后續(xù)將針對(duì)多種復(fù)合環(huán)境影響下的地震數(shù)據(jù)進(jìn)行研究,進(jìn)一步降低該方法的離散系數(shù)并提高魯棒性。