基于信息熵的降雨信息區(qū)域化分析

2013-08-20 02:12:58張繼國(guó)龔艷冰

河海大學(xué)學(xué)報(bào)(自然科學(xué)版) 2013年6期

張繼國(guó)，吳敏，謝平，龔艷冰

(1.武漢大學(xué)水資源與水電工程科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室，湖北武漢 430072;2.河海大學(xué)水利信息統(tǒng)計(jì)與管理研究所，江蘇常州 213022)

降雨是水文模型的主要輸入項(xiàng)，是影響流域水循環(huán)最活躍的因素，其時(shí)空分布不均勻性對(duì)流域產(chǎn)匯流的形成起著決定性的作用。越充分考慮降雨時(shí)空分布的不均勻性，水文過(guò)程模擬精度就越高［1-2］。對(duì)于大尺度流域而言，不同地區(qū)的降雨空間分布具有非常明顯的不均勻性，所以，在研究大區(qū)域降雨量變化的同時(shí)，有必要研究該區(qū)域內(nèi)不同地區(qū)的降雨量變化，這就使得降雨的分區(qū)尤為重要［3］。筆者［4］認(rèn)為，在探討降雨信息空間插值時(shí)，應(yīng)首先將復(fù)雜的降雨測(cè)量站點(diǎn)系統(tǒng)劃分成不同的子系統(tǒng)。近些年來(lái)，不少學(xué)者對(duì)我國(guó)不同區(qū)域的降雨進(jìn)行了分區(qū)研究，取得了一定的研究成果［3，5-8］。

本文基于信息熵理論［9］和全信息原理［10］，就淮河流域蚌埠站以上99個(gè)雨量站進(jìn)行劃分，其目標(biāo)是每個(gè)子區(qū)域的降雨信息具有最大的同質(zhì)性，而不同子區(qū)域之間的降雨信息具有最大的異質(zhì)性。本文的研究結(jié)論可為流域內(nèi)站網(wǎng)優(yōu)化布局、降雨不均勻性分析、降雨空間插值，以及建立分布式水文模型、極端洪旱災(zāi)害預(yù)報(bào)預(yù)警、水資源規(guī)劃與利用、生態(tài)環(huán)境保護(hù)等研究提供科學(xué)依據(jù)。

1 基本知識(shí)與公式

設(shè)隨機(jī)變量X具有n個(gè)可能狀態(tài)，其概率分布為p=(p1，p2，…，pn)，則X的信息熵為

式中k≥0為常數(shù)。H有時(shí)被稱為Shannon熵，它表示隨機(jī)變量不確定性大小的度量。

設(shè)隨機(jī)向量(X，Y)的聯(lián)合概率分布為pij(i=1，2，…，n;j=1，2，…，m)，則(X，Y)的聯(lián)合熵為

還可以相應(yīng)地定義條件熵H(X/Y)和H(Y/X)。

互信息是兩個(gè)變量相互包含信息量大小的指標(biāo)，其定義為

式(3)、式(4)表明X包含Y的信息等于Y包含X的信息。

信息的重要特征之一是具有傳遞性。X對(duì)Y的信息傳遞指數(shù)定義為

一般而言，信息傳遞指數(shù)Z不滿足對(duì)稱性。由于0≤H(Y/X)≤H(Y)，所以0≤Z≤1。當(dāng)Z(X，Y)=0時(shí)，X對(duì)Y不存在任何信息傳遞;而當(dāng)Z(X，Y)=1時(shí)，X包含了Y的全部信息。信息傳遞指數(shù)具有2個(gè)特征:(a)度量了信息點(diǎn)的信息傳遞能力，表示一個(gè)信息點(diǎn)對(duì)其周邊的影響力;(b)描述了兩信息點(diǎn)之間的相依程度，而這種相關(guān)往往是非線性的。

設(shè)S為包含了m個(gè)變量的集合，i∈S，稱

為X在S中的綜合信息傳遞指數(shù)［11］。根據(jù)這一指標(biāo)，若某一站點(diǎn)在它所在的分區(qū)中ZS的值較高，則與同一區(qū)的其他站點(diǎn)相比應(yīng)該被保留下來(lái)，而ZS值相對(duì)較低的點(diǎn)可以考慮被剔除。

ZS為絕對(duì)量。為了比較同一變量針對(duì)兩個(gè)變量集合的相關(guān)程度，必須用到平均信息傳遞指數(shù)。設(shè)S包含m個(gè)變量，X?S，則定義

為X對(duì)S的平均信息傳遞指數(shù)。

設(shè)S1和S2分別包含m1和m2個(gè)變量，X?S1，X?S2，根據(jù)式(7)以及信息傳遞的含義，若MS1(X)＞MS2(X)，則認(rèn)為X可以歸于S1。

眾所周知，變量的信息熵只與其取值的統(tǒng)計(jì)特征有關(guān)，由此得到信息熵、互信息(包括信息傳遞指數(shù))只是利用了變量的概率分布形式，或者說(shuō)只是利用了變量的語(yǔ)法信息［10］。為了更全面地研究變量間的差異性，本文同時(shí)考慮變量的語(yǔ)義信息，即考慮變量的取值。為此，給出兩個(gè)隨機(jī)變量的貼近度指標(biāo)。

設(shè)有隨機(jī)變量X={x1，x2，…，xn}和Y={y1，y2，…，yn}，它們之間的貼近度定義為

由式(8)可見，T(X，Y)越小，則X，Y之間的差異越小，貼近度越高。

本文采用等間距法［12］求取隨機(jī)變量的信息熵或聯(lián)合熵。確定分組數(shù)時(shí)可采用經(jīng)驗(yàn)公式［13］:

式中n為樣本容量。

2 研究思路與數(shù)據(jù)處理

2.1 數(shù)據(jù)來(lái)源

淮河流域介于長(zhǎng)江和黃河兩大流域之間，氣候上處于南北氣候過(guò)渡帶，降雨時(shí)空分布嚴(yán)重不均。本文研究的99個(gè)雨量站［14］位于淮河流域蚌埠站以上區(qū)域，東經(jīng)112°～118°、北緯31°～35°之間。

降雨資料取自各雨量站1953—2010年共58 a的月平均降雨序列，該序列構(gòu)成為降雨隨機(jī)變量，則降雨隨機(jī)變量共有696個(gè)月降雨數(shù)據(jù)。

2.2 研究思路

該研究區(qū)域內(nèi)的降雨信息區(qū)域化過(guò)程分為3個(gè)步驟。

a.根據(jù)信息熵的等距離法，首先將每個(gè)站的降雨序列樣本劃分為若干個(gè)小區(qū)間，計(jì)算每個(gè)站的信息熵和聯(lián)合熵，在此基礎(chǔ)上構(gòu)建99個(gè)站的信息傳遞指數(shù)矩陣。以該矩陣作為模糊關(guān)系矩陣，根據(jù)模糊聚類法將99個(gè)站劃分成不同的分類(子區(qū)域)。

b.最佳分類標(biāo)準(zhǔn)就是類與類之間存在較大的差異，而每一類內(nèi)部的差異性則較小。因?yàn)閆刻畫的僅是兩個(gè)變量間在概率分布形式上的差異性，而沒(méi)有反映變量間取值的差異性問(wèn)題。以全信息理論的觀點(diǎn)來(lái)看，Z或者H是語(yǔ)法信息的表現(xiàn)，而變量的取值則屬于語(yǔ)義信息。所以，本文考慮的這種差異性大小即是以站點(diǎn)之間降雨量的貼近度來(lái)度量的，同一時(shí)刻的降雨量越接近，則認(rèn)為差異性越小。依照降雨量貼近度指標(biāo)，對(duì)各種分類進(jìn)行顯著性檢驗(yàn)，在不同的分類中初選出若干個(gè)最能符合標(biāo)準(zhǔn)的分類。

c.以平均信息傳遞指數(shù)作為判別標(biāo)準(zhǔn)對(duì)其初始分類予以進(jìn)一步調(diào)整，最終確立最佳分類。

2.3 數(shù)據(jù)處理

將每個(gè)站點(diǎn)的696個(gè)降雨數(shù)據(jù)從小到大排序，按式(9)將其取值區(qū)間等距離劃分成26個(gè)子區(qū)間，記每個(gè)小區(qū)間δi(i=1，2，…，26)，記落在小區(qū)間δi的降雨數(shù)據(jù)數(shù)為ni，所以，降雨數(shù)據(jù)X落在δi內(nèi)的概率pi近似等于其頻率ni/696。同理，將2個(gè)站點(diǎn)X，Y的降雨數(shù)據(jù)構(gòu)成的區(qū)域劃分成面積相等的262個(gè)子區(qū)域Δij(i=1，2，…，26;j=1，2，…，26)。假設(shè)落在某個(gè)子區(qū)域Δij的點(diǎn)對(duì)數(shù)(頻數(shù))為nij，而總的點(diǎn)對(duì)數(shù)為696×696，則降雨數(shù)據(jù)落在該子區(qū)域的概率pij近似等于頻率nij/6962。然后，利用式(1)和式(2)分別計(jì)算99個(gè)站點(diǎn)降雨量的信息熵以及兩兩間的聯(lián)合熵。

利用式(4)計(jì)算互信息，根據(jù)式(5)可得到信息傳遞指數(shù)矩陣D=(dij)99×99，其中dij為第i號(hào)站對(duì)第j號(hào)站的信息傳遞指數(shù)。利用式(8)計(jì)算99個(gè)站點(diǎn)的降雨量貼近度矩陣N(tij)99×99，其中tij表示為第i號(hào)站與第j號(hào)站的貼近度。利用軟件Matlab R2011a完成全部計(jì)算過(guò)程。

3 區(qū)域劃分與調(diào)整

3.1 初始分類

將D作為模糊關(guān)系矩陣，利用模糊聚類方法［15］對(duì)99個(gè)站點(diǎn)予以分類。首先將其分別分成3，6，7，8，10，11，12，14，15，18，20，22，24和28類。每類所包括的站點(diǎn)見圖1，其中，第1區(qū)包含62個(gè)站，第2～6區(qū)分別含有10，19，1，4，3個(gè)站。

為確定最優(yōu)分類，利用N(tij)99×99對(duì)以上劃分進(jìn)行顯著性檢驗(yàn)(取顯著性水平α為0.05)。先假設(shè)99個(gè)站點(diǎn)被分成了r類，每類所含站點(diǎn)數(shù)為ni。根據(jù)數(shù)理統(tǒng)計(jì)理論，統(tǒng)計(jì)量F服從F分布。

F值越大，或(F-Fα)越大，則類與類之間的距離越大，相應(yīng)的分類就越優(yōu)。具體檢驗(yàn)結(jié)果見表1。

從表1可見，將區(qū)域分成3類或6類比較合適。先以分成6類的情況作為調(diào)整基準(zhǔn)。

表1 F檢驗(yàn)結(jié)果Table 1 F-test results

3.2 調(diào)整過(guò)程

仔細(xì)分析圖1可見，除了第4區(qū)僅一個(gè)站點(diǎn)外，其余各類所包含站點(diǎn)大多在地理位置上較為接近，但也有部分相互交叉，使得區(qū)域邊界不夠清晰。由于前3類包含站點(diǎn)較多，為此以這3類為主體對(duì)相關(guān)站點(diǎn)予以調(diào)整(被調(diào)整站點(diǎn)編號(hào)見表2)，調(diào)整標(biāo)準(zhǔn)為待調(diào)整站點(diǎn)對(duì)于各區(qū)的平均信息傳遞指數(shù)。根據(jù)平均信息傳遞指數(shù)值的大小(表2)，決定待調(diào)整站點(diǎn)被調(diào)整進(jìn)哪個(gè)區(qū)。如，47號(hào)站點(diǎn)初始劃分時(shí)處于第2區(qū)，但因?yàn)閷?duì)第1區(qū)、第2區(qū)、第3區(qū)的平均信息傳遞指數(shù)分別為0.1657，0.1864，0.221 8，根據(jù)本文的分析，它應(yīng)該被調(diào)整到第3區(qū)。

經(jīng)過(guò)以上調(diào)整后子區(qū)域的狀況是，第1區(qū)包括53個(gè)站點(diǎn)，第2區(qū)包括19個(gè)站點(diǎn)，第3區(qū)包括20個(gè)站點(diǎn)，第4區(qū)包括4個(gè)站點(diǎn)，第5區(qū)包括3個(gè)站點(diǎn)。

圖1 淮河流域蚌埠站以上99個(gè)站劃分成6類站點(diǎn)分布Fig.1 99 stations upstream of Bengbu Station in Huaihe River Basin divided into six categories

最后將第4區(qū)、第5區(qū)的站點(diǎn)進(jìn)行調(diào)整(見表2)，這樣全部99個(gè)站被劃分為3個(gè)區(qū)域，其中A區(qū)包括56個(gè)站點(diǎn)，B區(qū)21個(gè)，C區(qū)22個(gè)(見圖2)。

表2 待調(diào)整站點(diǎn)對(duì)各區(qū)平均信息傳遞指數(shù)Table 2 Average information transmission values of Stations to be adjusted in each district

對(duì)最終分成3個(gè)子區(qū)域的情況予以F檢驗(yàn)，得F-Fα=39.16，可見各子區(qū)域內(nèi)降雨信息的同質(zhì)性和子區(qū)域間的異質(zhì)性是顯著性的。

3.3 討論

圖2 淮河流域蚌埠站以上99個(gè)站劃分成3類站點(diǎn)分布Fig.2 99 stations upstream of Bengbu Station in Huaihe River Basin divided into three categories

需要說(shuō)明的是，站點(diǎn)50號(hào)和17號(hào)雖然歸類于C區(qū)(見圖2)，但它們對(duì)B區(qū)、C區(qū)的平均信息傳遞指數(shù)較為接近，所以為了各子區(qū)域在地理位置上更為完整，可考慮將這2個(gè)站點(diǎn)劃分到B區(qū)。

盡管最終將所研究區(qū)域劃分成3個(gè)子區(qū)域，從劃分的情況來(lái)看，各子區(qū)域所含的站點(diǎn)有些偏多，尤其是A區(qū)包含56個(gè)站。如果具體研究所需，可以將每一個(gè)子區(qū)域作為單獨(dú)的研究對(duì)象，利用本文的方法予以再行劃分。例如，將A區(qū)再劃分成2類、3類不等。

4 結(jié) 語(yǔ)

將復(fù)雜性大系統(tǒng)根據(jù)一定的原則劃分成若干子系統(tǒng)，使各子系統(tǒng)內(nèi)具有較大的相似性，而子系統(tǒng)之間具有較大的相異性，符合系統(tǒng)論的觀點(diǎn)，而且便于研究復(fù)雜性的數(shù)據(jù)系統(tǒng)，有利于探尋大系統(tǒng)內(nèi)的不確定性規(guī)律，如降雨的不均勻性研究。本文以信息熵作為研究手段，結(jié)合信息的語(yǔ)法形式和語(yǔ)義形式，對(duì)淮河流域蚌埠站以上區(qū)域進(jìn)行了區(qū)域劃分，因而這種劃分的方法符合信息科學(xué)原理，即具有更高的可靠性。從分類的情況觀察，各類區(qū)域內(nèi)的站點(diǎn)在地理位置上相當(dāng)接近，雖然從初步的劃分中區(qū)域間有所交叉，但是經(jīng)過(guò)調(diào)整后，區(qū)域間的邊界變得較為清晰。

［1］梁忠民，李彬權(quán)，余鐘波.考慮空間變異性的統(tǒng)計(jì)產(chǎn)流模型研究［J］.南京大學(xué)學(xué)報(bào):自然科學(xué)版，2009 45(3):403-408.(LIANG Zhongmin，LI Binquan，YU Zhongbo.A statistically-based runoff-yield model considering spatial variation［J］.Journal of Nanjing University:Natural Sciences，2009，45(3):403-408.(in Chinese))

［2］姜紅梅，任立良，袁飛.降水空間不均勻性對(duì)徑流過(guò)程模擬的影響［J］.水文，2004，24(2):1-6.(JIANG Hongmei，REN Liliang，YUAN Fei.Effect of spatial precipitation heterogeneity on runoff process［J］.Journal of China Hydrology，2004，24(2):1-6.(in Chinese))

［3］鄭永宏，林愛文，代偵勇.湖北省降水分區(qū)研究［J］.長(zhǎng)江流域資源與環(huán)境，2012，21(7):859-863.(ZHENGYonghong，LIN Aiwen，DAI Zhenyong.Research on precipitation regionalization in Hubei Provence［J］.Resources and Environment in the Yangtze Basin，2012，21(7):859-863.(in Chinese))

［4］張繼國(guó)，謝平，龔艷冰，等.降雨信息空間插值研究評(píng)述與展望［J］.水資源與水工程學(xué)報(bào)，2012，23(1):6-9.(ZHANG Jiguo，XIE Ping，GONG Yanbing，et al.Review and perspectives of the research on spatial interpolation of rainfall data［J］.Journal of Water Resources＆Water Engineering，2012，23(1):6-9.(in Chinese))

［5］秦愛民，錢維宏.近41年中國(guó)不同季節(jié)降水氣候分區(qū)及趨勢(shì)［J］.高原氣象，2006，25(3):495-502.(QIN Aimin，QIAN Weihong.The seasonal climate division and precipitation trends of China in recent 41 years［J］.Plateau Meteorology，2006，25(3):495-502.(in Chinese))

［6］楊絢，李棟梁.中國(guó)干旱氣候分區(qū)及其降水量變化特征［J］.干旱氣象，2008，26(2):17-24.(YANG Xuan，LI Dongliang.Precipitation variation characteristics and arid climate division in China［J］.Arid Meteorology，2008，26(2):17-24.(in Chinese))

［7］李生辰，徐亮，郭英香，等.近34 a青藏高原年降水變化及其分區(qū)［J］.中國(guó)沙漠，2007，27(2):307-314.(LI Shengchen，XU Liang，GUO Yingxiang，et al.Change of annual precipitation over Qinghai-Xizang Plateau and sub-regions in recent 34 years［J］.Journal of Desert Research，2007，27(2):307-314.(in Chinese))

［8］孫瑩，萬(wàn)麗巖，江靜.遼寧降水分區(qū)變化特征及夏季降水影響因子分析［J］.氣象與環(huán)境學(xué)報(bào)，2008，24(3):18-23.(SUN Ying，WAN Liyan，JIANG Jing.Characteristics of precipitation division and controlling factors of summer precipitation in Liaoning Province［J］.Journal of Meteorology and Environment，2008，24(3):18-23.(in Chinese))

［9］張繼國(guó)，劉新仁.水文水資源中不確定性的信息熵分析方法綜述［J］.河海大學(xué)學(xué)報(bào):自然科學(xué)版，2000，28(6):32-37.(ZHANG Jiguo，LIU Xinren.Summary on the information entropy analysis methods of uncertainty in hydrology and water resources［J］.Journal of Hohai University:Natural Sciences，2000，28(6):32-37.(in Chinese))

［10］鐘義信.信息科學(xué)原理［M］.3版.北京:北京郵電大學(xué)出版社，2002.

［11］YANG Y，BURN D H.An entropy approach to data collection network design［J］.Journal of Hydrology，1994，157:307-324.

［12］丁晶，王文圣，趙永龍.以互信息為基礎(chǔ)的廣義相關(guān)系數(shù)［J］.四川大學(xué)學(xué)報(bào):工程科學(xué)版，2002，34(3):1-5.(DINGJing，WANG Wensheng，ZHAO Yonglong.General correlation coefficient between variables based on mutual information［J］.Journal of Sichuan University:Engineering Science Edition，2002，34(3):1-5.(in Chinese))

［13］莊楚強(qiáng)，吳亞森.應(yīng)用數(shù)理統(tǒng)計(jì)基礎(chǔ)［M］.廣州:華南理工大學(xué)出版社，1992.

［14］張繼國(guó).降雨時(shí)空分布不均勻性信息熵研究［D］.南京:河海大學(xué)，2004.

［15］王忠玉，吳柏林.模糊數(shù)據(jù)統(tǒng)計(jì)學(xué)［M］.哈爾濱:哈爾濱工業(yè)大學(xué)出版社，2008.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看