張繼國(guó),吳 敏,謝 平,龔艷冰
(1.武漢大學(xué)水資源與水電工程科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430072;2.河海大學(xué)水利信息統(tǒng)計(jì)與管理研究所,江蘇 常州 213022)
降雨是水文模型的主要輸入項(xiàng),是影響流域水循環(huán)最活躍的因素,其時(shí)空分布不均勻性對(duì)流域產(chǎn)匯流的形成起著決定性的作用。越充分考慮降雨時(shí)空分布的不均勻性,水文過(guò)程模擬精度就越高[1-2]。對(duì)于大尺度流域而言,不同地區(qū)的降雨空間分布具有非常明顯的不均勻性,所以,在研究大區(qū)域降雨量變化的同時(shí),有必要研究該區(qū)域內(nèi)不同地區(qū)的降雨量變化,這就使得降雨的分區(qū)尤為重要[3]。筆者[4]認(rèn)為,在探討降雨信息空間插值時(shí),應(yīng)首先將復(fù)雜的降雨測(cè)量站點(diǎn)系統(tǒng)劃分成不同的子系統(tǒng)。近些年來(lái),不少學(xué)者對(duì)我國(guó)不同區(qū)域的降雨進(jìn)行了分區(qū)研究,取得了一定的研究成果[3,5-8]。
本文基于信息熵理論[9]和全信息原理[10],就淮河流域蚌埠站以上99個(gè)雨量站進(jìn)行劃分,其目標(biāo)是每個(gè)子區(qū)域的降雨信息具有最大的同質(zhì)性,而不同子區(qū)域之間的降雨信息具有最大的異質(zhì)性。本文的研究結(jié)論可為流域內(nèi)站網(wǎng)優(yōu)化布局、降雨不均勻性分析、降雨空間插值,以及建立分布式水文模型、極端洪旱災(zāi)害預(yù)報(bào)預(yù)警、水資源規(guī)劃與利用、生態(tài)環(huán)境保護(hù)等研究提供科學(xué)依據(jù)。
設(shè)隨機(jī)變量X具有n個(gè)可能狀態(tài),其概率分布為p=(p1,p2,…,pn),則X的信息熵為
式中k≥0為常數(shù)。H有時(shí)被稱為Shannon熵,它表示隨機(jī)變量不確定性大小的度量。
設(shè)隨機(jī)向量(X,Y)的聯(lián)合概率分布為pij(i=1,2,…,n;j=1,2,…,m),則(X,Y)的聯(lián)合熵為
還可以相應(yīng)地定義條件熵H(X/Y)和H(Y/X)。
互信息是兩個(gè)變量相互包含信息量大小的指標(biāo),其定義為
式(3)、式(4)表明X包含Y的信息等于Y包含X的信息。
信息的重要特征之一是具有傳遞性。X對(duì)Y的信息傳遞指數(shù)定義為
一般而言,信息傳遞指數(shù)Z不滿足對(duì)稱性。由于0≤H(Y/X)≤H(Y),所以0≤Z≤1。當(dāng)Z(X,Y)=0時(shí),X對(duì)Y不存在任何信息傳遞;而當(dāng)Z(X,Y)=1時(shí),X包含了Y的全部信息。信息傳遞指數(shù)具有2個(gè)特征:(a)度量了信息點(diǎn)的信息傳遞能力,表示一個(gè)信息點(diǎn)對(duì)其周邊的影響力;(b)描述了兩信息點(diǎn)之間的相依程度,而這種相關(guān)往往是非線性的。
設(shè)S為包含了m個(gè)變量的集合,i∈S,稱
為X在S中的綜合信息傳遞指數(shù)[11]。根據(jù)這一指標(biāo),若某一站點(diǎn)在它所在的分區(qū)中ZS的值較高,則與同一區(qū)的其他站點(diǎn)相比應(yīng)該被保留下來(lái),而ZS值相對(duì)較低的點(diǎn)可以考慮被剔除。
ZS為絕對(duì)量。為了比較同一變量針對(duì)兩個(gè)變量集合的相關(guān)程度,必須用到平均信息傳遞指數(shù)。設(shè)S包含m個(gè)變量,X?S,則定義
為X對(duì)S的平均信息傳遞指數(shù)。
設(shè)S1和S2分別包含m1和m2個(gè)變量,X?S1,X?S2,根據(jù)式(7)以及信息傳遞的含義,若MS1(X)>MS2(X),則認(rèn)為X可以歸于S1。
眾所周知,變量的信息熵只與其取值的統(tǒng)計(jì)特征有關(guān),由此得到信息熵、互信息(包括信息傳遞指數(shù))只是利用了變量的概率分布形式,或者說(shuō)只是利用了變量的語(yǔ)法信息[10]。為了更全面地研究變量間的差異性,本文同時(shí)考慮變量的語(yǔ)義信息,即考慮變量的取值。為此,給出兩個(gè)隨機(jī)變量的貼近度指標(biāo)。
設(shè)有隨機(jī)變量X={x1,x2,…,xn}和Y={y1,y2,…,yn},它們之間的貼近度定義為
由式(8)可見,T(X,Y)越小,則X,Y之間的差異越小,貼近度越高。
本文采用等間距法[12]求取隨機(jī)變量的信息熵或聯(lián)合熵。確定分組數(shù)時(shí)可采用經(jīng)驗(yàn)公式[13]:
式中n為樣本容量。
淮河流域介于長(zhǎng)江和黃河兩大流域之間,氣候上處于南北氣候過(guò)渡帶,降雨時(shí)空分布嚴(yán)重不均。本文研究的99個(gè)雨量站[14]位于淮河流域蚌埠站以上區(qū)域,東經(jīng)112°~118°、北緯31°~35°之間。
降雨資料取自各雨量站1953—2010年共58 a的月平均降雨序列,該序列構(gòu)成為降雨隨機(jī)變量,則降雨隨機(jī)變量共有696個(gè)月降雨數(shù)據(jù)。
該研究區(qū)域內(nèi)的降雨信息區(qū)域化過(guò)程分為3個(gè)步驟。
a.根據(jù)信息熵的等距離法,首先將每個(gè)站的降雨序列樣本劃分為若干個(gè)小區(qū)間,計(jì)算每個(gè)站的信息熵和聯(lián)合熵,在此基礎(chǔ)上構(gòu)建99個(gè)站的信息傳遞指數(shù)矩陣。以該矩陣作為模糊關(guān)系矩陣,根據(jù)模糊聚類法將99個(gè)站劃分成不同的分類(子區(qū)域)。
b.最佳分類標(biāo)準(zhǔn)就是類與類之間存在較大的差異,而每一類內(nèi)部的差異性則較小。因?yàn)閆刻畫的僅是兩個(gè)變量間在概率分布形式上的差異性,而沒(méi)有反映變量間取值的差異性問(wèn)題。以全信息理論的觀點(diǎn)來(lái)看,Z或者H是語(yǔ)法信息的表現(xiàn),而變量的取值則屬于語(yǔ)義信息。所以,本文考慮的這種差異性大小即是以站點(diǎn)之間降雨量的貼近度來(lái)度量的,同一時(shí)刻的降雨量越接近,則認(rèn)為差異性越小。依照降雨量貼近度指標(biāo),對(duì)各種分類進(jìn)行顯著性檢驗(yàn),在不同的分類中初選出若干個(gè)最能符合標(biāo)準(zhǔn)的分類。
c.以平均信息傳遞指數(shù)作為判別標(biāo)準(zhǔn)對(duì)其初始分類予以進(jìn)一步調(diào)整,最終確立最佳分類。
將每個(gè)站點(diǎn)的696個(gè)降雨數(shù)據(jù)從小到大排序,按式(9)將其取值區(qū)間等距離劃分成26個(gè)子區(qū)間,記每個(gè)小區(qū)間δi(i=1,2,…,26),記落在小區(qū)間δi的降雨數(shù)據(jù)數(shù)為ni,所以,降雨數(shù)據(jù)X落在δi內(nèi)的概率pi近似等于其頻率ni/696。同理,將2個(gè)站點(diǎn)X,Y的降雨數(shù)據(jù)構(gòu)成的區(qū)域劃分成面積相等的262個(gè)子區(qū)域Δij(i=1,2,…,26;j=1,2,…,26)。假設(shè)落在某個(gè)子區(qū)域Δij的點(diǎn)對(duì)數(shù)(頻數(shù))為nij,而總的點(diǎn)對(duì)數(shù)為696×696,則降雨數(shù)據(jù)落在該子區(qū)域的概率pij近似等于頻率nij/6962。然后,利用式(1)和式(2)分別計(jì)算99個(gè)站點(diǎn)降雨量的信息熵以及兩兩間的聯(lián)合熵。
利用式(4)計(jì)算互信息,根據(jù)式(5)可得到信息傳遞指數(shù)矩陣D=(dij)99×99,其中dij為第i號(hào)站對(duì)第j號(hào)站的信息傳遞指數(shù)。利用式(8)計(jì)算99個(gè)站點(diǎn)的降雨量貼近度矩陣N(tij)99×99,其中tij表示為第i號(hào)站與第j號(hào)站的貼近度。利用軟件Matlab R2011a完成全部計(jì)算過(guò)程。
將D作為模糊關(guān)系矩陣,利用模糊聚類方法[15]對(duì)99個(gè)站點(diǎn)予以分類。首先將其分別分成3,6,7,8,10,11,12,14,15,18,20,22,24和28類。每類所包括的站點(diǎn)見圖1,其中,第1區(qū)包含62個(gè)站,第2~6區(qū)分別含有10,19,1,4,3個(gè)站。
為確定最優(yōu)分類,利用N(tij)99×99對(duì)以上劃分進(jìn)行顯著性檢驗(yàn)(取顯著性水平α為0.05)。先假設(shè)99個(gè)站點(diǎn)被分成了r類,每類所含站點(diǎn)數(shù)為ni。根據(jù)數(shù)理統(tǒng)計(jì)理論,統(tǒng)計(jì)量F服從F分布。
F值越大,或(F-Fα)越大,則類與類之間的距離越大,相應(yīng)的分類就越優(yōu)。具體檢驗(yàn)結(jié)果見表1。
從表1可見,將區(qū)域分成3類或6類比較合適。先以分成6類的情況作為調(diào)整基準(zhǔn)。
表1 F檢驗(yàn)結(jié)果Table 1 F-test results
仔細(xì)分析圖1可見,除了第4區(qū)僅一個(gè)站點(diǎn)外,其余各類所包含站點(diǎn)大多在地理位置上較為接近,但也有部分相互交叉,使得區(qū)域邊界不夠清晰。由于前3類包含站點(diǎn)較多,為此以這3類為主體對(duì)相關(guān)站點(diǎn)予以調(diào)整(被調(diào)整站點(diǎn)編號(hào)見表2),調(diào)整標(biāo)準(zhǔn)為待調(diào)整站點(diǎn)對(duì)于各區(qū)的平均信息傳遞指數(shù)。根據(jù)平均信息傳遞指數(shù)值的大小(表2),決定待調(diào)整站點(diǎn)被調(diào)整進(jìn)哪個(gè)區(qū)。如,47號(hào)站點(diǎn)初始劃分時(shí)處于第2區(qū),但因?yàn)閷?duì)第1區(qū)、第2區(qū)、第3區(qū)的平均信息傳遞指數(shù)分別為0.1657,0.1864,0.221 8,根據(jù)本文的分析,它應(yīng)該被調(diào)整到第3區(qū)。
經(jīng)過(guò)以上調(diào)整后子區(qū)域的狀況是,第1區(qū)包括53個(gè)站點(diǎn),第2區(qū)包括19個(gè)站點(diǎn),第3區(qū)包括20個(gè)站點(diǎn),第4區(qū)包括4個(gè)站點(diǎn),第5區(qū)包括3個(gè)站點(diǎn)。
圖1 淮河流域蚌埠站以上99個(gè)站劃分成6類站點(diǎn)分布Fig.1 99 stations upstream of Bengbu Station in Huaihe River Basin divided into six categories
最后將第4區(qū)、第5區(qū)的站點(diǎn)進(jìn)行調(diào)整(見表2),這樣全部99個(gè)站被劃分為3個(gè)區(qū)域,其中A區(qū)包括56個(gè)站點(diǎn),B區(qū)21個(gè),C區(qū)22個(gè)(見圖2)。
表2 待調(diào)整站點(diǎn)對(duì)各區(qū)平均信息傳遞指數(shù)Table 2 Average information transmission values of Stations to be adjusted in each district
對(duì)最終分成3個(gè)子區(qū)域的情況予以F檢驗(yàn),得F-Fα=39.16,可見各子區(qū)域內(nèi)降雨信息的同質(zhì)性和子區(qū)域間的異質(zhì)性是顯著性的。
圖2 淮河流域蚌埠站以上99個(gè)站劃分成3類站點(diǎn)分布Fig.2 99 stations upstream of Bengbu Station in Huaihe River Basin divided into three categories
需要說(shuō)明的是,站點(diǎn)50號(hào)和17號(hào)雖然歸類于C區(qū)(見圖2),但它們對(duì)B區(qū)、C區(qū)的平均信息傳遞指數(shù)較為接近,所以為了各子區(qū)域在地理位置上更為完整,可考慮將這2個(gè)站點(diǎn)劃分到B區(qū)。
盡管最終將所研究區(qū)域劃分成3個(gè)子區(qū)域,從劃分的情況來(lái)看,各子區(qū)域所含的站點(diǎn)有些偏多,尤其是A區(qū)包含56個(gè)站。如果具體研究所需,可以將每一個(gè)子區(qū)域作為單獨(dú)的研究對(duì)象,利用本文的方法予以再行劃分。例如,將A區(qū)再劃分成2類、3類不等。
將復(fù)雜性大系統(tǒng)根據(jù)一定的原則劃分成若干子系統(tǒng),使各子系統(tǒng)內(nèi)具有較大的相似性,而子系統(tǒng)之間具有較大的相異性,符合系統(tǒng)論的觀點(diǎn),而且便于研究復(fù)雜性的數(shù)據(jù)系統(tǒng),有利于探尋大系統(tǒng)內(nèi)的不確定性規(guī)律,如降雨的不均勻性研究。本文以信息熵作為研究手段,結(jié)合信息的語(yǔ)法形式和語(yǔ)義形式,對(duì)淮河流域蚌埠站以上區(qū)域進(jìn)行了區(qū)域劃分,因而這種劃分的方法符合信息科學(xué)原理,即具有更高的可靠性。從分類的情況觀察,各類區(qū)域內(nèi)的站點(diǎn)在地理位置上相當(dāng)接近,雖然從初步的劃分中區(qū)域間有所交叉,但是經(jīng)過(guò)調(diào)整后,區(qū)域間的邊界變得較為清晰。
[1]梁忠民,李彬權(quán),余鐘波.考慮空間變異性的統(tǒng)計(jì)產(chǎn)流模型研究[J].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2009 45(3):403-408.(LIANG Zhongmin,LI Binquan,YU Zhongbo.A statistically-based runoff-yield model considering spatial variation[J].Journal of Nanjing University:Natural Sciences,2009,45(3):403-408.(in Chinese))
[2]姜紅梅,任立良,袁飛.降水空間不均勻性對(duì)徑流過(guò)程模擬的影響[J].水文,2004,24(2):1-6.(JIANG Hongmei,REN Liliang,YUAN Fei.Effect of spatial precipitation heterogeneity on runoff process[J].Journal of China Hydrology,2004,24(2):1-6.(in Chinese))
[3]鄭永宏,林愛文,代偵勇.湖北省降水分區(qū)研究[J].長(zhǎng)江流域資源與環(huán)境,2012,21(7):859-863.(ZHENGYonghong,LIN Aiwen,DAI Zhenyong.Research on precipitation regionalization in Hubei Provence[J].Resources and Environment in the Yangtze Basin,2012,21(7):859-863.(in Chinese))
[4]張繼國(guó),謝平,龔艷冰,等.降雨信息空間插值研究評(píng)述與展望[J].水資源與水工程學(xué)報(bào),2012,23(1):6-9.(ZHANG Jiguo,XIE Ping,GONG Yanbing,et al.Review and perspectives of the research on spatial interpolation of rainfall data[J].Journal of Water Resources&Water Engineering,2012,23(1):6-9.(in Chinese))
[5]秦愛民,錢維宏.近41年中國(guó)不同季節(jié)降水氣候分區(qū)及趨勢(shì)[J].高原氣象,2006,25(3):495-502.(QIN Aimin,QIAN Weihong.The seasonal climate division and precipitation trends of China in recent 41 years[J].Plateau Meteorology,2006,25(3):495-502.(in Chinese))
[6]楊絢,李棟梁.中國(guó)干旱氣候分區(qū)及其降水量變化特征[J].干旱氣象,2008,26(2):17-24.(YANG Xuan,LI Dongliang.Precipitation variation characteristics and arid climate division in China[J].Arid Meteorology,2008,26(2):17-24.(in Chinese))
[7]李生辰,徐亮,郭英香,等.近34 a青藏高原年降水變化及其分區(qū)[J].中國(guó)沙漠,2007,27(2):307-314.(LI Shengchen,XU Liang,GUO Yingxiang,et al.Change of annual precipitation over Qinghai-Xizang Plateau and sub-regions in recent 34 years[J].Journal of Desert Research,2007,27(2):307-314.(in Chinese))
[8]孫瑩,萬(wàn)麗巖,江靜.遼寧降水分區(qū)變化特征及夏季降水影響因子分析[J].氣象與環(huán)境學(xué)報(bào),2008,24(3):18-23.(SUN Ying,WAN Liyan,JIANG Jing.Characteristics of precipitation division and controlling factors of summer precipitation in Liaoning Province[J].Journal of Meteorology and Environment,2008,24(3):18-23.(in Chinese))
[9]張繼國(guó),劉新仁.水文水資源中不確定性的信息熵分析方法綜述[J].河海大學(xué)學(xué)報(bào):自然科學(xué)版,2000,28(6):32-37.(ZHANG Jiguo,LIU Xinren.Summary on the information entropy analysis methods of uncertainty in hydrology and water resources[J].Journal of Hohai University:Natural Sciences,2000,28(6):32-37.(in Chinese))
[10]鐘義信.信息科學(xué)原理[M].3版.北京:北京郵電大學(xué)出版社,2002.
[11]YANG Y,BURN D H.An entropy approach to data collection network design[J].Journal of Hydrology,1994,157:307-324.
[12]丁晶,王文圣,趙永龍.以互信息為基礎(chǔ)的廣義相關(guān)系數(shù)[J].四川大學(xué)學(xué)報(bào):工程科學(xué)版,2002,34(3):1-5.(DINGJing,WANG Wensheng,ZHAO Yonglong.General correlation coefficient between variables based on mutual information[J].Journal of Sichuan University:Engineering Science Edition,2002,34(3):1-5.(in Chinese))
[13]莊楚強(qiáng),吳亞森.應(yīng)用數(shù)理統(tǒng)計(jì)基礎(chǔ)[M].廣州:華南理工大學(xué)出版社,1992.
[14]張繼國(guó).降雨時(shí)空分布不均勻性信息熵研究[D].南京:河海大學(xué),2004.
[15]王忠玉,吳柏林.模糊數(shù)據(jù)統(tǒng)計(jì)學(xué)[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2008.