琪美格
(新疆維吾爾自治區(qū)水文分析計(jì)算中心,新疆 烏魯木齊 830000)
每年年底,政府應(yīng)急部門要求水文部門提供當(dāng)?shù)刂饕恿鞔文陙?lái)水量年景分析成果,由于新疆水文站網(wǎng)稀少,水文預(yù)報(bào)因子挑選余地有限,預(yù)報(bào)精度受到影響。本文應(yīng)用K-均值聚類分析和周期均值疊加分析方法,用五圣宮水文站歷年年月流量樣本建模并對(duì)其次年流量變化過(guò)程進(jìn)行嘗試性的定性預(yù)報(bào),確保符合水文站網(wǎng)稀少特點(diǎn)和預(yù)報(bào)精度要求。
K-均值聚類分析是研究某類事物“物以類聚”問(wèn)題的一種統(tǒng)計(jì)方法,它是將一批大樣本數(shù)據(jù)按照性質(zhì)上的親密程度在沒(méi)有群組特征先驗(yàn)知識(shí)的情況下,通過(guò)用戶指定類別數(shù)而進(jìn)行的逐步聚類分析。可由SPSS實(shí)現(xiàn):指定聚類數(shù)(如k類);確定k個(gè)初始類中心點(diǎn);根據(jù)距離最近原則進(jìn)行分類;根據(jù)聚類終止條件進(jìn)行迭代(迭代一次,確定新k個(gè)類中心點(diǎn)一次);迭代停止,得到最終分類。最后構(gòu)建由各樣本所屬類型值組成的時(shí)間序列。
一個(gè)隨時(shí)間變化的等時(shí)距水文觀測(cè)樣本,可視為有限個(gè)不同周期疊加而成的過(guò)程。從樣本序列中識(shí)別周期時(shí),可將序列分成若干組,如果組間各數(shù)據(jù)的差異顯著大于組內(nèi)差異,序列就存在周期,其長(zhǎng)度就是組間差異最大而組內(nèi)差異最小的分組組數(shù)。
那么,組內(nèi)差異比組間差異小到什么程度才算是顯著呢?通常用信度為α的F檢驗(yàn)來(lái)判斷:F > F(α),則表明這一信度水平上差異顯著,有周期存在,對(duì)應(yīng)的分組組數(shù)即為周期長(zhǎng)度,各組的平均值即為第1周期振幅;F <= F(α),則差異不顯著。
將所識(shí)別的第1周期振幅依序從序列起始年排至終止年,構(gòu)成第1周期序列,從樣本序列中剔除第1周期序列,便生成新序列,對(duì)新序列按上述步驟進(jìn)行計(jì)算,可識(shí)別第2周期。其余周期的識(shí)別以此類推,直到不能識(shí)別或不想識(shí)別周期為止。最后對(duì)所識(shí)別的各周期外延疊加,即為類隸屬定性預(yù)報(bào)成果。
五圣宮水文站1980-2018年流量變化過(guò)程SPSS數(shù)據(jù)文件(僅顯示局部)見圖1?,F(xiàn)進(jìn)行K-均值聚類分析:
步驟1:打開圖1所示數(shù)據(jù)文件。
圖1 五圣宮水文站1980-2018年流量變化過(guò)程SPSS數(shù)據(jù)文件
步驟2:依次單擊菜單“分析→分類→K-均值聚類分析”,在對(duì)話框中將“一月平均流量”至“年平均流量”選入“變量”列表框,將“年份”選入“個(gè)案標(biāo)記依據(jù)”列表框;在“方法”選項(xiàng)組中選擇“迭代與分類”;將“聚類數(shù)”設(shè)置為3(類過(guò)多,預(yù)報(bào)易失真)。
步驟3:?jiǎn)螕簟暗卑粹o,在對(duì)話框中將“最大迭代次數(shù)”設(shè)置為20,“收斂性標(biāo)準(zhǔn)”設(shè)置為0.01,勾擇“使用運(yùn)行均值”選項(xiàng)。
步驟4:?jiǎn)螕簟暗卑粹o,在對(duì)話框中選擇“統(tǒng)計(jì)量”選項(xiàng)組中的“初始聚類中心”和“每個(gè)個(gè)案的聚類信息”。
步驟5:?jiǎn)螕簟氨4妗卑粹o,在對(duì)話框中選擇“聚類成員”選項(xiàng)。
步驟6:?jiǎn)螕簟按_定”按鈕,執(zhí)行聚類分析操作。
經(jīng)分析SPSS輸出的統(tǒng)計(jì)表格數(shù)據(jù),5次迭代后,3個(gè)類中心的變化均小于指定的收斂標(biāo)準(zhǔn)0.01,聚類分析結(jié)束。
聚類結(jié)果見圖1,類型值列是每個(gè)流量變化過(guò)程樣本所屬的類,即類型值序列。
五圣宮水文站1980-2018年類型值序列樣本容量n=39,最大分組組數(shù)m=(n-1)/2=19,即分組組數(shù)取值為2、3、…、m。對(duì)應(yīng)每一分組組數(shù),依次單擊類型值序列SPSS數(shù)據(jù)文件中的菜單“分析→比較均值→單因素ANOVA”,進(jìn)行不同信度下的F檢驗(yàn),結(jié)果為:
僅在分組組數(shù)為11時(shí),方差比F=2.06>F(0.1)=1.84,通過(guò)信度為0.5的F檢驗(yàn),說(shuō)明存在長(zhǎng)度為11(年)的第1周期,周期振幅依序?yàn)椋?、2.5、2、2.5、2.5、2.75、3、1、1、3和2.33。
僅在分組組數(shù)為13時(shí),方差比F=3.75>F(α)=1.81,通過(guò)信度為0.5的F檢驗(yàn),說(shuō)明存在長(zhǎng)度為13(年)的第2周期,周期振幅依序?yàn)椋?.167、0.083 3、0.5、0.25、-0.5、0.083 3、0.222、-0.333、0.389、-0.667、-1.44、0.833和0.417。
僅在分組組數(shù)為15時(shí),方差比F=2.16>F(α)=1.8,通過(guò)信度為0.5的F檢驗(yàn),說(shuō)明存在長(zhǎng)度為15(年)的第3周期,周期振幅依序?yàn)椋?.444、0.111、0.481、-0.167、-0.37、0.055 6、-0.044 7、-0.111、-0.204、0.417、0.097 2、0.25、-0.375、-0.833和0.083 3。
將上述3個(gè)周期振幅分別依序從1980年排至2018年,構(gòu)成3個(gè)周期序列;3個(gè)周期序列振幅的疊加值即為對(duì)應(yīng)類型值的擬合值。
計(jì)算1980-2018年3個(gè)周期序列振幅疊加值與對(duì)應(yīng)類型值之間的相對(duì)誤差,若其絕對(duì)值小于等于20%為合格,經(jīng)計(jì)算,合格率達(dá)82.1%,說(shuō)明擬合較好。
將3個(gè)周期序列外延1年,得2019年3個(gè)周期振幅依次為3、0.167和0.417,疊加值為3.58,接近類型值3,即五圣宮水文站2019年流量變化過(guò)程屬第3類,檢驗(yàn)如下:
用SPSS計(jì)算各類樣本的總數(shù)和均值:
步驟1:打開圖1所示數(shù)據(jù)文件,依次單擊菜單“分析→報(bào)告→個(gè)案匯總”,在對(duì)話框中,將“一月平均流量”至“年平均流量”選入“變量”列表框,將“類型值”選入“分組變量”列表框。
步驟2:?jiǎn)螕簟敖y(tǒng)計(jì)量”按鈕,將“均值”選入“單元格統(tǒng)計(jì)量”列表框。
步驟3:?jiǎn)螕簟按_定”按鈕,執(zhí)行個(gè)案匯總操作。各類樣本均值詳見表1,其中,類1、2、3分別有12、3、24個(gè)流量變化過(guò)程樣本。
表1給出了2019年實(shí)測(cè)月年平均流量與各類樣本均值的類隸屬情形,可見,絕大多數(shù)實(shí)測(cè)值類隸屬為3(尤其是5、6、7、8月主汛期月平均流量和年平均流量),說(shuō)明預(yù)報(bào)基本正確。
表1 2019年實(shí)測(cè)月年平均流量與各類樣本均值的類隸屬判斷
(1)應(yīng)用K-均值聚類分析和周期均值疊加分析方法,用本站歷年年月流量樣本建模并對(duì)其次年流量變化過(guò)程進(jìn)行定性預(yù)報(bào),是一次成功的嘗試。
(2)預(yù)報(bào)所用樣本僅限于本站歷年年月流量資料,不需要其它水文、氣象站相關(guān)因子,適合干旱區(qū)水文站網(wǎng)稀少的特點(diǎn)。
(3)若周期振幅疊加值與類型值相對(duì)誤差的絕對(duì)值小于等于20%為合格,則1980-2018年類型值序列模擬檢驗(yàn)合格率為82.1%,說(shuō)明擬合較好。
(4)從2019年實(shí)測(cè)月年平均流量與各類樣本均值的類隸屬情形來(lái)判斷,絕大多數(shù)預(yù)報(bào)值接近實(shí)測(cè)值,說(shuō)明該技術(shù)在長(zhǎng)期水文定性預(yù)報(bào)方面有一定的實(shí)用價(jià)值。