摘 要:對(duì)水沙通量變化趨勢(shì)的預(yù)測(cè)是沿黃河流域環(huán)境治理的基礎(chǔ)。鑒于監(jiān)測(cè)技術(shù)限制,采集到的含沙量數(shù)據(jù)相較于水流量數(shù)據(jù)通常存在大量缺失值,影響對(duì)水沙通量變化的精準(zhǔn)評(píng)估。針對(duì)此問題,文章分別采用最鄰近、線性、二次樣條、三次樣條插值方法進(jìn)行數(shù)據(jù)補(bǔ)值,并對(duì)比插值擬合誤差。實(shí)驗(yàn)結(jié)果表明,采用三次樣條插值法進(jìn)行插值曲線擬合誤差最小,經(jīng)過插值處理后的數(shù)據(jù)能更好地預(yù)測(cè)未來水沙通量的變化趨勢(shì)。
關(guān)鍵詞:大數(shù)據(jù)處理;樣條插值;時(shí)間序列;趨勢(shì)預(yù)測(cè)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)20-0145-04
Time Series Prediction Algorithm of Water and Sediment Flux Based on Spline Interpolation
ZHANG Ying, YANG Tingyao
(Guangdong Preschool Normal College In Maoming, Maoming 525000, China)
Abstract: The prediction of the variation trend of water and sediment flux is the basis of environmental governance along the Yellow River Basin. In view of the monitoring technology, the collected sediment flux data usually has a large number of missing values compared with the water flux data, which affects the accurate assessment of the variation of water and sediment flux. To solve this problem, the Nearest Neighbor, Linear, Quadratic Spline and Cubic Spline Interpolation methods are used to supplement the data, and the fitting error of the interpolation is compared. The experimental results show that the Cubic Spline Interpolation method is used to minimize the curve error, and the data after interpolation can better predict the future variation trend of water and sediment flux.
Keywords: Big Data processing; Spline Interpolation; time series; trend prediction
0 引 言
水沙通量[1-2]是指單位時(shí)間內(nèi)通過河道某一斷面的泥沙量,對(duì)其未來變化趨勢(shì)預(yù)測(cè)的目的是了解未來河流中泥沙的運(yùn)移情況,為河流管理提供科學(xué)指導(dǎo)。時(shí)間序列[3]預(yù)測(cè)算法是基于對(duì)歷史時(shí)間序列數(shù)據(jù)規(guī)律的挖掘,對(duì)未來時(shí)間序列規(guī)律進(jìn)行預(yù)測(cè)。
本文利用黃河某水文站近6年不同時(shí)刻水流量與沙流量的實(shí)際監(jiān)測(cè)數(shù)據(jù),使用4種插值方法對(duì)空缺的監(jiān)測(cè)數(shù)據(jù)進(jìn)行補(bǔ)值,通過擬合曲線圖與誤差分析判斷最優(yōu)的插值方法,并將處理后的數(shù)據(jù)轉(zhuǎn)換成時(shí)間序列數(shù)據(jù),基于時(shí)間序列模型對(duì)水沙通量未來趨勢(shì)進(jìn)行預(yù)測(cè)并分析。
1 樣條插值方法
已知待插值函數(shù)數(shù)據(jù)處的函數(shù)值為f(x0),f(x1),…,f(xn),將相鄰兩節(jié)點(diǎn)進(jìn)行分段,獲得n個(gè)插值分段區(qū)間,在各分段區(qū)間內(nèi)使用ɑ次多項(xiàng)式Si(x)插值,使其滿足插值條件的ɑ-1階平滑性:
(1)
(2)
三次樣條插值[4-5]是根據(jù)已知的數(shù)據(jù)點(diǎn)分割為若干段,利用每段數(shù)據(jù)擬合一個(gè)三次的插值函數(shù),以此計(jì)算出空缺的數(shù)據(jù)點(diǎn)函數(shù)值,得到完整的序列數(shù)據(jù)。該插值方法能實(shí)現(xiàn)各分段函數(shù)平滑銜接,適用于填充具有周期性和規(guī)律性的離散數(shù)據(jù)。
已知數(shù)據(jù)集有n+1個(gè)數(shù)據(jù)點(diǎn),則數(shù)據(jù)可以分割得到n個(gè)區(qū)間:
對(duì)上方每個(gè)區(qū)間擬合三次函數(shù),共得到n個(gè)三次函數(shù):G(x1),G(x2),…,G(xn-1)。其中,每段的三次函數(shù)定義如下:
(3)
其中,xi表示數(shù)據(jù)集中的第i個(gè)數(shù)據(jù)點(diǎn),i = 1,2,…,n。每個(gè)區(qū)間一一對(duì)應(yīng)的三次函數(shù)G(x)定義如下:
(4)
其中,方程滿足G(x) = yi,i = 0,1,2,…,n。
在滿足各分段函數(shù)的光滑銜接的條件下,求解方程的系數(shù),通過各段得到的三次插值函數(shù)對(duì)空缺值進(jìn)行補(bǔ)值。
2 基于樣條插值的數(shù)據(jù)預(yù)處理
2.1 實(shí)驗(yàn)數(shù)據(jù)
本文數(shù)據(jù)采用位于小浪底水庫下游黃河某水文站近6年的水位、水流量與含沙量的實(shí)際監(jiān)測(cè)數(shù)據(jù)。該數(shù)據(jù)集包括2016—2021年共6年間每天不同時(shí)刻的水流量和含沙量數(shù)據(jù)值,用于對(duì)水沙通量趨勢(shì)進(jìn)行預(yù)測(cè)。原始監(jiān)測(cè)數(shù)據(jù)由年、月、日、時(shí)間、水位、水流量、含沙量共7個(gè)特征數(shù)據(jù)列組成。水沙通量為單位時(shí)間的含沙量,計(jì)算式為:
水沙通量=水流量×含沙量 (5)
實(shí)驗(yàn)數(shù)據(jù)通過每天監(jiān)測(cè)采集得到,時(shí)間間隔為4小時(shí)。其中,2016年1月1日監(jiān)測(cè)的數(shù)據(jù)結(jié)構(gòu)如表1所示,含沙量有5個(gè)時(shí)刻的數(shù)據(jù)是空缺的。
該數(shù)據(jù)集跨度了6年的時(shí)間,每年監(jiān)測(cè)數(shù)據(jù)情況如表2所示。
由表2可知,每年水流量、含沙量的整體監(jiān)測(cè)次數(shù)比較穩(wěn)定,且相較于水流量數(shù)據(jù),監(jiān)測(cè)數(shù)據(jù)中的含沙量數(shù)據(jù)存在大量空缺值。若直接對(duì)空缺值進(jìn)行刪除處理,會(huì)丟失大量采集到的水流量數(shù)據(jù),且無法準(zhǔn)確地對(duì)黃河水沙通量歷史數(shù)據(jù)進(jìn)行最大程度的信息挖掘?;跀?shù)據(jù)特性,考慮對(duì)含沙量數(shù)據(jù)進(jìn)行插值補(bǔ)充,進(jìn)而獲取完整的水沙通量數(shù)據(jù),再建立水沙通量的時(shí)間序列預(yù)測(cè)模型。
2.2 數(shù)據(jù)處理
黃河水域含沙量數(shù)據(jù)插值處理的步驟如下:
1)將原始數(shù)據(jù)中的年、月、日、時(shí)間這4個(gè)特征列信息轉(zhuǎn)換成時(shí)序數(shù)據(jù),獲得“時(shí)刻—含沙量”實(shí)驗(yàn)數(shù)據(jù)。
2)分別對(duì)含沙量實(shí)驗(yàn)數(shù)據(jù)進(jìn)行最鄰近插值、線性插值、二次樣條插值、三次樣條插值。
3)利用插值擬合曲線均方根誤差和擬合曲線效果,對(duì)四種插值方法進(jìn)行效果評(píng)價(jià),選擇最優(yōu)的插值方法對(duì)含沙量空缺值進(jìn)行插值處理。
4)利用水流量數(shù)據(jù)與插值后的含沙量數(shù)據(jù),計(jì)算得到水沙通量數(shù)據(jù)。
5)分析水沙通量時(shí)間序列數(shù)據(jù)的連續(xù)性及等間距性,按月份生成水沙通量時(shí)間序列數(shù)據(jù)。
2.3 插值結(jié)果對(duì)比
分別利用表3中4種插值方式,對(duì)實(shí)驗(yàn)數(shù)據(jù)中空缺是含沙量進(jìn)行插值。通過計(jì)算每種插值方法所得的6年數(shù)據(jù)插值結(jié)果與實(shí)際數(shù)據(jù)的擬合均方根誤差,取6年所得的均方根誤差的平均值作為插值方法的評(píng)價(jià)準(zhǔn)則,從擬合均方根誤差和擬合曲線兩個(gè)角度分析各個(gè)插值方法的效果。
表3中展示了近5年數(shù)據(jù)分別采用最鄰近、線性、二次樣條、三次樣條進(jìn)行插值后的擬合誤差。可知,擬合數(shù)據(jù)中三次樣條插值方法效果都最優(yōu),二次樣條插值方法次之,最鄰近插值效果最差。圖1為2016年數(shù)據(jù)使用4種插值方法的擬合曲線圖及三次樣條插值擬合曲線的片段圖,由圖分析,使用三次樣條插值方法進(jìn)行補(bǔ)植后,可以獲取更加連續(xù)光滑的時(shí)間序列數(shù)據(jù)。
3 時(shí)間序列預(yù)測(cè)模型
3.1 時(shí)間序列分析
基于三次樣條插值的黃河水沙通量時(shí)間預(yù)測(cè)模型[6-8],主要從時(shí)序數(shù)據(jù)的平穩(wěn)性和隨機(jī)性兩個(gè)角度進(jìn)行時(shí)間序列分析:
1)時(shí)間序列平穩(wěn)性?;跀?shù)據(jù)處理得到的月水沙通量時(shí)序數(shù)據(jù),繪制時(shí)間序列的時(shí)序圖和自相關(guān)圖可以查看時(shí)間序列平穩(wěn)性。月水沙通量時(shí)序數(shù)據(jù)具有明顯的季節(jié)性和年周期性,并整體呈下降趨勢(shì)。由原始數(shù)據(jù)自相關(guān)圖體現(xiàn)數(shù)據(jù)有非平穩(wěn)性特性,使用季節(jié)差分是序列數(shù)據(jù)平穩(wěn)化,由差分后的自相關(guān)圖體現(xiàn)差分后的時(shí)間序列自相關(guān)圖無拖尾現(xiàn)象,接近于平穩(wěn),可以用于建立季節(jié)性ARIMA模型。
2)單位根和隨機(jī)性檢驗(yàn)。通過單位根檢驗(yàn)判斷季節(jié)差分后時(shí)間序列的穩(wěn)定性,訓(xùn)練模型原始序列的單位根檢驗(yàn)的pValue值為0.000 867 1,單位根檢驗(yàn)統(tǒng)計(jì)量對(duì)應(yīng)的P值顯著小于0.05,由此可以判斷季節(jié)差分后實(shí)驗(yàn)數(shù)據(jù)為平穩(wěn)序列。
通過Python的statsmodels庫內(nèi)部acorr_ljungbox函數(shù)進(jìn)行檢測(cè)時(shí)間序列是否為隨機(jī)性序列,檢測(cè)結(jié)果計(jì)算得到的P值為0.000 008,遠(yuǎn)遠(yuǎn)小于0.05,可知處理后的實(shí)驗(yàn)數(shù)據(jù)是平穩(wěn)非隨機(jī)性序列,可用于時(shí)間序列模型。
3.2 季節(jié)性ARIMA模型
時(shí)間序列預(yù)測(cè)模型的原理是從數(shù)據(jù)序列數(shù)據(jù)中挖掘出隨機(jī)變量隨時(shí)間變化的趨勢(shì),并對(duì)未來的數(shù)據(jù)做出預(yù)測(cè)[9-10]。通過分析,水沙通量數(shù)據(jù)屬于季節(jié)性的時(shí)間序列,故采用季節(jié)性ARIMA模型,即ARIMA(p,d,q)×(P,D,Q)S。其中,S表示季節(jié)周期,p、q表示自回歸和移動(dòng)平均階數(shù),d表示差分階數(shù),P、Q表示季節(jié)性自回歸和移動(dòng)平均階數(shù),D表示季節(jié)差分階數(shù)。實(shí)驗(yàn)研究的月度水沙通量數(shù)據(jù)屬于平穩(wěn)季節(jié)性序列,因此季節(jié)周期s = 12,且差分階數(shù)d = 1。
3.3 結(jié)果分析與趨勢(shì)預(yù)測(cè)
本文使用Python軟件,對(duì)數(shù)據(jù)進(jìn)行插值處理并轉(zhuǎn)換成月度數(shù)據(jù),構(gòu)建基于水沙通量的時(shí)間序列預(yù)測(cè)模型,預(yù)測(cè)黃河流域水沙通量未來的變化趨勢(shì)。采用處理后的差分?jǐn)?shù)據(jù)訓(xùn)練ARIMA模型,讀取AIC值進(jìn)行模型定階,確定最優(yōu)的P值和q值。其中,實(shí)驗(yàn)過程中p、q兩個(gè)參數(shù)分別從0、1、2中任意取值,分別計(jì)算ARIMA(p,1,q)中所有組合的AIC值,選擇AIC值最小的組合作為模型最優(yōu)參數(shù)。
本實(shí)驗(yàn)使用網(wǎng)格搜索方法為模型定階,利用定義的三元參數(shù)自動(dòng)化不同組合對(duì)ARIMA模型進(jìn)行訓(xùn)練和評(píng)估。經(jīng)試驗(yàn),模型ARIMA(1,1,1)×(1,1,1)12計(jì)算得到的AIC值最小,應(yīng)用ARIMA(1,1,1)模型對(duì)未來兩年的水沙通量進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果如圖2所示。
圖2繪制的是水通沙量歷史趨勢(shì)與未來預(yù)測(cè)趨勢(shì),藍(lán)色線條是插值補(bǔ)全后2016年至2021年水沙通量的歷史趨勢(shì),橙色線條是基于歷史數(shù)據(jù)建立時(shí)間序列預(yù)測(cè)模型對(duì)2022年至2023年水沙通量未來趨勢(shì)的預(yù)測(cè)。對(duì)圖2進(jìn)行分析可知,插值處理后的數(shù)據(jù)能更好體現(xiàn)水沙通量的歷史趨勢(shì),基于三次樣條插值處理后的數(shù)據(jù),能用于時(shí)間序列預(yù)測(cè)模型對(duì)水沙通量變化規(guī)律進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果顯示未來兩年的水沙通量依然具有季節(jié)性變化規(guī)律,但整體呈下降趨勢(shì),與歷史數(shù)據(jù)呈同一規(guī)律變化。圖3為水通沙量實(shí)際趨勢(shì)與預(yù)測(cè)趨勢(shì)對(duì)比圖,由歷史曲線與預(yù)測(cè)曲線擬合圖可知,基于樣條插值的時(shí)間序列預(yù)測(cè)算法對(duì)水沙通量趨勢(shì)預(yù)測(cè)的結(jié)果與實(shí)際趨勢(shì)一致,算法能對(duì)未來趨勢(shì)做出準(zhǔn)確的預(yù)測(cè),并為評(píng)估水沙通量整體變化趨勢(shì)做出有效決策。
4 結(jié) 論
本文對(duì)黃河水域監(jiān)測(cè)數(shù)據(jù)中的空缺值進(jìn)行了插值與分析,基于不同插值方法的插值結(jié)果繪制擬合曲線進(jìn)行可視化對(duì)比分析,并計(jì)算各均方根誤差進(jìn)行對(duì)比,利用時(shí)間序列預(yù)測(cè)算法進(jìn)行了檢驗(yàn)。結(jié)果表明,三次樣條插值方法對(duì)具有曲線規(guī)律的空缺數(shù)據(jù)集插值效果最優(yōu)。將樣條插值的水沙通量時(shí)間序列預(yù)測(cè)算法應(yīng)用在其他大數(shù)據(jù)處理上,既能保證原始數(shù)據(jù)不受影響的情況下,又能最大程度獲取數(shù)據(jù)信息,使得時(shí)間序列預(yù)測(cè)模型具有更好的算法性能。
參考文獻(xiàn):
[1] 王俊杰,拾兵,巴彥斌.近70年黃河入海水沙通量演變特征 [J].水土保持研究,2020,27(3):57-62+69.
[2] 左書華,楊春松,付桂,等.長江口入海水沙通量變化及其影響分析 [J].海洋地質(zhì)前沿,2022,38(11):56-64.
[3] 李文,陳佳偉,劉瑞雪,等.張量時(shí)間序列預(yù)測(cè)T-Transformer模型 [J].計(jì)算機(jī)工程與應(yīng)用,2023,59(11):57-62.
[4] 唐錦萍.三次樣條插值及其在第一類積分方程求解中的應(yīng)用 [J].大學(xué)數(shù)學(xué),2022,38(1):5-10.
[5] 吳碩琳,李亞娟,鄧重陽.基于PIA的非均勻三次B樣條曲線Hermite插值 [J].計(jì)算機(jī)學(xué)報(bào),2023,46(11):2463-2475.
[6] 解建倉,王玥,雷社平,等.基于ARIMA模型的大壩安全監(jiān)測(cè)數(shù)據(jù)分析與預(yù)測(cè) [J].人民黃河,2018,40(10):131-134.
[7] 周坤,許云飛,祁浩偉.基于改進(jìn)ARIMA的新能源發(fā)電短期動(dòng)態(tài)調(diào)度模型 [J].電腦與信息技術(shù),2024,32(1):56-61.
[8] 屠立峰,包騰飛,李月嬌,等.基于分形插值的ARIMA大壩預(yù)警模型 [J].三峽大學(xué)學(xué)報(bào):自然科學(xué)版,2015,37(1):29-32.
[9] 殷文祥.時(shí)間序列概率預(yù)測(cè)分析研究 [D].北京:北京郵電大學(xué),2023.
[10] 郭佳俊.季節(jié)性時(shí)間序列調(diào)整與預(yù)測(cè)研究 [D].咸陽:西北農(nóng)林科技大學(xué),2023.
作者簡(jiǎn)介:張穎(1995—),女,漢族,廣東茂名人,助教,碩士,研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí);楊廷堯(1990—),男,漢族,黑龍江牡丹江人,高級(jí)會(huì)計(jì)師,碩士,研究方向:大數(shù)據(jù)、會(huì)計(jì)學(xué)。