楊本釗
(悉尼大學(xué) 商學(xué)院,悉尼)
近年來,隨著各個國家和地區(qū)對民生安全、災(zāi)害抑制、土木建設(shè)等需求日益重視,以及地質(zhì)災(zāi)害的廣泛分布與劇烈活動和其造成的嚴(yán)重后果[1],使預(yù)測問題成為科學(xué)研究的重要方向。目前普遍通過各種形式的傳感器和錄像視頻等配合來進(jìn)行監(jiān)控和預(yù)測,傳感器的數(shù)據(jù)可以用來做穩(wěn)定性、安全性計算,同時也可以將各種數(shù)據(jù)利用機(jī)器學(xué)習(xí)進(jìn)行預(yù)測[2-3]。
目前許多重要的山體檢測參數(shù)并不能直接作為數(shù)據(jù)被計算機(jī)加以應(yīng)用,而必須要富有經(jīng)驗的地質(zhì)或者水利工程師使用經(jīng)驗公式來加以修正,這在一定程度上導(dǎo)致了經(jīng)驗影響結(jié)論的誤差[4]。本文通過合適的聚類方法將數(shù)據(jù)按降雨量分類,然后再利用機(jī)器學(xué)習(xí)方法對數(shù)據(jù)進(jìn)行預(yù)測,最終讓實際結(jié)果超過經(jīng)驗公式,在提高準(zhǔn)確率的同時降低人工成本與勞動力成本。
在預(yù)測山脊梁數(shù)據(jù)問題上,最小二乘支持向量機(jī)(下文稱為LSSVM)無疑是傳統(tǒng)算法中的較優(yōu)解。這是基于LSSVM的特性而得出的結(jié)論。相對于傳統(tǒng)的SVM只能在小的訓(xùn)練集中得到較為準(zhǔn)確的結(jié)果,LSSVM在多個因素或高維度下的分類回歸中有著更加優(yōu)秀與穩(wěn)定的表現(xiàn)[5]。而相對于ANN模型需要調(diào)整更多參數(shù),且難以克服局部最優(yōu)與過度擬合的缺陷,LSSVM可以做到在更小的參數(shù)調(diào)整范圍中解決問題從而避免上述情況。以LSSVM為基礎(chǔ),將以降水量隨時間采集的數(shù)據(jù)集視為時間序列y,將其中的時間點視為t時刻,設(shè)定一個該時間序列的前置點p和冗余q來構(gòu)成函數(shù),其中冗余函數(shù)q代表了自然環(huán)境下的影響因素影響公式的時間節(jié)點。除此之外將誤差設(shè)置為λ,如公式(1)所示:
根據(jù)學(xué)科專家的經(jīng)驗知識,以山體位移、高邊坡地下水位代表等20余項數(shù)據(jù)集構(gòu)成了公式1的核心,受到降水量時間序列的前置點p的影響。從中選取任意一個p前置點來形成一個p維空間向量,以原序列的方向進(jìn)行移動來獲取一組預(yù)測向量,并且將其定義為x。為了簡便描述公式(1)的函數(shù),通過引入未知向量w與φ(xt)表示公式(1)中的f(yt-1,yt-2,…,yt-p),并且將b設(shè)置為該函數(shù)的閾值。則對于任意的t,如公式2所示。
對于公式(2)中的未知向量W與公式(1)中的變換函數(shù)f,由于其維數(shù)在實際生活中可以被無限放大,甚至可以高于p,因此對未知向量w與變換函數(shù)f進(jìn)行優(yōu)化,通過規(guī)定最小化系數(shù)w的值,刻畫偏置矩陣WT并通過引入正則化參數(shù)γ來衡量實際的誤差率,如公式(3)所示:
通過觀察,不難發(fā)現(xiàn)t值被限定為公式(2)中從1到n的值,與向量數(shù)量相關(guān),這不利于模型的實際運用,因此需要利用內(nèi)核技巧來消除未知系數(shù)w,從而將f轉(zhuǎn)化為內(nèi)核函數(shù)。以此為核心理念,可以通過導(dǎo)入單位矩陣I來將其簡化為線性公式,如下:
將Ω定義為上述公式計算的矩陣,則有:
對于對稱高斯的徑向基函數(shù),即公式(5)中得出的內(nèi)核函數(shù)K,將σ定義為其寬度,用于衡量回歸中涉及的臨近向量的個數(shù)?;诖?,可以寫出公式(6):
通過上述推導(dǎo),當(dāng)出現(xiàn)新的樣本x時,基于之前引入的時間序列,插入拉格朗日乘數(shù)αt和公式(2)中包含的截距項b,通過公式(4)—公式(6)和原本的數(shù)據(jù)來使用最小二乘法來對所有公式(7)中的未知數(shù)求解,得出改進(jìn)后的LSSVM的模型,最終呈現(xiàn)為:
作為LSSVM模型的解讀,正則化參數(shù)γ與內(nèi)核函數(shù)寬度σ是影響LSSVM模型的預(yù)測精準(zhǔn)度的關(guān)鍵參數(shù)。不難發(fā)現(xiàn),對于正則化參數(shù)γ與內(nèi)核函數(shù)寬度σ的獲取,在實際例子中往往是通過窮舉法的不斷擬合得出的,而且其中可能涉及到優(yōu)化。這就意味著其中的突變數(shù)據(jù)會在龐大的數(shù)據(jù)量中被強(qiáng)行“抹平”。這種方式當(dāng)應(yīng)用于山體數(shù)據(jù)預(yù)測時,預(yù)測精度將會大幅度下降,因為對于山脊梁數(shù)據(jù)預(yù)測問題中,傳感器的突變數(shù)據(jù)是構(gòu)建預(yù)測模型的重要因子,不應(yīng)該按照數(shù)量級和常規(guī)數(shù)據(jù)共同處理,因此需要引入新的方法對LSSVM的兩個重要參數(shù)進(jìn)行優(yōu)化。在經(jīng)過計算與實際測試后,差分搜索算法(以下簡稱為DSA算法)表現(xiàn)出了良好的相性。
DSA(Different Search Algorithm)算法在 2012年由Pinar Civicioglu提出[6],它模擬了生物界為了尋找豐富資源的遷移情況。算法計算過程中當(dāng)發(fā)現(xiàn)第一個資源豐富區(qū)域時,將當(dāng)前發(fā)現(xiàn)的第一個資源豐富區(qū)域當(dāng)作定居點,然后從定居點開始向其它任意方向搜索,當(dāng)發(fā)現(xiàn)第二個資源豐富區(qū)域時,將第二個資源豐富區(qū)域當(dāng)作新的定居點,再從新的定居點開始向其它任意方向搜索,以此類推,最后得到最好的遷移路線。該算法的優(yōu)點是搜索范圍廣、簡單等,與傳統(tǒng)的粒子群算法[7]或者退火算法[8]比,具有高精度解決多個極值點優(yōu)化的優(yōu)點。DSA算法會在每次進(jìn)行迭代優(yōu)化后將新的最優(yōu)點與上一次迭代優(yōu)化后的最優(yōu)點相對比,并且進(jìn)行替換或保留(這取決于兩個最優(yōu)點的優(yōu)劣)。首先,在初始的參數(shù)方面,設(shè)定一個物種的規(guī)模為pm,其中m={1,2,3,…,N},N為該物種的全部個體數(shù)量。設(shè)定該物種的維度為pn,其中n={1,2,3,…,D},D為優(yōu)化迭代的維數(shù)。為了方便研究和探討,也為了避免過于繁雜的計算,引入Scope為該種群的活動范圍。其中up和low為該范圍的邊界。則初始最優(yōu)點的求解如下:
為了保證種群被限定在范圍內(nèi),則當(dāng)出現(xiàn)Scopemn
在考慮到避免局部最優(yōu)問題后,將S定義為種群的當(dāng)前最優(yōu)點,加入一個問題維度更新器,即由0和1組成的選擇器來決定維度是否繼續(xù)更新,將Dis-p定義為該種群移動的方向,將由R代表的使用布朗運動模擬種群搜索范圍代入公式(9)可以得到:
不難看出,DSA算法要求確定參數(shù)的維度、最大的迭代數(shù)量和生物的種群,這在上文中使用的LSSVM中可根據(jù)實際獲取的數(shù)據(jù)來定義。LSSVM的損失函數(shù)為默認(rèn)的情況下,平方損失函數(shù):
為了求解其中的兩個核心參數(shù)δ和γ(即在LSSVM的參數(shù)中擁有最高的權(quán)重),必須基于新的算法來減小δ和γ的定義范圍。傳統(tǒng)的LSSVM將δ和γ的區(qū)中范圍定義在[e-10,e10],在這樣大的范圍內(nèi)算法默認(rèn)用退火算法,在上述具體范圍內(nèi)搜索δ和γ的值,以保證算法的最優(yōu)解。但是退火算法是基于物理高溫開始,屬于隨機(jī)概率類算法,對當(dāng)前山體相關(guān)數(shù)據(jù)來說參數(shù)初值和衰減因子明顯不適合。
所以基于本文采用的實際數(shù)據(jù)作為計算標(biāo)準(zhǔn),將DSA算法的維度定義為超參數(shù)個數(shù)2,最大迭代數(shù)量定義為100,種群定義為本文數(shù)據(jù)量的20。其中根據(jù)DSA算法的定義,最大迭代數(shù)量對實際結(jié)果的影響會隨著數(shù)量增加而減弱,因此本文采用了100作為最大迭代定義數(shù)量,來保證準(zhǔn)確率的前提下降低計算的實際成本。在這種情況下計算LSSVM的2個參數(shù)即可。為了讓LSSVM的損失函數(shù)盡可能小,即Y-f(X)趨近于0,可根據(jù)上文中的DSA算法公式,將LSSVM的兩個超參數(shù)δ和γ使用公式(8)—公式(10)的DSA算法代入運算,結(jié)果可以表示為兩個數(shù)據(jù)集,即:
通過這種方式,δ和γ兩個超參數(shù)的每一個取值都會和之前的取值進(jìn)行比較,并且得出新的最優(yōu)解。通過DSA算法來求解δ和γ,使得這兩個LSSVM中重要的超參數(shù)的優(yōu)化變得更加準(zhǔn)確有效,從而避免出現(xiàn)局部最優(yōu)的問題,有效地利用了DSA算法中高性能的全局搜索能力。通過DSA算法求解出的δ和γ在全局上有著更快速、更準(zhǔn)確的特點,極大地減少了傳統(tǒng)LSSVM在計算δ和γ兩個超參數(shù)范圍時的取值次數(shù),變相縮小了傳統(tǒng)LSSVM中[ ]e-10,e10的區(qū)中范圍。
另一個優(yōu)勢在于,在山脊梁數(shù)據(jù)預(yù)測問題中,突變參數(shù)的參考價值極高,但是在傳統(tǒng)的LSSVM算法中,由于δ和γ的取值是基于全局隨機(jī)迭代來進(jìn)行選取,突變數(shù)據(jù)會被更大規(guī)模的非突變數(shù)據(jù)掩蓋。而通過DSA算法的優(yōu)化迭代,突變數(shù)據(jù)得以完整的保留,并被納入最優(yōu)解的衡量中,改善了LSSVM對山脊梁數(shù)據(jù)預(yù)測問題的適用性。
在利用吉林省某真實山體數(shù)據(jù)(山脊梁變形位移數(shù)據(jù)為主,降雨量、邊坡地下水位等20項相關(guān)數(shù)據(jù)為輔)進(jìn)行回歸和預(yù)測分析過程中,所有數(shù)據(jù)均來自于真實數(shù)據(jù),采取的數(shù)據(jù)分別為山脊梁山體位移數(shù)據(jù)、降雨量數(shù)據(jù)、高邊坡地下水位數(shù)據(jù)、高邊坡排水洞水位數(shù)據(jù)、山脊梁地下水位數(shù)據(jù)、山脊梁浸潤線數(shù)據(jù)等。在采集來的初始數(shù)據(jù)中,由于降雨量變化和各傳感器例如排水洞水位并不是線性對應(yīng)關(guān)系,同時降雨量數(shù)據(jù)本身就屬于不確定數(shù)據(jù)[9],最后經(jīng)過整理,有效數(shù)據(jù)點為20個,每個數(shù)據(jù)點采集的數(shù)據(jù)大約為10 500條,時間跨度為2007年1月1日到2016年3月31日。整理后的部分?jǐn)?shù)據(jù)如圖1所示。
圖1 吉林省某山脊梁采集數(shù)據(jù)匯總
山體監(jiān)測的真實數(shù)據(jù)中,有很多不確定數(shù)據(jù),例如降雨量、邊坡地下水位等。這些數(shù)據(jù)不僅不能保證為球形規(guī)范數(shù)據(jù),同時地下水位和降雨量還有時間延遲響應(yīng)等。單一傳統(tǒng)的聚類方法很難將監(jiān)測數(shù)據(jù)合理分類。而且這些數(shù)據(jù)并不能將數(shù)據(jù)直接進(jìn)行回歸和預(yù)測[10]。目前對于不確定數(shù)據(jù)常規(guī)的方法就是聚類,如ROCK、AP、STRING、FC等,在雨量和各種山體數(shù)據(jù)上應(yīng)用最多的就是密度聚類,如DBSCAN、OPTICS等,但是密度聚類算法需要使用者確定密度閾值作為參數(shù),如果密度閾值單一不變,在冬季或者多雨季節(jié)一定會出現(xiàn)較大誤差。
基于此,本文使用了Rodriguez在2014年提出的CFSFDP,可以自動地檢測簇數(shù)量的多少。這是基于密度峰值的快速聚類算法,算法假設(shè)聚類的簇的中心符合以下規(guī)則:(1)簇的中心鄰域被其他更低密度點的鄰域所包含;(2)上述鄰域和更高密度的其他點相對距離較遠(yuǎn)。計算完每個點的pi和δi后,畫出決策圖,決策圖右上方的點就是簇的中心點,以點的數(shù)量分配簇的個數(shù)。具體的篩選過程如下:(1)將密度遠(yuǎn)低于其他點的點自成簇,進(jìn)行標(biāo)記后在后續(xù)的分配過程中予以排除;(2)選擇pi和δi指標(biāo)都在總量的前50%的點成立簇中心,并且剩余的點分類到離它最近的簇中心所在的簇中。
通過上述過程,CFSFDP的本質(zhì)是利用決策圖找到聚類的中心(密度最大的地方),然后根據(jù)距離劃分不同類別,算法要求數(shù)據(jù)密度最大的點被密度較小的點所包圍,同時還要指定數(shù)據(jù)簇的最大距離,并且對離散的噪聲數(shù)據(jù)沒有處理,相對來說更適合數(shù)據(jù)規(guī)范的球形數(shù)據(jù)簇。降雨量在數(shù)據(jù)上按12個月數(shù)據(jù)來看,一般可人為分為少雨、中雨、多雨。普遍來看多雨季節(jié)時間密度較大在6~9月間,但是同時期的例如高邊坡地下水位數(shù)據(jù)密度最大卻在時間上延后一個月左右,這意味著聚類過程中雖然將雨量按多少聚類,但是雨量和其他數(shù)據(jù)的變化存在響應(yīng)的效率差,而CFSFDP因為沒有和時間相關(guān)的因子而不能直接應(yīng)用。所以本文引入了新的概念“響應(yīng)效率”(Response Efficiency,下文簡稱為RE),相當(dāng)于在算法中加入時間因子,更改了樣本數(shù)據(jù)的相關(guān)屬性的計算聯(lián)系方法。
以上文的多雨期為例,降雨量在6~9月時每年都有較大變化且無規(guī)律。而高邊坡排水洞的水位在6月份往往沒有數(shù)據(jù),到了7月份后才開始提高,到了10月份才達(dá)到最高點,可見兩組數(shù)據(jù)有一個月左右的延遲。其他數(shù)據(jù)例如浸潤線等也同樣有時間延遲,并且每組數(shù)據(jù)的延遲情況又不相同,所以不能單純的以降雨量為聚類參考數(shù)據(jù)去劃分其他數(shù)據(jù)。
普通降雨量的聚類過程為CFSFDP,這里先介紹CFSFDP算法的一些公式。該算法的主要內(nèi)容是求得數(shù)據(jù)集X的密度中心,假設(shè)每一個數(shù)據(jù)Xi都有ρ和δ,有公式(14):
式中,dij表示數(shù)據(jù)i和數(shù)據(jù)j之間的距離;dc是設(shè)定的半徑,可以理解為密度ρi表示以dc為半徑的一個圓,把樣本Xi都包含在這個圓中;δi表示此圓中不同數(shù)據(jù)的最大距離。通過迭代計算,最后得出三個參數(shù)的數(shù)組,該數(shù)組為:
其中,λi就是求得的,稱為組別編號,通過這個編號來區(qū)別最后的分組。
接下來,在CFSFDP算法上添加一個參數(shù)Δt,針對不同時間延遲的數(shù)據(jù)集,更改ρ和δ的計算方法,即提出基于數(shù)據(jù)延遲時間的RE-CFSFDP聚類。
以降雨量為聚類分組參考,將浸潤線變化和降雨量變化的延遲定義為Δt1,將高邊坡排水洞和降雨量的延遲定義為Δt2,Δt3,以此類推,得到一個數(shù)組Δtn,其中n為數(shù)據(jù)采集過程中的數(shù)據(jù)分類,數(shù)組的數(shù)量為每個數(shù)據(jù)分類中傳感器的數(shù)量,將tc定義為該數(shù)組的幾何意義上的圓形區(qū)域半徑。
將該參數(shù)添加到原有的密度計算中,添加了時間參數(shù)的計算公式為:
值得指出的是,Δt本身具有一定的范圍限制,來保證可以有效的進(jìn)行實際應(yīng)用。根據(jù)本文所用數(shù)據(jù)的采集頻率,將Δt的范圍定義為:
其中,1視為采集數(shù)據(jù)的頻率,本文為一個月,以避免單次降雨的延遲時間影響多次采集結(jié)果。Δt的下限設(shè)置為最大降雨量時的實際延遲效率。
以本文數(shù)據(jù)為例,本文數(shù)據(jù)除去需要用于構(gòu)建RE的降雨量外剩余4組,那么Δt1,m定義為第一組數(shù)據(jù)(例如高邊坡排水洞)與降雨量的RE,其中傳感器的數(shù)量為m。基于此,每一個數(shù)據(jù)都按自己獨立Δti數(shù)據(jù)再利用RE-CFSFDP算法進(jìn)行聚類,將聚類后的所有數(shù)據(jù)分為3個組,通過這種聚類方式改變了每個數(shù)據(jù)在不同延遲時間的聚類分散問題。
實驗將三組的結(jié)果進(jìn)行收集后,通過四種不同的機(jī)器學(xué)習(xí)模型導(dǎo)入計算,并且將計算結(jié)果使用RMSE和MAPE作為預(yù)測的評估指標(biāo)[10]。其中 RMSE(Root Mean Square Error)為均方根誤差,指預(yù)測值與真實值差的平方的期望,如下:
MAPE(Mean Absolute Percentage Error)是 平均的絕對百分比誤差,如下:
最后實驗將基于原數(shù)據(jù)集根據(jù)雨量不同進(jìn)行分類的三個小數(shù)據(jù)集的最后誤差結(jié)果取平均值來作為最后的實驗結(jié)果。4種不同預(yù)測模型的LOSS誤差平均值如表1所示。
表1 各預(yù)測模型誤差(LOSS)
表1中的4組數(shù)據(jù)分別代表了包含傳統(tǒng)的SVM與LSSVM和DSA與之相結(jié)合的4種不同預(yù)測模型的實際實驗結(jié)果。其中,DSA-LSSVM的RMSE與MAPE的誤差平均值均相對于其他三組模型更小,這意味著DSA-LSSVM在預(yù)測山脊梁數(shù)據(jù)問題時更加穩(wěn)定,有著更好的實際效果。單獨觀察每個小數(shù)據(jù)集中的實際表現(xiàn),DSALSSVM依舊在4種機(jī)器學(xué)習(xí)模型中展現(xiàn)了更高的準(zhǔn)確程度,這意味著DSA-LSSVM模型在實際運用中也有著更優(yōu)秀的適用性。
為了更好的展現(xiàn)DSA-LSSVM模型在實際優(yōu)化過程中的表現(xiàn)和與其他三種模型在優(yōu)化全過程中的差異,引入了真實數(shù)據(jù)作為預(yù)測過程中的參考標(biāo)準(zhǔn),并且根據(jù)預(yù)測情況標(biāo)畫出了4種模型的迭代優(yōu)化曲線,以山體實際縱向位移量和不同算法模型預(yù)測的縱向位移量作為評價標(biāo)準(zhǔn),從而在實際運用中對山脊梁滑坡有最優(yōu)預(yù)測結(jié)果(山脊梁形變實際意義為山體縱向位移數(shù)據(jù)突變)[11]。計算結(jié)果如圖3—圖5所示。
通過觀察圖2,可以發(fā)現(xiàn)在少雨情況下,DSA-LSSVM模型預(yù)測數(shù)據(jù)曲線在90余天內(nèi)的縱向位移總量全程穩(wěn)定高于真實數(shù)據(jù),而且除開始的十天內(nèi),幾乎全程都高于其他三種模型預(yù)測曲線的預(yù)測縱向位移。而對于傳統(tǒng)的SVM與LSSVM,可以發(fā)現(xiàn)在山脊梁數(shù)據(jù)問題的預(yù)測上表現(xiàn)均不佳,其中SVM曲線僅在前30天內(nèi)保證了配準(zhǔn)精度,而LSSVM曲線也在70天后低于實際數(shù)據(jù)曲線。DSA-SVM雖然全程更貼合實際數(shù)據(jù),但是對于實際生活中山脊梁數(shù)據(jù)問題的預(yù)測,除了曲線的預(yù)測精度需要被觀測外,更重要的是模型的穩(wěn)定性和提前性,需要犧牲一定的貼合程度來保證足夠的預(yù)測提前量,才能更好的做出應(yīng)對。
圖2 少雨情況下4種算法對比圖
在中雨情況下(如圖3所示),可以發(fā)現(xiàn)傳統(tǒng)的SVM和LSSVM對于數(shù)據(jù)縱向位移的預(yù)測相去甚遠(yuǎn),其中SVM預(yù)測曲線在50天后就和實際數(shù)據(jù)曲線貼合程度嚴(yán)重下降,而LSSVM幾乎全程都沒有很好的反應(yīng)實際數(shù)據(jù)情況。DSA-SVM曲線雖然依舊保持少雨情況下的貼合程度(如圖2所示),但在90天左右時對縱向位移曲線斜率的突然增加明顯響應(yīng)速度較慢,而DSA-LSSVM不但保持了貼合與預(yù)測量的優(yōu)秀表現(xiàn),在應(yīng)對縱向位移量突變時的響應(yīng)速度也明顯較快。
圖3 中雨情況下4種算法對比圖
在多雨情況下,如圖4所示,山脊梁縱向位移總量在60天處產(chǎn)生突變,而SVM、LSSVM與DSA-SVM在響應(yīng)速度上均不能達(dá)到實際要求。其中傳統(tǒng)的SVM和LSSVM預(yù)測曲線并不能反應(yīng)山脊梁的實際情況,甚至LSSVM的預(yù)測曲線出現(xiàn)了明顯的錯誤持續(xù)上升趨勢。而DSA-SVM曲線的預(yù)測突變明顯小于山脊梁實際突變,無法有效起到安全預(yù)警作用。DSA-LSSVM曲線則保持在突變過程中緊密貼合實際曲線,在對突變數(shù)據(jù)的處理部分有著明顯的優(yōu)勢。
圖4 多雨情況下4種算法對比圖
上述結(jié)果說明了DSA-LSSVM模型在預(yù)測山脊梁數(shù)據(jù)問題上,無論是LOSS函數(shù)在不同數(shù)據(jù)集中的誤差表現(xiàn)還是實際預(yù)測曲線中均展現(xiàn)了更高的準(zhǔn)確度、更優(yōu)秀的迭代方式和更好的實用性。
本文在預(yù)測山脊梁數(shù)據(jù)問題上,提出了DSA-LSSVM的數(shù)據(jù)預(yù)測方法,并將預(yù)測按降雨量分為三種情況,利用了DSA的全局優(yōu)化能力計算LSSVM的兩個核心參數(shù),有效地改善了默認(rèn)LSSVM算法中的隨機(jī)參數(shù)計算方法容易漏算最優(yōu)解的問題。本文在實際實驗中,對比分析了傳統(tǒng)的LSSVM、SVM算法和DSA-SVM等混合算法。實驗結(jié)果表明,DSA-LSSVM對比傳統(tǒng)預(yù)測模型,有著更快的迭代效率,更快的優(yōu)化速度和更加精確的預(yù)測數(shù)據(jù),并且得益于DSA算法的優(yōu)勢,不容易陷入局部最優(yōu)問題。因此,DSALSSVM在山脊梁數(shù)據(jù)問題上是一種有很大擴(kuò)展空間的優(yōu)秀的數(shù)據(jù)位移的預(yù)測手段。
為了有效處理不確定性數(shù)據(jù),本文利用CFSFDP聚類算法將數(shù)據(jù)進(jìn)行約束并導(dǎo)入神經(jīng)網(wǎng)絡(luò)中運算,并且添加了針對不同時間延遲產(chǎn)生的響應(yīng)效率,改進(jìn)并提出了RE-CFSFDP聚類算法,在山脊梁數(shù)據(jù)的整合分類中起到了良好的效果。RE-CFSFDP在應(yīng)對存在響應(yīng)效率的數(shù)據(jù)集時,可以有效地避免對應(yīng)不同步,導(dǎo)致神經(jīng)網(wǎng)絡(luò)運算誤差加大,甚至得出錯誤結(jié)論的情況。
由于山脊梁數(shù)據(jù)問題的復(fù)雜程度,和實際數(shù)據(jù)采集的局限性,以及受限于作者本人的實際水平和經(jīng)費精力,本文在以下方面還需要進(jìn)一步的分析和改進(jìn),才可以針對山脊梁數(shù)據(jù)問題進(jìn)行更好的預(yù)測與分析。
(1)針對更多算法的引進(jìn)。本文僅詳細(xì)講述了RE-CFSFDP聚類算法以及DSA算法在LSSVM中的應(yīng)用,未來可以嘗試更多的多目標(biāo)優(yōu)化算法、深度學(xué)習(xí)算法等,嘗試進(jìn)行多算法整合橫向?qū)Ρ葋眍A(yù)測山脊梁數(shù)據(jù)問題。
(2)更多有效數(shù)據(jù)的采集。由于實際山體中傳感器的數(shù)量和埋設(shè)位置的限制,本文僅僅選取了部分水力學(xué)參數(shù)來進(jìn)行山脊梁數(shù)據(jù)問題的預(yù)測和分析,未來可以考慮諸如植被、坡度、水壩等其他角度多層次進(jìn)行分析,來提高實際預(yù)測的準(zhǔn)確率。
(3)更多層次的優(yōu)化迭代與分析。由于LSSVM中的兩個超參數(shù)δ和γ取值范圍龐大,雖然使用了DSA算法來一定程度上變相縮小了計算范圍和強(qiáng)度,但是受限于實際表現(xiàn),迭代的次數(shù)并未有更多的設(shè)計。未來可以嘗試進(jìn)行更多的迭代,來對曲線的表現(xiàn)形式進(jìn)行進(jìn)一步的刻畫。