于永堂,鄭建國,黃 鑫
(1.機械工業(yè)勘察設計研究院有限公司 陜西省特殊巖土性質與處理重點實驗室, 陜西 西安 710043;2.西安建筑科技大學 土木工程學院, 陜西 西安 710055)
近年來西部黃土丘陵溝壑區(qū)為了增加建設用地,利用"削峁填溝"方式造地,由此出現(xiàn)了越來越多的高填方工程。高填方場地的沉降和不均勻沉降過大時會對建(構)筑物的安全及正常使用構成威脅。因此如何預測高填方場地的工后沉降,指導建(構)筑物的規(guī)劃布局和合理確定的后續(xù)地面工程的建設時機,是當前高填方工程中亟待解決的關鍵問題之一。黃土高填方場地的原地基地質條件的復雜性,填筑體荷載的多變性,外部環(huán)境的不確定性,使得工后沉降的理論計算值與實測值往往存在較大差異,實際工程中仍多采用基于實測數(shù)據(jù)外推預測的經驗模型方法。當采用經驗模型方法進行工后沉降預測時,工后初期的實測沉降歷時數(shù)據(jù)較少或工后沉降觀測時間較短,這時直接采用單一模型進行預測,往往會出現(xiàn)擬合效果好而預測效果差的情況。因此,為了提高預測精度,常采用組合預測方法,然而有時用于組合的單項模型之間會出現(xiàn)信息重疊現(xiàn)象,即存在多重共線性問題,這導致新增加單項模型并不一定總能明顯提高預測精度,為此,有學者建議剔除一些僅增加少量有用信息的單項模型[1]。關于組合預測中單項模型的數(shù)量問題,Granger等[2]和Aiolfi等[3]的研究結果顯示,參與組合預測的單項模型數(shù)量,一般不存在普遍適用的最優(yōu)數(shù)量。此外,Aiolfi等[4]還發(fā)現(xiàn),一些單項模型的預測效果并不穩(wěn)定,隨著觀測時長的增加,先前預測效果好的模型將來可能變差,先前預測效果差的模型將來也可能會變好。因此,僅通過剔除某些單項模型的方法并不能完全解決上述問題。此外,在沉降觀測初期,在數(shù)據(jù)量少的情況下,采用基于回歸的組合預測模型,容易出現(xiàn)單項模型數(shù)量多于樣本數(shù)據(jù)量的情況,還會導致回歸參數(shù)無法估計等問題。
主成分分析(Principal Component Analysis,簡稱PCA)是用幾個較少的綜合指標(即主成分)來代替原來較多的指標,找出數(shù)據(jù)中最主要的元素和結構,去除數(shù)據(jù)中的噪音和冗余,將原有復雜數(shù)據(jù)進行降維,揭露隱藏在復雜數(shù)據(jù)背后的簡單結構[5]。PCA最早由英國生物統(tǒng)計學家Pearson[6]在1901年在對非隨機變量進行討論時引入,隨后數(shù)學家Hotelling[7]將其推廣至隨機變量。之前PCA主要用于計算機圖像處理[8]、經濟分析等領域[9],近年有學者將PCA與逐步回歸法[10]、分類回歸樹[11]、SPE控制圖[12]、BP神經網絡[13]、時間序列分析[14]、主元回歸建模[15]等方法相結合進行相關預測,但PCA在工程建設領域的應用鮮有報道。
本文采用主成分分析方法對單項預測模型進行降維處理,用于解決基于回歸的組合模型中單項預測模型數(shù)量多于建模數(shù)量,以及單項模型之間的多重共線性等問題,并結合某黃土高填方場地的實測沉降數(shù)據(jù),對預測結果進行了驗證。
假設實際問題中共有p個指標X1,X2,…,Xp,每個指標共有n個樣本,組成n×p階的數(shù)據(jù)矩陣如式(1)所示。
(1)
對原變量指標X1,X2,…,Xp作線性組合,經降維處理后,得到新變量指標(綜合指標)為Z1,Z2,…,Zm(m≤p),原變量指標與新變量指標之間的關系如式(2)所示。Z1,Z2,…,Zm分別為原變量指標X1,X2,…,Xp的第1,2,…,m主成分。
(2)
式(2)滿足如下條件:
(1) 主成分Zi與Zj(i≠j;i,j=1,2,…,m)相互獨立,無重疊的信息,即Cov(Zi,Zj)=0。
(2) 主成分方差滿足Var(Z1)≥Var(Z2) ≥…≥Var(Zm),即Z1是與X1,X2,…,Xp一切線性組合中方差最大者,含有最大的信息量;Z2是與Z1不相關的X1,X2,…,Xp的所有線性組合中方差最大者;依此類推得到各主成分……;Zm是與Z1,Z2,…,Zm-1都不相關的X1,X2,…,Xp的所有線性組合中方差最大者。
(3)
式中:w0為常數(shù)項;wi(i=1,2,…,m)為第i種單項模型的權重系數(shù);εt為隨機擾動項(隨機誤差)。當主成分分析法進行回歸組合預測的主要步驟如下:
(4)
由m個單項模型組成n×m維數(shù)據(jù)矩陣如式(5)所示。
(5)
(6)
由式(6)計算得到相關系數(shù)矩陣R=(rij)m×m如式(7)所示,該矩陣為對稱矩陣。
(7)
(3) 計算特征值與特征向量。首先運用Jacobi迭代方法計算特征方程1λE-R1=0,求出特征值并按大小順序排列(λ1≥λ2≥…≥λm≥0),然后求出特征值λi對應的特征向量Ui(i=1,2,3,…,m)如式(8)所示。
Ui=[u1i,u2i,…,umi]′
(8)
由特征向量Ui組成的主成分系數(shù)矩陣U如式(9)所示。
(9)
以特征向量的分量值為權數(shù),將標準化的變量指標進行加權得到第i個主成分。主成分與原變量指標之間的關系如式(10)所示。
Z=U′S=[Z1Z2…Zm]T=
(10)
(4) 建立多元線性回歸模型。在多元回歸分析中,最優(yōu)的回歸模型一般要求表征模型擬合效果的似然函數(shù)最大化,模型中未知參數(shù)個數(shù)最小化,因此,本次對主成分的篩選采用赤池信息量準則(Akaike Information Criterion,AIC)[16],計算方法見式(11)。
AIC=2k-2lnL
(11)
式中:k為模型參數(shù)個數(shù);L為似然函數(shù)。當進行多元回歸組合建模時,每一步新引入一個主成分,若AICi+1>AICi,則剔除新引入的主成分Zi+1,若AICi+1 根據(jù)上述思路,現(xiàn)舉例如下:首先對第1主成分 作線性回歸,計算回歸模型參數(shù)a0、a1,進行顯著性檢驗,計算AIC值,記為AIC1。 (12) 在式(12)中增加第2主成分Z2,計算AIC值,記為AIC2。若AIC2 (13) 陜北某黃土高填方工程地處黃土丘陵溝壑區(qū),屬于采用削峁填溝方式的造地工程,原地基采用強夯法處理,填筑體采用分層碾壓法處理,料源黃土的含水率分布區(qū)間為8%~20%;干密度分布區(qū)間為1.53 g/cm3~1.89 g/cm3。典型監(jiān)測點O5共15期沉降數(shù)據(jù),本次采用前5期數(shù)據(jù),采用Logistic模型[17](模型1)、Gompertz模型[18](模型2)、Usher模型[19](模型3)、Weibull 模型[20](模型4)、MMF模型Ⅰ[21](模型5)、MMF模型Ⅱ[22](模型6)、改進Richards模型[23](模型7)、Janoschek模型[24](模型8)、Knothe模型[25](模型9)、改進Knothe模型[25](模型10)、鄧英爾模型[26](模型11)、Spillman模型[27](模型12)建模外推預測10期數(shù)據(jù),預測結果如表1所示??梢姡跀?shù)據(jù)量較少的情況下,各模型的預測效果均較差,存在單項模型收斂過早或過晚等問題。 表1 典型監(jiān)測點的工后沉降實測值及預測值 為了提高預測精度,采用表1中前6期預測數(shù)據(jù)作為PCA組合預測模型的建模數(shù)據(jù),采用MATLAB R2014b軟件中的corrcoef(A)函數(shù)計算各單項模型方法之間的相關系數(shù),采用[pc,score,latent,tsquare]=princomp(A)函數(shù)計算特征向量pc(主成分系數(shù))、主成分值Score、特征值(從大到小排列)latent、每個樣本點霍特林(Hotelling)T2統(tǒng)計量tsquare。由表1中數(shù)據(jù)計算得到各單項預測方法之間的相關系數(shù)如表2所示。由表2可看出,各單項模型的預測數(shù)據(jù)之間的相關系數(shù)較高,表明在顯著性水平條件下,這些自變量之間的線性相關性較高,即各單項模型之間存在多重線性相關性。這主要是多數(shù)單項模型預測值與實測值線性相關,進而導致各模型之間也線性相關。 表2 各預測模型之間的相關系數(shù) 各單項模型的主成分系數(shù)和新坐標系下各主成分的值,如表3和表4所示。將表1中第7、8、9、10期各模型的預測數(shù)據(jù)作為組合模型的檢驗數(shù)據(jù),并轉化為主成分值,計算過程如表5、表6所示。 表3 主成分系數(shù) 表4 建模數(shù)據(jù)在新坐標系下主成分值 表5 檢驗數(shù)據(jù)在新坐標下主成分值的計算結果 續(xù)表5 表6 檢驗數(shù)據(jù)在新坐標系下的主成分值 從表4中可以看出,在新坐標下,最后7個主成分不包含任何信息,原數(shù)據(jù)維數(shù)得到降低,其中不為0的主成分值共5個。逐次增加主成分值Z1、Z2、Z3、Z4、Z5,采用數(shù)據(jù)分析軟件EViews 10建立多元線性回歸模型,求解模型參數(shù)a0,a1,…,ai。當主成分值為5個和4個時二者AIC值相差不大,為簡化計算防止過擬合,主成分數(shù)量取為4個,組合模型見式(14)。 (14) 表5中第i期(i=7、8、9、10)去中心化方法為各模型第i期預測值減去前6期均值,將表6中Z1、Z2、Z3、Z4值帶入式(14)可求得組合模型預測值。組合模型預測效果與各單項模型的預測效果比較如圖1所示。組合模型預測誤差統(tǒng)計結果如表7所示。 圖1 組合模型與單項模型的預測曲線 表7 組合模型沉降預測誤差統(tǒng)計結果 本次以第415 d為起點,對后續(xù)第469 d、510 d、602 d、712 d,共4期數(shù)據(jù)采用組合模型進行預測,預測數(shù)據(jù)的時間跨度為297 d。由預測誤差分析結果可知,在檢驗數(shù)據(jù)時間跨度是建模數(shù)據(jù)時間跨度1.4倍的情況下,組合模型預測值與實測值吻合較好,絕對誤差Δe(預測值與實測值之差)在±1 mm內,相對誤差在-1.5%~1.8%之間,表明基于PCA的組合預測模型能大幅度提高預測精度。 本文針對沉降觀測初期,僅獲得少量短歷時工后沉降數(shù)據(jù)或單項模型預測效果較差等問題,提出了基于主成分分析(PCA)的工后沉降組合預測方法,并在實際工程中進行應用檢驗,得到以下主要結論: (1) 各單項模型之間存在多重共線性,單項模型的沉降預測值與實測值之間均呈現(xiàn)高度線性相關,因此,具備采用基于回歸的線性組合預測方法的基本條件。 (2) 建立基于回歸的組合預測模型前,采用主成分分析法對單項模型進行降維處理,可以解決預測模型多于組合預測樣本數(shù)量、單項模型之間因高度線性相關導致的共線性等問題。 (3) 本文提出的組合預測方法既全面考慮了各單項模型所包含的沉降信息和影響因素,又消除了單項模型之間的多重共線性問題,省去了對單項模型遴選的步驟。 (4) 本文采用12種回歸參數(shù)模型進行組合預測,組合模型預測值與實測值吻合較好,預測精度明顯優(yōu)于各單項模型。 (5) 本文提出的模型適用于單項模型之間呈現(xiàn)線性關系時的組合預測,當各單項預測方法之間出現(xiàn)復雜的非線性關系時,不能采用本模型進行沉降預測。3 實例分析與效果檢驗
4 結 論