劉 寅,覃 紅
(華中師范大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)學(xué)院,武漢替換為 430079)
基于均勻設(shè)計Goldstein-Price函數(shù)模擬研究
劉 寅,覃 紅*
(華中師范大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)學(xué)院,武漢替換為 430079)
Goldstein-Price函數(shù)是A.A.Goldstein和J.F.Price 1971年首次提出的.Goldstein-Price函數(shù)是一個比較經(jīng)典的二元多項式函數(shù)模型.有許多作者從優(yōu)化和算法的角度對它進(jìn)行詳細(xì)的研究.最近,在計算機(jī)試驗設(shè)計中,一些作者對 Goldstein-Price函數(shù)進(jìn)行模擬研究.本文利用均勻設(shè)計和中心化四次回歸的方法對 Goldstein-Price函數(shù)進(jìn)行模擬,并重點考慮不同的均勻設(shè)計對擬合好壞的影響以及生成數(shù)據(jù)集時是否選取邊界點對擬合好壞的影響.
Goldstein-Price函數(shù);中心化四次回歸方法;均勻設(shè)計
Goldstein-Price函數(shù)是一個二元八次多項式,它是A.A.Goldstein和J.F.Price[1]1971年中首次提出來的,其目的利用局部最小化算法去研究該二元多項式的局部最小值.最近,許多作者對Goldstein-Price函數(shù)從優(yōu)化、算法、模擬等角度進(jìn)行了研究.J.Andre等人[2]用改進(jìn)的標(biāo)準(zhǔn)遺傳算法對 Goldstein-Price函數(shù)進(jìn)行研究,P.Ranjan[3]從隨機(jī)超拉丁方設(shè)計出發(fā)利用序貫的方法對Goldstein-Price函數(shù)的等高區(qū)域進(jìn)行了模擬.Chen[4]分別用帶有高斯相關(guān)函數(shù)的 Kriging模型、二次響應(yīng)曲面多項式等六種方法以及均勻設(shè)計、正交設(shè)計等五種不同的設(shè)計方法對 Goldstein-Price函數(shù)進(jìn)行擬合,并比較了不同設(shè)計擬合的效果.S.C.Chung和 Y.C.Hung[5]利用序貫權(quán)重均勻設(shè)計的方法對 Goldstein-Price函數(shù)的目標(biāo)區(qū)域進(jìn)行估計.
上述文獻(xiàn)都是利用計算機(jī)試驗來對Goldstein-Price函數(shù)這一經(jīng)典的二元多項式函數(shù)模型進(jìn)行研究.本文將利用均勻設(shè)計和中心化四次回歸的方法對 Goldstein-Price函數(shù)進(jìn)行模擬,并分別考慮不同的均勻設(shè)計對擬合好壞的影響以及構(gòu)造數(shù)據(jù)集時是否選取邊界點對擬合好壞的影響.
1.1 均勻設(shè)計
均勻設(shè)計是由我國學(xué)者方開泰教授和王元教授于70年代末應(yīng)復(fù)雜系統(tǒng)建立數(shù)學(xué)模型并研究其諸多影響因素的需要而提出的一種試驗設(shè)計方法[6-7],該設(shè)計要求試驗點均勻散布在試驗區(qū)域χ內(nèi).
由于均勻設(shè)計可以有效減少試驗次數(shù)和降低試驗成本,因此它被廣泛應(yīng)用于許多領(lǐng)域來解決實際問題.現(xiàn)在越來越多的人對均勻設(shè)計的理論和應(yīng)用感興趣,并取得了大量的理論和應(yīng)用成果,詳細(xì)的情況可參見文獻(xiàn)[8-9].
一個n次試驗,s個因子,每個因子有q個水平的均勻設(shè)計通常記為Un(qs).表1給了一個均勻設(shè)計U11(114)..這個設(shè)計有11次試驗,4個因子且每個因子有11個水平.這個設(shè)計參見文獻(xiàn)[10].下一節(jié)將利用 U11(114)去研究 Goldstein-Price函數(shù).
表1 設(shè)計表Tab.1 Design table
1.2 Goldstein-Price函數(shù)
在 Goldstein-Price函數(shù)模型中,響應(yīng)變量 y由下式?jīng)Q定
圖1 Goldstein-Price函數(shù)圖Fig.1 The picture of Goldstein-Price function
在 Goldstein-Price函數(shù)中,有2個輸出變量x1和 x2,因此用表1中給出的均勻設(shè)計U11(114)中的因子A和因子B本別來研究變量x1和x2.對每一個輸入變量,其11個水平1,2,…,11分別由原始模型的定義域[-2,2]中的11個等距的值來替換,這里不包括兩個邊界值.由此獲得的U11(112)設(shè)計和由公式(1)式得到的相應(yīng)的輸出變量y值一并列入表2中.
現(xiàn)在考慮用多項式回歸模型的子模型來近似真正的模型(1),為評價不同的輸入變量對 y的影響,分別作出 y對2個輸入變量之間按的關(guān)系圖,見圖2,其中圖(a)是固定 x2在其中間值即 x2=0得到,圖(b)是固定 x1在其中間值即 x1=0得到.這些圖表明傳統(tǒng)的中心化二次回歸模型已經(jīng)不能很好的近似模擬真實模型,因此考慮用更高階的回歸模型來逼近真實模型.本文用 x的中心化四次回歸模型來近似逼近真實模型.
表2 設(shè)計表和相應(yīng)的輸出變量 yTab.2 The design and related outputy
圖2 輸出變量對輸入變量的點圖Fig.2 Plots of y against input variables
現(xiàn)在基于表2來建立中心化四次回歸模型.由于在這個模型中有16個變量,用回歸分析中的模型選擇技術(shù)來去掉那些對模型沒有幫助的項,由于n<16,只有前進(jìn)法和逐步回歸方法可以用.在這個問題中,借助于逐步回歸得到結(jié)果.對于逐步回歸方法,采用0.05作為顯著性水平去在模型中添加或刪除一個變量,表3給出了回歸模型(2)的方差分析(ANOVA)表,其中表3(a)給出了模型(2)的總體方差分析的結(jié)果,表3(b)給出了模型(2)各分項的分析結(jié)果,可以看出 y對兩個變量的中心化四次模型的逐步回歸結(jié)果,除常數(shù)項外,有9項進(jìn)入回歸方程.
因此,得到如下的回歸模型
與其它模擬方法相比,本文采用的中心化四次回歸的方法具有較小的均方誤差,因此模擬的效果更好.結(jié)果可見表4.
表3 模型(2)的ANOVA表Tab.3 ANOVA table for model(2)
表4 不同模擬方法比較[4]Tab.4 The comparison among different simulative methods
圖3 模型(2)在1 000個隨機(jī)點的預(yù)測誤差Fig.3 Prediction errors at
傳統(tǒng)的設(shè)計理論認(rèn)為因子的水平數(shù)越高,由此擬合出來的回歸方程與真實模型應(yīng)該越接近.下面,研究一下低水平與高水平的均勻設(shè)計對Goldstein-Price函數(shù)進(jìn)行擬合的影響.這里以 R2作為衡量模型擬合好壞的標(biāo)準(zhǔn).R2越接近于1,則擬合越好;反之,則擬合越差.
這里,分別考慮低水平 q=5,6,7和高水平 q=11,13,15時的均勻設(shè)計對 Goldstein-Price函數(shù)擬合的影響.選取均勻設(shè)計表來自于文獻(xiàn)[10],具體使用的設(shè)計見表5.
表5 不同水平的設(shè)計表Tab.5 Design tables with different levels
表6 高、低水平擬合函數(shù)的比較Tab.6 The comparison among simulative functions of high levels and low levels
根據(jù)表5來建立相應(yīng)的數(shù)據(jù)集,并通過中心化四次回歸的方法對 Goldstein-Price函數(shù)進(jìn)行擬合,得到表6.
這里以 R2low表示低水平時擬合函數(shù)的 R2,以R2high表示低水平時擬合函數(shù)的R2.從表中,可以很清楚的看到,在q=11,13,15時,均有 R2high>0.99,特別的 q=11時,有 R2high=1.0000;q=7時,R2low=0.9715<0.99,這說明因子的水平數(shù)越高,用中心化四次回歸的方法擬合的函數(shù)與真實模型越接近,也即用中心化四次回歸的方法擬合的方程和 Goldstein-Price函數(shù)非常接近.因此,可以認(rèn)為在對Goldstein-Price函數(shù)進(jìn)行中心化四次回歸建模時,通過高水平產(chǎn)生的數(shù)據(jù)集建立的擬合模型比低水平產(chǎn)生的數(shù)據(jù)集建立的擬合模型要好,這與傳統(tǒng)理論的結(jié)論是一致的.
在利用均勻設(shè)計表構(gòu)造數(shù)據(jù)集時,通常有兩種方法,一種不取邊界值,另一種是取邊界值.下面來研究是否取邊界值對于中心化四次回歸建模的影響.
4.1 不取邊界的情形
首先通過變換使得取值落在區(qū)間(-2,2)中,其中 k是因子的水平,q是因子的水平數(shù).
以q=11為例來說明具體的方法.當(dāng)不取邊界時,本文所用的均勻設(shè)計表為U11(112).將通過變換(3)獲得的數(shù)據(jù)和由(1)式得到的相應(yīng)的輸出變量 y值一并列入表7中.
基于表7中的數(shù)據(jù),可以建立如下的回歸函數(shù):
表7 q=11時設(shè)計表和相應(yīng)的輸出變量 y(不取邊界)Tab 7 The design table and related outputyat levelq=11(without boundary)
其中,R2=1.0000.
4.2 取邊界的情形
通過變換
k=1,2,…,q使得取值落在[-2,2]之間來構(gòu)造數(shù)據(jù)集.
以q=11為例來說明具體的方法.當(dāng)取邊界時,本文所用的均勻設(shè)計表為U11(112).將通過變換(4)獲得的數(shù)據(jù)和由(1)式得到的相應(yīng)的輸出變量 y值一并列入表8中.
表8 q=11時設(shè)計表和相應(yīng)的輸出變量y(取邊界)Tab.8 The design table and related outputyat levelq=11(with boundary)
基于表8中的數(shù)據(jù),可以建立如下的回歸函數(shù):
其中,R2=0.9995.
4.3 比較
是否通過不取邊界值建立的數(shù)據(jù)集進(jìn)行擬合的函數(shù)要比通過取邊界值建立的數(shù)據(jù)集進(jìn)行擬合的函數(shù)要好呢?下面按照5.1和5.2中介紹的方法對q=13和q=15的情形進(jìn)行模擬研究,具體結(jié)果列舉在表9中.
表9 取邊界與不取邊界擬合函數(shù)的比較Tab.9 The comparison among smulative functions of choosing points with boundary and without boundary
以 R2wo表示不取邊界值時擬合函數(shù)的 R2,以R2w表示取邊界值時擬合函數(shù)的R2.從表9中,可以看到當(dāng) q分別取11、13、15時,均有 R2wo>R2w成立,也就是說通過不取邊界值進(jìn)行擬合得到的函數(shù)比通過取邊界值進(jìn)行擬合得到的函數(shù)要好,也即通過不取邊界值進(jìn)行擬合得到的函數(shù)與真實模型更接近.
這一點,也可以借助于 Goldstein-Price函數(shù)的函數(shù)圖像加以解釋.從圖1中看到 Goldstein-Price函數(shù)的局部極值點主要集中在函數(shù)圖像的邊界位置處,因此,當(dāng)數(shù)據(jù)集不取到邊界點時,得到的擬合函數(shù)更接近于真實模型.
本文作者利用中心化四次回歸的方法對Goldstein-Price函數(shù)進(jìn)行模擬,分別考慮不同的均勻設(shè)計對擬合好壞的影響以及構(gòu)造數(shù)據(jù)集時是否選取邊界點對擬合好壞的影響.首先,本文中的數(shù)據(jù)是基于一類重要的空間填充設(shè)計——均勻設(shè)計——生成的,而均勻設(shè)計具有較好的穩(wěn)健性,它能夠?qū)⒃囼烖c均勻的散布在試驗區(qū)域內(nèi),從而有助于建模,使得近似模型能和真實模型在全試驗區(qū)域內(nèi)都很接近[6].其次,本文重點考慮了取邊界值與不取邊界值對擬合好壞的影響,這一點在過去的文獻(xiàn)中是沒有的.同時,這個例子也說明對于 Goldstein-Price函數(shù),用高水平對函數(shù)進(jìn)行擬合比低水平要好,不取邊界值時擬合的函數(shù)要優(yōu)于取邊界值時擬合的函數(shù).
[1]Goldstein A A,Price J F.On descent from local minima[J].Mathematics of Computation,1971,25:569-574.
[2]Andre J,Siarry P,Dognon T.An improvement of the standard genetic algorithm fighting premature convergence[J].Advances in Engineering Software,2001,32(1):49-60.
[3]Ranjan P,Binggham D,Michalidis G.Sequential experiment design for contour estimation from complex computer codes[J].Technometrics,2008,50(4):527-541.
[4]Victoria C,Chen P.A review on design,modeling and applications of computer experiments[J].IIE Transactions,2006,38:273-291.
[5]Chung S C,Hung Y C.Uniform design over general input domains with applications to target region estimation in computer experiments[J].Computational Statistics&Data A-nalysis,2010,54:219-232.
[6]方開泰.均勻設(shè)計[J].應(yīng)用數(shù)學(xué)學(xué)報,1980,3:363-372.
[7]王 元,方開泰.關(guān)于均勻設(shè)計與試驗設(shè)計(數(shù)論方法)[J].科學(xué)通報.1981,26:65-70.
[8]Fang K T,Wang Y.Number-Theoretic Methods in Statistics[M].London:Chapman and Hall,1994.
[9]Fang K T,Li R,Sudjianto A.Design and modeling for computer experiments[M].London:Chapman and Hall,2005.
[10]方開泰.均勻設(shè)計與均勻設(shè)計表[M].北京:科學(xué)出版社,1994.
Abstract:Goldstein-Price function was first proposed by A.A.Goldstein and J.F.Price in 1971,which is a classical polynomial model with two variables.Considerable study has been done on this function in computer experiments.In this article,the quadratics regression method is used to simulate the Goldstein-Price function,and we consider the influence on the simulative the Goldstein-Price function,and we consider the influence on the simulative functions resulted from choosing different uniform designs as well as whether choosing boundary points to construct data or not.
Key words:Goldstein-Price function;quartics regression method;uniform design
Goldstein-Price function in the application of uniform designs
LIU Yin,QIN Hong
(School of Mathematics and Statistics,Huazhong Normal University,Wuhan 430079)
O212.6
A
1000-1190(2010)04-0535-06
2010-04-23.
國家自然科學(xué)基金項目(10671080);教育部新世紀(jì)優(yōu)秀人才支持計劃項目(06-672).
*通訊聯(lián)系人.E-mail:qinhong@mail.ccnu.edu.cn.