鄧揚揚
(廣東外語外貿大學,廣東 廣州 510006)
本文以半參數模型為例,對參數、非參數分量的估計值和觀測值等內容進行討論,并運用三次樣條函數插值法得出非參數分量的推估表達式。另外,為了解決縱向數據下半參數模型的參數部分和非參數部分的估計問題,在誤差為鞅差序列情形下,對半參數數據模型、漸近正態(tài)性、強相合性進行研究和分析。另外,本文初步討論了平衡參數的選取問題,并充分說明了泛最小二乘估計方法以及相關結論,同時對半參數模型的迭代法進行了相關討論和研究。
在日常生活當中,人們所采用的參數數據模型構造相對簡單,所以操作起來比較容易;但在測量數據的實際使用過程中存在著相關大的誤差,例如在測量相對微小的物體,或者是對動態(tài)物體進行測量時。而建立半參數數據模型可以很好的解決和緩解這一問題:它不但能夠消除或是降低測量中出現的誤差,同時也不會將無法實現參數化的系統(tǒng)誤差進行勾和。系統(tǒng)誤差非常影響觀測值的各種信息,如果能改善,就能使其實現更快、更及時、更準確的誤差識別和提取過程;這樣不僅可以提高參數估計的精確度,也對相關科學研究進行了有效補充。舉例來說,在模擬算例及坐標變換GPS定位重力測量等實際應用方面,體現了這種模型具有一定成功性及實用性;這主要是因為半參數數據模型同當前所使用的數據模型存在著一致性,可以很好的滿足現在的實際需要。而新建立的半參數模型以及它的參數部分和非參數部分的估計,也可以解決一些污染數據的估計問題。這種半參數模型,不僅研究了縱向數據下其自身的t型估計,同時對一些含光滑項的半參數數據模型進行了詳細的闡述。另外,基于對稱和不對稱這兩種情況,可以在一個線性約束條件下對參數估計以及假設進行檢驗,這主要是因為對觀測值產生影響的因素除了包含這個線性關系以外,還受到某種特定因素的干擾,所以不能將其歸入誤差行列。另外,基于自變量測量存在一定誤差,經常會導致在計算過程匯總,丟失很多重要信息。
這種模型是由西方著名學者Stone在上世紀70年代所提出的,在80年代逐漸發(fā)展并成熟起來。目前,這種參數模型已經在醫(yī)學以及生物學還有經濟學等諸多領域中廣泛使用開來。
半參數回歸模型介于非參數回歸模型和參數回歸模型之間,其內容不僅囊括了線性部分,同時包含一些非參數部分,應該說這種模型成功的將兩者的優(yōu)點結合在一起。這種模型所涉及到的參數部分,主要是函數關系,也就是我們常說的對變量所呈現出來的大勢走向進行有效把握和解釋;而非參數部分則主要是值函數關系中不明確的那一部分,換句話就是對變量進行局部調整。因此,該模型能夠很好的利用數據中所呈現出來的信息,這一點是參數回歸模型還有非參數歸回模型所無法比擬的優(yōu)勢,所以說半參數模型往往擁有更強、更準確的解釋能力。
從其用途上來說,這種回歸模型是當前經常使用的一種統(tǒng)計模型。其形式為:
假設Xi為p維向量,且為已知量,而g(ti)為非參數分量,那么β就是P×1,視作維代估參數,設定誤差順序列{ei}是獨立分布,E(ei)=0,那么
現階段,半參數模型研究中,所存在的基本問題就是以模型所提供的條件,結合(Xi,Ti)來對β以及g(ti)進行有效估計。西方學者Heckman在80年代提出并使用一種光滑樣條方法,得出了參數模型估計中的堅勁正態(tài)性以及相合性。次年,speckman則此基礎之上提出了最小二乘估法,并對漸近性質進行研究。進入90年代西方其他一些學者,像 hong、zhao、Robinson、Ronz還有 Carroll、和Schick等都對半參數模型的研究和發(fā)展工作作出了一系列貢獻。
當前,對模型中的估計參數分量β還有非參數分量g,最為常見的使用方法就是:先設定β為已知的參數分量,那么利用既定的非參數估計法就能夠求出g這個非參數分量的估計表達式。由于所求出的表達式中含有參數分量β,所以需要對β進行有效估計,然后再將求出的β估計全部帶入到表達式中。從而得出最終估計g。其具體操作步驟:
第一,將上述所講述的模型 Yi=Xi’β+g(ti)+ei,且 1≤i≤n,依例轉變成為:Zi=Yi-Xi’β=g(ti)+ei。
第二,先假設β為已知量,那么通過相應的核權函數法我們就能夠求得既定函數g(ti)的估計,也就是β。其中Wni為核權函數,那么結合既定公式可以得知Zi為窗寬。
第四,參照相應公式,對g(t)進行最終估計,引入公式和數據得出
第五,對窗寬Zi進行有效調整,直至滿足相關要求。
應該說,半參數模型中所設計到的參數分量β,其自身估計能夠實現最優(yōu),而且相應的收斂速度也往往為o(),但在所選用的光滑參數為特定值時,那么相應的非參數分量,也就是g的估計就可以取得相對不錯的一個結果。
縱向數據其優(yōu)點就是可以提供許多條件,從而引起人們的高度重視。當前縱向數據例子也非常多。但從其本質上講,縱向數據其實是指對同一個個體,在不同時間以及不同地點之上,在重復觀察之下所得到一種序列數據。但由于個體間都存在著一定的差別,從而導致在對縱向數據進行求方差時會出現一定偏差。在對縱向數據進行觀察時,其觀察值是相對獨立的,因此其特點就是可以能夠將截然不同兩種數據和時間序列有效的結合在一起。即可以分析出來在個體上隨著時間變化而發(fā)生的趨勢,同時又能看出總體的變化形勢。在當前很多縱向數據的研究中,不僅保留了其優(yōu)點,并在此基礎之上進行發(fā)展,實現了縱向數據中的局部線性擬合。這主要是人們希望可以建立輸出變量和協(xié)變量以及時間效應的關系??捎捎跁r間效應相對比較復雜,所以很難進行參數化的建模。
另外,雖然線性模型的估計已經取得大量的成果,但半參數模型估計至今為止還是空白頁。線性模型的估計不僅僅是為了解決秩虧或病態(tài)的問題,還能在百病態(tài)的矩陣時,提供了處理線性、非線性及半參數模型等方法。首先,對觀測條件較為接近的兩個觀測數據作為對照,可以削弱非參數的影響。從而將半參數模型變成線性模型,然后,按線性模型處理,得到參數的估計。而多數的情況下其線性系數將隨著另一個變量而變化,但是這種線性系數隨著時間的變化而變化,根本求不出在同一個模型中,所有時間段上的樣本,亦很難使用一個或幾個實函數來進行相關描述。在對測量數據處理時,如果將它看作為隨機變量,往往只能達到估計的作用,要想在經典的線性模型中引入另一個變量的非線性函數,即模型中含有本質的非線性部分,就必須使用半參數線性模型。另外就是指由各個部分組成的形態(tài),研究對象是非線性系統(tǒng)中產生的不光滑和不可微的幾何形體,對應的定量參數是維數,分形上統(tǒng)計模型的研究是當前國際非線性研究的重大前沿課題之一。因此,第一種途徑是將非參數分量參數化的估計方法,也稱之為參數化估計法,是關于半參數模型的早期工作,就是對函數空間附施加一定的限制,主要指光滑性。一些研究者認為半參數模型中的非參數分量也是非線性的,而且在大多數情形下所表現出來的往往是不光滑和不可微的。所以同樣的數據,同樣的檢驗方法,也可以使用立方光滑樣條函數來研究半參數模型。
在當時科學研究中常常提出這樣的問題:怎樣從多個未知參數觀測值集合中求出參數的最佳估值。盡管當時對于整體誤差的范數,泛最小二乘法不如最小二乘法,但是當時使用最多的還是最小二乘法,其目的也就是為了估計參數。最小二乘法,在經過一段時間的研究和應用之后,逐步發(fā)展成為一整套比較完善的理論體系?,F階段不僅可以清楚地知道數據所服從的模型,同時在縱向數據半參數建模中,輔助以迭代加權法。這對補償最小二乘法對非參數分量估計是非常有效,而且只要觀測值很精確,那么該法對非參數分量估計更為可靠。例如在物理大地測量時,很早就使用用最小二乘配置法,并得到重力異常最佳估計值。不過在使用補償最小二乘法來研究重力異常時,我們還應在兼顧著整體誤差比較小的同時,考慮參數估計量的真實性。并在比較了迭代加權偏樣條的基礎上,研究最小二乘法在當前使用過程中存在的一些不足。應該說,該方法只強調了整體誤差要實現最小,而忽略了對參數分量估計時出現的誤差。所以在實際操作過程中,需要特別注意。
半參模型在GPS相位觀測中,其系統(tǒng)誤差是影響高精度定位的主要因素,由于在解算之前模型存在一定誤差,所以需及時觀測誤差中的粗差。GPS使用中,通過廣播衛(wèi)星來計算目標點在實際地理坐標系中具體坐標。這樣就可以在操作過程中,發(fā)現并恢復整周未知數,由于觀測值在衛(wèi)星和觀測站之間,是通過求雙差來削弱或者是減少對衛(wèi)星和接收機等系統(tǒng)誤差的影響,因此難于用參數表達。但是在平差計算中,差分法雖然可以將觀測方程的數目明顯減少,但由于種種原因,依然無法取得令人滿意的結果。但是如果選擇使用半參數模型中的參數來表達系統(tǒng)誤差,則能得到較好的效果。這主要是因為半參數模型是一種廣義的線性回歸模型,對于有著光滑項的半參數模型,在既定附加的條件之下,能夠提供一個線性函數的估計方法,從而將測值中的粗差消除掉。另外這種方法除了在GPS測量中使用之外,還可應用于光波測距儀以及變形監(jiān)測等一些參數模型當中。在重力測量中的應用在很多情形下,尤其是數學界的理論研究,我們總是假定S是隨機變量實際上,這種假設是合理的,近幾年,我們對這種線性模型的研究取得了一些不錯的成果,而且因其形式相對簡潔,又有較高適用性,所以這種模型在諸多領域中發(fā)揮著重要作用。
通過模擬的算例及坐標變換GPS定位重力測量等實際應用,說明了該法的成功性及實用性,從理論上說明了流行的自然樣條估計方法,其實質是補償最小二乘方法的特例,在今后將會有廣闊的發(fā)展空間。另外文章中提到的分形理論的研究對象應是非線性系統(tǒng)中產生的不光滑和不可微的幾何形體,而且分形已經在斷裂力學、地震學等中有著廣泛的應用,因此應被推廣使用到研究半參數模型中來,不僅能夠更及時,更加準確的進行誤差的識別和提取,同時可以提高參數估計的精確度,是對當前半參數模型研究的有力補充。
文章所講的半參數模型包括了參數、非參數分量的估計值和觀測值等內容,并且用了三次樣條函數插值法得到了非參數分量的推估表達式。另外,為了解決縱向數據前提下,半參數模型的參數部分和非參數部分的估計問題,在誤差為鞅差序列情形下,對半參數數據模型、漸近正態(tài)性、強相合性進行研究和分析。同時介紹了最小二乘估計法。另外初步討論了平衡參數的選取問題,還充分說明了泛最小二乘估計方法以及有關結論。在對半參數模型的迭代法進行了相關討論和研究的基礎之上,為迭代法提供了詳細的理論說明,為實際應用提供了理論依據。
[1]胡宏昌.誤差為AR(1)情形的半參數回歸模型擬極大似然估計的存在性[J].湖北師范學院學報(自然科學版),2009(03).
[2]錢偉民,李靜茹.縱向污染數據半參數回歸模型中的強相合估計[J].同濟大學學報(自然科學版),2009(08).
[3]樊明智,王芬玲,郭輝.縱向數據半參數回歸模型的最小二乘局部線性估計[J].數理統(tǒng)計與管理,2009(02).
[4]崔恒建,王強.變系數結構關系EV模型的參數估計[J].北京師范大學學報(自然科學版).2005(06).
[5]錢偉民,柴根象.縱向數據混合效應模型的統(tǒng)計分析[J].數學年刊A輯(中文版).2009(04)
[6]孫孝前,尤進紅.縱向數據半參數建模中的迭代加權偏樣條最小二乘估計[J].中國科學(A輯:數學),2009(05).
[7]張三國,陳希孺.EV多項式模型的估計[J].中國科學(A輯),2009(10).
[8]任哲,陳明華.污染數據回歸分析中參數的最小一乘估計[J].應用概率統(tǒng)計,2009(03).
[9]張三國,陳希孺.有重復觀測時EV模型修正極大似然估計的相合性[J].中國科學(A輯).2009(06).
[10]崔恒建,李勇,秦懷振.非線性半參數EV四歸模型的估計理論[J].科學通報,2009(23).
[11]羅中明.響應變量隨機缺失下變系數模型的統(tǒng)計推斷[D].中南大學,2011.
[12]劉超男.兩參數指數威布爾分布的參數Bayes估計及可靠性分析[D].中南大學,2008.
[13]郭艷.湖南省稅收收入預測模型及其實證檢驗與經濟分析[D].中南大學,2009.
[14]桑紅芳.幾類分布的參數估計的損失函數和風險函數的Bayes推斷[D].中南大學,2009.
[15]朱琳.服從幾類可靠性分布的無失效數據的b ayes分析[D].中南大學,2009.
[16]黃芙蓉.指數族非線性模型和具有AR(1)誤差線性模型的統(tǒng)計分析[D].南京理工大學,2009.