王文平 朱春浩
(武漢船舶職業(yè)技術(shù)學(xué)院公共課部,湖北武漢 430050)
設(shè)有n個(gè)數(shù)a1,a2,…,an,要找一個(gè)數(shù)x反映這組數(shù)的總的情況,我們希望x和這n個(gè)數(shù)的偏差x-a1,x-a2,…,x-an在總體上說(shuō)來(lái)盡可能地小。
對(duì)于二維情形,已知兩點(diǎn)(x1,y1),(x2,y2)可確定一條直線y=a+bx,這只需將兩點(diǎn)坐標(biāo)代入直線方程,解出a,b即可。將兩點(diǎn)推廣到n個(gè)點(diǎn)(x1,y1),(x2,y2),…,(xn,yn),如何確定線性回歸直線呢?
1805年,法國(guó)數(shù)學(xué)家勒讓德在研究天文學(xué)和測(cè)地學(xué)處理數(shù)據(jù)時(shí)最先發(fā)明最小二乘法,但因不為世人所知而默默無(wú)聞。高斯使用的最小二乘法的方法發(fā)表于1809年他的著作《天體運(yùn)動(dòng)論》中,后來(lái)高斯等數(shù)學(xué)家對(duì)最小二乘法進(jìn)行了大量的理論研究和應(yīng)用,在統(tǒng)計(jì)學(xué)中發(fā)揮著重要的作用,是十九世紀(jì)統(tǒng)計(jì)學(xué)的“中心主題”。正如美國(guó)統(tǒng)計(jì)史學(xué)家斯蒂格勒(S.M.Stigler)所說(shuō):“最小二乘法之于數(shù)理統(tǒng)計(jì)學(xué)猶于微積分之于數(shù)學(xué)”[1]。
勒讓德(A.M.Legendre,1752-1833)是法國(guó)軍事學(xué)校的教授,曾任多屆政府委員,后來(lái)成了多科工藝學(xué)校的總監(jiān),直至1833年逝世。他一直保持熱情而有規(guī)律的數(shù)學(xué)研究工作,由于解決了許多類型的的問(wèn)題,其名字常存于許多定理之中。數(shù)學(xué)史家克萊因(M.Kline,1908-1992)認(rèn)為勒讓德之所以名列拉格朗日(J.L.Lagrange,1736-1813)、拉普拉斯、蒙日(G.Monge,1746-1818)之后,是因?yàn)槠涔ぷ鞑蝗邕@三人深刻。盡管勒讓德的工作引起許多重要理論的產(chǎn)生,但這只是在他的研究成果被更強(qiáng)有力的思想接受后才實(shí)現(xiàn)的,最小二乘法就是一個(gè)典型實(shí)例。
最小二乘法最早出現(xiàn)在勒讓德1805年發(fā)表的論著《計(jì)算彗星軌道的新方法》附錄中。該附錄占據(jù)了這本80頁(yè)小冊(cè)子的最后9頁(yè),在前面關(guān)于衛(wèi)星軌道計(jì)算的討論中沒(méi)有涉及最小二乘法,可以推測(cè)他當(dāng)時(shí)感到這一方法尚不成熟。勒讓德在該書72-75頁(yè)描述了最小二乘法的思想、具體做法及其優(yōu)點(diǎn)。以引進(jìn)這種方法的理由為開端:“所研究的大多數(shù)問(wèn)題都是由觀測(cè)值來(lái)確定其結(jié)果,但這幾乎總產(chǎn)生形如E=a+bx+cy+fz+…方程的方程組,其中a,b,c,f,… 是已知系數(shù),它們從一個(gè)方程到另一個(gè)方程是有變動(dòng)的。x,y,z,…是未知的,它們必須根據(jù)將每個(gè)方程E化為0或很小的量來(lái)確定”[2]。用現(xiàn)代術(shù)語(yǔ)可描述為,一個(gè)n未知量m個(gè)方程的線性方程組(m>n),
尋找“最佳”近似解,以使所有Ej都變小。勒讓德認(rèn)為:“賦予誤差的平方和為極小,則意味著在這些誤差間建立了一種均衡性,它阻止了極端情形所施加的過(guò)分影響。這非常好地適用于揭示最接近真實(shí)情形的系統(tǒng)狀態(tài)”[3]。
為了確定誤差平方的最小值,勒讓德運(yùn)用了微積分工具。即為使平方和
在xi變動(dòng)時(shí)有最小值,則它對(duì)xi的偏導(dǎo)數(shù)必為0。由此得如下線性方程組
這樣,就得到一含有n個(gè)未知量n個(gè)方程的線性方程組,用“現(xiàn)成的方法”是可以解出的。
關(guān)于最小二乘法的優(yōu)點(diǎn),勒讓德指出以下幾條:
(1)通常的算術(shù)平均值是其特例。即n=1,aj1=-1時(shí),令bj=aj0,則誤差的平方和為
對(duì)其求關(guān)于X的偏導(dǎo)數(shù),則使此和極小的方程是
它正是m個(gè)觀測(cè)值的算術(shù)平均值。
(2)如果觀測(cè)值全部嚴(yán)格符合某一方程組的要求,則此解必是最小二乘法的解。
(3)如果舍棄或增加觀測(cè)值,則修改所得方程組即可。
勒讓德的成功在于他從一個(gè)新的角度來(lái)看待這個(gè)問(wèn)題,不像其前輩那樣致力于找出幾個(gè)方程(個(gè)數(shù)等于未知數(shù)的個(gè)數(shù))再去求解,而是考慮誤差在整體上的平衡。從某種意義講,最小二乘法是一個(gè)處理觀測(cè)值的純粹代數(shù)方法。要將其應(yīng)用于統(tǒng)計(jì)推斷問(wèn)題就需要考慮觀測(cè)值的誤差,確定誤差分布的函數(shù)形式。
德國(guó)慕尼黑博物館的高斯(C.F.Gauss,1777-1855)油畫像下寫有:“他的思想深入數(shù)字、空間、自然的最深秘密,他測(cè)量星體的路徑及地球的形狀和自然力,他推動(dòng)了數(shù)學(xué)的進(jìn)展直到下個(gè)世紀(jì)?!钡拇_,高斯是“能以九霄云外的高度按照某種觀點(diǎn)掌握星空和深?yuàn)W數(shù)學(xué)的天才?!庇烧龖B(tài)分布的導(dǎo)出可對(duì)高斯創(chuàng)造性思維略見一斑。
1809年,高斯發(fā)表論著《天體運(yùn)動(dòng)理論》。在該書末尾,他寫了一節(jié)有關(guān)“數(shù)據(jù)結(jié)合”的問(wèn)題,以極其簡(jiǎn)單的手法導(dǎo)出誤差分布——正態(tài)分布,并用最小二乘法加以驗(yàn)證。關(guān)于最小二乘法,高斯宣稱自1795年以來(lái)他一直使用這個(gè)原理。這立刻引起了勒讓德的強(qiáng)烈反擊,他提醒說(shuō)科學(xué)發(fā)現(xiàn)的優(yōu)先權(quán)只能以出版物確定,并嚴(yán)斥高斯剽竊了他人的發(fā)明。他們間的爭(zhēng)執(zhí)延續(xù)了多年,因而,這兩位數(shù)學(xué)家之間關(guān)于優(yōu)先權(quán)的爭(zhēng)論,在數(shù)學(xué)史上的知名度僅次于牛頓和萊布尼茲之間關(guān)于微積分發(fā)明權(quán)的爭(zhēng)論?,F(xiàn)在一般認(rèn)為,二人各自獨(dú)立地發(fā)明了最小二乘法,盡管早在10年前,高斯就使用這個(gè)原理,但第一個(gè)用文字形式發(fā)表的是勒讓德。高斯較之于勒讓德把最小二乘法推進(jìn)得更遠(yuǎn),他由誤差函數(shù)推導(dǎo)出這個(gè)方法并詳盡闡述了最小二乘法的理論依據(jù)。
其推導(dǎo)過(guò)程如下[4]:
設(shè)誤差密度函數(shù)為f(x),真值為x,n個(gè)獨(dú)立測(cè)定值為x1,x2,…,xn,由于觀測(cè)是相互獨(dú)立的,因而這些誤差出現(xiàn)的概率為
再對(duì)此式求導(dǎo)
即正態(tài)分布 N(0,σ2)。
這樣可知(x1,x2,…,xn)的誤差密度函數(shù)為
要使此式達(dá)到極大值,必須選取x1,x2,…,xn之值而使表達(dá)式達(dá)極小值。于是,可得x1,x2,…,xn的最小二乘法估計(jì)。
在推證過(guò)程中,高斯創(chuàng)新之處:用逆向思維來(lái)思考這個(gè)問(wèn)題,即先承認(rèn)算術(shù)平均值是所求的估計(jì),即“如果在相同的環(huán)境和相等的管理下對(duì)任一個(gè)量經(jīng)由多次直接觀測(cè)確定,則這些觀測(cè)的算術(shù)平均值是最希望要的值”。這是高斯大膽采用了人們千百年來(lái)的實(shí)際經(jīng)驗(yàn),實(shí)為高斯之獨(dú)創(chuàng)性思維。這也正如他所說(shuō):“數(shù)學(xué),要有靈感,必須接觸現(xiàn)實(shí)世界”。
最小二乘法在十九世紀(jì)初發(fā)明后,很快得到歐洲一些國(guó)家的天文學(xué)家和測(cè)地學(xué)家的廣泛關(guān)注。據(jù)不完全統(tǒng)計(jì),自1805年至1864年的60年間,有關(guān)最小二乘法的研究論文達(dá)256篇,一些百科全書包括1837年出版的大不列顛百科全書第7版,亦收入有關(guān)方法的介紹。同時(shí),誤差的分布是“正態(tài)”的,也立刻得到天文學(xué)家的關(guān)注及大量經(jīng)驗(yàn)的支持。如貝塞爾(F.W.Bessel,1784-1846)對(duì)幾百顆星球作了三組觀測(cè),并比較了按照正態(tài)規(guī)律在給定范圍內(nèi)的理論誤差值和實(shí)際值,對(duì)比表明它們非常接近一致[5]。拉普拉斯在1810年也給出了正態(tài)規(guī)律的一個(gè)新的理論推導(dǎo)并寫入其《分析概率論》中。正態(tài)分布作為一種統(tǒng)計(jì)模型,在十九世紀(jì)極為流行,一些學(xué)者甚至把十九世紀(jì)的數(shù)理統(tǒng)計(jì)學(xué)稱為正態(tài)分布的統(tǒng)治時(shí)代。在其影響下,最小二乘法也脫出測(cè)量數(shù)據(jù)意義之外而發(fā)展成為一個(gè)包羅極大,應(yīng)用極其廣泛的統(tǒng)計(jì)模型。到二十世紀(jì)正態(tài)小樣本理論充分發(fā)展后,高斯研究成果的影響更加顯著。
綜上可知,勒讓德和高斯發(fā)現(xiàn)最小二乘法是從不同的角度入手的:一個(gè)是為解線性方程組,一個(gè)是尋找誤差函數(shù);一個(gè)用的是整體思維,考慮方程組的均衡性,一個(gè)用的是逆向思維,首先接受經(jīng)驗(yàn)事實(shí);一個(gè)是純代數(shù)方法,一個(gè)致力于應(yīng)用。相比而言,高斯不愧為數(shù)學(xué)王子,他把最小二乘法推進(jìn)得更遠(yuǎn)、更深刻,這極大地推動(dòng)了數(shù)理統(tǒng)計(jì)學(xué)的發(fā)展[6]。
1 H.O.Lancaster.Encyclopedia of Statistical Science[M].New York:John Wiley and Sons Inc,1988.
2 R.A.Plackett.The Discovery of the Method of Least Squares[J].Biometrika,1972(59):239-251.
3 S.M.Stigler.The History of Statistics[M].Cambridge:Havard University Press,1986.
4 W.C.Waterhouse.Gauss’s First Argument for Least Squares[J].Archive for History of Exact Science,1991(41):41-52.
5 J.K.Victor著,李文林譯.數(shù)學(xué)史通論[M].北京:高等教育出版社,2004.
6 賈小勇等.最小二乘法的創(chuàng)立及其思想方法[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版),2006(3):507-511.
7 于忠義.高斯與觀測(cè)誤差分布的發(fā)現(xiàn)[J].統(tǒng)計(jì)與信息論壇,2006(6):28-30.
8 朱春浩.簡(jiǎn)明概率論學(xué)術(shù)史綱要[J].武漢船舶職業(yè)技術(shù)學(xué)院學(xué)報(bào),2010(5):103-107.
9 朱春浩.概率論思想方法的歷史研究[M].四川:電子科技大學(xué)出版社,2007.
10 朱春浩.最小一乘法與最小二乘法:歷史與差異[J].統(tǒng)計(jì)與決策,2007(6):9-10.
11 朱春浩.正態(tài)分布與統(tǒng)計(jì)學(xué)的關(guān)系史研究[J].武漢船舶職業(yè)技術(shù)學(xué)院學(xué)報(bào),2010(6):117-122.
12 朱春浩.極大似然估計(jì):蘭伯特與丹尼爾·伯努利[J].武漢船舶職業(yè)技術(shù)學(xué)院學(xué)報(bào),2011(1):105-110.
武漢船舶職業(yè)技術(shù)學(xué)院學(xué)報(bào)2011年6期