梅林晨
(陜西學(xué)前師范學(xué)院,陜西 西安 710100)
標(biāo)準(zhǔn)差與平均差都是人為構(gòu)造出來(lái),使用統(tǒng)計(jì)學(xué)手段,反映統(tǒng)計(jì)樣本或總體的離散程度的統(tǒng)計(jì)指標(biāo).一般來(lái)說(shuō),標(biāo)準(zhǔn)差在實(shí)際應(yīng)用中要比后者廣泛一些.多數(shù)國(guó)內(nèi)統(tǒng)計(jì)學(xué)教材在編寫時(shí)對(duì)兩者采取了平行介紹的方式進(jìn)行處理,并從實(shí)用角度出發(fā),偏重介紹應(yīng)用更廣的標(biāo)準(zhǔn)差,并認(rèn)為平均差計(jì)算存在不便.對(duì)此,十余年來(lái)一直有學(xué)者提出反駁意見(jiàn),認(rèn)為平均差優(yōu)于標(biāo)準(zhǔn)差,相關(guān)論文和著作較多但觀點(diǎn)較為相似,試總結(jié)如下:
(1)認(rèn)為在數(shù)字計(jì)算時(shí),平均差計(jì)算不存在乘方和開方計(jì)算,計(jì)算量低于標(biāo)準(zhǔn)差,由此認(rèn)為平均差更簡(jiǎn)便,并使用例題舉證;
(2)從自己的實(shí)際工作經(jīng)驗(yàn)出發(fā),發(fā)現(xiàn)標(biāo)準(zhǔn)差計(jì)算結(jié)果往往大于平均差,由此提出觀點(diǎn),認(rèn)為標(biāo)準(zhǔn)差存在高估變異性的問(wèn)題,并使用例題舉證;
(3)從測(cè)量離差一般水平的思路出發(fā),進(jìn)而認(rèn)為標(biāo)準(zhǔn)差是平均差的代替,所以標(biāo)準(zhǔn)差不如平均差;
(4)認(rèn)為在高性能計(jì)算機(jī)大量普及的情況下,平均差即使有計(jì)算不便,但兩者在計(jì)算上的差異是可以被忽略的,使用哪種區(qū)別不大.
由以上觀點(diǎn),進(jìn)一步得出了平均差優(yōu)于標(biāo)準(zhǔn)差,并且應(yīng)當(dāng)大力推廣平均差的結(jié)論.
對(duì)于此種觀點(diǎn),筆者作為一名從事高校統(tǒng)計(jì)學(xué)教學(xué)的教師,委實(shí)不敢茍同,現(xiàn)將以上所列論點(diǎn)進(jìn)行逐條分析:
(1)對(duì)于平均差計(jì)算更簡(jiǎn)便的問(wèn)題,上述論證只能說(shuō)明平均差在進(jìn)行具體數(shù)字的手工算術(shù)計(jì)算時(shí)計(jì)算量要小于標(biāo)準(zhǔn)差,而對(duì)代數(shù)計(jì)算只字不提,對(duì)于具體數(shù)字來(lái)說(shuō),絕對(duì)值計(jì)算不需要討論正負(fù)問(wèn)題,當(dāng)然計(jì)算量要小,但對(duì)于不涉及具體數(shù)字的代數(shù)計(jì)算來(lái)說(shuō),絕對(duì)值的討論當(dāng)然要復(fù)雜一些.平均差計(jì)算更簡(jiǎn)便的觀點(diǎn)只在算術(shù)領(lǐng)域成立,在代數(shù)領(lǐng)域難以成立.
(2)標(biāo)準(zhǔn)差計(jì)算結(jié)果往往大于平均差是一個(gè)實(shí)際計(jì)算觀察的結(jié)果,而且也確實(shí)符合實(shí)際情況,后面筆者也會(huì)對(duì)此進(jìn)行代數(shù)證明.但是標(biāo)準(zhǔn)差計(jì)算結(jié)果大于等于平均差這一現(xiàn)象其實(shí)無(wú)法得出標(biāo)準(zhǔn)差存在高估變異性的問(wèn)題的結(jié)論,只能說(shuō)明兩者對(duì)變異性的測(cè)量存在差異,到底是標(biāo)準(zhǔn)差高估了變異性還是平均差低估了變異性,這一現(xiàn)象是不足以說(shuō)明的.
(3)與其說(shuō)是標(biāo)準(zhǔn)差代替了平均差,不如說(shuō)是由于標(biāo)準(zhǔn)差的優(yōu)點(diǎn)獲得了廣泛使用,變異指標(biāo)的意義在于衡量分布的變異性,并不是說(shuō)越接近離差的一般水平變異指標(biāo)就越好.
(4)即使在高性能計(jì)算機(jī)大量普及的情況下,平均差與標(biāo)準(zhǔn)差的差異也是不能忽視的.首先是標(biāo)準(zhǔn)差函數(shù)可導(dǎo),平均差函數(shù)不可導(dǎo),這一區(qū)別導(dǎo)致兩者在微積分處理上存在巨大差異.其次,標(biāo)準(zhǔn)差對(duì)應(yīng)的是二階矩,對(duì)所有平方可積的函數(shù)適用,平均差對(duì)應(yīng)的是另一種范數(shù),其適用函數(shù)的空間不同于平方可積函數(shù)的空間.而平方可積函數(shù)的空間具有許多更好的性質(zhì).平均差與標(biāo)準(zhǔn)差函數(shù)的可導(dǎo)性和可積空間上有很大差異,沒(méi)有了導(dǎo)數(shù)存在且連續(xù)的標(biāo)準(zhǔn)差,大量的數(shù)學(xué)推導(dǎo)都無(wú)法展開,所以建立在標(biāo)準(zhǔn)差基礎(chǔ)上的數(shù)理統(tǒng)計(jì)體系很難使用平均差代替.因此平均差與標(biāo)準(zhǔn)差的差異不光在算術(shù)計(jì)算上,更重要的是在數(shù)理推導(dǎo)上的差異,而后者與計(jì)算機(jī)性能的高低并沒(méi)有太大關(guān)系.
綜上所述,認(rèn)為平均差優(yōu)于標(biāo)準(zhǔn)差的觀點(diǎn)無(wú)法成立.
平均差和標(biāo)準(zhǔn)差的計(jì)算方式都是以離差概念為基礎(chǔ)的,離差是單項(xiàng)數(shù)值與平均值之間的差,公式可寫作D=Xi-,離差是一個(gè)向量,其絕對(duì)取值代表了單項(xiàng)數(shù)值偏離平均值的程度,正負(fù)號(hào)代表了單項(xiàng)數(shù)值偏離平均值的方向,如果想要構(gòu)造一個(gè)衡量總體變異性的統(tǒng)計(jì)指標(biāo),使用離差來(lái)作為構(gòu)造的基礎(chǔ)是很自然的選擇,但是也很容易證明,由于離差取值的方向性,其數(shù)學(xué)期望恒為零.因此,取消離差的正負(fù)號(hào)后再來(lái)構(gòu)造統(tǒng)計(jì)指標(biāo)才有意義,從這個(gè)角度出發(fā),我們可以構(gòu)造出方差和標(biāo)準(zhǔn)差兩種指標(biāo),即σ2=E(D2)=E(Xi-X軍)2和A.D.=E|D|=E|Xi-X軍|.前者是離差平方的數(shù)學(xué)期望,后者是離差絕對(duì)值的數(shù)學(xué)期望,而方差本身計(jì)算出來(lái)的指標(biāo)要比統(tǒng)計(jì)量高一階,所以可以對(duì)其求平方根進(jìn)行標(biāo)準(zhǔn)化,就得到了標(biāo)準(zhǔn)差.由此可見(jiàn),平均差和標(biāo)準(zhǔn)差的計(jì)算方式存在著密切聯(lián)系,其中,平均差的計(jì)算公式可以轉(zhuǎn)化為,而標(biāo)準(zhǔn)差的計(jì)算公式可以轉(zhuǎn)化為,所以,平均差和標(biāo)準(zhǔn)差的計(jì)算公式可以統(tǒng)一為,其中平均差為該統(tǒng)計(jì)量取一階的結(jié)果,標(biāo)準(zhǔn)差為該統(tǒng)計(jì)量取二階的結(jié)果.因此,平均差和標(biāo)準(zhǔn)差應(yīng)當(dāng)看作同源、同類但不同階的統(tǒng)計(jì)量,不存在誰(shuí)是誰(shuí)的替代品的問(wèn)題.
在得出平均差與標(biāo)準(zhǔn)差的一般公式之后,我們可以看出兩者的計(jì)算過(guò)程存在比較緊密的關(guān)聯(lián),但兩者呈現(xiàn)的數(shù)量關(guān)系卻無(wú)法直接顯現(xiàn),前面提到,實(shí)際數(shù)據(jù)觀察似乎支持標(biāo)準(zhǔn)差大于等于平均差的觀點(diǎn),但直接對(duì)兩者進(jìn)行相減的話,絕對(duì)值號(hào)又影響了進(jìn)一步的討論.但是,既然平均差和標(biāo)準(zhǔn)差都大于等于零,如果可以證明標(biāo)準(zhǔn)差的平方即方差與平均差的平方之差大于等于零,其實(shí)也就證明了標(biāo)準(zhǔn)差大于等于平均差.計(jì)算如下:σX2-A.D.2=E(|Xi-X軍|)2-[E(|Xi-X軍|)]2=E(|Xi-X軍|-E|Xi-X軍|)2=σD2,(D=|Xi-X軍|).又易得 σD2≥0,所以標(biāo)準(zhǔn)差確實(shí)大于等于平均差,其中只有在離差絕對(duì)值的方差等于零時(shí)兩者相等.但這一結(jié)果不能說(shuō)明標(biāo)準(zhǔn)差高估了變異性,前面的證明可以看出,方差之中包含了平均差包含的所有用離差反映的變量值的變異性信息之余,還包含了離差本身的變異性信息,進(jìn)一步來(lái)說(shuō),既然方差可以被分解為變量值的平均差的平方與離差絕對(duì)值的方差之和,那么離差絕對(duì)值的方差也可以被分解為離差平均差的平方與離差的離差絕對(duì)值的方差之和,由此可以形成一個(gè)關(guān)于平均差的無(wú)窮級(jí)數(shù),而這一無(wú)窮級(jí)數(shù)之和收斂于變量值的方差.由此可以看出,其實(shí)方差包含了變量值各級(jí)離差的平均差所反映的所有變異性,而且這些變異性之間不存在重復(fù)計(jì)算問(wèn)題,而標(biāo)準(zhǔn)差正是方差的標(biāo)準(zhǔn)化,所以,并非是標(biāo)準(zhǔn)差高估了變量的變異性,而是平均差只測(cè)量出了變量值包含的所有變異性的一部分.
如果從平均數(shù)的角度觀察平均差函數(shù)與標(biāo)準(zhǔn)差函數(shù),不難發(fā)現(xiàn)其中的一些區(qū)別,平均差函數(shù)可做如下變化:A.D.,可以看出平均差函數(shù)即離差的簡(jiǎn)單算術(shù)平均數(shù),離差的大小并不影響其權(quán)重,所以對(duì)于平均差來(lái)說(shuō),極端變量值的變異性被同等看待了.而標(biāo)準(zhǔn)差可做如下變化可以看出根號(hào)內(nèi)的公式可以看成以離差本身大小為權(quán)重的加權(quán)算術(shù)平均數(shù),所以越極端的變量值會(huì)被給予越多的關(guān)注,這一點(diǎn)更符合人們對(duì)于數(shù)據(jù)變異性的直接感覺(jué).可以直觀的構(gòu)造如下兩組數(shù)說(shuō)明這種區(qū)別:1,1,0,-1,-1和 2,0,0,0,-2,兩者擁有相同的均值0和平均差0.8,但直觀感覺(jué)前者的變異性較小,如果使用標(biāo)準(zhǔn)差,則前者標(biāo)準(zhǔn)差為0.89,后者為1.26,就有效的衡量出了這種變異性.
如假設(shè) X服從正態(tài)分布,X~N(μ,σ2),令 Y=X-μ,則有Y~N(0,σ2).此時(shí),由此可以看出,在正態(tài)分布下,平均差與標(biāo)準(zhǔn)差的取值存在穩(wěn)定的倍數(shù)關(guān)系.同理其實(shí)不難證明,在參數(shù)確定的特定分布下,平均差與標(biāo)準(zhǔn)差的取值都存在該分布特有的穩(wěn)定關(guān)系.至于是否可以在具體數(shù)字計(jì)算時(shí)結(jié)合這種穩(wěn)定關(guān)系,使用平均差估算標(biāo)準(zhǔn)差,還有待后續(xù)研究證明其可靠性.
由以上分析可見(jiàn),標(biāo)準(zhǔn)差與平均差是有著統(tǒng)一公式和數(shù)學(xué)關(guān)系的兩種變異指標(biāo),并不存在排他性問(wèn)題,其中平均差在具體數(shù)字計(jì)算時(shí)有一定優(yōu)勢(shì),但不利于代數(shù)運(yùn)算和數(shù)學(xué)推導(dǎo),同時(shí)平均差在計(jì)算變異性時(shí)存在信息損失低估變異性的問(wèn)題,因此難于動(dòng)搖標(biāo)準(zhǔn)差在統(tǒng)計(jì)學(xué)中的重要地位.
〔1〕韓兆洲,楊林濤.極差、平均差和標(biāo)準(zhǔn)差之間測(cè)度關(guān)系研究[J].統(tǒng)計(jì)與信息論壇,2008(04).
〔2〕桂文林,伍超標(biāo).標(biāo)準(zhǔn)差和平均差的內(nèi)在關(guān)系及應(yīng)用研究[J].數(shù)理統(tǒng)計(jì)與管理,2005(02).
〔3〕趙海燕,陳立秋,張曉方.平均差和標(biāo)準(zhǔn)差在變異指標(biāo)中的代表性淺議[J].統(tǒng)計(jì)與咨詢,2002(04).
〔4〕朱子云,朱益超.平均差的算法改型及其數(shù)學(xué)性質(zhì)研究[J].麗水學(xué)院學(xué)報(bào),2012(02).
〔5〕呂華興.統(tǒng)計(jì)中的標(biāo)準(zhǔn)差標(biāo)準(zhǔn)嗎?——平均差比標(biāo)準(zhǔn)差更標(biāo)準(zhǔn)[J].江蘇統(tǒng)計(jì),2000(05).