◇李 坤
統(tǒng)計分析是統(tǒng)計學(xué)最重要的應(yīng)用之一,無論是數(shù)據(jù)收集,還是數(shù)據(jù)處理,其最終的目的都是要進行統(tǒng)計分析,以便得出結(jié)論,供信息的使用者在做決策或預(yù)測時參考,那么我們對不同的統(tǒng)計分析方法進行研究、比較,就顯得異常重要,因為不同的統(tǒng)計分析方法適用的情況不一樣,對于同一種情況使用不同的統(tǒng)計分析方法進行分析可能得出不同的結(jié)果,即使得出的結(jié)果是一樣的,但是各種結(jié)果的準(zhǔn)確性也可能有很大差異,基于此,本文對各種常見的統(tǒng)計分析方法進行了研究。
回歸分析是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種常用的統(tǒng)計分析方法,回歸分析的基本思想是:①從一組實測數(shù)據(jù)出發(fā)確定自變量和因變量之間的定量關(guān)系式,即建立數(shù)學(xué)模型,然后估計其中的未知參數(shù)。②對這些關(guān)系式的可信度進行檢驗。③在多個自變量共同影響一個因變量的關(guān)系中,判斷哪些自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中,將影響不顯著的自變量剔除,常用兩階段最小二乘法、三階段最小二乘法等方法。④利用最終求得的關(guān)系式對某一生產(chǎn)過程進行預(yù)測或控制。
一般來說,回歸分析是通過規(guī)定自變量和因變量來確定變量之間的因果關(guān)系,建立回歸模型,并根據(jù)實測數(shù)據(jù)來求解模型的各個參數(shù),然后根據(jù)擬合優(yōu)度值R2來評價回歸模型是否能夠很好地擬合實測數(shù)據(jù),如果能夠很好地擬合,則可以作進一步預(yù)測。
回歸分析的優(yōu)點在于方法簡單,易于操作,在統(tǒng)計軟件包中使用各種回歸方法計算十分方便?;貧w分析的缺點在于當(dāng)自變量和因變量之間是非線性關(guān)系時,用回歸分析進行擬合的效果往往并不好甚至很差。
判別分析是在已知歷史上用某些方法已把研究對象分成若干組的情況下,根據(jù)研究對象的各種特征值來判別其歸屬問題的一種多變量統(tǒng)計分析方法。判別分析的基本思想是,首先根據(jù)已知所屬組的樣本給出判別函數(shù),然后在依次判別每一新樣品因歸屬哪一組。常用的判別方法有距離判別、貝葉斯判別和費希爾判別等。
判別分析在經(jīng)濟學(xué)、人口學(xué)、醫(yī)學(xué)、氣象學(xué)、市場預(yù)測、環(huán)境科學(xué)、考古學(xué)中有著廣泛的應(yīng)用,一般根據(jù)事先確定的因變量找出相應(yīng)處理的區(qū)別特性。在判別分析中,因變量為類別數(shù)據(jù),自變量通常為可度量數(shù)據(jù)。通過判別分析,可以建立能夠最大限度地區(qū)分因變量類別的函數(shù),考查自變量的組間差異是否顯著,判斷那些自變量對組間差異貢獻最大,評估分類的程度,根據(jù)自變量的值對樣本進行歸類。
判別分析的優(yōu)點在于通過判別分析能夠?qū)⒆宰兞亢芎玫剡M行分類,判別分析的缺點在于計算復(fù)雜,程序繁瑣。
聚類分析的目的是把分類對象按照一定的規(guī)則分成若干類,這些類不是事先給定的,而是根據(jù)數(shù)據(jù)的特征確定的,對類的數(shù)目和類的結(jié)構(gòu)不必做任何假定。在同一類里的這些對象在某種意義上傾向于彼此相似,而在不同類里的對象傾向于不相似。
聚類分析的基本思想是:首先根據(jù)一批數(shù)據(jù)或指標(biāo)找出能度量這些數(shù)據(jù)或指標(biāo)之間相似程度的統(tǒng)計量;然后以統(tǒng)計量作為劃分類型的依據(jù),把一些相似程度大的樣品首先聚為一類,而把另一些相似程度較小的樣品聚為另一類,直到所有的樣品都聚合完畢。
在經(jīng)濟學(xué)中,根據(jù)人均國民收入、人均工農(nóng)產(chǎn)值和人均消費水平等多項指標(biāo)對世界上所有國家的經(jīng)濟發(fā)展?fàn)顩r進行分類;在選拔青年運動員時,對青年的身體形態(tài),身體素質(zhì)以及生理功能的各項指標(biāo)進行測試,據(jù)此對青年進行分類;根據(jù)啤酒中含有的酒精成分、鈉成分和“卡路里”數(shù)值,對啤酒進行分類;在我國,按經(jīng)濟發(fā)展水平可以將各地區(qū)分為發(fā)達地區(qū)、欠發(fā)達地區(qū)和落后地區(qū),這些都要用到聚類分析方法。
聚類分析的優(yōu)點在于能夠清晰地描述數(shù)據(jù)并且簡便快捷,是很好的統(tǒng)計分析方法。其缺點在于,在樣本量較大時,要獲得聚類結(jié)論有一定困難。
判別分析和聚類分析是兩種不同目的的分類方法,所起作用是不同的。判別分析方法假定組已經(jīng)事先分好,判別新樣品應(yīng)歸屬哪一組。聚類分析方法是按照樣品的數(shù)據(jù)特征,把相似的樣品傾向于分在同一類中,把不相似的樣品傾向于分在不同類中。
主成分分析是一種通過降維技術(shù)把多個變量化為少數(shù)幾個主成分的統(tǒng)計分析方法,這些主成分能夠反映原始變量的絕大部分信息,它們通常表現(xiàn)為原始變量的某種線性組合。主成分分析的基本思想是:設(shè)法將原來眾多具有一定相關(guān)性的指標(biāo)重新組合成一組新的互相無關(guān)的綜合指標(biāo),來代替原來的指標(biāo)以達到兩個基本目的:①變量的降維;②主成分的解釋。
成功的主成分分析在降低維數(shù)的同時,能夠使所提取的主成分仍保留著原始變量的絕大部分信息,這樣就可以對問題給出符合實際背景的和有意義的解釋。因此,當(dāng)我們需要對問題給出合理而又有意義的解釋但由于問題本身含有多個變量而又不方便時,可以采用主成分分析,在主成分的累計貢獻率達到一個較高的比例時,就可以用這幾個主成分對問題進行解釋。比如影響男子田徑賽跑成績的因素,影響居民綜合消費性支出水平的因素等,都可以用主成分分析進行解釋。
主成分分析的優(yōu)點在于通過降維減少了變量的個數(shù),將變量間重疊的信息展開,降低了分析問題的復(fù)雜性,使得對問題的解釋變得容易.主成分分析的缺點在于主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那么清楚,確切。另外,當(dāng)所提取的主成分中有一個主成分解釋不了時,主成分分析就失去了意義。
因子分析起源于20世紀(jì)初,K.皮爾遜和C.斯皮爾曼等學(xué)者為定義和測定智力所做的統(tǒng)計分析。因子分析的目的是,試圖用幾個潛在、不可觀測的隨機變量來描述原始變量間的協(xié)方差關(guān)系。
當(dāng)多個變量共同影響一個變量時,為了降低分析問題的難度,通常可以采用因子分析,找出主因子進行解釋。抓住主要因素,忽略次要因素,在不影響分析問題的精確性時,因子分析不失為一種選擇。
與主成分分析相比,因子分析較為靈活(體現(xiàn)在因子旋轉(zhuǎn)上),這種靈活性使得變量在降維之后更容易得到解釋,這是因子分析比主成分分析有更廣泛應(yīng)用的一個重要原因。 其缺點在于,因子分析只能面對綜合性的評價,同時對數(shù)據(jù)的數(shù)據(jù)量和成分也有要求。
相關(guān)分析是研究兩組變量之間相關(guān)關(guān)系的一種統(tǒng)計分析方法,它能夠有效地揭示兩組變量之間的相互線性依賴關(guān)系。其基本思想是:研究兩個變量間線性關(guān)系的程度,用相關(guān)系數(shù)r來描述。
相關(guān)分析在實際生活中應(yīng)用廣泛,牛肉、豬肉的價格與按人口平均的牛肉、豬肉的消費量之間的相關(guān)關(guān)系;初一學(xué)生的閱讀速度、閱讀才能與數(shù)學(xué)運算速度、數(shù)學(xué)運算才能之間的相關(guān)關(guān)系,等等。
相關(guān)分析的優(yōu)點在于,通過降維,減少了變量的個數(shù),降低了分析問題的復(fù)雜性。相關(guān)分析的缺點在于這種降維技術(shù)可能會過分削減信息,以至于不能充分反映實際問題。