黃毅茗
(廣東外語(yǔ)外貿(mào)大學(xué)經(jīng)濟(jì)貿(mào)易學(xué)院,廣東廣州 510006)
?
基于因子分析建立綜合評(píng)價(jià)模型的一種改進(jìn)
黃毅茗
(廣東外語(yǔ)外貿(mào)大學(xué)經(jīng)濟(jì)貿(mào)易學(xué)院,廣東廣州 510006)
[摘要]本文針對(duì)現(xiàn)時(shí)因子分析應(yīng)用于綜合評(píng)價(jià)模型中存在的問題,提出了一個(gè)結(jié)合因子分析和熵值法的改進(jìn)模型,并對(duì)新模型進(jìn)行了例證效度分析。分析結(jié)果表明,新模型不但保留了因子分析對(duì)信息濃縮的作用,對(duì)原信息的綜合能力亦有所提升,并且其評(píng)分計(jì)算的過程體現(xiàn)出較高的客觀性。
[關(guān)鍵詞]因子分析;綜合評(píng)價(jià);熵值法;Spearman相關(guān)系數(shù)
1研究背景
因子分析是多元統(tǒng)計(jì)分析中一種重要的降維方法,其數(shù)學(xué)模型可表示為
X=μ+A·F+ε.
(1)
其中,X為變量矩陣,A為因子載荷矩陣,F(xiàn)為公因子矩陣,μ為變量均值向量,ε為特殊因子向量。
因子分析應(yīng)用于綜合評(píng)價(jià)中的優(yōu)勢(shì),一是其通過降維實(shí)現(xiàn)了較大限度的信息濃縮,從而大大降低了信息處理成本;二是配合因子旋轉(zhuǎn)其在信息降維后生成的因子具有更合理的解釋。因此,因子分析被廣泛應(yīng)用于建立綜合評(píng)價(jià)模型。其中,最常見的一種應(yīng)用方式是利用因子分析方法建立如下綜合評(píng)價(jià)模型:
S0=F·a.
(2)
其中,得分向量s0中的元素si為第i個(gè)被評(píng)項(xiàng)目的得分;F與模型(1)中同義;權(quán)重向量a中的元素aj=λj/∑λp,λj為第j個(gè)公因子fj的方差貢獻(xiàn)率,∑λp為所有公因子的累積方差貢獻(xiàn)率。
主成分分析亦有與模型(2)非常相似的一種應(yīng)用。然而,該模型遭到了很多學(xué)者的質(zhì)疑。其中,閻慈琳(1998)和王學(xué)民(2007)均認(rèn)為,這種建模方法一方面缺乏數(shù)理依據(jù),另一方面通過幾個(gè)主成分的線性組合所建立的評(píng)價(jià)模型破壞了主成分在數(shù)據(jù)變異性上的優(yōu)勢(shì);王學(xué)民(2007)更證明了s0的信息量與第一主成分非常接近,因此s0并未能起到綜合所有主成分的作用,從而認(rèn)為與其通過評(píng)價(jià)模型計(jì)算s0倒不如直接使用第一主成分進(jìn)行排序更有說服力。另外,通過陳述云(1995)的說明亦可推斷出,模型(2)與直接使用第一主成分作為綜合評(píng)價(jià)相比,前者只是對(duì)后者在各主成分賦權(quán)上作了主觀調(diào)整,其主要信息依然由第一主成分提供,并且其對(duì)各主成分信息的“綜合能力”并未通過理論或?qū)嵶C分析的檢驗(yàn)。
盡管如此,上述三位學(xué)者均未否定主成分分析或因子分析方法在綜合評(píng)價(jià)應(yīng)用中的優(yōu)勢(shì)。例如,王學(xué)民(2004)就利用因子分析方法對(duì)股票進(jìn)行綜合評(píng)價(jià),可惜該文并未提出可供復(fù)刻的數(shù)學(xué)模型,而是通過目測(cè)的方法對(duì)各因子進(jìn)行了“綜合運(yùn)用”。筆者認(rèn)為盡管目測(cè)方法是可行的,但該方法對(duì)信息的利用程度是因人而異的,其影響因素也是主觀的,因此其綜合評(píng)價(jià)效果也是難以衡量的。
孫劉平(2009)就上述主成分分析應(yīng)用于綜合評(píng)價(jià)中的問題對(duì)該應(yīng)用進(jìn)行了改進(jìn),其方法是:先對(duì)原始數(shù)據(jù)進(jìn)行均值化預(yù)處理,然后進(jìn)行主成分分析,并利用熵值法對(duì)第一主成分沒有顯著貢獻(xiàn)的指標(biāo)計(jì)算出一個(gè)綜合得分值,再把該得分值與第一主成分得分求均值,最后把該均值作為綜合評(píng)分。這種方法在出發(fā)點(diǎn)上充分重視了第一主成分并顧及了其他主成分在綜合評(píng)價(jià)中所起的作用,但筆者認(rèn)為其仍存在以下問題:一是未能提出一個(gè)第一主成分得分與熵值法得分間的合理權(quán)重分配;二是未能發(fā)揮主成分分析降維的優(yōu)勢(shì),反而使評(píng)分方法變得更復(fù)雜;三是熵值法的引入亦未提出合理的解釋,筆者認(rèn)為如其對(duì)余下變量指標(biāo)用熵值法計(jì)算綜合評(píng)分,而不如直接用第二主成分得分代替更為適合,至少兩個(gè)主成分得分在數(shù)值上更具一致性及可比性。因此,筆者認(rèn)為這種方法的改進(jìn)效果有待考究。
因子分析在綜合評(píng)價(jià)應(yīng)用中主要優(yōu)勢(shì)在于其對(duì)信息的“簡(jiǎn)化”,即既簡(jiǎn)化了數(shù)據(jù)的輸出又簡(jiǎn)化了指標(biāo)變量的解釋。它在綜合評(píng)價(jià)建模中發(fā)揮的作用,一是根據(jù)變量間的相關(guān)關(guān)系對(duì)變量進(jìn)行了分類,并配合因子旋轉(zhuǎn)使類間距離達(dá)到最大;二是根據(jù)分類結(jié)果對(duì)數(shù)據(jù)進(jìn)行了降維,并給出了因子得分,予綜合評(píng)價(jià)模型以變量支持。以保持該優(yōu)勢(shì)為出發(fā)點(diǎn),本文針對(duì)上述模型(2)存在的問題,利用因子分析結(jié)合熵值法建立一個(gè)改進(jìn)的模型,并給出算例利用Spearman相關(guān)系數(shù)對(duì)比檢驗(yàn)新舊模型的綜合評(píng)價(jià)能力。
2改進(jìn)的綜合評(píng)價(jià)模型
如前所述,由于模型(2)只是各公因子的簡(jiǎn)單線性組合,而且王學(xué)民(2007)證明了模型(2)中第一因子f1的系數(shù)遠(yuǎn)比其它因子要大,因此協(xié)方差矩陣Var(s0)中的信息主要由f1提供,導(dǎo)致模型(2)未能解決直接把f1作為評(píng)分時(shí)可能出現(xiàn)的以偏概全問題。
為保持因子分析的方法優(yōu)勢(shì),對(duì)模型(2)的改進(jìn)應(yīng)著重于權(quán)重向量的調(diào)整,并使新模型包含更多其它因子的信息。根據(jù)這一思路,新模型的權(quán)重向量應(yīng)包含公因子的信息,故建立如下模型:
s=F·w.
(3)
其中,得分向量s模型(2)中的s0意義相同;F為公因子矩陣,據(jù)前面分析,F(xiàn)中的因子應(yīng)已經(jīng)過以方差最大化準(zhǔn)則的因子旋轉(zhuǎn);權(quán)數(shù)向量w中的元素wi=wj(f1,f2,…,fp),表示wi包含了公因子的信息,則有
Var(s)=Var(F·w)=E[Fw-E(Fw)][Fw-E(Fw)]′.
(4)
若設(shè)f*=F·w,則
Var(s)=Var(f*)=E(f*f*′)
(5)
由式(5)可知,模型(3)中s所包含的信息量取決于f*,而當(dāng)F已確定時(shí),f*包含的信息又取決于權(quán)重函數(shù)wj(f1,f2,…,fp)的選取,而非任一公因子。故模型(3)中s包含的信息不同于模型(2)中的s0,亦不同于任一公因子,其對(duì)各公因子的綜合能力將依靠權(quán)重函數(shù)的選取。
3權(quán)重向量w的構(gòu)造——以熵值法為例
據(jù)上描述,模型(3)對(duì)各公因子的綜合能力依靠權(quán)重函數(shù)的選取,故權(quán)重函數(shù)的選取應(yīng)服務(wù)于綜合評(píng)價(jià)的目標(biāo)。此處,本文選取一種客觀賦權(quán)的方法構(gòu)造w——熵值法。根據(jù)熵值法的基本原理,它通過各公因子中元素的信息量大小確定權(quán)重,實(shí)際上通過賦予區(qū)分度大的因子較高權(quán)重、區(qū)分度小的因子較低權(quán)重,從而拉開了各被評(píng)項(xiàng)目的得分差距。
熵值法是一種根據(jù)各項(xiàng)指標(biāo)觀測(cè)值所提供的信息量的大小來確定指標(biāo)權(quán)數(shù)的方法。熵是熱力學(xué)中的一個(gè)名詞,在信息論中又稱為平均信息量,它是信息的一個(gè)度量,仍稱為熵。根據(jù)信息論的定義,在一個(gè)信息通道中傳輸?shù)男盘?hào)i的信息量Ii為
(6)
其中,pi是信號(hào)i出現(xiàn)的概率。則定義多個(gè)信號(hào)的平均信息量——熵為-∑piIi。由于熵是基于概率定義的,而概率的取值范圍為[0,1],因此在對(duì)公因子利用熵值法求權(quán)重系數(shù)前需對(duì)數(shù)據(jù)進(jìn)行極差標(biāo)準(zhǔn)化。熵值法求公因子權(quán)重系數(shù)的具體步驟如下。
3.1數(shù)據(jù)預(yù)處理——極差標(biāo)準(zhǔn)化
(7)
其中,fij為第j個(gè)被評(píng)項(xiàng)目第i個(gè)公因子的因子得分,min(fij)表示fij中的最小值,max(fij)表示fij中的最大值。
3.2計(jì)算第i個(gè)公因子下第j個(gè)被評(píng)項(xiàng)目的特征比重
(8)
3.3計(jì)算第i個(gè)公因子的熵值
(9)
其中,Iij的計(jì)算見等式(6)。
3.4計(jì)算第i個(gè)公因子的權(quán)重
(10)
4例證
本文利用改進(jìn)的基于因子分析的綜合評(píng)價(jià)模型建模方法,建立現(xiàn)役美國(guó)高校橄欖球教練員的綜合評(píng)價(jià)模型。對(duì)收集到的118位現(xiàn)役教練員11項(xiàng)指標(biāo)數(shù)據(jù)利用SPSS 19.0進(jìn)行因子分析,該11項(xiàng)指標(biāo)具體為:崗位工資(paySchool,美元)、績(jī)效獎(jiǎng)金(payBonus,美元)、其它收入(payOther,美元)、執(zhí)教年資(yrs,年)、參賽總場(chǎng)數(shù)(allGames,場(chǎng))、獲勝總場(chǎng)數(shù)(allWins,場(chǎng))、戰(zhàn)敗總場(chǎng)數(shù)(allLoses,場(chǎng))、獲勝率(allPCT,%)、聯(lián)賽參賽場(chǎng)數(shù)(bowlGames,場(chǎng))、聯(lián)賽獲勝場(chǎng)數(shù)(bowlWins,場(chǎng))、聯(lián)賽獲勝率(bowlPCT,%)。
首先,對(duì)所選11項(xiàng)指標(biāo)數(shù)據(jù)進(jìn)行KMO檢驗(yàn)和Bartlett球體檢驗(yàn),結(jié)果如表1所示。其中KMO的值為0.73,Bartlett球體檢驗(yàn)的p值為0.000<0.05,認(rèn)為比較適合進(jìn)行因子分析。再選取主成分分析法為萃取公因子的方法,選取公因子的準(zhǔn)則為特征值大于1,并選取因子旋轉(zhuǎn)的準(zhǔn)則為方差最大化正交旋轉(zhuǎn),運(yùn)行結(jié)果的方差貢獻(xiàn)率如表2所示,旋轉(zhuǎn)后的因子載荷矩陣如表3所示??芍鶕?jù)特征值與方差百分比確定3個(gè)公因子,且這3個(gè)公因子累計(jì)方差百分比達(dá)到80.73%,概括了教練員各項(xiàng)主要指標(biāo)的大部分信息,故認(rèn)為除這3個(gè)因子以外的其它變量對(duì)方差影響很小,因此把美國(guó)高校橄欖球教練員排名模型分成了3個(gè)因子。各指標(biāo)的因子得分系數(shù)矩陣如表4所示。
表1 KMO and Bartlett’s Test
從表3中可知,執(zhí)教年資、參賽總場(chǎng)數(shù)、獲勝總場(chǎng)數(shù)、戰(zhàn)敗總場(chǎng)數(shù)、聯(lián)賽參賽場(chǎng)數(shù)、聯(lián)賽獲勝場(chǎng)數(shù)6項(xiàng)指標(biāo)在第一公因子上有較大的正載荷,故該因子可解釋為經(jīng)驗(yàn)因子。獲勝率和聯(lián)賽獲勝率兩項(xiàng)指標(biāo)在第二公因子上有較大的正載荷,故該因子可解釋為獲勝因子。崗位工資、績(jī)效獎(jiǎng)金和其它收入3項(xiàng)指標(biāo)在第三公因子上有較大的正載荷,故該因子可解釋為薪酬因子。
最后,根據(jù)表4中的因子得分系數(shù)矩陣計(jì)算因子得分矩陣F,并利用F根據(jù)模型(3)及等式(7)至(10)計(jì)算出118位美國(guó)現(xiàn)役橄欖球教練員的綜合評(píng)價(jià)模型為
s=0.37f1+0.27f2+0.36f3. (11)
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a.Rotation converged in 4 iterations.
表4 Component Score Coefficient Matrix
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
根據(jù)模型(11)計(jì)算出了118位教練員的綜合評(píng)分(記為s)。為進(jìn)行模型的效度分析及對(duì)比,亦按照模型(2)計(jì)算出了118位教練員的綜合評(píng)分(記為s0),并把s、s0以及直接把第一因子的因子得分作為綜合評(píng)分(記為f1)三者與11項(xiàng)指標(biāo)變量的Spearman相關(guān)系數(shù)進(jìn)行比較(表5)。Spearman相關(guān)系數(shù)描述兩個(gè)變量之間的關(guān)聯(lián)程度與方向的等級(jí)相關(guān),適用于總體分布類型未知的數(shù)據(jù)。
根據(jù)表5中的數(shù)據(jù),s與11項(xiàng)的Spearman相關(guān)系數(shù)都通過了顯著性檢驗(yàn)(p值<0.05),但s0和f1均與部分變量的Spearman相關(guān)系數(shù)未能通過顯著性檢驗(yàn)。結(jié)果說明,一是s與原信息所有變量都是顯著相關(guān)的,例證結(jié)果表明的s對(duì)原信息有一定的綜合能力;二是s0和f1的評(píng)分結(jié)果是有較嚴(yán)重偏頗的,未能充分利用原數(shù)據(jù)對(duì)研究對(duì)象進(jìn)行較好的綜合評(píng)價(jià)。
表5 Spearman’s rho Correlations
5結(jié)論
本文針對(duì)現(xiàn)時(shí)因子分析應(yīng)用于綜合評(píng)價(jià)模型中存在的問題,提出了一個(gè)結(jié)合因子分析和熵值法的改進(jìn)模型,并對(duì)新模型利用118位美國(guó)高校橄欖球教練員的數(shù)據(jù)進(jìn)行了例證分析,與現(xiàn)時(shí)兩種常用綜合評(píng)價(jià)模型的結(jié)果進(jìn)行了效度對(duì)比。例證分析結(jié)果表明,新模型不但保留了因子分析對(duì)信息濃縮的作用,而且對(duì)原信息的綜合能力亦較舊方法佳,其評(píng)分計(jì)算的過程亦表現(xiàn)出較高的客觀性。
[參考文獻(xiàn)]
[1]閻慈琳.關(guān)于用主成分分析做綜合評(píng)價(jià)的若干問題[J].數(shù)理統(tǒng)計(jì)與管理,1998(2):22-25.
[2]王學(xué)民.對(duì)主成分分析中綜合得分方法的質(zhì)疑[J].統(tǒng)計(jì)與決策,2007(8):31-32.
[3]陳述云.對(duì)多指標(biāo)綜合評(píng)價(jià)的主成分分析方法的改進(jìn)[J].統(tǒng)計(jì)研究,1995(1):35-39.
[4]王學(xué)民.因子分析在股票評(píng)價(jià)中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2004(3):6-10.
[5]孫劉平.基于主成分分析法的綜合評(píng)價(jià)方法的改進(jìn)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2009(18):15-20.
[6]郭亞軍.綜合評(píng)價(jià)理論、方法及應(yīng)用[M].北京:科學(xué)出版社,2007.
[7]Richard A.Johnson,Dean W.Wichern.實(shí)用多元統(tǒng)計(jì)分析[M].陸璇,譯,北京:清華大學(xué)出版社,2001.
[8]王學(xué)民.應(yīng)用多元分析[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2004.
[作者簡(jiǎn)介]黃毅茗(1987- ),女,碩士研究生,從事經(jīng)濟(jì)數(shù)學(xué)模型分析與應(yīng)用研究。
[收稿日期]2015-12-13
[中圖分類號(hào)]O213
[文獻(xiàn)標(biāo)識(shí)碼]A
[文章編號(hào)]2095-7602(2016)02-0014-05