基于因子分析建立綜合評(píng)價(jià)模型的一種改進(jìn)

2016-03-15 01:26:03黃毅茗

長(zhǎng)春師范大學(xué)學(xué)報(bào) 2016年2期

關(guān)鍵詞：權(quán)重變量因子

黃毅茗

(廣東外語(yǔ)外貿(mào)大學(xué)經(jīng)濟(jì)貿(mào)易學(xué)院，廣東廣州 510006)

基于因子分析建立綜合評(píng)價(jià)模型的一種改進(jìn)

黃毅茗

(廣東外語(yǔ)外貿(mào)大學(xué)經(jīng)濟(jì)貿(mào)易學(xué)院，廣東廣州 510006)

[摘要]本文針對(duì)現(xiàn)時(shí)因子分析應(yīng)用于綜合評(píng)價(jià)模型中存在的問題，提出了一個(gè)結(jié)合因子分析和熵值法的改進(jìn)模型，并對(duì)新模型進(jìn)行了例證效度分析。分析結(jié)果表明，新模型不但保留了因子分析對(duì)信息濃縮的作用，對(duì)原信息的綜合能力亦有所提升，并且其評(píng)分計(jì)算的過程體現(xiàn)出較高的客觀性。

[關(guān)鍵詞]因子分析；綜合評(píng)價(jià)；熵值法；Spearman相關(guān)系數(shù)

1研究背景

因子分析是多元統(tǒng)計(jì)分析中一種重要的降維方法，其數(shù)學(xué)模型可表示為

X=μ+A·F+ε.

(1)

其中，X為變量矩陣，A為因子載荷矩陣，F(xiàn)為公因子矩陣，μ為變量均值向量，ε為特殊因子向量。

因子分析應(yīng)用于綜合評(píng)價(jià)中的優(yōu)勢(shì)，一是其通過降維實(shí)現(xiàn)了較大限度的信息濃縮，從而大大降低了信息處理成本；二是配合因子旋轉(zhuǎn)其在信息降維后生成的因子具有更合理的解釋。因此，因子分析被廣泛應(yīng)用于建立綜合評(píng)價(jià)模型。其中，最常見的一種應(yīng)用方式是利用因子分析方法建立如下綜合評(píng)價(jià)模型：

S0=F·a.

(2)

其中，得分向量s0中的元素si為第i個(gè)被評(píng)項(xiàng)目的得分；F與模型(1)中同義；權(quán)重向量a中的元素aj=λj/∑λp，λj為第j個(gè)公因子fj的方差貢獻(xiàn)率，∑λp為所有公因子的累積方差貢獻(xiàn)率。

主成分分析亦有與模型(2)非常相似的一種應(yīng)用。然而，該模型遭到了很多學(xué)者的質(zhì)疑。其中，閻慈琳(1998)和王學(xué)民(2007)均認(rèn)為，這種建模方法一方面缺乏數(shù)理依據(jù)，另一方面通過幾個(gè)主成分的線性組合所建立的評(píng)價(jià)模型破壞了主成分在數(shù)據(jù)變異性上的優(yōu)勢(shì)；王學(xué)民(2007)更證明了s0的信息量與第一主成分非常接近，因此s0并未能起到綜合所有主成分的作用，從而認(rèn)為與其通過評(píng)價(jià)模型計(jì)算s0倒不如直接使用第一主成分進(jìn)行排序更有說服力。另外，通過陳述云(1995)的說明亦可推斷出，模型(2)與直接使用第一主成分作為綜合評(píng)價(jià)相比，前者只是對(duì)后者在各主成分賦權(quán)上作了主觀調(diào)整，其主要信息依然由第一主成分提供，并且其對(duì)各主成分信息的“綜合能力”并未通過理論或?qū)嵶C分析的檢驗(yàn)。

盡管如此，上述三位學(xué)者均未否定主成分分析或因子分析方法在綜合評(píng)價(jià)應(yīng)用中的優(yōu)勢(shì)。例如，王學(xué)民(2004)就利用因子分析方法對(duì)股票進(jìn)行綜合評(píng)價(jià)，可惜該文并未提出可供復(fù)刻的數(shù)學(xué)模型，而是通過目測(cè)的方法對(duì)各因子進(jìn)行了“綜合運(yùn)用”。筆者認(rèn)為盡管目測(cè)方法是可行的，但該方法對(duì)信息的利用程度是因人而異的，其影響因素也是主觀的，因此其綜合評(píng)價(jià)效果也是難以衡量的。

孫劉平(2009)就上述主成分分析應(yīng)用于綜合評(píng)價(jià)中的問題對(duì)該應(yīng)用進(jìn)行了改進(jìn)，其方法是：先對(duì)原始數(shù)據(jù)進(jìn)行均值化預(yù)處理，然后進(jìn)行主成分分析，并利用熵值法對(duì)第一主成分沒有顯著貢獻(xiàn)的指標(biāo)計(jì)算出一個(gè)綜合得分值，再把該得分值與第一主成分得分求均值，最后把該均值作為綜合評(píng)分。這種方法在出發(fā)點(diǎn)上充分重視了第一主成分并顧及了其他主成分在綜合評(píng)價(jià)中所起的作用，但筆者認(rèn)為其仍存在以下問題：一是未能提出一個(gè)第一主成分得分與熵值法得分間的合理權(quán)重分配；二是未能發(fā)揮主成分分析降維的優(yōu)勢(shì)，反而使評(píng)分方法變得更復(fù)雜；三是熵值法的引入亦未提出合理的解釋，筆者認(rèn)為如其對(duì)余下變量指標(biāo)用熵值法計(jì)算綜合評(píng)分，而不如直接用第二主成分得分代替更為適合，至少兩個(gè)主成分得分在數(shù)值上更具一致性及可比性。因此，筆者認(rèn)為這種方法的改進(jìn)效果有待考究。

因子分析在綜合評(píng)價(jià)應(yīng)用中主要優(yōu)勢(shì)在于其對(duì)信息的“簡(jiǎn)化”，即既簡(jiǎn)化了數(shù)據(jù)的輸出又簡(jiǎn)化了指標(biāo)變量的解釋。它在綜合評(píng)價(jià)建模中發(fā)揮的作用，一是根據(jù)變量間的相關(guān)關(guān)系對(duì)變量進(jìn)行了分類，并配合因子旋轉(zhuǎn)使類間距離達(dá)到最大；二是根據(jù)分類結(jié)果對(duì)數(shù)據(jù)進(jìn)行了降維，并給出了因子得分，予綜合評(píng)價(jià)模型以變量支持。以保持該優(yōu)勢(shì)為出發(fā)點(diǎn)，本文針對(duì)上述模型(2)存在的問題，利用因子分析結(jié)合熵值法建立一個(gè)改進(jìn)的模型，并給出算例利用Spearman相關(guān)系數(shù)對(duì)比檢驗(yàn)新舊模型的綜合評(píng)價(jià)能力。

2改進(jìn)的綜合評(píng)價(jià)模型

如前所述，由于模型(2)只是各公因子的簡(jiǎn)單線性組合，而且王學(xué)民(2007)證明了模型(2)中第一因子f1的系數(shù)遠(yuǎn)比其它因子要大，因此協(xié)方差矩陣Var(s0)中的信息主要由f1提供，導(dǎo)致模型(2)未能解決直接把f1作為評(píng)分時(shí)可能出現(xiàn)的以偏概全問題。

為保持因子分析的方法優(yōu)勢(shì)，對(duì)模型(2)的改進(jìn)應(yīng)著重于權(quán)重向量的調(diào)整，并使新模型包含更多其它因子的信息。根據(jù)這一思路，新模型的權(quán)重向量應(yīng)包含公因子的信息，故建立如下模型：

s=F·w.

(3)

其中，得分向量s模型(2)中的s0意義相同；F為公因子矩陣，據(jù)前面分析，F(xiàn)中的因子應(yīng)已經(jīng)過以方差最大化準(zhǔn)則的因子旋轉(zhuǎn)；權(quán)數(shù)向量w中的元素wi=wj(f1,f2,…,fp)，表示wi包含了公因子的信息，則有

Var(s)=Var(F·w)=E[Fw-E(Fw)][Fw-E(Fw)]′.

(4)

若設(shè)f*=F·w，則

Var(s)=Var(f*)=E(f*f*′)

(5)

由式(5)可知，模型(3)中s所包含的信息量取決于f*，而當(dāng)F已確定時(shí)，f*包含的信息又取決于權(quán)重函數(shù)wj(f1,f2,…,fp)的選取，而非任一公因子。故模型(3)中s包含的信息不同于模型(2)中的s0，亦不同于任一公因子，其對(duì)各公因子的綜合能力將依靠權(quán)重函數(shù)的選取。

3權(quán)重向量w的構(gòu)造——以熵值法為例

據(jù)上描述，模型(3)對(duì)各公因子的綜合能力依靠權(quán)重函數(shù)的選取，故權(quán)重函數(shù)的選取應(yīng)服務(wù)于綜合評(píng)價(jià)的目標(biāo)。此處，本文選取一種客觀賦權(quán)的方法構(gòu)造w——熵值法。根據(jù)熵值法的基本原理，它通過各公因子中元素的信息量大小確定權(quán)重，實(shí)際上通過賦予區(qū)分度大的因子較高權(quán)重、區(qū)分度小的因子較低權(quán)重，從而拉開了各被評(píng)項(xiàng)目的得分差距。

熵值法是一種根據(jù)各項(xiàng)指標(biāo)觀測(cè)值所提供的信息量的大小來確定指標(biāo)權(quán)數(shù)的方法。熵是熱力學(xué)中的一個(gè)名詞，在信息論中又稱為平均信息量，它是信息的一個(gè)度量，仍稱為熵。根據(jù)信息論的定義，在一個(gè)信息通道中傳輸?shù)男盘?hào)i的信息量Ii為

(6)

其中，pi是信號(hào)i出現(xiàn)的概率。則定義多個(gè)信號(hào)的平均信息量——熵為-∑piIi。由于熵是基于概率定義的，而概率的取值范圍為[0,1]，因此在對(duì)公因子利用熵值法求權(quán)重系數(shù)前需對(duì)數(shù)據(jù)進(jìn)行極差標(biāo)準(zhǔn)化。熵值法求公因子權(quán)重系數(shù)的具體步驟如下。

3.1數(shù)據(jù)預(yù)處理——極差標(biāo)準(zhǔn)化

(7)

其中，fij為第j個(gè)被評(píng)項(xiàng)目第i個(gè)公因子的因子得分，min(fij)表示fij中的最小值，max(fij)表示fij中的最大值。

3.2計(jì)算第i個(gè)公因子下第j個(gè)被評(píng)項(xiàng)目的特征比重

(8)

3.3計(jì)算第i個(gè)公因子的熵值

(9)

其中，Iij的計(jì)算見等式(6)。

3.4計(jì)算第i個(gè)公因子的權(quán)重

(10)

4例證

本文利用改進(jìn)的基于因子分析的綜合評(píng)價(jià)模型建模方法，建立現(xiàn)役美國(guó)高校橄欖球教練員的綜合評(píng)價(jià)模型。對(duì)收集到的118位現(xiàn)役教練員11項(xiàng)指標(biāo)數(shù)據(jù)利用SPSS 19.0進(jìn)行因子分析，該11項(xiàng)指標(biāo)具體為：崗位工資(paySchool，美元)、績(jī)效獎(jiǎng)金(payBonus，美元)、其它收入(payOther，美元)、執(zhí)教年資(yrs，年)、參賽總場(chǎng)數(shù)(allGames，場(chǎng))、獲勝總場(chǎng)數(shù)(allWins，場(chǎng))、戰(zhàn)敗總場(chǎng)數(shù)(allLoses，場(chǎng))、獲勝率(allPCT，%)、聯(lián)賽參賽場(chǎng)數(shù)(bowlGames，場(chǎng))、聯(lián)賽獲勝場(chǎng)數(shù)(bowlWins，場(chǎng))、聯(lián)賽獲勝率(bowlPCT，%)。

首先，對(duì)所選11項(xiàng)指標(biāo)數(shù)據(jù)進(jìn)行KMO檢驗(yàn)和Bartlett球體檢驗(yàn)，結(jié)果如表1所示。其中KMO的值為0.73，Bartlett球體檢驗(yàn)的p值為0.000<0.05，認(rèn)為比較適合進(jìn)行因子分析。再選取主成分分析法為萃取公因子的方法，選取公因子的準(zhǔn)則為特征值大于1，并選取因子旋轉(zhuǎn)的準(zhǔn)則為方差最大化正交旋轉(zhuǎn)，運(yùn)行結(jié)果的方差貢獻(xiàn)率如表2所示，旋轉(zhuǎn)后的因子載荷矩陣如表3所示?？芍鶕?jù)特征值與方差百分比確定3個(gè)公因子，且這3個(gè)公因子累計(jì)方差百分比達(dá)到80.73%，概括了教練員各項(xiàng)主要指標(biāo)的大部分信息，故認(rèn)為除這3個(gè)因子以外的其它變量對(duì)方差影響很小，因此把美國(guó)高校橄欖球教練員排名模型分成了3個(gè)因子。各指標(biāo)的因子得分系數(shù)矩陣如表4所示。

表1　KMO and Bartlett’s Test

從表3中可知，執(zhí)教年資、參賽總場(chǎng)數(shù)、獲勝總場(chǎng)數(shù)、戰(zhàn)敗總場(chǎng)數(shù)、聯(lián)賽參賽場(chǎng)數(shù)、聯(lián)賽獲勝場(chǎng)數(shù)6項(xiàng)指標(biāo)在第一公因子上有較大的正載荷，故該因子可解釋為經(jīng)驗(yàn)因子。獲勝率和聯(lián)賽獲勝率兩項(xiàng)指標(biāo)在第二公因子上有較大的正載荷，故該因子可解釋為獲勝因子。崗位工資、績(jī)效獎(jiǎng)金和其它收入3項(xiàng)指標(biāo)在第三公因子上有較大的正載荷，故該因子可解釋為薪酬因子。

最后，根據(jù)表4中的因子得分系數(shù)矩陣計(jì)算因子得分矩陣F，并利用F根據(jù)模型(3)及等式(7)至(10)計(jì)算出118位美國(guó)現(xiàn)役橄欖球教練員的綜合評(píng)價(jià)模型為

s=0.37f1+0.27f2+0.36f3.　(11)

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

a.Rotation converged in 4 iterations.

表4　Component Score Coefficient Matrix

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

根據(jù)模型(11)計(jì)算出了118位教練員的綜合評(píng)分(記為s)。為進(jìn)行模型的效度分析及對(duì)比，亦按照模型(2)計(jì)算出了118位教練員的綜合評(píng)分(記為s0)，并把s、s0以及直接把第一因子的因子得分作為綜合評(píng)分(記為f1)三者與11項(xiàng)指標(biāo)變量的Spearman相關(guān)系數(shù)進(jìn)行比較(表5)。Spearman相關(guān)系數(shù)描述兩個(gè)變量之間的關(guān)聯(lián)程度與方向的等級(jí)相關(guān)，適用于總體分布類型未知的數(shù)據(jù)。

根據(jù)表5中的數(shù)據(jù)，s與11項(xiàng)的Spearman相關(guān)系數(shù)都通過了顯著性檢驗(yàn)(p值<0.05)，但s0和f1均與部分變量的Spearman相關(guān)系數(shù)未能通過顯著性檢驗(yàn)。結(jié)果說明，一是s與原信息所有變量都是顯著相關(guān)的，例證結(jié)果表明的s對(duì)原信息有一定的綜合能力；二是s0和f1的評(píng)分結(jié)果是有較嚴(yán)重偏頗的，未能充分利用原數(shù)據(jù)對(duì)研究對(duì)象進(jìn)行較好的綜合評(píng)價(jià)。

表5　Spearman’s rho Correlations

5結(jié)論

本文針對(duì)現(xiàn)時(shí)因子分析應(yīng)用于綜合評(píng)價(jià)模型中存在的問題，提出了一個(gè)結(jié)合因子分析和熵值法的改進(jìn)模型，并對(duì)新模型利用118位美國(guó)高校橄欖球教練員的數(shù)據(jù)進(jìn)行了例證分析，與現(xiàn)時(shí)兩種常用綜合評(píng)價(jià)模型的結(jié)果進(jìn)行了效度對(duì)比。例證分析結(jié)果表明，新模型不但保留了因子分析對(duì)信息濃縮的作用，而且對(duì)原信息的綜合能力亦較舊方法佳，其評(píng)分計(jì)算的過程亦表現(xiàn)出較高的客觀性。

[參考文獻(xiàn)]

[1]閻慈琳.關(guān)于用主成分分析做綜合評(píng)價(jià)的若干問題[J].數(shù)理統(tǒng)計(jì)與管理,1998(2):22-25.

[2]王學(xué)民.對(duì)主成分分析中綜合得分方法的質(zhì)疑[J].統(tǒng)計(jì)與決策,2007(8):31-32.

[3]陳述云.對(duì)多指標(biāo)綜合評(píng)價(jià)的主成分分析方法的改進(jìn)[J].統(tǒng)計(jì)研究,1995(1):35-39.

[4]王學(xué)民.因子分析在股票評(píng)價(jià)中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2004(3):6-10.

[5]孫劉平.基于主成分分析法的綜合評(píng)價(jià)方法的改進(jìn)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2009(18):15-20.

[6]郭亞軍.綜合評(píng)價(jià)理論、方法及應(yīng)用[M].北京:科學(xué)出版社,2007.

[7]Richard A.Johnson,Dean W.Wichern.實(shí)用多元統(tǒng)計(jì)分析[M].陸璇,譯,北京:清華大學(xué)出版社,2001.

[8]王學(xué)民.應(yīng)用多元分析[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2004.

[作者簡(jiǎn)介]黃毅茗(1987- )，女，碩士研究生，從事經(jīng)濟(jì)數(shù)學(xué)模型分析與應(yīng)用研究。

[收稿日期]2015-12-13

[中圖分類號(hào)]O213

[文獻(xiàn)標(biāo)識(shí)碼]A

[文章編號(hào)]2095-7602(2016)02-0014-05