呂智宇,孫海法
基于多側(cè)面Rasch模型分析的公文筐測(cè)評(píng)研究*
呂智宇,孫海法
評(píng)價(jià)中心技術(shù)是常用的人才測(cè)評(píng)手段,測(cè)評(píng)結(jié)果的合成及解釋影響測(cè)評(píng)者做出決策的準(zhǔn)確性。以往研究多采用經(jīng)典測(cè)量理論分析評(píng)價(jià)中心的測(cè)評(píng)結(jié)果,難以清晰探明評(píng)分的各種偏差。采用項(xiàng)目反應(yīng)理論的多側(cè)面Rasch模型(MFRM),以公文筐測(cè)評(píng)結(jié)果為例,探討評(píng)分者評(píng)分寬嚴(yán)度、評(píng)分內(nèi)部一致性、維度難度、受評(píng)者能力水平問題,并討論各種偏差。通過MFRM分析人才測(cè)評(píng)結(jié)果,對(duì)受評(píng)者真實(shí)能力的差異、鑒別維度的難度和探查測(cè)評(píng)的誤差源進(jìn)行了深入了解,進(jìn)而對(duì)測(cè)評(píng)試題編制的合理性、測(cè)評(píng)維度與測(cè)評(píng)目的匹配性、評(píng)估或診斷評(píng)分者合格性進(jìn)一步完善,并為未來的人才測(cè)評(píng)中的拓展項(xiàng)目反應(yīng)相關(guān)研究提供獨(dú)特視角。
公文筐;多側(cè)面Rasch模型;人才測(cè)評(píng)
評(píng)價(jià)中心(Assessment Centers, ACs)測(cè)評(píng)技術(shù)的實(shí)證研究始于英國(guó)軍事心理學(xué)家,其在西方人力資源管理領(lǐng)域的應(yīng)用已有超過60 年的歷史,主要用于人員選拔、晉升、診斷及發(fā)展等目的。公文筐測(cè)驗(yàn)(In-basket test,IB)是評(píng)價(jià)中心的重要測(cè)評(píng)手段之一,是由測(cè)評(píng)者設(shè)計(jì)一系列與應(yīng)聘崗位實(shí)際工作經(jīng)常處理的文件,要求候選人在指定的時(shí)間內(nèi)完成任務(wù)。通過評(píng)估受測(cè)者提交的書面文件,衡量該候選人的各項(xiàng)勝任特征。
20世紀(jì)80年代中期,中國(guó)研究者開始在國(guó)有企業(yè)領(lǐng)導(dǎo)干部的選拔中應(yīng)用評(píng)價(jià)中心技術(shù)。評(píng)價(jià)中心技術(shù)的廣泛應(yīng)用使得測(cè)評(píng)分?jǐn)?shù)的合成及解釋顯得至關(guān)重要。公文筐測(cè)評(píng)分?jǐn)?shù)通常采用維度評(píng)定計(jì)分法,即要求評(píng)分者分測(cè)評(píng)維度對(duì)受評(píng)者進(jìn)行評(píng)分,而受評(píng)者的測(cè)驗(yàn)總分是每個(gè)測(cè)評(píng)維度分?jǐn)?shù)的直接加權(quán),又或者通過結(jié)構(gòu)方程、MTMM方法、從測(cè)驗(yàn)內(nèi)部尋找評(píng)價(jià)中心效度證據(jù)。這些方法基于經(jīng)典測(cè)量理論(Classical Test Theory)的統(tǒng)計(jì)方法,只從維度和測(cè)驗(yàn)方法兩個(gè)方面進(jìn)行計(jì)算,忽略了評(píng)分者和受評(píng)者側(cè)面的變異,難以辨析評(píng)分的各種偏差情況。而在實(shí)踐中,公文筐作為主觀評(píng)價(jià)方法,難免受評(píng)分者效應(yīng)及測(cè)評(píng)維度難度影響形成偏差。
(一)評(píng)分者效應(yīng)( rater effects)
評(píng)分準(zhǔn)確性直接影響到受評(píng)者的選拔,而由于評(píng)分者的個(gè)人特征、類型、來源以及接受的培訓(xùn)差異,評(píng)分者評(píng)價(jià)時(shí)不可避免地存在一定的主觀性。評(píng)分者主要評(píng)分效應(yīng)表現(xiàn)為寬嚴(yán)效應(yīng)、集中趨勢(shì)、暈輪效應(yīng)、培訓(xùn)效應(yīng)等。
寬嚴(yán)效應(yīng)表現(xiàn)為評(píng)分者在評(píng)價(jià)時(shí)明顯的寬松或嚴(yán)厲性。過往研究表明評(píng)分者的寬嚴(yán)效應(yīng)影響評(píng)價(jià)整個(gè)過程,但各研究結(jié)論不一。Macmillan (Macmillan, 2000)觀察10名評(píng)分者在一周內(nèi)對(duì)8285名小學(xué)生文章的評(píng)價(jià)行為,結(jié)果發(fā)現(xiàn)其中9名評(píng)分者隨著時(shí)間的推移,評(píng)分越來越嚴(yán)格,表明不同評(píng)分者寬嚴(yán)趨勢(shì)產(chǎn)生變化。Myford和Wolfe(Carol M Myford & Wolfe, 2009)發(fā)現(xiàn)隨著評(píng)分時(shí)間的延長(zhǎng),部分評(píng)分者會(huì)存在明顯的評(píng)價(jià)變化趨勢(shì)。以上研究表明測(cè)量和解釋評(píng)分者寬嚴(yán)效應(yīng)的重要性,寬嚴(yán)效應(yīng)影響了評(píng)價(jià)穩(wěn)定性。
集中趨勢(shì)也是影響評(píng)分偏差的重要表現(xiàn),即評(píng)分者不正確地將受評(píng)者評(píng)價(jià)為接近平均或中等水平。Myford & Mislevy (Carol Monroe Myford & Mislevy, 1995)等認(rèn)為當(dāng)評(píng)分者被監(jiān)視時(shí),他們會(huì)使用安全策略,使用中間等級(jí)以避免被審查。Knoch、Read和 von Randow(Knoch, Read & von Randow, 2007)通過分析各評(píng)分等級(jí)的次數(shù)判斷評(píng)分者的集中趨勢(shì),發(fā)現(xiàn)培訓(xùn)組評(píng)分呈現(xiàn)更嚴(yán)重的集中趨勢(shì),驗(yàn)證了評(píng)分者經(jīng)常使用中間等級(jí)的原因。
研究者認(rèn)為只要有主觀評(píng)價(jià),就存在暈輪效應(yīng),暈輪效應(yīng)是普遍存在、不可避免(Feldman, 1986)、無(wú)處不在的(Cooper, 1981b)。造成暈輪效應(yīng)的最大可能性是評(píng)價(jià)者“以偏概全”,僅憑受評(píng)者的個(gè)別特征進(jìn)行整體評(píng)分(Murphy, Jako & Anhalt, 1993)。通過統(tǒng)計(jì)控制、培訓(xùn),提高評(píng)價(jià)者對(duì)受評(píng)者的熟悉度能在一定程度上消除暈輪效應(yīng)(Cooper, 1981a)。
此外,評(píng)價(jià)者類型(Kolk, Born, Van Der Flier & Olman, 2002; Sagie & Magnezy, 1997)、智力(Furnham, Taylor & Chamorro-Premuzic, 2008)及評(píng)分者的個(gè)人特征,如工作經(jīng)驗(yàn)、評(píng)分過程的思考方式、人格特征等因素都有可能導(dǎo)致評(píng)分不一致或評(píng)分偏差(Bartels & Doverspike, 1997; Kolk et al., 2002)。一項(xiàng)元分析證實(shí),相對(duì)于無(wú)評(píng)分者培訓(xùn),有評(píng)分者培訓(xùn)的測(cè)評(píng)構(gòu)想效度結(jié)果更好(Woehr & Arthur, 2003)。另一項(xiàng)研究發(fā)現(xiàn)培訓(xùn)時(shí)間的增加并不能對(duì)評(píng)分者評(píng)分起到明顯的改善(Dugan, 1988),但也有研究發(fā)現(xiàn)培訓(xùn)時(shí)間越長(zhǎng)的評(píng)分者在測(cè)評(píng)構(gòu)想效度方面結(jié)果更好(Carol M Myford & Wolfe, 2009)。此外還有研究發(fā)現(xiàn):與長(zhǎng)時(shí)培訓(xùn)(超過1天)相比,短時(shí)培訓(xùn)(1天或更短)帶來的評(píng)分中維度變異比例更大(Lievens & Conway, 2001)。各研究均表明了評(píng)分者培訓(xùn)能更有效地觀察、記錄和評(píng)價(jià)受測(cè)者的行為。
由評(píng)分者特點(diǎn)導(dǎo)致的評(píng)分者偏差使受評(píng)者分?jǐn)?shù)發(fā)生變化,引入不可預(yù)期、與結(jié)構(gòu)無(wú)關(guān)的變異。為獲得可靠、有預(yù)測(cè)性的測(cè)評(píng)結(jié)果,測(cè)評(píng)必須探測(cè)評(píng)分者的評(píng)分特點(diǎn),并及時(shí)調(diào)整不合理結(jié)果。
(二)測(cè)評(píng)維度難度效應(yīng)
評(píng)價(jià)中心是基于維度評(píng)價(jià)的測(cè)試(Lievens, Dilchert & Ones, 2009)。評(píng)分者按照維度界定標(biāo)準(zhǔn)對(duì)受評(píng)者在不同模擬情境下的行為表現(xiàn)進(jìn)行評(píng)價(jià),是評(píng)價(jià)中心的基本設(shè)計(jì)理念。評(píng)價(jià)中心主要以特質(zhì)為基礎(chǔ)的維度特征進(jìn)行測(cè)量,評(píng)分者評(píng)分過程受維度評(píng)價(jià)難度的影響,從而影響著測(cè)評(píng)效度。以往有關(guān)人才測(cè)評(píng)研究較少探討維度難度對(duì)測(cè)評(píng)的影響,可能造成測(cè)評(píng)效度的降低。
評(píng)分者在測(cè)評(píng)過程中常受以上因素的影響,導(dǎo)致評(píng)分誤差,從而影響測(cè)評(píng)質(zhì)量。在情境測(cè)評(píng)開發(fā)與應(yīng)用中,測(cè)評(píng)者對(duì)維度的界定往往比較模糊、隨意,缺乏統(tǒng)一標(biāo)準(zhǔn)。這也是導(dǎo)致評(píng)價(jià)中心構(gòu)想效度不佳的原因之一(Hoffman, Melchers, Blair, Kleinmann & Ladd, 2011; Thornton III & Gibbons, 2009)。為解決這個(gè)問題,可通過工作分析或勝任特征模型確定測(cè)量維度,保證測(cè)題的一致性(Lance, 2008);并加強(qiáng)評(píng)分者培訓(xùn),能降低評(píng)分誤差的產(chǎn)生(Sulsky & Noonan, 2001; O’Sullivan & Roch, 2003; Uggerslev & Sulsky, 2008)。
以上控制方法基于測(cè)評(píng)設(shè)計(jì)與實(shí)施方面,對(duì)于提高測(cè)評(píng)質(zhì)量有效性仍不足。隨著心理測(cè)量水平的日漸提高,研究者使用現(xiàn)代測(cè)量學(xué)來評(píng)估誤差產(chǎn)生的根源,并針對(duì)不同類型的誤差特征,制定更符合實(shí)際的調(diào)整。
(三)應(yīng)用多側(cè)面Rasch模型(Many FacetsRaschModel, MFRM)的優(yōu)勢(shì)
相比于經(jīng)典測(cè)量理論,在情境測(cè)評(píng)中使用MFRM能構(gòu)建受評(píng)者、評(píng)分者、維度等側(cè)面,根據(jù)不同側(cè)面的度量值獲得更詳細(xì)的信息,有利于提高測(cè)量質(zhì)量。在心理測(cè)量和教育領(lǐng)域,研究者使用MFRM考察閱卷人的評(píng)分質(zhì)量,其結(jié)果可用作調(diào)整試卷,達(dá)到簡(jiǎn)潔易操作的目標(biāo),提高試卷評(píng)分的準(zhǔn)確度(Randall & Engelhard, 2009)。
在統(tǒng)計(jì)分析過程中,MFRM通過剔除特定項(xiàng)目和評(píng)分者偏差的影響,進(jìn)而得到獨(dú)立于特定項(xiàng)目難度以及特點(diǎn)評(píng)分者特點(diǎn)的受評(píng)者能力值。所以,基于MFRM分析所得到的受評(píng)者能力值將使用人決策更客觀公平。此外,MFRM能獲得不同評(píng)分者評(píng)分過程的寬嚴(yán)程度,更直觀地呈現(xiàn)評(píng)分者效應(yīng)對(duì)評(píng)分的影響,幫助測(cè)評(píng)者甄別不合格評(píng)分者,提高測(cè)評(píng)結(jié)果的準(zhǔn)確度。最后,MFRM通過偏差分析,可快速有效地分辨出“問題”受評(píng)者和不合格評(píng)分者,從而便于測(cè)評(píng)者采取有效的措施(如重評(píng)、更換或培訓(xùn)評(píng)分者),以保證評(píng)分的質(zhì)量和整體上的一致性??傊琈FRM結(jié)果為控制和保證測(cè)評(píng)質(zhì)量提供了統(tǒng)計(jì)上的參考依據(jù)。
本研究重點(diǎn)在于:(a)根據(jù)公文筐情境測(cè)評(píng)中評(píng)分者的寬嚴(yán)度,判斷評(píng)分者評(píng)分的傾向性;(b)通過構(gòu)建評(píng)分者的個(gè)人特征,如評(píng)分者數(shù)量、評(píng)分者背景(如培訓(xùn)經(jīng)驗(yàn)、類型)等影響評(píng)分信效度的側(cè)面,評(píng)估這些因素對(duì)評(píng)分的影響;(c)通過不同側(cè)面的交互效應(yīng)分析,如評(píng)分者—受測(cè)者、評(píng)分者—維度等側(cè)面的比較,可對(duì)測(cè)評(píng)過程中的評(píng)價(jià)偏差信息進(jìn)行全面的分析,并為探究測(cè)評(píng)設(shè)計(jì)方案的最優(yōu)化提供有價(jià)值的參考。
(一)研究目的
首先,本研究使用多側(cè)面Rasch模型估計(jì)受評(píng)者真實(shí)能力值,比較基于真實(shí)能力估計(jì)值和與基于合成總分的決策,找到排序差異較大的“問題”受評(píng)者。其次,分析評(píng)分者寬嚴(yán)度及內(nèi)部一致性,探討評(píng)分者誤差;通過考察測(cè)評(píng)維度難度及評(píng)定等級(jí)使用情況,以判斷評(píng)分者的評(píng)分特點(diǎn)。最后,通過MFRM偏差分析,跟蹤誤差源,分析造成偏差的深層原因。
(二)測(cè)評(píng)工具
由測(cè)評(píng)專家綜合過往研究,對(duì)公文筐測(cè)驗(yàn)試題進(jìn)行編制,同時(shí)編制對(duì)應(yīng)的評(píng)分標(biāo)準(zhǔn)。公文筐測(cè)驗(yàn)試題在正式施測(cè)時(shí)包含組織計(jì)劃能力、溝通協(xié)調(diào)能力、分析解決問題能力和大局觀四個(gè)測(cè)評(píng)維度。經(jīng)過SPSS軟件對(duì)被試測(cè)評(píng)結(jié)果的相關(guān)分析、測(cè)評(píng)總分與各維度的回歸分析及采用AMOS軟件對(duì)測(cè)評(píng)結(jié)果進(jìn)行驗(yàn)證性因素分析,表明測(cè)評(píng)的結(jié)構(gòu)效度較好。
(三)測(cè)評(píng)被試
參加公文筐測(cè)試的受評(píng)者共138名,均為本科應(yīng)屆畢業(yè)生,均來自于廣州某大學(xué),平均年齡為21歲,其中男女生比例為1:3。本研究有6位評(píng)分者,分為培訓(xùn)組和非培訓(xùn)組,其中評(píng)分者A、B、C屬于非培訓(xùn)組。評(píng)分者均來自廣州某大學(xué)應(yīng)用心理學(xué)專業(yè),培訓(xùn)組平均年齡為25歲,非培訓(xùn)組平均年齡為23歲。
(四)測(cè)評(píng)施測(cè)程序
所有被試在規(guī)定的時(shí)間內(nèi)完成公文筐測(cè)驗(yàn)。6名評(píng)分者根據(jù)評(píng)分標(biāo)準(zhǔn)對(duì)被試答案評(píng)分。
(五)測(cè)評(píng)結(jié)果處理
本文采用FACETS軟件對(duì)公文筐測(cè)評(píng)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。研究建構(gòu)評(píng)分者、受評(píng)者和評(píng)分維度三個(gè)側(cè)面,通過多側(cè)面Rasch模型研究?jī)山M評(píng)分者的評(píng)分特征,為評(píng)估測(cè)評(píng)方式和科學(xué)性提供合理的依據(jù)。通過使用FACETS軟件,我們得到以下的數(shù)據(jù)進(jìn)行分析:
(1)度量值(Measure):個(gè)體在統(tǒng)一標(biāo)尺上的標(biāo)度值。FACETS將各側(cè)面的度量值統(tǒng)一換算為以logit為單位的統(tǒng)一度量值,方便比較和分析各側(cè)面。通過該指標(biāo)分析受評(píng)者能力、評(píng)分者嚴(yán)寬度、維度難度等使用情況。
(2)模型標(biāo)準(zhǔn)誤差(Model S.E.):度量值的精確度,表示該模型估算時(shí)的準(zhǔn)確程度。
(3)擬合統(tǒng)計(jì)量(Fit statistics):對(duì)模型預(yù)測(cè)變異值和側(cè)面的觀察值之間擬合程度的衡量。擬合統(tǒng)計(jì)量包括未加權(quán)均方擬合統(tǒng)計(jì)量(OutfitMean Square,OutfitMnSq)和加權(quán)均方擬合統(tǒng)計(jì)量(InfitMean Square,InfitMnSq)兩個(gè)維度。
(4)分隔系數(shù)(Separation)和信度(Reliability):對(duì)所有側(cè)面的個(gè)體之間的差異是否大于測(cè)量誤差的衡量,其數(shù)值越大,表示認(rèn)為該側(cè)面?zhèn)€體之間存在顯著差異的把握越大。
(5)卡方檢驗(yàn)值(Chi.Square Statistics):無(wú)差異卡方(Fixed Chi-square)在ρ<0.05的情況下,表示個(gè)體之間在統(tǒng)計(jì)上具有顯著差異,與分隔系數(shù)和信度的作用相似。
(6)偏差分析(bias analysis):“偏差”指實(shí)際分?jǐn)?shù)與模型預(yù)測(cè)值的偏離程度。偏差分析可判斷在不同研究側(cè)面間的交互作用中顯著偏離模型估計(jì)值的評(píng)分是否存在,并以此對(duì)識(shí)別評(píng)分者能否保持一貫的嚴(yán)寬度和評(píng)分者對(duì)受評(píng)者或維度的評(píng)分差異問題進(jìn)行追蹤。
(一)受評(píng)者能力的結(jié)果分析
(二)評(píng)分內(nèi)部一致性和評(píng)分者寬嚴(yán)度結(jié)果分析
(三)各維度評(píng)分結(jié)果分析
表1 維度評(píng)分統(tǒng)計(jì)結(jié)果
注:RMSE:0.03AdjS.D.:0.30Separation:10.21SeparationReliability:0.99
(四)評(píng)定等級(jí)分析
通過對(duì)6位評(píng)分者的評(píng)定等級(jí)統(tǒng)計(jì)結(jié)果進(jìn)行分析后發(fā)現(xiàn),大多數(shù)評(píng)分者對(duì)第3—5等級(jí)使用過度,被評(píng)分者使用次數(shù)最多的是第4等級(jí)的評(píng)分。由此表明,評(píng)分者評(píng)分存在一定的集中趨勢(shì)。平均能力值代表受評(píng)者能力與評(píng)定等級(jí)之間的關(guān)系。受評(píng)者能力與評(píng)定等級(jí)呈正相關(guān)關(guān)系。在進(jìn)行分析后,結(jié)果表明6位評(píng)分者評(píng)分總體上與受評(píng)者能力相吻合。
(五)偏差分析
MFRM是一種深入測(cè)評(píng)內(nèi)部,檢測(cè)評(píng)分者評(píng)分過程,尋找偏差源頭,提供詳細(xì)信息報(bào)告的技術(shù)。通過追蹤評(píng)分者對(duì)受評(píng)者及不同維度的評(píng)分,可判斷評(píng)分者寬嚴(yán)趨勢(shì)的穩(wěn)定性及對(duì)維度評(píng)判標(biāo)準(zhǔn)把握的清晰度。
1.評(píng)分者與受評(píng)者的偏差分析
2.評(píng)分者與維度的偏差分析
表2 評(píng)分者與維度的偏差數(shù)
(一)受評(píng)者能力水平的估計(jì)
以往的測(cè)評(píng)都是基于評(píng)分者對(duì)受評(píng)者各維度評(píng)分的簡(jiǎn)單加和作為測(cè)評(píng)總分,而利用MFRM能通過估計(jì)獨(dú)立于各種偏差的受評(píng)者能力值,來為測(cè)評(píng)提供全新的視角,即關(guān)注受評(píng)者的能力排序進(jìn)行篩選?;诓煌治龇椒?,得到的不同排序結(jié)果將直接影響到受測(cè)者的錄取結(jié)果。以此次的公文筐數(shù)據(jù)為例,假設(shè)使用測(cè)評(píng)總分作為錄取統(tǒng)計(jì)標(biāo)準(zhǔn),錄取線劃定為前10名,第50號(hào)受測(cè)者能成為錄取人員,而第14號(hào)受測(cè)者則被拒絕。統(tǒng)計(jì)排序最大差異發(fā)現(xiàn),第22號(hào)受測(cè)者的排名差異最大。測(cè)評(píng)者需對(duì)排名較前的受評(píng)者進(jìn)行深入觀察,避免僅以排名作為人員決策的最終判斷條件。
此外,評(píng)分者界定評(píng)分標(biāo)準(zhǔn)的特異性會(huì)對(duì)能力處于同一水平的受評(píng)者給予的分?jǐn)?shù)差距較大。以55號(hào)和59號(hào)的受評(píng)者為例,兩位受評(píng)者在能力值基本一致的情況下,其Infit值有較為明顯的差異,59號(hào)受評(píng)者Infit值最大,后面的偏差分析也表明了評(píng)分者對(duì)59號(hào)受評(píng)者表現(xiàn)判斷異議,意見難達(dá)一致。MFRM綜合分析總分及評(píng)價(jià)穩(wěn)定性,將評(píng)分較為穩(wěn)定的55號(hào)受評(píng)者列為第一。傳統(tǒng)測(cè)評(píng)容易忽略評(píng)分者評(píng)分特異性,雖然決策精簡(jiǎn)易行,但導(dǎo)致決策的片面性。MFRM可幫助測(cè)評(píng)者在受評(píng)者能力值相同時(shí),根據(jù)規(guī)定范圍的Infit值,排除不符合域值的受評(píng)者評(píng)分,使人事決策過程更具具科學(xué)性,進(jìn)而提高評(píng)判合適人選標(biāo)準(zhǔn)。
(二)評(píng)分者因素對(duì)評(píng)分的影響
評(píng)分者因素會(huì)因?yàn)榍榫暗淖兓鴮?duì)評(píng)分造成偏差。評(píng)分者對(duì)受測(cè)者在把握評(píng)分等級(jí)、測(cè)評(píng)試題上的表現(xiàn)進(jìn)行評(píng)價(jià)方面受個(gè)體經(jīng)驗(yàn)的影響。在考察評(píng)分者主觀評(píng)分時(shí)以評(píng)分者的內(nèi)部一致性和寬嚴(yán)度的差異作為指標(biāo)能對(duì)各評(píng)分者評(píng)分誤差進(jìn)行準(zhǔn)確地區(qū)分,同時(shí)為評(píng)分者評(píng)分錯(cuò)誤的校正提供科學(xué)依據(jù)。
受評(píng)者得分在一定程度上受評(píng)分者寬嚴(yán)度影響。MFRM在評(píng)分者寬嚴(yán)度方面采用了量化的方法,對(duì)評(píng)分者自身的評(píng)價(jià)提供數(shù)學(xué)指標(biāo)。分析結(jié)果表明A評(píng)分者評(píng)分最寬松,B評(píng)分者評(píng)分最嚴(yán)厲。評(píng)分內(nèi)部一致性是衡量同一評(píng)分者對(duì)所有受評(píng)者評(píng)分穩(wěn)定性的指標(biāo)。在應(yīng)用FACETS時(shí),評(píng)分者的內(nèi)部一致性通過Infit值來判斷。在分析內(nèi)部一致性時(shí),經(jīng)典測(cè)量理論無(wú)法對(duì)評(píng)分者評(píng)分的穩(wěn)定性進(jìn)行獨(dú)立檢測(cè),是其明顯不足。MFRM從維度角度、受評(píng)者深入分析評(píng)分者在不同情境的評(píng)分一致性,提供評(píng)分者個(gè)體內(nèi)部一致性得分,從而可對(duì)內(nèi)部一致性明顯不一致的評(píng)分者進(jìn)行培訓(xùn)、跟蹤和監(jiān)控。
對(duì)比培訓(xùn)組和未培訓(xùn)組后還發(fā)現(xiàn),培訓(xùn)使得評(píng)分者的寬嚴(yán)度更為集中。專業(yè)化的培訓(xùn)可以在測(cè)評(píng)中幫助評(píng)分者保持客觀性和獨(dú)立性。一方面,加強(qiáng)評(píng)分者對(duì)測(cè)評(píng)答案的熟悉程度,更準(zhǔn)確地對(duì)受評(píng)者書面回答進(jìn)行評(píng)分;另一方面,幫助評(píng)分者理解維度定義,準(zhǔn)確區(qū)分和鑒別受評(píng)者書面回答的維度得分。通過利用MFRM來檢驗(yàn)的評(píng)分者的寬嚴(yán)度和內(nèi)部一致性,進(jìn)一步優(yōu)化測(cè)評(píng)體系,這對(duì)未來的人才測(cè)評(píng)研究具有一定借鑒意義。
(三)維度難度的MFRM分析
主觀測(cè)評(píng)技術(shù)都需要評(píng)分者對(duì)受評(píng)者測(cè)評(píng)行為表現(xiàn)使用觀察法進(jìn)行評(píng)價(jià),受評(píng)者的總體得分會(huì)受到不同維度評(píng)定的影響。本研究中大局觀維度評(píng)價(jià)難度最大。大局觀指能對(duì)自身崗位角色以及整體組織崗位結(jié)構(gòu)的客觀認(rèn)識(shí)較好,從而能更準(zhǔn)確地分配自己的時(shí)間和工作。由于受評(píng)者背景的影響(在校應(yīng)屆生),尚未接觸具體崗位,所以該維度得分難度較高。通過分析不同維度的難度,可以幫助測(cè)評(píng)者通過控制不同維度的難度,從而更加科學(xué)地篩選受評(píng)者。
(四)偏差分析
偏差分析的意義在于識(shí)別評(píng)分者具體的評(píng)分差異,并以此為基礎(chǔ)對(duì)評(píng)分者評(píng)價(jià)方案進(jìn)行完善,從而為測(cè)評(píng)的公正性與準(zhǔn)確率提供保證。在測(cè)評(píng)中使用偏差分析可以在評(píng)分內(nèi)部一致性良好的情況下準(zhǔn)確識(shí)別評(píng)分者在測(cè)評(píng)分?jǐn)?shù)上存在的問題,避免評(píng)分者受情景等因素影響,導(dǎo)致其在測(cè)評(píng)過程中的評(píng)分準(zhǔn)確性的誤差。
在評(píng)分者與受評(píng)者偏差的分析中發(fā)現(xiàn),評(píng)分者在內(nèi)部一致性較高的情況下,對(duì)受評(píng)者的評(píng)分仍存在寬嚴(yán)度的浮動(dòng)變化。從評(píng)分者的角度分析,是因其對(duì)維度的理解不夠;從受評(píng)者的角度分析,是因其對(duì)題目理解的一致性較低,導(dǎo)致回答不一致較差,從而干擾了評(píng)分者的評(píng)分。所以在測(cè)評(píng)中,要兼顧試題的難度和評(píng)分的標(biāo)準(zhǔn)。
在現(xiàn)有的主觀測(cè)評(píng)方法中,測(cè)評(píng)者一般以評(píng)分培訓(xùn)達(dá)到控制評(píng)分者偏差、提高評(píng)分者信度的目標(biāo)。培訓(xùn)的內(nèi)容包括制定統(tǒng)一的評(píng)分標(biāo)準(zhǔn)、介紹各種評(píng)分錯(cuò)誤現(xiàn)象、加強(qiáng)以行為觀察為基礎(chǔ)的練習(xí)、增加特殊行為的記錄及試評(píng)等。在測(cè)評(píng)過程中,不但需要優(yōu)化篩選評(píng)價(jià)者的標(biāo)準(zhǔn)來減少評(píng)分者的評(píng)分偏差次數(shù),還需要通過培訓(xùn)來降低評(píng)分者的評(píng)分偏差,使用評(píng)分標(biāo)準(zhǔn)清晰的量表,以偏差顯著的維度為依據(jù)來辨別和規(guī)避會(huì)導(dǎo)致風(fēng)險(xiǎn)決策的維度或存在的問題,進(jìn)而完善評(píng)分標(biāo)準(zhǔn)或開展評(píng)分指導(dǎo)。
借助FACETS軟件,分析本次公文筐測(cè)評(píng)結(jié)果,得到以下主要結(jié)論:(a)在剔除了評(píng)分者及維度等其他因素對(duì)受評(píng)者能力的制約,MFRM能估算反映受評(píng)者真實(shí)能力的能力值,為用人決策提供更廣泛且準(zhǔn)確的依據(jù);(b)評(píng)分者的寬嚴(yán)度差異顯著,評(píng)分者F與其他5位評(píng)分者的寬嚴(yán)度差距較大;(c)不同維度的得分存在顯著差異,受評(píng)者的能力通過不同維度評(píng)分能較好地被區(qū)分;(d)評(píng)分各等級(jí)均有一定的使用頻率,其中3—5分?jǐn)?shù)段使用頻率較高,可能存在一定的評(píng)分集中趨勢(shì),但整體上符合要求;(e)評(píng)分者需要接受專業(yè)的培訓(xùn),評(píng)分者與受評(píng)者之間的偏差和評(píng)分者與維度之間存在偏差較為明顯。
以上結(jié)論表明:對(duì)評(píng)價(jià)中心技術(shù)情景模擬測(cè)評(píng)的結(jié)果,相對(duì)于過往常使用的經(jīng)典測(cè)量理論分析而言,使用MFRM能深入分析主觀性測(cè)評(píng)的受評(píng)者能力、評(píng)價(jià)者評(píng)分內(nèi)部一致性和寬嚴(yán)度、評(píng)定等級(jí)與測(cè)評(píng)維度的難度等特征,能更好地對(duì)受評(píng)者能力水平差異、測(cè)評(píng)維度差異、評(píng)分者評(píng)分特征及各種偏差情況進(jìn)行分析,并為改善測(cè)評(píng)質(zhì)量提供合理的方案。
本研究?jī)H分析公文筐測(cè)評(píng)的結(jié)果,在實(shí)際運(yùn)用中,測(cè)評(píng)者一般使用評(píng)價(jià)中心的多種測(cè)評(píng)技術(shù),若要對(duì)比評(píng)價(jià)中心技術(shù)內(nèi)不同測(cè)評(píng)情境的效果,還要考慮多種測(cè)評(píng)技術(shù)的側(cè)面因素。此外,雖然MFRM可獲得評(píng)價(jià)者評(píng)價(jià)過程及測(cè)評(píng)維度等不同側(cè)面信息,從而評(píng)估測(cè)評(píng)質(zhì)量,但無(wú)法取得有關(guān)測(cè)評(píng)精確的效度結(jié)果。因而,未來可加入不同測(cè)評(píng)技術(shù)側(cè)面,進(jìn)一步探討各種測(cè)評(píng)技術(shù)的特征,為人才測(cè)評(píng)發(fā)展提供科學(xué)的理論依據(jù)。
Bartels, L. K., & Doverspike, D. (1997). Assessing the assessor: The relationship of assessor personality to leniency in assessment center ratings. Journal of Social Behavior & Personality.
Cooper, W. H. (1981a). Conceptual similarity as a source of illusory halo in job performance ratings. Journal of applied psychology, 66(3), 302.
Cooper, W. H. (1981b). Ubiquitous halo. Psychological bulletin, 90(2), 218.
Dugan, B. (1988). Effects of assessor training on information use. Journal of applied psychology, 73(4), 743.
Feldman, J. M. (1986). A note on the statistical correction of halo error. Journal of applied psychology, 71(1), 173.
Furnham, A., Taylor, J., & Chamorro-Premuzic, T. (2008). Personality and Intelligence Correlates of Assessment Center Exercises. Individual Differences Research, 6(3).
Hoffman, B. J., Melchers, K. G., Blair, C. A., Kleinmann, M., & Ladd, R. T. (2011). Exercises and dimensions are the currency of assessment centers. Personnel Psychology, 64(2), 351—395.
Knoch, U., Read, J., & von Randow, J. (2007). Re-training writing raters online: How does it compare with face-to-face training? Assessing Writing, 12(1), 26—43.
Kolk, N. J., Born, M. P., Van Der Flier, H., & Olman, J. M. (2002). Assessment center procedures: Cognitive load during the observation phase. International Journal of Selection and Assessment, 10(4), 271—278.
Lance, C. E. (2008). Why assessment centers do not work the way they are supposed to. Industrial and Organizational Psychology, 1(1), 84—97.
Assessment center exercise factors represent cross-situational specificity, not method bias. Human Performance, 13(4), 323—353.
Lievens, F., & Conway, J. M. (2001). Dimension and exercise variance in assessment center scores: A large-scale evaluation of multitrait-multimethod studies. Journal of applied psychology, 86(6), 1202.
Lievens, F., Dilchert, S., & Ones, D. S. (2009). The importance of exercise and dimension factors in assessment centers: Simultaneous examinations of construct-related and criterion-related validity. Human Performance, 22(5), 375—390.
Macmillan, P. D. (2000). Classical, generalizability, and multifaceted Rasch detection of interrater variability in large, sparse data sets. The Journal of experimental education, 68(2), 167—190.
Murphy, K. R., Jako, R. A., & Anhalt, R. L. (1993). Nature and consequences of halo error: A critical analysis. Journal of applied psychology, 78(2), 218.
Myford, C. M., & Mislevy, R. J. (1995). Monitoring and improving a portfolio assessment system: National Center for Research on Evaluation, Standards, and Student Testing (CRESST), Graduate School of Education, University of California, Los Angeles.
Myford, C. M., & Wolfe, E. W. (2009). Monitoring rater performance over time: A framework for detecting differential accuracy and differential scale category use. Journal of Educational Measurement, 46(4), 371—389.
Noonan, L. E., & Sulsky, L. M. (2001). Impact of frame-of-reference and behavioral observation training on alternative training effectiveness criteria in a Canadian military sample. Human Performance, 14(1), 3—26.
Randall, J., & Engelhard, G. (2009). Examining teacher grades using Rasch measurement theory. Journal of Educational Measurement, 46(1), 1—18.
Roch, S. G., & O'Sullivan, B. J. (2003). Frame of reference rater training issues: recall, time and behavior observation training. International Journal of Training and Development, 7(2), 93—107.
Sagie, A., & Magnezy, R. (1997). Assessor type, number of distinguishable dimension categories, and assessment centre construct validity. Journal of Occupational and Organizational Psychology, 70(1), 103—108.
Uggerslev, K. L., & Sulsky, L. M. (2008). Using frame-of-reference training to understand the implications of rater idiosyncrasy for rating accuracy. Journal of applied psychology, 93(3), 711.
Woehr, D. J., & Arthur, W. (2003). The construct-related validity of assessment center ratings: A review and meta-analysis of the role of methodological factors. Journal of Management, 29(2), 231—258.
【責(zé)任編輯:楊海文;責(zé)任校對(duì):楊海文,趙洪艷】
2016—04—18
呂智宇,中山大學(xué)管理學(xué)院(廣州510275); 孫海法,中山大學(xué)管理學(xué)院(廣州510275)。
10.13471/j.cnki.jsysusse.2017.03.019