楊 濤 黃生順 辛 濤
近年來,計算機化多階段測驗(Multistage Testing,MST)相繼成為多個大型考試項目的施測形式,如美國注冊會計師資格考試、醫(yī)師執(zhí)照考試、法學院入學考試和研究生入學考試(GRE),與此同時,許多研究也正在嘗試將這種測驗形式應用到PISA和NAEP等大規(guī)模教育測評項目中。[1][2]MST受到越來越多研究者和實踐者的青睞。
MST是使用題組的自適應測驗,[3]根據被試的能力水平適應性地施測相應難度的題目集合。與計算機自適應測驗(Computer Adaptive Testing,CAT)一樣,依靠大型題庫,自行去適應被試水平,但是MST根據被試在前面題目中的表現,施測的是事先組裝好的一組題目,而不是單個題目。
MST兼具線性測驗和CAT的優(yōu)點。一方面,和傳統的紙筆測驗類似,MST的模塊在施測前組裝,有時題本也是在施測前組裝,測驗開發(fā)者可以對模塊和題本的統計目標、測驗內容的覆蓋程度、內容間的平衡以及試題材料(圖表、音頻、視頻)等進行檢查,對測驗有更高的控制能力;在一個模塊內,考生可以使用紙筆測驗中所習慣的答題方式,如檢查和跳過某道題。另一方面,在MST中,題庫中的題目事先組合為不同難度的模塊,用來適應不同能力的被試,可以達到和CAT差不多、但高于線性測驗的測驗效率和測量準確性;而且考生作答和自己能力水平相當的題目,更能激活他們的答題動機,收集到更加真實有效的信息。MST結合測驗開發(fā)者的智慧和適應性,不僅能夠提供穩(wěn)健可靠的測驗工具,而且具備較高的測量精度,綜合考慮適應性、實踐性、測量準確性和可控性,[4]是一種實用性較強的測驗形式。
MST的諸多優(yōu)勢得益于其獨特的框架結構。MST分為多個階段,一般來說,除第一階段外,其他階段有多個平均難度不同的模塊,這樣的結構實現了計算機化測驗的適應性,同時有利于對測驗質量的控制。在一些國內心理和教育測量領域的研究者和考試機構開始將關注點轉向MST之際,[5][6]本文對MST測驗形式的基本結構進行綜述,以幫助讀者更加全面地了解MST靈活的結構,為促進MST在國內的研究和應用提供理論參考。
為了更清楚地描述MST測驗形式的結構,避免和其他測驗形式的概念(如題本、題組)相混淆,Luecht和Nungester提出了一系列術語,分別是模塊、階段、路徑、面板。[7]
模塊(Module),由一組難度相近的題目組成,這些題目可以彼此獨立,也可以是有共同背景材料的多個題目(如閱讀題)。有些研究也稱為題組(testlet),但題組一般是指共用同一背景材料的一組題目,[8]為了和這個概念進行區(qū)分,本文采用模塊這個術語。在施測過程中,模塊作為一個單元向考生發(fā)放和計分,考生需要完成一個模塊的所有題目,但是不同考生作答的模塊可能不同。為了適應不同能力的考生,模塊有不同的統計特征(如平均難度、模塊信息函數)。
為了在施測過程中能夠為不同能力的考生選擇相應難度的模塊,MST分為多個部分,一個部分就稱作是一個階段。MST由多個階段組成,一般來說,第一階段包括一個模塊,其他階段包括多個平均難度不同的模塊。因為MST借助計算機進行階段間的評分和模塊選擇,一個階段向另一個階段的過渡只需較短時間,考生可能不會察覺到階段的存在。
階段和模塊共同組成了MST的結構(Configuration)。不同階段數量和模塊數量可以組合為不同的結構。圖1是一個三階段的MST結構。第一階段有一個中等難度模塊(1M),第二階段分別有一個低難度模塊(2L)、一個中等難度模塊(2M)、一個高難度模塊(2H),第三階段也有三個平均難度不同的模塊(3L、3M、3H),這樣的結構簡稱為1-3-3設計。
圖1 1-3-3 MST設計
第一階段所有考生作答同一模塊,也稱作探測測驗(Routing Test)。第一階段完成后,估計考生的當前能力,利用路線選擇策略(Routing Rule)在第二階段選擇與考生能力匹配的模塊,每個考生只作答三個模塊中的一個。第二階段完成后,重復能力估計和模塊選擇過程。第三階段完成后使用考生在所有題目的作答反應數據估計考生的最終能力??忌诟鱾€階段所接收模塊的順序就是路徑(Pathway),反映了考生實際作答的題本。圖1總共有7條路徑,每個考生的題本會隨著考生能力不同而不同。
為了更好地實施MST測驗,測驗開發(fā)者常常會將多個階段的所有模塊組合在一起,組成面板(Panel)。測驗開發(fā)時為了控制題目和模塊的曝光程度,一般會按照MST的結構組裝多個平行的面板(圖2),然后隨機向考生發(fā)放。雖然面板作為一個整體發(fā)放給考生,但是路線選擇策略會為每個考生找到最適合的模塊,所以考生在每個階段只能看見且只能作答一個與自己能力水平匹配的模塊。
圖2 平行的1-3-3設計面板
除了使用面板進行測試,也可以在測試過程中從模塊庫中選擇與每個考生能力相符的模塊。[9]不管采用哪種方式實施測驗,MST都保持階段和模塊組成的結構,這使得它的開發(fā)實施不是簡單地依賴自適應算法(如路線選擇策略),測驗開發(fā)者的專業(yè)知識和經驗也在其中發(fā)揮著重要的作用。[10]正如Wainer和Kiely認為,多階段的模塊是一種保持CAT優(yōu)勢同時允許使用專家智慧的機制。[11]
MST設計靈活,結構多樣,不同測驗采用不同的階段數量和模塊數量。在決定使用MST作為測驗的實施方式后,測驗開發(fā)者首先需要根據測驗情況和實際條件來確定階段數量和模塊數量,考慮的因素主要有測驗目的、題庫情況和預設的考生能力分布等。
測驗有不同的目的,有些測驗主要是為了準確估計考生的能力水平,而有些測驗則關注將考生分到合適的類別,判斷考生的表現水平。不同測驗目的下的MST應該采用不同的結構設計。用于能力測驗的MST希望準確測量整個量尺上的能力,那么需要更多階段和模塊來適應不同能力范圍的被試;[12]用于分類測驗的MST更注重分類決策的準確性,模塊難度能夠適應分類分數附近的能力即可。美國的語言測試和美國的注冊會計師考試均采用1-2-2設計,這是因為這些測驗不太關注整個能力量尺上的測量準確性,它們關注的是中上水平的考生是否掌握了測驗目標要求的知識和能力。
題庫是MST的重要組成部分,題庫大小和質量是影響MST測量精度的重要因素,而且題庫質量的改善有利于提高測驗信息函數。實際上,題庫質量,尤其是題目難度參數的分布情況,還會限制結構的選擇。[13]每種MST結構都需要一個不同的題庫。如某個階段需要兩個不同難度的模塊,中等難度和非常難的模塊,這就意味著題庫需要有許多中等和高難度的題目。如果這兩個模塊,一個低難度,一個高難度,那么必須保證題庫中有大量相應難度的題目。在實踐中,由于自適應測驗對題庫的要求較高,如果題庫整體質量不好,任何測驗設計也無法彌補,所以測驗開發(fā)者使用題庫優(yōu)化技術和題目編寫技術等來保證題庫的質量,而在框架結構設計時就不需太注意題庫的約束。
MST的階段包括多個模塊,每個模塊適應某一范圍內的考生能力,模塊數量會影響考生間能力分組的粗細程度。不同考試中考生能力的分布形態(tài)和離散趨勢都存在差異。考試能力分布一般是服從正態(tài)分布,不過在具體的教育考試中,考生能力分布可能不是正態(tài)的;或起初是正態(tài)分布,后來隨著年齡增長、接受教育而導致部分考生的能力值升高,而變成負偏態(tài)分布;資格考試中被試的能力分布比較集中,成就測驗的考生能力分布相對較廣。為了覆蓋不同考生群體的整個能力量尺,需要設置相應的模塊數量,如果能力分布比較廣,也許需要加入更多的模塊。
MST結構的選擇是專家根據實際條件和測驗特性進行綜合判斷的結果,除了考慮以上三個因素,測驗開發(fā)者還要考慮考試科目的性質、測驗結構等。
MST的適應性是在階段之間完成的,更多階段允許MST有更大的適應性和更高的靈活性。[14]Patsula的研究發(fā)現階段從兩個增加到三個時,能力估計誤差減小。[15]但是階段比較多時,面板結構變得復雜,組卷質量可能會降低;模塊和面板檢查的工作量也會相應加重,同時對最終的測量準確性并沒有太大的作用。[16][17]
Zheng,Nozawa,Gao和Chang比較1-2-4和1-2-3-4在很多條件下的表現,包括階段間題目數量的分配方式、各階段模塊組裝的先后順序、測驗間題目是否重復、路線選擇策略和目標測驗信息函數的構建方式。研究表明只有使用優(yōu)化的目標測驗,且信息函數和測驗間題目可以重復時,四階段的分類準確率比三階段更高一點,其他情況沒有發(fā)現一致的結果。[18]不同的測驗設計在準確性和相對效率等方面的確有差異。因為從本質上來看,階段越多分流的次數越多,測驗結果越接近CAT。
兩階段MST實施簡單方便,除了可以使用計算機來施測,也支持紙筆測驗。大規(guī)模測評項目喜歡使用這種結構來驗證MST的可行性,德國的國民教育縱向研究[19]和NAEP[20]首先給考生發(fā)放一個相同的題本,經過一段時間后根據被試的能力分配三個不同難度題本中的一個。但是兩階段只有一個適應點,被試在第二階段很有可能分到不恰當的模塊,特別是能力在分流時模塊間的臨界分數附近的被試。為保險起見不建議采用兩階段結構,已有的研究一般采用三階段或四階段。[21]
大多數MST的研究和應用在第一階段使用一個模塊,隨后的階段模塊依次增加,每個階段平均有5個模塊。如果某一階段的模塊比較多,題目的平均難度水平就越多,模塊的難度和被試能力可以更有針對性地進行匹配,所以模塊數量提供更大的適應性和更高的靈活性。Patsula模擬研究表明,第二階段或第三階段模塊從3個增加到5個,能力估計的準確性和測驗效率增加。[22]
和階段數的問題一樣,模塊的增多同樣會導致組卷的復雜性和檢查工作量的增加,而且需要更廣的題目難度分布,這對題庫提出更高的要求;[23]而且測量準確性不一定有太多的提升。[24][25]Lord建議在實踐中每個階段使用3個或4個模塊。[26]
整理MST的相關文獻發(fā)現,研究或實踐使用的MST結構非常多樣,主要有1-3、1-2-2、1-2-3、1-3-2、1-3-3、1-1-2-3、1-5-5-5-5、1-1-2-3-3-4、5-5-5-5-5-5。不同的階段模塊組合適用于特定條件下的測驗,不過為了更清楚地認識不同結構的特點,幫助實踐者更快速地找到合適的結構,諸多研究對不同結構的各方面表現進行探討。
Zenisky設計了4種測驗信息量、2種信息量在各階段的分配方式、4種路線選擇策略、3種通過率,比較了1-2-2、1-2-3、1-3-2、1-3-3結構在這些條件(共4×2×4×3=96個)中的表現。結果表明所有設計的分類準確率、誤判率和漏判率都差不多。[27]全國英語等級考試結合英語考試的特點,專家團隊提出并設計了1-3-5和1-2-5-5兩種測試框架。研究者模擬生成500個、1000個、3000個和5000個樣本量,以檢驗兩個測試框架的性能。研究結果表明,隨著階段的增加,能力估計的標準誤逐漸減小,模擬能力與估計能力呈現出更高的相關,而且分類決策的準確性也更高。[28]
為了滿足考試的需要,題庫不僅要包括二值計分的項目,還需要包括多級計分的項目,如簡答題。近年來,對多值計分題的題庫或混合題型題庫中的結構設計相關研究越來越多。Kim,Chung,Park和Dodd對比了基于分部評分模型(Partial Credit Model,PCM)的面板設計(1-3-3,1-2-3,1-3-2和1-2-2),他們發(fā)現所有的面板設計表現差不多。[29]同時他們還探討了1-3-3、1-3-2、1-2-3和1-2-2四種設計在多種路徑規(guī)則和測驗長度下的表現,發(fā)現不同結構的分類準確性和分類一致性基本相同。[30]Chen關注拓展分部評分模型(Generalized Partial Credit Model,GPCM)下的MST設計的測量精度和題庫利用情況。比較了1-2、1-3、1-4、1-2-2、1-2-3、1-2-4、1-3-3和1-3-4八種結構在兩種測驗長度和兩種探測測驗長度下的表現,發(fā)現同一條件不同結構的偏差、RMSE和分類準確性均非常一致;發(fā)現測驗長度相同時,模塊越多題庫的題目利用得越充分。該研究還探討了所有考生的題目重復情況,模塊越多,一般測驗重疊率越小,而當探測測驗較長時,模塊數量的影響將減弱。[31]
Wang采用模擬方法比較了多維MST的1-3、1-2-3和1-3-3設計,結果表明1-2-3設計產生了最好的測量準確性,這和研究采用由后向前的組卷順序有關。本研究還發(fā)現只有當各維度間能力相關程度高時,多維結構設計的測量精度才優(yōu)于每個維度單獨實施、用多維模型估計能力的測量精度。[32]
由此可見,所有MST結構都能保證較高的測驗精度,這給MST設計帶來很大的靈活性。
模塊和階段的結構是MST最重要的組成部分,選擇和決定一個合適的結構是開發(fā)一個MST最基礎的工作。不同模塊和階段組合的表現是當前MST研究的重要領域,通過對已有研究的梳理發(fā)現仍存在一些問題待解決。
相對常見的單維IRT模型、多維IRT模型不僅更符合目前心理和教育測驗的真實情況,而且可以提供被試在一系列分量表上的信息,這些信息有助于標識被試在所測查的多種能力上的表現。多維IRT模型成為近40年來研究較為活躍的領域之一,而且在CAT也得到愈來愈廣泛的應用,這些都意味著多維IRT模型應用到MST是必然趨勢。然而,多維IRT模型下的MST質量是否優(yōu)于各個維度單獨施測,尚未有定論。而且由于多維結構的引入,考生不一定在所有維度上都處于同一水平,所以各階段的模塊數會隨著維度數幾何增加,使得面板結構設計變得復雜,設計出簡潔而又有效的多維MST結構對促進MST的應用和推廣有重要意義。
分類測驗包括兩個類別的掌握性測驗和多個類別的水平性測驗。用于分類測驗的MST的目的是將考生分到不同的表現類別,主要關注分類決策時分類臨界分數附近的測量準確性。目前,MST主要應用于各種資格考試,已有的研究也重點探討這類MST的設計,并得出很多重要的結論。多類別水平測驗將被試分到多個表現水平中,可以詳細地知道被試已具備的知識和能力,是教育和心理測驗中常用的測驗。但是對于在多類別分類測驗下的MST,階段數量的研究沒有一致的結論,而模塊數量的研究還是空白。結合更多的考試實踐條件找出適合在特定情境下的框架結構對MST應用者非常有價值。
由于分數解釋和使用的需要,不同考試使用不同的表現類別數量,如PISA采用的是六個類別和七個類別,TIMSS采用的是四水平,而NAEP采用的是三個類別。測驗的類別數不同,分類臨界分數個數也不同,為了保證每個分類分數有較高的測驗精度,模塊數量和階段數量可以作出相應的調整。接下來應該進一步探討不同表現類別的分數測驗適合采用的模塊和階段。
測驗安全是MST需要考慮的重要問題。多階段結構設計是一種有效控制題目曝光的方式,但是僅僅關注題目的使用頻率是不夠的,平均測驗重疊率、測驗重疊率的標準差和廣義測驗重疊率反映著考生之間的題目重復情況,也是重要測驗安全指標。Wang,Zheng和Chang理論論證了各階段所有模塊發(fā)放概率相同的條件下,階段數量會影響測驗重疊率的標準差;同時還進行了模擬研究,發(fā)現對于測驗重疊率均值相同時,MST的測驗重疊率標準差比CAT更大。[33]需要進一步考查不同模塊和階段在這些指標上的表現,做到既能兼顧題目曝光程度和測驗重疊狀況,又不損失測量準確性。這是今后研究者在結構設計方面重要的研究方向和目標。
國內外研究者深入探討了基本結構和其他測驗設計變量間的相互作用,但對考生能力分布、題庫大小和質量等因素的研究較少。
Brossman和Guille比較1-3-3-3-3-3設計下6種不同能力分布,發(fā)現隨著能力分布的標準差增大,RMSE和平均SEM也增大,但是增大的程度比線性測驗要低。[34]這也充分體現了MST更有潛力準確測量整個量尺上的能力,但是如果考生能力分布較廣時,需要更高的適應性來準確測量不同能力的考生。題庫的質量可以通過區(qū)分度、難度、項目信息量的分布情況來考察,以往僅關注它們對MST組卷的影響程度。進一步的研究應考慮不同分布形態(tài)和離散程度的考生群體、題庫大小和質量對MST框架結構的影響。
由于真實測驗情境復雜,并不存在一種適合于任何情境的理想結構。結合不同結構的表現,綜合考慮各外在因素間的相互作用并合理借鑒其他測驗形式的框架結構,就可以確定特定測驗條件的相對優(yōu)化結構。
[1] Xu,X.,Sikali,E.,Oranje,A.,Kulick,E.Multi-stage testing in educational survey assessments[C].New Orleans:the National Council on Measurement in Education,2011.
[2][20] Bock,R.D.,Zimowski,M.F.Feasibility studies of two-stage testing in large-scale educational assessment:Implications for NAEP[R].Washington,DC:National Center for Education Statistics,2003.
[3] Drasgow,F.,Luecht,R.M.,Bennett,R.Technology and Testing[M]//Brennan,R.L.Educational measurement(4th ed.).Washington,DC:American Council on Education/Praeger Publishers,2006:471-515.
[4][23] Zenisky,A.,Hambleton,R.K.,Luecht,R.M.Multi-stage testing:Issues,designs,and research[M]//Van der Linden,W.J.,Glas,C.A.W.Elements of Adaptive Testing.New York:Springer,2010:355-372.
[5] 王睿,羅照盛,王鈺彤.計算機化多階段自適應測驗在限時瑞文推理測驗中的應用[C]//第十七屆全國心理學學術會議論文摘要集.北京:中國心理學會,2014.
[6][28] 關丹丹,劉慶思.兩種PETS計算機自適應序列測試框架比較研究[J].中國考試,2013(1):16-22.
[7][16][24] Luecht,R.M.,Nungester,R.J.Some practical examples of computer-adaptive sequential testing[J].Journal of Educational Measurement,1998(35):229-249.
[8] Rosenbaum,P.R.Items bundles[J].Psychometrika,1988,53(3):349-359.
[9][27] Zenisky,A.L.Evaluating the effects of several multi-stage testing design variables on selected psychometric outcomes for certification and licensure assessment[D].Amherst:University of Massachusetts,2004.
[10] Wainer,H.Computerized Adaptive Testing:A primer[M].Hillsdale:Lawrence Erlbaum Associates,1990.
[11] Wainer,H.,Kiely,G.L.Item Clusters and Computerized Adaptive Testing:A Case for Testlets[J].Journal of Educational Measurement,1987(24):185-201.
[12] Crotts,K.M.,Zenisky,A.L.,Sireci,S.G.,Li,X.Estimating Measurement Precision in Reduced-length Multi-stage Adaptive Testing[J].Journal of Computerized Adaptive Testing,2013(1).
[13] Zenisky,A.L.,Hambleton,R.K.Multistage Test Designs:Moving Research Results into Practice[M]//Yan,D.L.,Davier,A.A.Von,Lewis,C.Computerized Multistage Testing:Theory and Applications.Boca Raton,FL:CRC Press,2014:21-38.
[14] Luecht,R.M.,Burgin,W.Test information targeting strategies for adaptive multistage testing designs[C].Chicago:The Annual Meeting of the National Council on Measurement in Education,2003.
[15][22] Patsula,L.N.A comparison of computerized-adaptive testing and multi-stage testing[D].Amherst:University of Massachusetts,1999.
[17][25] Luecht,R.M.,Nungester,R.J.,Hadidi,A.Heuristic-based CAT:Balancing item information,content and exposure[C].New York:The Annual Meeting of the National Council on Measurement in Education,1996.
[18] Zheng,Y.,Nozawa,Y.,Gao,X.H.,Chang,H.H.Multistage Adaptive Testing for a Large-scale Classification Test:Design,Heuristic Assembly,and Comparison with Other Testing Modes[R/OL].(2013-12-24)[2015-04-05].http://education.illinois.edu/edpsy/people/hhchang.
[19] Pohl,S.Longitudinal Multistage Testing[J].Journal of Educational Measurement,2013(50):447-468.
[21] Breithaupt,K.,Hare,D.R.Automated simultaneous assembly of multistage testlets for a high-stakes licensing examination[J].Educational and Psychological Measurement,2007,67(1):5-20.
[26] Lord,F.M.Applications of item response theory to practical testing problems[M].Hillsdale:Lawrence Erlbaum Associates,1980.
[29] Kim,J.,Chung,H.,Park,R.,Dodd,B.G.A comparison of panel designs in the multistage test based on the partial credit model[C].New Orleans:The Annual Meeting of the American Educational Research Association,2011.
[30] Kim,J.,Chung,H.,Park,R.,Dodd,B.G.A comparison of panel designs with routing methods in the multistage test with the partial credit model[J].Behavior research methods,2013(45):1087-1098.
[31] Chen,L.Y.An investigation of the optimal test design for multistage test using the generalized partial credit model[D].Austin:University of Texas,2010.
[32] Wang,X.R.An Investigation on Computer-adaptive Multistage Testing Panels for Multidimensional Assessment[D].Greensboro:The University of North Carolina,2013.
[33] Wang,C.,Zheng,Y.,Chang,H.H.Does Standard Deviation Matter?Using“Standard Deviation”to Quantify Security of Multistage Testing[J].Psychometrika,2014,79(1):154-174.
[34] Brossman,B.G.,Guille,R.A.A Comparison of Multi-stage and Linear Test Designs for Medium-size Licensure and Certification Examinations[J].Journal of Computerized Adaptive Testing,2014(2):18-36.