任 赫 黃穎詩(shī) 陳 平
·研究方法(Research Method)·
計(jì)算機(jī)化分類測(cè)驗(yàn)終止規(guī)則的類別、特點(diǎn)及應(yīng)用*
任 赫 黃穎詩(shī) 陳 平
(北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心, 北京 100875)
計(jì)算機(jī)化分類測(cè)驗(yàn)(Computerized Classification Testing, CCT)能夠高效地對(duì)被試進(jìn)行分類, 已廣泛應(yīng)用于合格性測(cè)驗(yàn)及臨床心理學(xué)中。作為CCT的重要組成部分, 終止規(guī)則決定測(cè)驗(yàn)何時(shí)停止以及將被試最終劃分到何種類別, 因此直接影響測(cè)驗(yàn)效率及分類準(zhǔn)確率。已有的三大類終止規(guī)則(似然比規(guī)則、貝葉斯決策理論規(guī)則及置信區(qū)間規(guī)則)的核心思想分別為構(gòu)造假設(shè)檢驗(yàn)、設(shè)計(jì)損失函數(shù)和比較置信區(qū)間相對(duì)位置。同時(shí), 在不同測(cè)驗(yàn)情境下, CCT的終止規(guī)則發(fā)展出不同的具體形式。未來(lái)研究可以繼續(xù)開(kāi)發(fā)貝葉斯規(guī)則、考慮多維多類別情境以及結(jié)合作答時(shí)間和機(jī)器學(xué)習(xí)算法。針對(duì)測(cè)驗(yàn)實(shí)際需求, 三類終止規(guī)則在合格性測(cè)驗(yàn)上均有應(yīng)用潛力, 而臨床問(wèn)卷則傾向應(yīng)用貝葉斯規(guī)則。
計(jì)算機(jī)化分類測(cè)驗(yàn), 終止規(guī)則, 似然比, 隨機(jī)縮減, 貝葉斯決策理論
由于能夠改變傳統(tǒng)紙筆測(cè)驗(yàn)中相對(duì)固化的試題形式、更深刻地體現(xiàn)“因材施測(cè)”和“高效施測(cè)”, 計(jì)算機(jī)測(cè)驗(yàn)尤其是計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Computerized Adaptive Testing, CAT)近年來(lái)得到飛速發(fā)展。對(duì)于CAT而言, 其測(cè)驗(yàn)?zāi)康囊话闶菧?zhǔn)確估計(jì)被試能力, 而計(jì)算機(jī)化分類測(cè)驗(yàn)(Computerized Classification Testing, CCT)——作為CAT的一個(gè)重要分支——?jiǎng)t以分類考生為目的。具體來(lái)說(shuō), CCT在CAT的基礎(chǔ)上可以根據(jù)預(yù)設(shè)的分界分?jǐn)?shù)將被試劃分到兩個(gè)(比如, 掌握和未掌握)或多個(gè)(比如, 合格、良好和優(yōu)秀)不同的類別中。相比于傳統(tǒng)紙筆測(cè)驗(yàn), CCT的優(yōu)勢(shì)在于:首先, CCT不僅可以自適應(yīng)地呈現(xiàn)最適合被試作答的題目, 還可以在保持相同決策精度的情況下大大縮短測(cè)驗(yàn)長(zhǎng)度(Spray & Reckase, 1996), 進(jìn)而降低測(cè)驗(yàn)成本、減少被試疲勞效應(yīng)的影響; 其次, CCT依托于計(jì)算機(jī)施測(cè)的特點(diǎn)使其能夠?yàn)楸辉嚦尸F(xiàn)更加豐富的測(cè)驗(yàn)內(nèi)容和題目形式(比如交互式測(cè)評(píng)), 并獲取更多元細(xì)致的被試數(shù)據(jù); 再者, CCT的高效計(jì)算力使得更精細(xì)測(cè)量模型和算法的使用成為可能, 比如融入過(guò)程性或多模態(tài)數(shù)據(jù)的模型(Sie et al., 2015; Zhan et al., 2021)以進(jìn)一步滿足各種測(cè)驗(yàn)需求、提升分類決策的可靠性。目前, CCT已經(jīng)在合格性測(cè)驗(yàn)(比如, 職業(yè)資格考試)以及臨床心理學(xué)或醫(yī)學(xué)診斷(比如, 焦慮、抑郁等精神疾病的自我報(bào)告問(wèn)卷和健康與護(hù)理問(wèn)卷)中得到廣泛應(yīng)用(Finkelman et al., 2011; Huebner & Fina, 2015; Smits & Finkelman, 2013)。
作為CAT的特例, 完整的CCT同樣包括心理測(cè)量模型、標(biāo)定的題庫(kù)、選題策略、能力參數(shù)估計(jì)方法以及終止規(guī)則五個(gè)核心部分。但是如前所述, 兩者在測(cè)驗(yàn)?zāi)康纳喜⒉幌嗤篊AT的目的是對(duì)被試能力進(jìn)行準(zhǔn)確估計(jì)(陳平, 2016), 而CCT是要對(duì)被試的類別進(jìn)行準(zhǔn)確劃分。因此, 終止規(guī)則是區(qū)分CCT與CAT的一項(xiàng)主要特征(任赫, 陳平, 2021)??傮w而言, CCT終止規(guī)則關(guān)注的核心問(wèn)題是系統(tǒng)是否有足夠的把握將被試劃分到某個(gè)特定的類別, 或者說(shuō)系統(tǒng)是否可以接受當(dāng)前的決策結(jié)果(比如:繼續(xù)測(cè)驗(yàn)、將被試劃分到掌握/未掌握類別)可能產(chǎn)生的成本(如:測(cè)驗(yàn)效率的犧牲、第I類或第II類錯(cuò)誤率)。由此, 終止規(guī)則決定測(cè)驗(yàn)何時(shí)停止以及將被試最終劃分到何種類別, 將直接影響測(cè)驗(yàn)的效率和分類準(zhǔn)確率。已有的CCT終止規(guī)則包括定長(zhǎng)(fixed-length)的規(guī)則(即每名被試作答固定數(shù)量的題目)以及變長(zhǎng)(variable-length)的規(guī)則(即每名被試作答數(shù)量不定的題目)。定長(zhǎng)的規(guī)則比較簡(jiǎn)單, 不再贅述, 本文主要關(guān)注變長(zhǎng)的規(guī)則。需要指出的是, 盡管定長(zhǎng)終止規(guī)則的效率較低, 但是它可以保證所有被試作答相同長(zhǎng)度的測(cè)驗(yàn), 能夠減少被試對(duì)測(cè)驗(yàn)公平的質(zhì)疑, 主要應(yīng)用于高利害測(cè)驗(yàn)中。與之相對(duì)應(yīng), 變長(zhǎng)的規(guī)則具有高效的特點(diǎn), 能夠大大地縮短測(cè)驗(yàn)長(zhǎng)度, 可以廣泛應(yīng)用于各類低利害測(cè)驗(yàn)中。
變長(zhǎng)CCT的實(shí)施過(guò)程可以看作一種序貫抽樣方案, 即“在抽樣時(shí)不規(guī)定總的抽樣個(gè)數(shù), 而是根據(jù)已抽取的樣本結(jié)果決定是否繼續(xù)抽樣, 直至停止”。最早的變長(zhǎng)終止規(guī)則是Ferguson (1969)根據(jù)序貫檢驗(yàn)(Wald, 1947)提出的序貫似然比方法(Sequential Probability Ratio Test, SPRT)。SPRT方法通過(guò)事先設(shè)定第I和第II類錯(cuò)誤率來(lái)控制不同決策的損失, 并使用二項(xiàng)分布對(duì)被試作答進(jìn)行建模, 相當(dāng)于假設(shè)題庫(kù)中所有題目的正確作答概率相同, 相應(yīng)地以隨機(jī)或固定順序呈現(xiàn)題目。但是, Lewis和Sheehan (1990)則認(rèn)為應(yīng)該在測(cè)驗(yàn)過(guò)程中直接控制每一步可能造成的損失, 這就需要利用貝葉斯理論進(jìn)行決策。另外, 為了使序貫抽樣過(guò)程能夠與被試能力相適應(yīng), Reckase (1983)與Kingsbury和Weiss (1983)分別引入項(xiàng)目反應(yīng)理論(Item Response Theory, IRT)模型。前者使用IRT模型代替二項(xiàng)分布, 進(jìn)而發(fā)展出允許自適應(yīng)選題的SPRT方法(也即對(duì)Ferguson方法的改進(jìn)), 而后者利用能力估計(jì)的置信區(qū)間進(jìn)行分類決策。綜上, 前人分別從不同的視角出發(fā), 基于不同的統(tǒng)計(jì)學(xué)理論建構(gòu)出三類終止規(guī)則, 它們分別是似然比規(guī)則、貝葉斯決策理論規(guī)則(后文簡(jiǎn)稱貝葉斯規(guī)則)和置信區(qū)間規(guī)則(Ability Confidence Intervals, ACI)。
此外, 在構(gòu)造具體的CCT終止規(guī)則時(shí), 還需要考慮不同測(cè)驗(yàn)情境的特點(diǎn), 主要包括被試的類別數(shù)和測(cè)驗(yàn)的維度數(shù)。在被試類別方面, 有時(shí)只需要將被試劃分到兩個(gè)不同類別, 而有時(shí)則需要將被試劃分到三個(gè)及以上的不同類別, 它們分別對(duì)應(yīng)于二分類的CCT與多分類的CCT。在測(cè)驗(yàn)維度方面, 一些測(cè)驗(yàn)只需要考慮被試在單個(gè)維度上的潛在特質(zhì), 但是更多的心理或教育測(cè)驗(yàn)往往需要同時(shí)考察被試在多個(gè)維度上的潛在特質(zhì)(康春花, 辛濤, 2010), 這就分別對(duì)應(yīng)于單維CCT (Unidimensional CCT, UCCT)與多維CCT (Multidimensional CCT, MCCT)。需要說(shuō)明的是, 多分類的CCT終止規(guī)則在構(gòu)造上與二分類的相比有較大差異, 而MCCT的終止規(guī)則通??梢杂蒛CCT經(jīng)過(guò)較為直接的推廣而得到。
基于此, 本文將結(jié)合不同的測(cè)驗(yàn)情境, 對(duì)似然比規(guī)則、貝葉斯規(guī)則以及置信區(qū)間規(guī)則分別進(jìn)行詳細(xì)述評(píng), 然后對(duì)各種規(guī)則的優(yōu)劣進(jìn)行討論分析, 最后對(duì)CCT終止規(guī)則的未來(lái)研究方向及應(yīng)用進(jìn)行說(shuō)明。
2.1.1 二分類的SPRT方法
最早的二分類似然比終止規(guī)則就是Wald (1947)提出的SPRT。在此基礎(chǔ)上, 研究者們主要致力于解決兩個(gè)方面的問(wèn)題:一是如何進(jìn)一步提升二分類SPRT的決策效率; 二是如何將單維的二分類SPRT拓展到多維情境。對(duì)于第一個(gè)問(wèn)題, Finkelman (2003, 2010)將隨機(jī)縮減(stochastic curtailment)技術(shù)與SPRT方法相結(jié)合, 提出隨機(jī)縮減的SPRT (Stochastically Curtailed SPRT, SCSPRT), 以進(jìn)一步提高測(cè)驗(yàn)效率。需要指出的是, 上述方法僅適用于單維情境。對(duì)于第二個(gè)問(wèn)題, 即將已有方法推廣至MCCT時(shí), 規(guī)則的構(gòu)建思路基本沒(méi)有變化, 但是能力參數(shù)的多維性會(huì)導(dǎo)致UCCT中的能力分界點(diǎn)轉(zhuǎn)變?yōu)槎嗑S空間中的能力分界曲線或曲面(任赫, 陳平, 2021)。為此, Nydick (2013)從兩個(gè)不同的角度解決這一問(wèn)題, 分別提出約束的SPRT (Constrained SPRT, C-SPRT)以及使用空間投影方法構(gòu)建的投影SPRT (Projected SPRT, P-SPRT)。另外, Nydick (2013)還在C-SPRT的基礎(chǔ)上結(jié)合隨機(jī)縮減技術(shù)開(kāi)發(fā)出隨機(jī)縮減的多維SPRT (Multidimensional SCSPRT, M-SCSPRT)。下文依次介紹單維的SPRT與SCSPRT以及多維的C-SPRT、P-SPRT與M-SCSPRT。
(1)單維的SPRT方法(SPRT與SCSPRT)
在UCCT中, SPRT使用一組簡(jiǎn)單假設(shè)來(lái)判斷被試的能力分類, 即
由此, SPRT (Wald, 1947)構(gòu)造對(duì)數(shù)似然比統(tǒng)計(jì)量如下,
其中, 為基于IRT的似然函數(shù), 為被試在題目上的作答向量。記第Ⅰ類、第Ⅱ類錯(cuò)誤率分別為和, 令、、、(Finkelman, 2003)。被試完成道題目后, 計(jì)算對(duì)數(shù)似然比統(tǒng)計(jì)量, 并按如下規(guī)則對(duì)被試給出判斷:若, 則考生的分?jǐn)?shù)更有可能低于分?jǐn)?shù)線, 判斷被試屬于“未掌握”, 并結(jié)束測(cè)驗(yàn), 記測(cè)驗(yàn)長(zhǎng)度為; 若, 則考生的分?jǐn)?shù)更有可能高于分?jǐn)?shù)線, 判斷被試屬于“掌握”, 并結(jié)束測(cè)驗(yàn), 記測(cè)驗(yàn)長(zhǎng)度為; 否則, 要求被試?yán)^續(xù)作答下一道題。例如, 圖1展示了使用兩參數(shù)邏輯斯蒂克模型模擬數(shù)據(jù)得到的“不同能力取值下的對(duì)數(shù)似然函數(shù)值”, 當(dāng)分界分?jǐn)?shù)取、、時(shí), 得到、、、。此時(shí), , 于是計(jì)算得到對(duì)數(shù)似然比統(tǒng)計(jì)量 。由于<, 所以繼續(xù)測(cè)驗(yàn)。
(2)多維的SPRT方法(C-SPRT、P-SPRT與M-SCSPRT)
2.1.2 多分類的SPRT方法
圖2 一個(gè)三分類問(wèn)題的示意圖
(1)Sobel-Wald方法
(2)Armitage方法
對(duì)應(yīng)的檢驗(yàn)統(tǒng)計(jì)量為,
需要說(shuō)明的是, 只有當(dāng)Sobel-Wald方法無(wú)法給出準(zhǔn)確的分類判斷時(shí), 其與Armitage的方法才存在差異(Wang et al., 2021)。而在大多數(shù)情況下, 這兩種方法所得到的結(jié)果都一致, 但是Armitage方法需要進(jìn)行更多次檢驗(yàn)。Wang等人(2021)的研究中使用一個(gè)四分類問(wèn)題為例, 對(duì)其進(jìn)行理論分析, 感興趣的讀者可以參閱。也就是說(shuō), Sobel和Wald方法在測(cè)驗(yàn)的分類準(zhǔn)確率上應(yīng)與Armitage方法相近, 但在測(cè)驗(yàn)效率上應(yīng)更勝一籌, 這與已有研究的結(jié)果一致(Govindarajulu, 1987; Ghosh & Sen, 1991)。
在SPRT中, 最大測(cè)驗(yàn)長(zhǎng)度的使用可能會(huì)降低分類準(zhǔn)確率。為此, Bartroff等人(2008)將GLR應(yīng)用于UCCT。之后, 研究者又將隨機(jī)縮減技術(shù)與GLR相結(jié)合, 提出隨機(jī)縮減的GLR方法(Stochastically Curtailed GLR, SCGLR; Huebner & Fina, 2015)。另外, Nydick (2013)也將GLR方法推廣到多維情境中, 提出多維的廣義似然比方法(MultidimensionalGLR, M-GLR)。
2.2.1 二分類的GLR方法
(1)單維的GLR方法(GLR與SCGLR)
不同于SPRT方法使用一組簡(jiǎn)單假設(shè)(即公式(1)), GLR使用下述的一組復(fù)合假設(shè)對(duì)被試進(jìn)行分類判斷,
(2)多維的GLR方法
2.2.2 多分類的GLR方法
由此, Wang等人(2021)指出可以根據(jù)序貫分析中的多假設(shè)GLR檢驗(yàn)(Tartakovsky et al., 2014), 為上述復(fù)合假設(shè)構(gòu)造如下的多分類GLR統(tǒng)計(jì)量
貝葉斯規(guī)則是另一類重要的CCT終止規(guī)則。不同于蘊(yùn)含假設(shè)檢驗(yàn)的規(guī)則, 貝葉斯規(guī)則以貝葉斯決策理論為基礎(chǔ), 通過(guò)定義后驗(yàn)概率與損失函數(shù), 就可以選擇期望損失最小的決策以完成對(duì)被試的分類判斷。其中, 損失由錯(cuò)誤決策所產(chǎn)生, 具體可分為閾值損失和線性損失。目前為止, 研究者對(duì)貝葉斯規(guī)則的研究基本仍限于UCCT情境。
(1)二分類的閾值損失規(guī)則
表1 階段時(shí)的二分類閾值損失函數(shù)
在時(shí), 還需要考慮繼續(xù)作答的損失。此時(shí), 根據(jù)上式就可以依次迭代, 得到測(cè)驗(yàn)在達(dá)到最大長(zhǎng)度之前繼續(xù)作答的期望損失。比如, 如圖3所示, 對(duì)于二級(jí)計(jì)分的題目, 在時(shí), 被試分別以和的概率答錯(cuò)或答對(duì)下一題(第題)。被試作答第題后, 由于達(dá)到最大測(cè)驗(yàn)長(zhǎng)度, 只需要做出分類決策而不需要繼續(xù)作答, 所以此時(shí)的風(fēng)險(xiǎn)函數(shù)就如同等式(20)。
根據(jù)上式就可以對(duì)被試進(jìn)行分類判斷。具體地說(shuō), 系統(tǒng)將選擇使得期望損失最小的決定(將被試劃分為掌握, 未掌握或要求繼續(xù)作答), 即
(2)多分類的閾值損失規(guī)則
對(duì)于貝葉斯規(guī)則而言, 從二分類到多分類的推廣比較簡(jiǎn)單。對(duì)于一個(gè)三分類的UCCT, 只需要將表1中的閾值損失函數(shù)替換為表2中內(nèi)容, 再選擇最小的損失即可完成對(duì)被試的分類判斷(Vos, 1999)。
表2 階段的三分類閾值損失函數(shù)
表1中的閾值損失函數(shù)具有一個(gè)明顯的缺點(diǎn):它假定對(duì)于不同能力值的被試的損失是恒定的, 而不考慮這些被試能力值與分界分?jǐn)?shù)的距離。但事實(shí)上, 能力值離分界分?jǐn)?shù)更遠(yuǎn)的被試被錯(cuò)誤分類所造成的損失往往更嚴(yán)重。此外, 閾值損失函數(shù)的值也不是連續(xù)變化的, 這在很多情況下也不符合現(xiàn)實(shí)。因此, 一種更合理的假設(shè)是:損失函數(shù)是關(guān)于能力與分界分?jǐn)?shù)間距離的連續(xù)增函數(shù)(van der Linden & Mellenbergh, 1977; van der Linden & Vos, 1996; Vos, 1997a, 1997b)。
(1)二分類的線性損失規(guī)則
表3 階段的二分類線性損失函數(shù)
(2)多分類的線性損失規(guī)則
與閾值損失函數(shù)類似, 在多分類情境下, 只需要將表3中的線性損失函數(shù)替換成表4中的內(nèi)容即可得到一種三分類的線性損失函數(shù)(Vos, 1999)。
表4 階段的三分類線性損失函數(shù)
貝葉斯規(guī)則所提供的思路與似然比規(guī)則的完全不同。似然比規(guī)則是通過(guò)構(gòu)造似然比統(tǒng)計(jì)量進(jìn)行假設(shè)檢驗(yàn), 貝葉斯方法則是通過(guò)作答更新被試能力的后驗(yàn)分布, 并使用后驗(yàn)概率計(jì)算損失函數(shù)值, 從而基于貝葉斯決策論完成對(duì)被試的判斷。
需要指出的是, 在貝葉斯規(guī)則中, 有無(wú)數(shù)種可能的損失函數(shù), 沒(méi)有哪一種損失函數(shù)一定是最好的。這一特點(diǎn)既是貝葉斯規(guī)則最大的優(yōu)點(diǎn), 也是其飽受詬病的一點(diǎn)。支持者認(rèn)為這使得該方法能夠考慮多樣的損失函數(shù), 具有更大的靈活性; 但是, 反對(duì)者認(rèn)為損失函數(shù)的選擇具有一定程度的任意性。在使用該方法之前, 研究者需要考慮清楚如何客觀、科學(xué)地選擇需要的損失函數(shù)。
除似然比規(guī)則和貝葉斯規(guī)則外, CCT終止規(guī)則中還有一種是ACI方法。ACI方法通過(guò)比較分界分?jǐn)?shù)與“被試能力估計(jì)值的置信區(qū)間”的相對(duì)位置, 來(lái)完成對(duì)被試的分類判斷。
在某種程度上, 可以認(rèn)為ACI方法將被試的分類問(wèn)題轉(zhuǎn)化為被試的能力估計(jì)問(wèn)題。這樣做的好處是使得對(duì)被試的分類變得非常直觀、簡(jiǎn)潔。但是, 這種方法的穩(wěn)健性相對(duì)較差。因?yàn)槭褂迷摲椒ㄐ枰凶銐虼蟮臉?biāo)定題庫(kù)作為前提, 否則就可能會(huì)導(dǎo)致較高的錯(cuò)誤率。同時(shí), Eggen和Straetmans (2000)以及Thompson (2009)的研究都表明:該方法所需的測(cè)驗(yàn)長(zhǎng)度一般高于似然比規(guī)則。
綜上所述, 三類終止規(guī)則各有優(yōu)缺點(diǎn)。其中, 似然比規(guī)則基于似然比檢驗(yàn), 具有較好的理論性質(zhì), 大多數(shù)測(cè)驗(yàn)情境下最為準(zhǔn)確、高效, 相關(guān)研究也較多。但是, 由于需要定義無(wú)差別區(qū)間大小和第I、第II類錯(cuò)誤率, 引入了主觀因素的影響, 并且該方法在多維、多分類等復(fù)雜測(cè)驗(yàn)情境下的拓展難度較大。已有的多分類SPRT終止規(guī)則(Sobel-Wald方法與Armitage方法)是對(duì)多個(gè)能力分界點(diǎn)獨(dú)立進(jìn)行假設(shè)檢驗(yàn), 因此會(huì)隱含多重比較的問(wèn)題, 即實(shí)際的第Ⅰ和第Ⅱ類錯(cuò)誤率遠(yuǎn)大于設(shè)定標(biāo)準(zhǔn)。盡管已有研究者留意到這一點(diǎn)(Wang, 2019; Wang et al., 2021), 但由于第I和第II類錯(cuò)誤率的變化并不是影響SPRT規(guī)則的分類準(zhǔn)確性的主要因素, 所以較少有研究對(duì)其進(jìn)行校正。
ACI方法直接將分界分?jǐn)?shù)與能力估計(jì)值的置信區(qū)間進(jìn)行比較, 無(wú)需劃定無(wú)差別區(qū)間, 并且計(jì)算簡(jiǎn)單且計(jì)算量小, 是三種方法中最直接的一類方法。但是, 這種方法的穩(wěn)健性較差, 測(cè)驗(yàn)效率也相對(duì)較低。表5是對(duì)上述各種方法的總結(jié)。
需要指出的是, CCT是一個(gè)非常復(fù)雜的測(cè)驗(yàn)系統(tǒng)。終止規(guī)則的優(yōu)劣還會(huì)受到CCT中其他部分(比如, 心理測(cè)量模型、題庫(kù)結(jié)構(gòu)和選題策略)以及被試能力分布等因素的影響, 三類終止規(guī)則在不同的測(cè)驗(yàn)情境下各占鰲頭。因此, 實(shí)踐者在選擇終止規(guī)則時(shí)需要綜合考慮CCT的各個(gè)部分以明確三類終止規(guī)則的適用情境。另外, 還需要注意相應(yīng)情境下可能面臨的現(xiàn)實(shí)問(wèn)題。
表5 CCT終止規(guī)則的總結(jié)
對(duì)于似然比規(guī)則, 想要準(zhǔn)確且快速做出決策的關(guān)鍵在于最大程度地區(qū)分不同類別被試的似然函數(shù)值, 而這通常和選題策略密切相關(guān)。舉例而言, 在UCCT中, 兩種常見(jiàn)的選題策略是基于能力估計(jì)值的最大信息量選題方法(estimate-based maximum Fisher information)和基于分界分?jǐn)?shù)的最大信息量選題方法(cutscore-based maximum Fisher information)。因此, 當(dāng)選題策略為后者時(shí), 所選的題目能夠?yàn)榧僭O(shè)檢驗(yàn)提供更多的信息, 因此似然比規(guī)則在基于分界分?jǐn)?shù)的最大信息量選題方法下的效率最高。但是由于基于分界分?jǐn)?shù)會(huì)因?yàn)楣潭c(diǎn)選題而導(dǎo)致題目高曝光的問(wèn)題, 所以似然比規(guī)則更適用于低風(fēng)險(xiǎn)的測(cè)驗(yàn), 而且要求題庫(kù)中大部分題目在分界分?jǐn)?shù)處具有高信息量。此外, 由于GLR考慮無(wú)差別區(qū)間兩側(cè)的所有對(duì)數(shù)似然函數(shù)值(不僅著眼于上、下界兩個(gè)點(diǎn)), 所以相比于SPRT, GLR在基于當(dāng)前能力估計(jì)選題時(shí)也能保持一定的效率。
對(duì)于置信區(qū)間規(guī)則, 保障決策效率的關(guān)鍵在于不斷地減小能力估計(jì)標(biāo)準(zhǔn)誤。因此, ACI方法在基于能力估計(jì)值的最大信息量選題方法下的效率最高, 該選題策略可以減小置信區(qū)間的大小。此外, 根據(jù)不同被試的能力, ACI規(guī)則能夠?yàn)椴煌辉嚦尸F(xiàn)不同的題目, 在一定程度上能降低高信息量題目的曝光率, 所以它可以用于高風(fēng)險(xiǎn)的測(cè)驗(yàn), 相應(yīng)地需要題庫(kù)中的題目在不同能力位置具有高信息量。但是Tian (2018)在控制分類準(zhǔn)確性一致的前提下, 采用基于能力估計(jì)值的選題方法, 比較單維二分類的似然比規(guī)則和置信區(qū)間規(guī)則。結(jié)果發(fā)現(xiàn):當(dāng)被試能力分布遠(yuǎn)離分界分?jǐn)?shù)時(shí), ACI規(guī)則的效率要高于似然比規(guī)則; 但是在被試能力分布靠近分界分?jǐn)?shù)時(shí), ACI規(guī)則效率低于GLR方法。這意味著ACI規(guī)則的表現(xiàn)還會(huì)受到被試能力分布與分界分?jǐn)?shù)相對(duì)位置的影響, 因此更適用于要求高通過(guò)率或低通過(guò)率的測(cè)驗(yàn)。
本文對(duì)多種測(cè)驗(yàn)情境下的CCT終止規(guī)則進(jìn)行系統(tǒng)梳理與述評(píng)。目前, 對(duì)CCT終止規(guī)則的研究已經(jīng)比較豐富, 但仍有一些地方有待完善。未來(lái)研究方向主要表現(xiàn)在以下四方面:
(1)完善基于貝葉斯的終止規(guī)則。構(gòu)建CCT終止規(guī)則的思路主要有三個(gè)角度, 即似然比方法、貝葉斯方法和置信區(qū)間方法。基于似然比方法的終止規(guī)則已經(jīng)得到充分的發(fā)展, 但如前所述, 以貝葉斯方法為基礎(chǔ)的終止規(guī)則仍然較少。未來(lái), 研究者可以考慮基于貝葉斯方法對(duì)前人研究進(jìn)行完善。例如, 在現(xiàn)實(shí)測(cè)驗(yàn)情景中, 除考慮決策的準(zhǔn)確率和測(cè)驗(yàn)長(zhǎng)度之外, 還需要滿足其他非統(tǒng)計(jì)約束(如:內(nèi)容均衡, 即讓試卷充分涵蓋所要考察的知識(shí)模塊)。由于貝葉斯損失函數(shù)具有靈活性, 研究者可以考慮將各種非統(tǒng)計(jì)約束納入終止規(guī)則的考慮范圍。此外, 正如5.1部分所言, 目前貝葉斯方法沒(méi)有利用已有的信息對(duì)被試即將作答的下一道題進(jìn)行預(yù)測(cè), 未來(lái)研究可以借鑒似然比方法中隨機(jī)縮減的思想來(lái)構(gòu)造一組“合適”的題目替代被試未來(lái)實(shí)際作答的題目。最后, 研究者還可以對(duì)損失函數(shù)中損失值的選取如何影響測(cè)驗(yàn)結(jié)果進(jìn)行討論。
(2)開(kāi)發(fā)多維多分類的CCT終止規(guī)則。多維或多分類的CCT終止規(guī)則是近期的一個(gè)研究熱點(diǎn), 但尚未有研究者探究同時(shí)滿足多維、多分類要求的CCT終止規(guī)則。在現(xiàn)實(shí)應(yīng)用中, 許多測(cè)驗(yàn)不僅要同時(shí)考察被試在多個(gè)維度上的潛在特質(zhì), 而且也需要將被試分到多于兩個(gè)的類別中。例如, 教育工作者希望將學(xué)生的數(shù)學(xué)成就水平劃分為基礎(chǔ)、熟練和高級(jí)三個(gè)類別(比如, 美國(guó)國(guó)家進(jìn)步教育評(píng)估NAEP); 而數(shù)學(xué)測(cè)驗(yàn)也往往同時(shí)考察學(xué)生的算術(shù)、閱讀和問(wèn)題解決能力等, 呈現(xiàn)出多維的能力結(jié)構(gòu)(Reckase, 2009)。這就對(duì)構(gòu)建多維、多分類的CCT終止規(guī)則提出迫切需求。
(3)開(kāi)發(fā)融合作答時(shí)間(Response Time, RT; 詹沛達(dá)等, 2020)的CCT終止規(guī)則。近幾年來(lái), 心理測(cè)量學(xué)的研究重點(diǎn)大都放在如何同時(shí)衡量多個(gè)維度的潛在特質(zhì), 以向被試提供更詳細(xì)、更完善的反饋。但是這些研究大多只考慮被試的作答信息, 而很少使用行為信息。在CCT測(cè)驗(yàn)中, 有一類很容易獲得的行為信息, 即被試作答所用的時(shí)間。Sie等人(2015)嘗試構(gòu)建融入RT的CCT, 他們的研究結(jié)果表明:融入RT后, 測(cè)驗(yàn)在分類精度輕微提高的同時(shí)還能夠減少平均測(cè)驗(yàn)時(shí)間。但是, Sie等人(2015)的研究主要集中在限制被試作答時(shí)間, 而未考慮更普遍的限制測(cè)驗(yàn)長(zhǎng)度的情況。未來(lái), 研究者可以在上述研究的基礎(chǔ)上進(jìn)一步展開(kāi)探索, 開(kāi)發(fā)新的結(jié)合RT的CCT終止規(guī)則, 在保持判斷準(zhǔn)確率的基礎(chǔ)上縮短測(cè)驗(yàn)長(zhǎng)度, 而不僅僅是控制測(cè)驗(yàn)時(shí)間。另外, 可以考慮如何利用作答時(shí)間提高分類決策的精度, 進(jìn)而間接提高測(cè)驗(yàn)效率(Man et al., 2019; 詹沛達(dá), 2019)。
(4)開(kāi)發(fā)結(jié)合機(jī)器學(xué)習(xí)算法的CCT終止規(guī)則。目前的三類終止規(guī)則均為基于心理測(cè)量模型的方法, 模型的正確設(shè)定和前提假設(shè)的滿足對(duì)結(jié)果有重要的影響, 然而實(shí)踐中的數(shù)據(jù)往往摻雜著各式各樣的噪音。機(jī)器學(xué)習(xí)是近年來(lái)各個(gè)領(lǐng)域研究的熱點(diǎn), 其中許多算法都是用來(lái)解決分類問(wèn)題, 這與CCT的目的相一致。Gonzalez (2021)認(rèn)為, 相比于比較“通過(guò)各種模型估計(jì)得到的被試能力”與“黃金標(biāo)準(zhǔn)”來(lái)獲得被試的類別, 機(jī)器學(xué)習(xí)算法通過(guò)被試的作答就能直接預(yù)測(cè)被試屬于某個(gè)類別的概率, 避免模型不擬合等引起的誤差。Zheng等人(2020)基于機(jī)器學(xué)習(xí)算法中的決策樹(shù)方法, 開(kāi)發(fā)出一個(gè)短的基于樹(shù)的自適應(yīng)分類測(cè)驗(yàn)。未來(lái), 研究者可以考慮使用其他的分類算法(比如, 邏輯斯蒂克回歸、支持向量機(jī)以及隨機(jī)森林等方法)完成自適應(yīng)分類測(cè)驗(yàn)。
CCT測(cè)驗(yàn)主要包含兩種類型:合格性測(cè)驗(yàn)與臨床醫(yī)學(xué)問(wèn)卷。在為不同類型的測(cè)驗(yàn)制定終止規(guī)則時(shí), 應(yīng)充分考慮測(cè)驗(yàn)的考生群體、試題特點(diǎn)以及決策影響。
在合格性測(cè)試中, 通過(guò)設(shè)置不同難度的試題, 將考生劃分到不同能力水平, 根據(jù)考生的等級(jí)水平, 來(lái)決定其從業(yè)資格、學(xué)業(yè)進(jìn)度或升學(xué)。許多職業(yè)資格考試都屬于這類測(cè)驗(yàn), 比如教師資格考試、司法考試和執(zhí)業(yè)醫(yī)師資格考試等; 此外, 還有一些學(xué)業(yè)水平考試也屬于合格性測(cè)驗(yàn), 比如大學(xué)英語(yǔ)四、六級(jí)考試、計(jì)算機(jī)二級(jí)考試以及初中學(xué)業(yè)水平測(cè)試等。對(duì)于此類測(cè)驗(yàn), 往往每年均有數(shù)量龐大的考生群體, 具有充足的測(cè)驗(yàn)經(jīng)費(fèi)和考生樣本, 相應(yīng)地能夠建立起一定規(guī)模的題庫(kù), 并在一定程度上能保障題目參數(shù)的穩(wěn)定估計(jì), 使得合格性測(cè)驗(yàn)具有運(yùn)用三類終止規(guī)則的潛力。但是, 似然比規(guī)則與貝葉斯規(guī)則的原理較為復(fù)雜, 且正如5.2部分所言, 這些方法在實(shí)踐中伴隨著題目曝光率過(guò)高的問(wèn)題。因此, 在現(xiàn)有的合格性測(cè)驗(yàn)尤其是高風(fēng)險(xiǎn)的合格性測(cè)驗(yàn)中, 鮮有這兩類方法的應(yīng)用。與上述兩種規(guī)則的困境形成對(duì)比的是, 置信區(qū)間規(guī)則原理簡(jiǎn)明易懂、分類結(jié)果清晰, 更能為大眾和教育工作者所理解, 更具有推廣性, 在現(xiàn)實(shí)中就顯得更加可行。比如, 美國(guó)聯(lián)合委員會(huì)注冊(cè)護(hù)士執(zhí)照考試(the National Council LicensureExamination for Registered/Practical Nurse, NCLEX- RN)就使用ACI規(guī)則來(lái)決定測(cè)驗(yàn)何時(shí)終止。
在臨床醫(yī)學(xué)問(wèn)卷中, 通過(guò)評(píng)價(jià)患者在不同指標(biāo)上的輕重程度或近期的心理生理狀態(tài), 將患者劃分到不同癥狀水平, 來(lái)為其后續(xù)的治療和診斷提供依據(jù)。比如, 漢密爾頓抑郁量表(Hamilton Rating Scale for Depression, HRSD)和創(chuàng)傷后應(yīng)激障礙量表(Posttraumatic Stress Disorder Checklist, PCL)。對(duì)于此類測(cè)驗(yàn), 被試群體往往很小, 且問(wèn)卷的題項(xiàng)并不具有一般意義上的難度。更重要的是, 假陰性(false negative)的分類結(jié)果所帶來(lái)的代價(jià)不可忽視。因此, 考慮到相比于另外兩類終止規(guī)則, 貝葉斯終止規(guī)則能夠?qū)Ω鞣N分類損失有更精細(xì)的控制, 在臨床醫(yī)學(xué)問(wèn)卷中更為適用。目前, 終止規(guī)則在臨床醫(yī)學(xué)問(wèn)卷中的應(yīng)用目的主要為:在保證決策準(zhǔn)確基礎(chǔ)上縮短已有問(wèn)卷的長(zhǎng)度, 使得診斷過(guò)程更高效, 比如利用機(jī)器學(xué)習(xí)模型或隨機(jī)縮減技術(shù)進(jìn)一步縮減問(wèn)卷長(zhǎng)度(Gonzalez, 2021; Smits et al., 2016)。還需要注意的是, 臨床問(wèn)卷以往直接使用觀測(cè)分?jǐn)?shù)與診斷臨界值相比較, 而已有的終止規(guī)則主要基于潛在特質(zhì)進(jìn)行計(jì)算。但隨著IRT研究的推進(jìn), 越來(lái)越多的研究者使用IRT模型對(duì)臨床問(wèn)卷建模, 比如Li等人(2019)將等級(jí)反應(yīng)模型(Graded Response Model, GRM)應(yīng)用于病人健康問(wèn)卷(the Patient Health Questionnaire, PHQ)。因此, 相比于Smits等人(2016)使用基于觀測(cè)分?jǐn)?shù)的CCT并選擇隨機(jī)縮減的倒計(jì)時(shí)法(countdown method)作為終止規(guī)則, 貝葉斯規(guī)則或許既能夠縮短測(cè)驗(yàn)長(zhǎng)度, 又能在每一步中嚴(yán)格控制診斷的損失。
陳平. (2016). 兩種新的計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)在線標(biāo)定方法.(9), 1184–1198.
簡(jiǎn)小珠, 陳平. (2020). 計(jì)算機(jī)化分類測(cè)驗(yàn)的特點(diǎn)與發(fā)展述評(píng).(6), 77–89.
康春花, 辛濤. (2010). 測(cè)驗(yàn)理論的新發(fā)展:多維項(xiàng)目反應(yīng)理論.(3), 530–536.
任赫, 陳平. (2021). 兩種新的多維計(jì)算機(jī)化分類測(cè)驗(yàn)終止規(guī)則.,(9)1044–1058
詹沛達(dá). (2019). 計(jì)算機(jī)化多維測(cè)驗(yàn)中作答時(shí)間和作答精度數(shù)據(jù)的聯(lián)合分析., (1), 170–178.
詹沛達(dá), Hong Jiao, Kaiwen Man. (2020). 多維對(duì)數(shù)正態(tài)作答時(shí)間模型:對(duì)潛在加工速度多維性的探究., 1132–1142.
Armitage, P. (1950). Sequential analysis with more than two alternative hypotheses, and its relation to discriminant function analysis.(1), 137–144.
Bartroff, J., Finkelman, M., & Lai, T. L. (2008). Modern sequential analysis and its applications to computerized adaptive testing.(3), 473–486.
Eggen, T. J. H. M. (1999). Item selection in adaptive testing with the sequential probability ratio test.(3), 249–261.
Eggen, T. J. H. M., & Straetmans, G. J. J. M. (2000). Computerized adaptive testing for classifying examinees into three categories.(5), 713–734.
Ferguson, R. L. (1969).(Working Paper No. 41). Pittsburgh, PA: University of Pittsburgh, Learning and Research Development Center.
Finkelman, M. (2003).(CSE Report 606). Los Angeles, CA: National Center for Research on Evaluation, Standards, and Student Testing.
Finkelman, M. (2008). On using stochastic curtailment to shorten the SPRT in sequential mastery testing.(4), 442–463.
Finkelman, M. (2010). Variations on stochastic curtailment in sequential mastery testing.(1), 27–45.
Finkelman, M., He, Y., Kim, W., & Lai, A. M. (2011). Stochastic curtailment of health questionnaires: A method to reduce respondent burden.(16), 1989–2004.
Ghosh, B. K. (1970).. Reading, MA: Addison-Wesley.
Ghosh, B. K., & Sen, P. K. (1991).. New York, NY: Marcel Dekker.
Gonzalez, O. (2021). Psychometric and machine learning approaches for diagnostic assessment and tests of individual classification.(2), 236–254.
Govindarajulu, Z. (1987).Columbus, OH: American Sciences Press, Inc.
Huang, C.-Y., Kalohn, J. C., Lin, C.-J., & Spray, J. (2000).(Research Report 2000-4). Iowa City, IA: ACT, Inc.
Huebner, A. R., & Fina, A. D. (2015). The stochastically curtailed generalized likelihood ratio: A new termination criterion for variable-length computerized classification tests.(2), 549–561.
Kingsbury, G. G., & Weiss, D. J. (1983). A comparison of IRT-based adaptive mastery testing and a sequential mastery testing procedure. In D. J. Weiss (Ed.),(pp. 257–283). New York, NY: Academic Press.
Lewis, C., & Sheehan, K. (1990). Using Bayesian decision theory to design a computerized mastery test.(4), 367–386.
Li, C., Moore, S. C., Smith, J., Bauermeister, S., & Gallacher, J. (2019). The costs of negative affect attributable to alcohol consumption in later life: A within-between random longitudinal econometric model using UK Biobank.(2), Article e0211357. https://doi.org/10.1371/journal. pone.0211357
Man, K., Harring, J. R., Jiao, H., & Zhan, P. (2019). Joint modeling of compensatory multidimensional item responses and response times.,(8), 639–654.
Nydick, S. (2013).(Unpublished doctoral dissertation). University of Minnesota.
Reckase, M. D. (1983). A procedure for decision making using tailored testing. In D. J. Weiss (Ed.),(pp. 237–257). New York, NY: Academic Press.
Reckase, M. D. (2009).. New York, NY: Springer.
Seitz, N.-N., & Frey, A. (2013). The sequential probability ratio test for multidimensional adaptive testing with between-item multidimensionality.(1), 105–123.
Sie, H., Finkelman, M. D., Riley, B., & Smits, N. (2015). Utilizing response times in computerized classification testing.(5), 389–405.
Smits, N., & Finkelman, M. D. (2013). A comparison of computerized classification testing and computerized adaptive testing in clinical psychology., 19–37.
Smits, N., Finkelman, M. D., & Kelderman, H. (2016). Stochastic curtailment of questionnaires for three-level classification: Shortening the CES-D for assessing low, moderate, and high risk of depression.(1), 22–36.
Sobel, M., & Wald, A. (1949). A sequential decision procedure for choosing one of three hypotheses concerning the unknown mean of a normal distribution.(4), 502–522.
Spray, J. A. (1993).(ACT Research Report Series, No. 93-7). Iowa City, IA: Americn College Testing.
Spray, J. A., & Reckase, M. D. (1996). Comparison of SPRT and sequential Bayes procedures for classifying examinees into two categories using a computerized test.(4), 405–414.
Tartakovsky, A., Nikiforov, I., & Basseville, M. (2014).. Boca Raton, FL: Chapman and Hall/CRC.
Thompson, N. A. (2009). Item selection in computerized classification testing.(5), 778–793.
Thompson, N. A. (2011). Termination criteria for computerized classification testing.(4), 1–7.
Tian, C. (2018).(Unpublished master’s thesis). University of Illinois.
van der Linden, W. J., & Mellenbergh, G. J. (1977). Optimal cutting scores using a linear loss function.(4), 593–599.
van der Linden, W. J., & Vos, H. J. (1996). A compensatory approach to optimal selection with mastery scores.155–172.
van Groen, M. M., Eggen, T. J. H, M., & Veldkamp, B. P. (2014). Item selection methods based on multiple objective approaches for classifying respondents into multiple levels.(3), 187–200.
Vos, H. J. (1997a). Simultaneous optimization of quota- restricted selection decisions with mastery scores.(1), 105–125.
Vos, H. J. (1997b). A simultaneous approach to optimizing treatment assignments with mastery scores.(4), 403–433.
Vos, H. J. (1999). Applications of Bayesian decision theory to sequential mastery testing.(3), 271–292.
Wald, A. (1947).. New York, NY: John Wiley.
Wald, A., & Wolfowitz, J. (1948). Optimum character of the sequential probability ratio test., 326–339.
Wang, C., Chen, P., & Huebner, A. (2021). Stopping rules for multi-category computerized classification testing.(2), 184–202
Wang, Z. (2019).(Unpublished doctoral dissertation). University of Minnesota.
Zhan, P., Jiao, H., Man, K., Wang, W.-C., & He, K. (2021). Variable speed across dimensions of ability in the joint model for responses and response times., Article 469196. https://doi.org/10.3389/ fpsyg.2021.469196
Zheng, Y., Cheon, H., & Katz, C. M. (2020). Using machine learning methods to develop a short tree-based adaptive classification test: Case study with a high-dimensional itempool and imbalanced data.(7–8), 499–514. https://doi.org/10.1177/0146621620931198
Types, characteristics and application of termination rules in computerized classification testing
REN He, HUANG Yingshi, CHEN Ping
(Collaborative Innovation Center of Assessment for Basic Education Quality, Beijing Normal University, Beijing 100875, China)
Computerized classification testing (CCT) has been widely used in eligibility testing and clinical psychology for its efficiency in classifying participants. As an essential part of CCT, the termination rule determines when the test is to be stopped and what category the participants are ultimately classified into, directly affecting the test efficiency and classification accuracy. According to the theoretical basis of the termination rules, existing rules can be roughly divided into the likelihood ratio, Bayesian decision theory, and confidence interval rules. And their core ideas are constructing hypothesis tests, designing loss functions, and comparing the relative positions of confidence intervals, respectively. Based on these ideas, in different test situations, CCT termination rules have various specific forms. Future research can further extend Bayesian rules, construct rules for multidimensional and multicategory CCT, integrate process data into termination rules, and build rules under the framework of machine learning. In addition, from the perspective of practical requirement, all three types of rules have the potential to be applied in eligibility tests, while the Bayesian rules are optimal to clinical questionnaires.
computerized classification testing, termination rule, likelihood radio, stochastic curtailment, Bayesian decision theory
2021-06-18
* 國(guó)家自然科學(xué)基金面上項(xiàng)目(32071092)、中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心基礎(chǔ)教育質(zhì)量監(jiān)測(cè)科研基金項(xiàng)目(2019-01-082-BZK01和2019-01-082-BZK02)資助。
陳平, E-mail: pchen@bnu.edu.cn
B841