計(jì)算機(jī)自適應(yīng)測驗(yàn)的測試流程與測試技術(shù)

2012-12-28 05:21:02簡小珠張敏強(qiáng)彭春妹

滁州職業(yè)技術(shù)學(xué)院學(xué)報(bào) 2012年1期

關(guān)鍵詞：紙筆題庫測驗(yàn)

簡小珠,張敏強(qiáng),彭春妹

（華南師范大學(xué)心理應(yīng)用研究中心,廣州 501631；井岡山大學(xué)教育學(xué)院,吉安 343009）

計(jì)算機(jī)自適應(yīng)測驗(yàn)的測試流程與測試技術(shù)

簡小珠,張敏強(qiáng),彭春妹

（華南師范大學(xué)心理應(yīng)用研究中心,廣州 501631；井岡山大學(xué)教育學(xué)院,吉安 343009）

計(jì)算機(jī)自適應(yīng)測驗(yàn)是現(xiàn)代教育測驗(yàn)的一種新形式。計(jì)算機(jī)自適應(yīng)測驗(yàn)的指導(dǎo)理論和測試思想與傳統(tǒng)紙筆測驗(yàn)不同，而且測試方面有諸多的優(yōu)點(diǎn)。本文詳細(xì)論述計(jì)算機(jī)自適應(yīng)測驗(yàn)的基本測試流程，包括被試即時(shí)能力估計(jì)、選題策略、曝光率控制、測驗(yàn)終止標(biāo)準(zhǔn)等八個(gè)基本步驟；并進(jìn)一步論述了計(jì)算機(jī)自適應(yīng)測驗(yàn)在實(shí)測中應(yīng)解決的關(guān)鍵技術(shù)與問題：在線參數(shù)估計(jì)、試題與測驗(yàn)交疊率控制、紙筆測驗(yàn)與計(jì)算機(jī)等值、多維評價(jià)與認(rèn)知診斷等。

項(xiàng)目反應(yīng)理論;計(jì)算機(jī)自適應(yīng)測驗(yàn);測試流程

一、計(jì)算機(jī)自適應(yīng)測驗(yàn)的基本含義和發(fā)展歷程

測驗(yàn)是教育測量評價(jià)的主要手段，隨著現(xiàn)代測量技術(shù)的發(fā)展，計(jì)算機(jī)自適應(yīng)測驗(yàn)（Computerized Adaptive Testing，CAT）作為一種新型的測驗(yàn)方式逐漸應(yīng)用于教育測量與評價(jià)中。美國的許多大型入學(xué)和職業(yè)資格考試都逐漸采用計(jì)算機(jī)自適應(yīng)測驗(yàn)的形式。這些考試包括美國大學(xué)入學(xué)考試SAT考試、TOEFL考試、GRE考試、建筑師考試、商學(xué)院研究生入學(xué)考試、護(hù)士資格考試等。國內(nèi)在計(jì)算機(jī)自適應(yīng)測驗(yàn)的研究與應(yīng)用方面也有長足的進(jìn)步，早在80年代后期，漆書青進(jìn)行了計(jì)算機(jī)自適應(yīng)測驗(yàn)方面的早期嘗試[1]。2008年全國大學(xué)英語四六級等級考試也初步嘗試了計(jì)算機(jī)自適應(yīng)測驗(yàn)的試驗(yàn)。2002年臺(tái)灣國民中學(xué)學(xué)生基本學(xué)力測驗(yàn)開始采用了計(jì)算機(jī)自適應(yīng)測驗(yàn)方式。計(jì)算機(jī)自適應(yīng)測驗(yàn)作為一種新型的測驗(yàn)方式，本文將詳細(xì)而系統(tǒng)的介紹計(jì)算機(jī)自適應(yīng)測驗(yàn)的基本思想、測試技術(shù)流程。

（一）計(jì)算機(jī)自適應(yīng)測驗(yàn)的基本概念、基本思想

從50年代項(xiàng)目反應(yīng)理論創(chuàng)立以來，項(xiàng)目反應(yīng)理論（Item Response Theory，IRT）逐漸成為現(xiàn)代教育與心理測量研究的主流方向，其中最主要的應(yīng)用就是計(jì)算機(jī)自適應(yīng)測驗(yàn)。計(jì)算機(jī)自適應(yīng)測驗(yàn)是一種與紙筆測驗(yàn)（Paper&Pencil Test，PPT）迥然不同的測驗(yàn)形式，在計(jì)算機(jī)輔助下以項(xiàng)目反應(yīng)理論為測量理論基礎(chǔ)建立題庫，并根據(jù)每位考生的不同能力水平在題庫中選擇適合個(gè)別考生能力水平情況的試題進(jìn)行測試的一種測驗(yàn)新方式。計(jì)算機(jī)自適應(yīng)測驗(yàn)與傳統(tǒng)紙筆測驗(yàn)相比，主要有以下不同：（1）測量理論基礎(chǔ)不同。計(jì)算機(jī)自適應(yīng)測驗(yàn)是以項(xiàng)目反應(yīng)理論為基礎(chǔ)；紙筆測驗(yàn)主要是以經(jīng)典測量理論為基礎(chǔ)。（2）測量技術(shù)不同。由于測量理論基礎(chǔ)不一樣，這兩種類型測驗(yàn)的項(xiàng)目分析、測驗(yàn)編制、評分、測驗(yàn)等值、分?jǐn)?shù)解釋等測量技術(shù)方法也都不一樣。（3）測驗(yàn)方式不同。紙筆測驗(yàn)只需要紙筆就可以進(jìn)行，計(jì)算機(jī)自適應(yīng)測驗(yàn)必須借助計(jì)算機(jī)的輔助才能進(jìn)行，這是計(jì)算機(jī)自適應(yīng)測驗(yàn)的一個(gè)弱點(diǎn)，但隨著計(jì)算機(jī)（特別是筆記本計(jì)算機(jī)）的廣泛普及，這一弱點(diǎn)將被逐漸克服。

相對于每一個(gè)考生來說，難度適中的試題才最能有效且精確地測量其能力。而通常的一份紙筆測驗(yàn)的試題難度，很難適合每位考生的能力水平，從而很難滿足對每一個(gè)被試對象進(jìn)行精確測量。在項(xiàng)目反應(yīng)理論下，考生能力估計(jì)不受施測試題的影響，也就是說，不同的考生測試不同的試題，只要試題內(nèi)容性質(zhì)相同，不同能力考生的能力估計(jì)值可以被精確的估計(jì)出來，而且是可以互相比較。要能做到試題難度隨考生能力不同（即根據(jù)考試個(gè)體能力水平差異）而調(diào)整，只有計(jì)算機(jī)自適應(yīng)測驗(yàn)形式才達(dá)到此要求。計(jì)算機(jī)自適應(yīng)測驗(yàn)最基本的測量思想：在測試過程中，考生每完成一道試題就即時(shí)估計(jì)考生能力水平，并以此來挑選與考生能力水平相適應(yīng)難度的試題來測試，通過較少試題達(dá)到精確測量的目的。

（二）計(jì)算機(jī)自適應(yīng)測驗(yàn)的優(yōu)勢與不足

在大型考試中實(shí)施計(jì)算機(jī)自適應(yīng)測驗(yàn)，具有以下優(yōu)點(diǎn)：（1）依據(jù)考生不同能力水平來挑選不同的試題，降低考生的考試挫折感；高能力考生就不必回答過多的簡單考題，而水平相對較低的考生也不必回答太多難題，可以適合每位考生的作答速度，通過較少的試題就能對考生的能力水平做出有效的測度；（2）可以更精確估計(jì)每一個(gè)的考生能力或潛在特質(zhì)，提高每一次測驗(yàn)的精度（即測驗(yàn)信度）；（3）可以加強(qiáng)測驗(yàn)施測的標(biāo)準(zhǔn)化過程，不必統(tǒng)一規(guī)定測驗(yàn)舉行的時(shí)間，考試部門一年可以組織多次測驗(yàn)，考生可根據(jù)自己的情況選擇其中的一次或多次測驗(yàn)；（4）題庫的試題管理由計(jì)算機(jī)控制，測驗(yàn)時(shí)安排的試題因人而異，可以加強(qiáng)測驗(yàn)的安全性；（5）能即時(shí)計(jì)分和報(bào)告成績，并能將測試結(jié)果及時(shí)反饋給考生；并能克服紙筆測驗(yàn)評卷時(shí)由評卷者所帶來的主觀評分誤差。

當(dāng)然計(jì)算機(jī)自適應(yīng)測驗(yàn)也有不足：（1）要求大容量的題庫，因而在計(jì)算機(jī)自適應(yīng)測驗(yàn)的前期階段需要大量的試題預(yù)測和校準(zhǔn)。一旦題庫建立后，可以使用試題在線測試技術(shù)對題庫進(jìn)行更新，從而滿足題庫容量的需要。（2）無法及時(shí)評估開放性的主觀題，比如問答題、作文，盡管計(jì)算機(jī)可以方便有效的記錄保存考生在這些試題上的作答，還需要評卷員進(jìn)行網(wǎng)上評卷。（3）計(jì)算機(jī)自適應(yīng)測驗(yàn)的研發(fā)較為復(fù)雜。盡管計(jì)算機(jī)自適應(yīng)測驗(yàn)還有不足之處，但從測量的準(zhǔn)確性、標(biāo)準(zhǔn)化，它的優(yōu)勢是明顯的，代表了現(xiàn)代教育測量技術(shù)的發(fā)展方向。

（三）計(jì)算機(jī)自適應(yīng)測驗(yàn)的發(fā)展歷程簡要概述

最早的自適應(yīng)測驗(yàn) （即因材施測的測驗(yàn)方式）的雛形，是1908年Binet所編制的智力測驗(yàn)的研究，即根據(jù)兒童的年齡來安排不同測驗(yàn)項(xiàng)目。60年代末期，美國的教育測驗(yàn)服務(wù)中心(Educational Testing Service)的F.Lord在項(xiàng)目反應(yīng)理論和計(jì)算機(jī)自適應(yīng)測驗(yàn)方面從事較為系統(tǒng)而完整的研究[2]。Lord認(rèn)為對于低能力與高能力的考生而言，固定長度的測驗(yàn)無法有效的滿足這些考生能力估計(jì)的需求，如果被挑選用來施測的試題都能針對每位考生能力提供最大的參考信息的話，則減少施測的題數(shù)不會(huì)降低對每位考生能力的精確測量[3]。

70年代蒙特卡洛模擬方法在測量中逐漸應(yīng)用于計(jì)算機(jī)自適應(yīng)測驗(yàn)的研究中。在當(dāng)時(shí)還沒有實(shí)測的計(jì)算機(jī)自適應(yīng)測驗(yàn)的情況下，模擬技術(shù)有力的推動(dòng)有關(guān)計(jì)算機(jī)自適應(yīng)測驗(yàn)在能力估計(jì)方法、選題策略、試題曝光率、測驗(yàn)信度、測驗(yàn)終止原則等方面的研究。1975年召開第一次專門探討計(jì)算機(jī)自適應(yīng)考試的大會(huì)，之后又分別于1977年和1979年在明尼蘇達(dá)大學(xué)召開了兩次研討會(huì)，這幾次研討會(huì)極大地促進(jìn)了計(jì)算機(jī)自適應(yīng)測試技術(shù)和應(yīng)用方面的研究。

1979年，最早的計(jì)算機(jī)自適應(yīng)測驗(yàn)系統(tǒng)（ASVAB-CAT）啟動(dòng)研發(fā)，1985年該測驗(yàn)系統(tǒng)在征兵入伍測驗(yàn)中正式投入使用。《Computerized adaptive testing：From inquiry to operation》[4]詳細(xì)的歸納了ASVAB-CAT測驗(yàn)系統(tǒng)的研發(fā)過程和基本技術(shù)，并概括和總結(jié)了1979至1997年之間計(jì)算機(jī)自適應(yīng)測驗(yàn)方面的研究成果和基本技術(shù)。隨著計(jì)算機(jī)自適應(yīng)測驗(yàn)技術(shù)的不斷的完善和成熟。20世紀(jì)90年代初至21世紀(jì)初，美國許多大型入學(xué)和職業(yè)資格考試都逐漸采用計(jì)算機(jī)自適應(yīng)測驗(yàn)形式。1998年7月TOEFL考試、GRE考試在美國以及少數(shù)其他國家進(jìn)行了機(jī)考，2001年在全世界范圍內(nèi)普及了機(jī)考（即 CAT）。

二、計(jì)算機(jī)自適應(yīng)測驗(yàn)測試的基本流程

計(jì)算機(jī)自適應(yīng)測驗(yàn)要讓測驗(yàn)試題的難度適合每一個(gè)考生能力水平，必須需要以下兩個(gè)基本條件：（1）大容量的題庫。建立了一個(gè)容量較大的題庫，并根據(jù)項(xiàng)目反應(yīng)理論對每一道試題進(jìn)行了參數(shù)量尺化；并配合良好的試題曝光率控制方法，保障在進(jìn)行測驗(yàn)時(shí)的題庫安全。（2）即時(shí)的能力估計(jì)方法和選題策略?？忌孔鞔鹨坏涝囶}就能即時(shí)估計(jì)出考生的能力分?jǐn)?shù)，并迅速根據(jù)選題策略選擇最適合考生能力水平的試題來測試。計(jì)算機(jī)自適應(yīng)測驗(yàn)測試流程是一個(gè)復(fù)雜的流程技術(shù)，包括以下八個(gè)基本流程：【測試起點(diǎn)】、【考生作答】、【即時(shí)能力估計(jì)】、【選題】、【終止標(biāo)準(zhǔn)】、【能力最終估計(jì)】、【分?jǐn)?shù)轉(zhuǎn)換與成績報(bào)告】、【分析評價(jià)】。

圖1 計(jì)算機(jī)自適應(yīng)測驗(yàn)測試基本流程

（一）計(jì)算機(jī)自適應(yīng)測驗(yàn)的測試起點(diǎn)

先考哪一道試題，是計(jì)算機(jī)自適應(yīng)測驗(yàn)所需面臨的重要問題之一。常用的起點(diǎn)方法有五種：(1)難度適中的試題中隨機(jī)抽取一道試題；(2)從題庫中完全隨機(jī)抽取一道試題；(3)從考生已知的有關(guān)學(xué)業(yè)背景（包括以往的測驗(yàn)成績）確定起點(diǎn)，然后再?zèng)Q定出那一道試題。(4)讓考生初步作答3至5道試題，根據(jù)EAP方法或MLE方法進(jìn)行能力估計(jì)，以此作為能力的起點(diǎn)；(5)由考生自己決定第一道試題的難度（從難、中、易三個(gè)難度水平的試題中選擇一個(gè)水平來測試）。Lord（1977）研究認(rèn)為只要測驗(yàn)的題數(shù)不少于25題[3]，以哪一道試題作為測試起點(diǎn)，對被試最終能力估計(jì)值的影響不大。一般來說，許多計(jì)算機(jī)自適應(yīng)測驗(yàn)的起點(diǎn)方法都是選擇第一種方法，而且目前許多計(jì)算機(jī)自適應(yīng)測驗(yàn)的模擬研究和一些應(yīng)用研究也都是選擇第一種方法，第四種方法也應(yīng)用較多。如果采用第四種方法，則需要在【測試起點(diǎn)】與【考生作答】之間增加三個(gè)步驟：【考生初步作答幾道試題】、【能力初步估計(jì)】、【選擇下一道試題】。

（二）考生作答

考生在測試過程中，計(jì)算機(jī)屏幕一次只呈現(xiàn)一道試題，考生必須先作答完成正在呈現(xiàn)的試題，然后才能進(jìn)入下一道試題的測試。如果考生不知道正確答案，一般都要求考生隨機(jī)選擇一個(gè)選項(xiàng)，不允許讓試題空著不作答?？忌趨⒓佑?jì)算機(jī)自適應(yīng)測驗(yàn)之前，可以先使用計(jì)算機(jī)自適應(yīng)測驗(yàn)練習(xí)軟件進(jìn)行初步考試練習(xí)和體驗(yàn)，熟悉計(jì)算機(jī)自適應(yīng)測驗(yàn)的形式，了解考試要求和規(guī)則。比如美國ETS為GRE考試推出了GRE POWERPREP考試練習(xí)軟件。

（三）即時(shí)能力估計(jì)

在測試過程中考生每完成一道試題的作答，就需要對被試能力作出即時(shí)能力估計(jì)，并根據(jù)即時(shí)能力估計(jì)值選擇下一道試題。考生能力估計(jì)方法一般有三種：極大似然估計(jì)方法、期望能力估計(jì)方法、極大后驗(yàn)估計(jì)方法。因此在測試過程中，考生能力即時(shí)估計(jì)的主要方法極大似然估計(jì)方法，如果極大似然估計(jì)不能收斂，則采用能力后驗(yàn)期望估計(jì)的方法。

（四）測驗(yàn)終止標(biāo)準(zhǔn)

測驗(yàn)終止的標(biāo)準(zhǔn)主要有兩種，固定測驗(yàn)長度和不固定測驗(yàn)長度。（1）固定測驗(yàn)長度：考生作答試題數(shù)量，已達(dá)到規(guī)定的上限，便中止測驗(yàn)；（2）不固定測驗(yàn)長度。不固定測驗(yàn)長度中，以項(xiàng)目最大信息量作為選題標(biāo)準(zhǔn)時(shí)，測驗(yàn)終止標(biāo)準(zhǔn)是測驗(yàn)信息總量達(dá)到指定的標(biāo)準(zhǔn)便終止測驗(yàn)，以貝葉斯估計(jì)法作為選題標(biāo)準(zhǔn)時(shí)，測驗(yàn)終止標(biāo)準(zhǔn)是估計(jì)能力之變異數(shù)小到某個(gè)預(yù)定的標(biāo)準(zhǔn)時(shí)終止施測。

此外，測驗(yàn)的總時(shí)間長度也需要作為計(jì)算機(jī)自適應(yīng)測驗(yàn)終止的一個(gè)參考。為了測驗(yàn)的統(tǒng)一管理，也避免考生在考場漫無止境的思考，因此許多CAT測驗(yàn)都規(guī)定了測驗(yàn)的時(shí)間。一般來說，計(jì)算機(jī)自適測驗(yàn)規(guī)定的時(shí)間長度都會(huì)很充裕，讓95%以上的考生都能完成作答[5]。

目前許多計(jì)算機(jī)自適應(yīng)測驗(yàn)的終止標(biāo)準(zhǔn)，主要是采用固定測驗(yàn)長度（測驗(yàn)長度一般都在25至45題之間），并在考試說明規(guī)定了測驗(yàn)時(shí)間長度。CAT測驗(yàn)規(guī)定測驗(yàn)長度和測驗(yàn)時(shí)間，主要從社會(huì)的公平性來考慮，所有考生都完成同樣的試題數(shù)量，而且是相同的時(shí)間，這樣能較好的體現(xiàn)社會(huì)公平性。

（五）選題

在自適應(yīng)測驗(yàn)過程中，選擇最適合考生能力水平的試題是計(jì)算機(jī)自適應(yīng)測驗(yàn)的關(guān)鍵。目前計(jì)算機(jī)自適應(yīng)測驗(yàn)采用的選題策略主要有三種：（1）最大項(xiàng)目信息量方法，即根據(jù)考生即時(shí)能力估計(jì)值，挑選能對考生能力估計(jì)提供最大項(xiàng)目信息量的試題。最大項(xiàng)目信息量方法有不同的變式。比如a分層最大項(xiàng)目信息量方法、b分層最大項(xiàng)目信息量方法（即根據(jù)試題難度分層）、c分層最大項(xiàng)目信息量方法（即根據(jù)試題內(nèi)容分層）等一些其他變式。（2）利用貝葉斯試題選擇法，將考生能力分配看成是某種先驗(yàn)分布，計(jì)算考生答對或答錯(cuò)未用到的試題之后驗(yàn)變異數(shù)，再挑選能夠使這種考生能力后驗(yàn)分布之變異數(shù)為最小的試題，以作為施測的試題。（3）挑選試題難度最接近考生現(xiàn)階段能力估計(jì)的試題，答對了選擇稍難一些的試題，答錯(cuò)了選擇稍微容易一些的試題。

在選題過程，還必須考慮試題曝光率。試題曝光率是指每道試題的調(diào)用次數(shù)與已測試總?cè)藬?shù)比例，計(jì)算公式為：Pi(s)=Xi/NE，其中Pi(s)表示為第i題的曝光率水平；Xi為第i題累計(jì)調(diào)用的次數(shù)，NE為參加測驗(yàn)總?cè)藬?shù)。某一試題調(diào)用的次數(shù)越多，觀察曝光率就越高，其被泄露的可能性就越大。曝光率控制水平，是指由測驗(yàn)專家根據(jù)題庫調(diào)用的模擬研究結(jié)果和期望曝光率水平來確定的試題的最大曝光率水平。控制曝光率，就是要求控制試題的觀察曝光率水平低于所預(yù)定的控制曝光率水平，即：Pi(s)=Xi/NE＜ri。曝光率控制的方法目前最常用是Sympson和Hetter提出的SH條件概率方法。它是一種利用條件概率對曝光率進(jìn)行控制的方法，基本思想就是在項(xiàng)目的初步選擇和最終調(diào)用之間，加設(shè)一個(gè)“過濾器”。這樣就可以保證每一道的曝光率都被控制在某一預(yù)定的控制曝光率水平之下。SH條件概率方法后來又衍生了各種變式，比如SH-DP法、SH-SL法、SH-SLC法、SH-RT方法。最近也有不少研究者將SH條件概率控制方法和a分層選題策略配合使用，共同控制曝光率水平[6]。此外，最近還有些研究者進(jìn)一步提出了新的曝光率控制方法，如項(xiàng)目合格方法、多重曝光率方法。

在考生作答完成一道試題后，先要進(jìn)行能力估計(jì)，再根據(jù)考生的即時(shí)能力估計(jì)值來選擇試題，并要進(jìn)行試題曝光率的控制方法算法，因此在選題這一環(huán)節(jié)中，計(jì)算機(jī)要經(jīng)歷較為復(fù)雜的運(yùn)算，需要一定時(shí)間來完成選題這一步驟；然而考試中又要求考生作答完成后，需要立即呈現(xiàn)給考生下一道試題。怎樣來處理選題時(shí)間較長與試題需要立即呈現(xiàn)之間的矛盾？這可以采用預(yù)先估計(jì)考生能力，預(yù)先進(jìn)行選題的方法來處理[4]：在測試進(jìn)行過程中，第i題正呈現(xiàn)給考生作答，在考生思考和作答的過程的同時(shí)，計(jì)算機(jī)測驗(yàn)系統(tǒng)在后臺(tái)就預(yù)先按考生答對、答錯(cuò)的兩種情況，分別預(yù)先進(jìn)行能力估計(jì)，得到兩個(gè)能力估計(jì)值θ1，θ2（θ1對應(yīng)考生答對時(shí)的能力估計(jì)值；θ2對應(yīng)考生答錯(cuò)時(shí)的能力估計(jì)值），并預(yù)先根據(jù)這兩個(gè)能力估計(jì)值作為選題出發(fā)點(diǎn)，從題庫中根據(jù)選題策略和曝光率控制的要求分別選擇一道試題T1或T2（T1對應(yīng)考生答對時(shí)需要呈現(xiàn)一道的試題；T2對應(yīng)考生答錯(cuò)時(shí)需要呈現(xiàn)一道的試題）?？忌鞔鹜甑趇題時(shí)，則將考生作答第題的情況，答對呈現(xiàn)T1，答錯(cuò)呈現(xiàn)T2。因此，CAT測試流程的詳圖為：

圖2 計(jì)算機(jī)自適應(yīng)測驗(yàn)測試基本流程

（六）能力最終估計(jì)

CAT測試結(jié)束時(shí)，需要對被試進(jìn)行最后的能力估計(jì)。被試的最后能力估計(jì)主要使用極大似然估計(jì)方法；如果極大似然估計(jì)不能收斂則使用能力后驗(yàn)期望估計(jì)。如果考生在規(guī)定的時(shí)間內(nèi)完成了規(guī)定題量的80%（比如測驗(yàn)總長度為35題，那么考生至少要完成28題）及以上的題量，則根據(jù)考生這些作答情況進(jìn)行能力估計(jì)[5]。如果考生在規(guī)定時(shí)間內(nèi)未完成規(guī)定題量的80%（即少于28題），在這種情況下進(jìn)行超時(shí)懲罰。如果考生提前交卷而沒有完成規(guī)定題量的80%，則也進(jìn)行扣分后計(jì)算最終測驗(yàn)成績。

（七）分?jǐn)?shù)轉(zhuǎn)換和呈現(xiàn)報(bào)告

考生作答完成規(guī)定題量，提交試卷后，計(jì)算機(jī)會(huì)在幾秒之內(nèi)呈現(xiàn)該考生試的此次考試成績和基本分析報(bào)告。成績分?jǐn)?shù)包括該考試的考試T分?jǐn)?shù)、百分等級分?jǐn)?shù)、和評定等級（比如評定為不合格、合格、良好、優(yōu)秀四個(gè)等級）。計(jì)算機(jī)自適應(yīng)測驗(yàn)都不直接報(bào)告原始能力估計(jì)值，而是報(bào)告線性轉(zhuǎn)換后的分?jǐn)?shù)?？忌詈蟮梅侄疾捎肨分?jǐn)?shù)形式來報(bào)告，一般采用 T＝500＋100×θ，那么 T 在 [200，800] 之間。GRE計(jì)算機(jī)自適應(yīng)測驗(yàn)的分?jǐn)?shù)報(bào)告一般都在200至800分之間[5]。如果考生的GRE分?jǐn)?shù)在600分以上，則是屬于高分。

（八）分析評價(jià)

CAT在計(jì)算機(jī)上進(jìn)行測試，可以有效收集考生在測驗(yàn)過程中的詳細(xì)作答信息，并利用這些作答信息來評鑒試題質(zhì)量的好壞、是否存在功能差異、以及診斷考生作答是否存在異常、診斷知識缺陷、能力差異等等，為考生自己下一步學(xué)習(xí)提供依據(jù)。教師可以利用這些作答信息來分析考生的作答信息，診斷分析學(xué)生知識掌握情況，并據(jù)此改進(jìn)教學(xué)，或進(jìn)行有關(guān)的補(bǔ)課等教學(xué)輔導(dǎo)。此外，從學(xué)校層面、地區(qū)層面等教育管理部門的角度來看，通過計(jì)算機(jī)自適應(yīng)測驗(yàn)可以較快收集到學(xué)校教學(xué)、學(xué)生學(xué)業(yè)水平質(zhì)量情況，為教育部門的教育決策提供參考。在美國TOEFL、GRE的計(jì)算機(jī)自適應(yīng)測驗(yàn)的成績是美國許多大學(xué)接受申請入學(xué)的一個(gè)必要依據(jù)。

三、計(jì)算機(jī)自適應(yīng)測驗(yàn)在應(yīng)用中的有關(guān)測量技術(shù)

計(jì)算機(jī)自適應(yīng)測驗(yàn)在實(shí)際應(yīng)用中，還需要注意和解決以下一些測量技術(shù)和問題：比如種子試題（seed item）的在線測試與項(xiàng)目參數(shù)估計(jì)、測驗(yàn)交疊率、紙筆測驗(yàn)與計(jì)算機(jī)自適應(yīng)測驗(yàn)的等值等等。

（一）種子試題的在線測試與項(xiàng)目參數(shù)估計(jì)

計(jì)算機(jī)自適應(yīng)測驗(yàn)的題庫最初建立時(shí)需要紙筆測驗(yàn)對試題進(jìn)行試題參數(shù)量尺化。當(dāng)題庫已經(jīng)建立后，在計(jì)算機(jī)自適應(yīng)測驗(yàn)的使用過程中，可以將新的試題（seed item，種子試題）等值填充到題庫中去。但新的試題參數(shù)如何進(jìn)行參數(shù)估計(jì)，并與題庫里的試題參數(shù)等值在同一量尺上？目前計(jì)算機(jī)自適應(yīng)測驗(yàn)已經(jīng)發(fā)展出了在計(jì)算機(jī)測驗(yàn)過程中，實(shí)現(xiàn)種子試題（seed item）的測試和試題參數(shù)量尺化的技術(shù)[7]，即在線測試技術(shù)（On-line Pretest Item-Calibration Methods）：在對考生進(jìn)行正式施測的過程中，加入少量的種子試題，可以在測試的同時(shí)得到種子試題的作答反應(yīng)矩陣，從而實(shí)現(xiàn)種子試題在線測試的參數(shù)估計(jì)。美國ETS的CAT測驗(yàn)中都加入了種子試題進(jìn)行測試和參數(shù)估計(jì)。

（二）測驗(yàn)間交疊率問題

測驗(yàn)間交疊率是指一個(gè)CAT測驗(yàn)的試題同時(shí)出現(xiàn)在另外一個(gè)CAT測驗(yàn)的中，這時(shí)重復(fù)出現(xiàn)的試題數(shù)量除以測驗(yàn)長度即可得到這兩個(gè)測驗(yàn)之間的交疊率。計(jì)算所有CAT測驗(yàn)之間的交疊率平均值，可以得到平均測驗(yàn)間交疊率。測驗(yàn)平均交疊率水平也反映了試題曝光的程度，測驗(yàn)平均交疊率越高，預(yù)示著考生之間分享試題而受益的概率越高，試題泄露的概率越大。有研究論述了試題交疊率和試題曝光率之間的關(guān)系[8]，并認(rèn)為決定平均測驗(yàn)間交疊率的影響因素有：題庫的容量、測驗(yàn)長度、所有項(xiàng)目曝光率的方差，并指出這三者之間存在函數(shù)關(guān)系。要想讓平均測驗(yàn)間的交疊率低于10%，則要求項(xiàng)目曝光的誤差大約為0.0014，同時(shí)題庫容量的大小至少是定長測驗(yàn)長度的12倍，這就是計(jì)算機(jī)自適應(yīng)測驗(yàn)中的“十二倍定律”。

（三）紙筆測驗(yàn)與計(jì)算機(jī)自適應(yīng)測驗(yàn)的等值

紙筆測驗(yàn)作為最基本的測驗(yàn)形式，將一直與計(jì)算機(jī)自適應(yīng)測驗(yàn)同時(shí)存在。兩種測驗(yàn)分?jǐn)?shù)之間如何進(jìn)行比較，這就是紙筆測驗(yàn)與計(jì)算機(jī)自適應(yīng)測驗(yàn)的等值問題。美國ASVAB-CAT在施測時(shí)，就對紙筆測驗(yàn)與計(jì)算機(jī)自適應(yīng)測驗(yàn)等值的問題進(jìn)行了探討，并著重考慮和解決了以下幾個(gè)問題[4]：一是計(jì)算機(jī)自適應(yīng)測驗(yàn)的分?jǐn)?shù)是等值到紙筆測驗(yàn)分?jǐn)?shù)量尺上，并且合格分?jǐn)?shù)線是以紙筆測驗(yàn)分?jǐn)?shù)常模來確定計(jì)算機(jī)自適應(yīng)測驗(yàn)的分?jǐn)?shù)線。二是被選擇等值測驗(yàn)的被試都是需要參加征兵入伍考試的考生，考試成績決定其是否符合入伍的條件，確?？荚噭?dòng)機(jī)與正式測驗(yàn)是一樣的。而且所有考生都參加了紙筆測驗(yàn)和計(jì)算機(jī)自適應(yīng)測驗(yàn)，一半考生先進(jìn)行紙筆測驗(yàn)測試后再進(jìn)行CAT測試，另一半考生先進(jìn)行CAT測試后再進(jìn)行紙筆測驗(yàn)測試。三是對考生群體進(jìn)行分類，建立亞群體常模，比如建立黑人、婦女等群體的常模。此外，在等值計(jì)算過程中，需要對考試群體分?jǐn)?shù)進(jìn)行數(shù)據(jù)平滑數(shù)據(jù)處理和分?jǐn)?shù)轉(zhuǎn)換。紙筆測驗(yàn)與計(jì)算機(jī)自適應(yīng)測驗(yàn)如果實(shí)現(xiàn)有效的等值需要進(jìn)一步探討，對計(jì)算機(jī)自適應(yīng)測驗(yàn)的推廣與應(yīng)用具有重要意義。

[1]漆書青,戴海崎.項(xiàng)目反應(yīng)理論及其應(yīng)用研究【M】.南昌：江西高校出版社.1992,

[2]Lord, F.M., Applications of item response theory to practical testing problems. 1980, Hillsdale, NJ：Lawrence Erlbaum Associates.

[3]Lord,F.M.,Practical applications of item characteristic curve theory. Journal of Educational Measurement,1977,14：p.117-138.

[4]Sands,W.A.,Waters,B.K.&McBride,J.R.Computerized adaptive testing.From inquiry to operation. 1997,Washington(DC)：American Psychological Association.

[5]Mills,G.N.&Steffen M.,the GRE computerize adaptive test： operational issues, in Computerized Adaptive Testing：Theory And Practice.,W.J.Van Der Linden and C.A.W. Glas,Editors.2000,Kluwer Academic Publishers：DordrechBostonLondon.p.75-100.

[6]Leung,C.,Chang H.H.&Hau K.,Item Selection in Computerized Adaptive Testing： Improving the a-Stratified Design with the Sympson-Hetter Algorithm.Applied Psychological Measurement,2002、26：p.376-392.

[7]Ban, J.C., et al., A comparative study of on-line pretest item calibration-scaling methods in computerized adaptive testing. Journal of Educational Measurement,2001、38(3)：p.191-212.

[8]Chen, S., Ankenmann, R.D. &Spray, J.A. The Relationship between Item Exposure and Test Overlap in Computerized Adaptive Testing. Journal of Educational Measurement,2003.40(2)：p.129-145.

[9]Segall,D.O.,Multidimensional adaptive testing.1996.p.331-354.

[10]Leighton, J.P.& Gierl M.J.. Cognitive diagnostic assessment for education-theory and applications.2007,Cambridge：Cambridge University Press.

TP306+.2 < class="emphasis_bold">文獻(xiàn)標(biāo)識碼：A

1671-5993（2012）01-0058-06

2012-02-21

“基礎(chǔ)教育監(jiān)測系統(tǒng)與計(jì)算機(jī)自適應(yīng)測驗(yàn)系統(tǒng)”（基金項(xiàng)目號：9151063101000002）江西省教育科學(xué)“十二五”規(guī)劃課題（項(xiàng)目編號：10YB254）資助。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

計(jì)算機(jī)自適應(yīng)測驗(yàn)的測試流程與測試技術(shù)

一、計(jì)算機(jī)自適應(yīng)測驗(yàn)的基本含義和發(fā)展歷程

（一）計(jì)算機(jī)自適應(yīng)測驗(yàn)的基本概念、基本思想

（二）計(jì)算機(jī)自適應(yīng)測驗(yàn)的優(yōu)勢與不足

（三）計(jì)算機(jī)自適應(yīng)測驗(yàn)的發(fā)展歷程簡要概述

二、計(jì)算機(jī)自適應(yīng)測驗(yàn)測試的基本流程

（一）計(jì)算機(jī)自適應(yīng)測驗(yàn)的測試起點(diǎn)

（二）考生作答

（三）即時(shí)能力估計(jì)

（四）測驗(yàn)終止標(biāo)準(zhǔn)

（五）選題

（六）能力最終估計(jì)

（七）分?jǐn)?shù)轉(zhuǎn)換和呈現(xiàn)報(bào)告

（八）分析評價(jià)

三、計(jì)算機(jī)自適應(yīng)測驗(yàn)在應(yīng)用中的有關(guān)測量技術(shù)

（一）種子試題的在線測試與項(xiàng)目參數(shù)估計(jì)

（二）測驗(yàn)間交疊率問題

（三）紙筆測驗(yàn)與計(jì)算機(jī)自適應(yīng)測驗(yàn)的等值

一、計(jì)算機(jī)自適應(yīng)測驗(yàn)的基本含義和發(fā)展歷程

（一）計(jì)算機(jī)自適應(yīng)測驗(yàn)的基本概念、基本思想

二、計(jì)算機(jī)自適應(yīng)測驗(yàn)測試的基本流程

三、計(jì)算機(jī)自適應(yīng)測驗(yàn)在應(yīng)用中的有關(guān)測量技術(shù)