實時線性考試的設計理念及實施

2014-11-08 08:06:30孟匯涓

中國考試 2014年1期

孟匯涓

近些年來，項目反應理論（Item Response Theory，IRT）逐漸為國內的考試主辦方所了解，并被應用于一些測試中。與經典測試理論（Classical Test Theory，CTT）相比，IRT理論的核心優(yōu)勢是：（1）對題目參數的計算不依賴于參試的考生群體；（2）對考生分數的計算不依賴于試卷中使用的題目。在這樣的理論構架下，在IRT幾個假設（單維性、局部獨立性和單調性）可以基本保證的前提下，施以合理的數據采集方法，歷年考試題目的參數可以被放在同一個尺度上，而由這些題目所組成的不同試卷不再需要額外的等值步驟就可以保證試卷之間由題目參數算出的IRT分數的可比性（Kolen&Brennan，2004，p.175）[1]。

IRT題目參數以及IRT分數的這種特性，在計算機考試平臺的輔助下，使考試主辦方不再局限于以往的固定試卷模式，開始使用以題庫形式為發(fā)送基礎的各種靈活的設計，如計算機自適應考試（Computerized Adaptive Test，CAT）或實時線性考試（Linear On-the-Fly Test，LOFT）。這里的題庫是指考試主辦方擁有的所有試題中的一部分，可以用來組成幾套甚至十幾套的試卷。我國測量界的學者如張厚粲、漆書青、戴海崎、丁樹良等自20世紀80年代末90年代初就開始了對CAT的研究（張厚粲，1990；江西師大“題庫理論”組，1987）[2][3]；相比之下，實時線性考試是一個較為陌生的概念，也是這篇文章所要具體闡述的。

1 LOFT的設計理念

1.1 什么是LOFT?

從LOFT的名稱來看，首先這是一個線性考試（Linear）：計算機依次將試卷中的題目發(fā)送給考生，而不是根據考生對先前試題回答的結果從題庫中一一抽取題目。所以，LOFT不是“量體裁衣”、“因人選題”的計算機自適應考試，也不是傳統的固定試卷，需要事先組好，通過命題組審核，并且收到相同固定試卷的考生回答同樣的試題。

其次，考試是實時的（On-the-Fly）：組卷工作是考生坐在計算機前的那一瞬間啟動，由計算機驅動程序按照事先制訂好的內容和統計方面的組卷規(guī)則，從一個比較大的題庫里自動抽題組卷，發(fā)送給考生。因為抽題過程中的隨機算法的調控，考生拿到的試題或多或少總有不同。

總之，LOFT綜合了CAT和固定試卷設計的一些特點，如前者的對題庫的使用以及由計算機抽選試題；后者的對試卷內容統計方面高度一致的要求。

1.2 LOFT的優(yōu)點

首先，與固定試卷相比，LOFT考試安全性比較高。因為考生拿到的試卷上的題目多有不同，它可以降低考試結束后考生互相對題而產生的潛在漏題風險。同時，LOFT設計性價比更好，因為發(fā)布①Peason VUE考試發(fā)布（Test Publishing）的工作內容是：將客戶提供的試題、試卷結構（包括考試大綱的要求、試題數量等）和考試設計（是使用固定試卷、CAT還是LOFT）輸入軟件，然后將考試用QTI（Question and Test Interoperability）的形式輸出，上傳到VUE的考試發(fā)送系統。一個LOFT題庫和發(fā)布一套固定試卷的費用是一樣的?？荚囍鬓k方如果需要屏蔽幾個試題，可以直接在題庫上操作，不像固定試卷，必須要重新發(fā)布，從而減少了因為屏蔽試題而增加的相關費用。

和CAT相比，LOFT題庫中試題的使用更加均衡。如果LOFT和CAT使用同一個題庫，LOFT不會像CAT一樣，出現難度適中、區(qū)分度大的試題被反復抽選，而過難的試題或簡單題使用頻率過低的情況，從而降低了信息量大的試題因頻繁曝光而被泄露的潛在風險。

其次，LOFT對題庫的要求比CAT要低。在試題數量方面，如果是固定長度（fixed-length）的CAT，題庫中需要有大約12份相同長度、相同質量且沒有重疊的的試題（Stocking，1994）[4]；而LOFT題庫中的試題數量要求沒有CAT那么高（Kingsbury，Bontempo，Zara，2009）[5]，在美國教育考試服務中心（ETS）的一篇研究報告中，LOFT的題庫試題數量是固定試卷長度的5倍即可滿足要求（Stocking，Smith，&Swanson，2000）[6]。在試題難度分布方面，CAT因為要根據考生答題的情況和計算出的IRT分數選題，它通常要求每一個考試內容的試題難度都要和考生能力分布相吻合，才能發(fā)揮出CAT的優(yōu)勢，而LOFT只需要各部分內容的試題數量比例均衡，對每個內容的試題難度沒有更多要求，從而很大程度上減輕了考試主辦方發(fā)展題庫的負擔。

LOFT的第三個優(yōu)勢是它允許考生略過一些比較難的題目，回頭再做；而在CAT中，考生必須順序回答每一個試題，答完后不可以檢查更改。顯而易見，LOFT提供了考生比較熟悉的一種應試狀態(tài)。

最后，選擇考試設計需要考慮考試的目的及效率。如果某項考試僅僅是決定考生通過與否，考試主辦方只需要在分數線附近實現對成績的準確測量即可。如果LOFT統計指標設計好的話，可以和CAT一樣滿足這個目的（Becker，Bontempo，Dickison，Masters，2010）[7]，這樣的話就可以放棄對題庫有很高要求的CAT，使用LOFT來降低考試的成本。像資格認證這一類的考試，LOFT比CAT可能更為合適。

綜上所述，使用LOFT題庫的考試設計一般來說要比固定試卷在考試安全性上更有保障；在滿足考試目的的前提下，LOFT可以比CAT更好地平衡題庫中試題的使用頻率，降低漏題風險；同時，在LOFT的設計下，考生可以檢查做過的試題，更改答案，減輕考生在CAT中可能會產生的考試焦慮。最后，如果題庫還在建設之中，無法滿足CAT設計對試題難度分布的要求，采用LOFT不失為一個比固定試卷更加靈活有效、經濟實惠的過渡方案。

2 LOFT的實施

LOFT由兩部分組成，一是題庫，包括實測題庫和預測題庫；二是組卷規(guī)則，包括內容方面和統計方面的規(guī)則。在實測題庫中，所有算分的題目都需要有參數，如IRT下的題目參數，它們被用來計算并衡量計算機組出的試卷是否達到事先設定的統計目標，所以這些試題都是以往考試中的題目。而預測題庫中的試題則是新題，考生對它們的回答只是用來評估試題質量，獲取題目參數，并不計入成績。國外很多大規(guī)?？荚図椖慷际峭ㄟ^預測題來發(fā)展題庫，保證考試良性運行。

以下通過一個虛擬的考試案例（見表1）來介紹實施LOFT每個環(huán)節(jié)的操作步驟。這個案例中的考試試題在內容上的分布并沒有達到應用LOFT設計的理想狀態(tài)，卻也是很多考試主辦方在實際工作中可能需要面對的現實情況。

2.1 組建預測題庫

設計預測題庫的第一步是根據考生人數及使用的測量理論模型估計出預測題的數量。如表1中的考試，預測題目的數據點共有40 000個（4 000人×10道預測題），因為校準題目參數的人數要求設在400人，可以算出這個考試預測題庫的題目數量應為100道題（40 000/400）。

第二步，考試主辦方需要對已有試題進行分析，找出題庫中最欠缺的內容領域，以決定預測題庫中試題的分布。用表1中試題總量和考試大綱規(guī)定題數，可以算出目前每個內容領域下可以不重疊地組幾套試卷。通過這個分析可以發(fā)現內容1、2和5，試題數量明顯少于其他內容，所以預測試題就分布在這3個內容。表2是試題分析結果，由此決定試卷及題庫中預測題的分布，以及考試后各部分試題數量會有怎樣的增長?？荚囍鬓k方需要通過這樣的分析和規(guī)劃，盡量均衡地將考試中各內容領域下試題數量的比例逐漸拉齊，使題庫中實測題使用頻率趨于一致，從而最大程度地實現使用LOFT這種設計的優(yōu)勢。

表1 虛擬考試案例

表2 預測試題及題庫規(guī)劃

2.2 組建實測題庫

表3 實測題庫規(guī)劃

在LOFT設計下，通常不會把考試主辦方手中所有的有題目參數的實測題一次性全部用完，所以，就像組固定試卷一樣，也需要組建一個在考試時使用的題庫，盡可能地平衡試題的使用頻率，保證不同年度不同題庫下所組建的LOFT試卷質量的一致性。

信息采集模塊界面主要包括機床列表對車間設備狀態(tài)進行總覽，如圖5所示，可以實現對機床狀態(tài)監(jiān)控、數據庫連接管理、機床管理、各機床實時數據監(jiān)控等功能。機床列表界面對機床編號、IP地址、名稱、加工狀態(tài)、急停狀態(tài)、報警狀態(tài)進行實時監(jiān)控顯示。

組建實測題庫有三個步驟：第一步，要確定每一個考試內容應該有多少道題，它基本上是由考試主辦方對試題平均曝光率的要求和目前可組試卷數量決定的。如在這個虛擬考試案例中，假設試題平均曝光率設為25%，那就意味著題庫中需要放4套試卷的題量，就是200道題。如果實際情況如表3所示，內容1、2和5試題數量較少，所以關于這3個內容的實測題大部分甚至是全部放在了第一個題庫中，從而使試題平均曝光率不至于過高。而試題充足的內容3和4，因為設定了上限，就不會出現同一內容下題目太多，試題曝光率過低的情況。需要注意的一點是，在這個例子中，內容1、2、和5的試題可能需要重復使用，在下一次考試時放在題庫2里。當然，如果像2.1中描述的，所有的預測題都集中在這些內容上，本次考試結束后，通過審查的預測題會進入題庫，改善題庫2的現狀。

第二步，拆分敵對題。敵對題是指兩類題：一類是克隆題，如題干和選項文字不變，只是數字發(fā)生變化；第二類是暗示題，就是某道題中的內容有助于考生回答其他試題。通常情況下，敵對題不允許出現在同一張試卷上。因為不管是哪一種敵對題，考生如果幸運，就會一下子做對兩三道題；反之，就會連著出錯。這兩種情況都會影響考生成績的準確性和有效性，降低考試的公平性。

一般來說，考試發(fā)展一段時間后，題庫中就會存在敵對題，有的是一對，兩道題互相敵對；有的是一組，有幾道甚至十幾道互為敵對題。如果一組中的敵對題同時出現在題庫中，這些試題的曝光率就會高于那些沒有敵對題關系的試題。舉例來說，5道題，沒有敵對題時，每道題被隨機抽中的概率是20%；如果其中兩道題是敵對題，實際抽選的時候就只有4道題可用，每道題被抽中的概率就是25%，兩道敵對題各有12.5%的抽中概率。顯然，敵對題的曝光率很低，非敵對題的曝光率升高，降低使用LOFT的好處。所以，拆分敵對題是保證題庫中試題被均衡使用的重要步驟之一。

敵對題基本是按照題庫題數比例來拆分的，見表4。假如一組中兩道敵對題屬于內容3，因為題庫1試題數量占總量的比例是50%，就可以把其中的一道放在題庫1里，另一道放在題庫2里。這樣這兩道敵對題就不會互相影響，也不會對這個內容中其他試題的曝光率造成影響。

第三步，平衡題庫試題難度。這里的難度，是指題庫中所有試題IRT難度參數的平均值?？荚囍鬓k方不能把所有的難題，或者所有的簡單題，或者所有難度適中的試題都放在一個題庫里，如果這樣做，使用第二個題庫時，就很難保證LOFT試卷質量前后的一致性。表5顯示，通過這一步驟，題庫1和題庫2總體難度基本一致，而且每個考試內容下的試題平均難度也非常相似。

表4 敵對題的拆分

表5 平衡題庫難度

2.3 計算組卷規(guī)則

LOFT設計下的另一個組成部分是組卷規(guī)則，主要目的是實現試卷在內容和統計方面的等值。

首先是內容方面的規(guī)則。如果考試大綱在每個內容領域下又列舉了更具體的考查點，就需要考試主辦方進一步設定各考查點的試題比例，以保證同一個考試中不同LOFT試卷在內容方面上的一致性。舉例來說明，如果這個虛擬考試案例第一部分的內容是數學，下面有兩個考查點：解析幾何和矩陣計算。如果只規(guī)定數學考10道題，計算機有可能給考生甲抽8道幾何題、2道矩陣題，給考生乙8道矩陣題和2道幾何題。這種內容方面的不均衡顯然會造成考試的不公平。當然，也并不是每個考查點都一定需要有抽題的數量規(guī)則，它由幾個因素決定：（1）考試大綱要求的試題數量。如果一個考試內容總共就考兩三道題，就沒有設定考查點的題目數量的必要性。（2）題庫中各考查點的試題數量占其考查內容試題數量的比例。以虛擬考試的第2個內容為例（見表6），根據考試大綱，這部分需要5道題。假設第2個考試內容有5個考查點ABCDE，題庫中關于考查點A有6道題，BCDE各有一道題，共有10道題，A考查點的試題數量占第2個考查內容試題總量的3/5（6/10）。如果題庫中第2個考試內容沒有敵對題（表6中情境1），按照比例規(guī)則，應該在關于2A考查點的試題里抽3道，在BCDE里共抽2道。在這種情況下，組卷規(guī)則中不需要指定除了2A以外的考查點的試題數量。（3）決定考查點組卷規(guī)則時還需要考慮敵對題的數量。如果2A考查點有兩組敵對題，每組兩道（表6中情境2），那么選題時，2A實際上只有4道題供選擇，這時抽題規(guī)則就不應是上面所說的“2A里抽3道”，而是在2A里抽2～3題，在BCDE里抽2～3題。這種考慮，在敵對題數量比較多時尤其重要。如果忽略這個因素，設定的規(guī)則就有可能無法運行，或者影響試題曝光率的均衡性。

考查點的抽題規(guī)則可以是固定的題數，也可以是由最小值和最大值組成的題數范圍。設定范圍的好處是計算機組卷的靈活度比較大；而且，一旦考試主辦方因為內容方面的原因需要屏蔽一些試題，這些規(guī)則更容易保持其合理性，減少重新發(fā)布題庫的次數。

總之，只有把這些因素全部考慮進去，才能保證LOFT內容方面抽題規(guī)則的準確性和可行性。而這些規(guī)則保證了LOFT試卷在內容方面的均衡，使每個考生拿到的題目都能夠全面覆蓋考試大綱，確保考試內容方面的有效性。

LOFT設計下的另一部分組卷規(guī)則是統計方面的。在IRT理論下，比較常見的試卷統計指標有考試信息（Test Information）、考試特征（Test Characteristic）和單參數模型下的考試難度（試題難度參數的平均值）。在這個虛擬考試案例中使用的是考試信息，見表7。一條規(guī)則設在劃界分數，theta=0。雖然在理論上來說，如果是決定考生通過與否，只要保證劃界分數附近的成績被準確測量就已經達到考試目的。在實際設計中，另有兩條規(guī)則分別設在theta分數-1和+1，也就是劃界分數加1、減1，來保證LOFT試卷的信息曲線在更大分數范圍內的一致性。在這里，劃界分數那一點的信息量設得最大，從而使測量誤差盡可能減少，而兩邊的分數-1和+1，要求的信息量相對要低。

考試信息目標的設定要合理，不能一味地抬高數值區(qū)間。比如說IRTRasch模型下的試題信息量最高值是0.25，50道題的試卷在某個theta點上可能達到的最多信息量是12.5（0.25×50）。如果將目標定為12.5或略低一點，可能連一套符合統計規(guī)則的LOFT試卷也組不出來。較為可行的方法是參考在轉為LOFT設計之前使用的固定試卷在不同theta分數上的信息量，然后進行適量調整。調整時可以根據題庫題目的具體情況，將劃界分數這個點上的LOFT考試信息量設定的略高于固定試卷，這樣會減少考試誤差，從而提高考試在區(qū)分考生時的準確度和穩(wěn)定度。設定比較高、比較嚴格的統計指標，也是在LOFT中提升考試質量的一個重要途徑。

表6 考查點的抽題規(guī)則

表7 虛擬考試案例的LOFT試卷統計規(guī)則

最后，對于這三個分數點，沒有規(guī)定一個固定的信息值，而是限定了一個很窄的區(qū)間，因為如果設定的統計目標為一個固定的信息值，計算機組卷靈活度較小，會延長組卷時間；同時，有些題被選擇的頻率可能會高出其他試題，這也違背了使用LOFT設計的初衷。

3 LOFT的評估

在發(fā)送實時線性考試之前，考試主辦方需要對計算機根據題庫及組卷規(guī)則組出的幾百套甚至上千套LOFT試卷進行方方面面的評估。

第一，試題曝光率，就是一道題目有多大比例被考生看到。例如1000套試卷，如果有1道題出現在200套試卷中，它的曝光率就是20%（200/1000）。題庫中試題曝光率是不同的，某些考試內容試題數量多，每道題的曝光率就會比較??；反之，某些內容試題數量很少，每道題的曝光率就會高。另外，如果一道題的敵對題很多，它的試題曝光率會明顯低于題庫中其他試題。如果試題曝光率的分布和預期的有很大差異，考試主辦方應該查看具體試題及組卷規(guī)則，找出原因，做相應調整。

第二，試卷重疊率，就是同一個考試的不同試卷，兩兩相比，試題相同的比例。與試題曝光率一樣，如果題庫或組卷規(guī)則有問題，試卷重疊率也會出現異常。同時，這個指標可以幫助考試主辦方直接了解，在一個考場的兩個考生在考試結束后，如果互相討論試題，試題完全一樣的現象有多嚴重。當然，因為是機考，能把考試時間和地點都安排在一起的概率本身就要打折扣，再加上試題順序的變化，相識考生之間能對上的試題數量可能比計算出來的要低。

第三，試卷難度的差異，可以用每套試卷試題IRT難度參數的平均值作為指標。雖然拿到不同試卷的考生最終成績會通過IRT等值全部拉齊，但試卷之間的難度差別越小，對考生的考試體驗影響越小，考試公平就越容易得到保證。

第四，試卷的信息量，通過計算所有LOFT試卷在不同IRT分數上信息量的最大值和最小值，可以畫出LOFT試卷考試信息曲線區(qū)間圖（見圖1）。圖1顯示的是，1000套LOFT試卷，不論考生收到哪一套，在每個IRT分數點上的考試信息量都會在這個窄窄的區(qū)間范圍之內。這樣的分析可以幫助我們直觀地了解不同LOFT試卷考試信息曲線之間的差異度，進一步確定LOFT設計的合理性。

圖1 1000套LOFT試卷考試信息曲線區(qū)間

以上就是針對一個考試的虛擬案例，考試主辦方實施LOFT設計時需要操作的具體環(huán)節(jié)。顯而易見，比起固定試卷，它對題目數量以及考試驅動程序的要求更高，設計起來更為復雜。同時，因為省略了人工審查試卷的步驟，命題人員對敵對題的判斷務必要準確，設定組卷規(guī)則的工作也會變得比較繁瑣，評估LOFT試卷的工作相對費時費力，這些都是考試主辦方在決定使用LOFT設計之前需要考慮的問題。當然，它特有的優(yōu)勢仍然可以使它成為最為適合的考試設計方案，滿足考試目的，保證考試公平。（感謝Pearson VUE 的Susan Steinkamp，Brad Wu和Xinrui Wang對本文內容的討論和建議?。?/p>

[1]Kolen，M.J.，&Brennan，R.L..Test equating，scaling，and linking:Methods and practices（2nd ed.）[M].New York:Springer-Verlag，2004.

[2]張厚粲.心理測量學的新方向——計算機化適應性測驗[M]//自學考試研究論文集（第二集）.北京：經濟科學出版社，1990.

[3]江西師大“題庫理論”組.考生智能水平的自適應測驗[J].江西師范大學學報，1987（2）.

[4]Stocking，M.L..Three practical issues for modern adaptive testing item pools[C]//ETSResearch Report No.94-5.Educational Testing Service，Princeton，NJ.1994.

[5]Kingsbury，G.G.，Bontempo，B.，&Zara R..A Comparison of CAT with LOFT Methods for Certification Examinations[C]//Paper presented at National Organization for Competency Assurance Annual Educational Conference.Phoenix，Arizona.2009.

[6]Stocking，M.L.，Smith，R.，&Swanson，L..An Investigation of Approaches to Computerizing the GRERSubject Tests[C]//ETS Research Report No.00-4.Educational Testing Service，Princeton，NJ.2000.

[7]Becker，K.A.，Bontempo，B.，Dickison，P.，&Masters，J.S..A comparison of CAT and LOFT for a growing item bank[C]//Paper presented at the annual meeting of the International Association for Computer Adaptive Testing.Arnhem，NL.2010.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看