中國漢語水平考試（HSK）遠(yuǎn)程CAT閱讀測試模式研究*

2013-11-08 03:18:48柴省三

中國遠(yuǎn)程教育 2013年6期

□ 柴省三

一、引言

基于項(xiàng)目反應(yīng)理論（Item Response Theory，IRT）的計算機(jī)自適應(yīng)性語言測試在測量信度（reliability）、測量效率和考試安全性等方面比傳統(tǒng)的紙筆測驗(yàn)具有更大的優(yōu)勢[1]，因此計算機(jī)自適應(yīng)性語言測試的理論和實(shí)踐問題正在成為遠(yuǎn)程教育測量模式研究的熱點(diǎn)。為了推廣基于國際互聯(lián)網(wǎng)的遠(yuǎn)程教育測量模式，為全球考生提供便捷的考試方式，美國教育測量服務(wù)中心（ETS）開發(fā)的英語作為外語的語言水平測試（TOEFL）已于2005 年正式推出了網(wǎng)絡(luò)版測量模式——TOEFL iBT[2]。全國大學(xué)英語四、六級考試（CET）委員會也從2008年開始進(jìn)行了若干次遠(yuǎn)程網(wǎng)絡(luò)考試的實(shí)驗(yàn)研究，為全面實(shí)現(xiàn)CET 考試的遠(yuǎn)程化、網(wǎng)絡(luò)化和自適應(yīng)性考試模式奠定了基礎(chǔ)。

中國漢語水平考試（HSK）是為測試母語非漢語者（主要是外國人和海外華僑）的漢語水平而設(shè)計的國家級標(biāo)準(zhǔn)化考試。隨著全球孔子學(xué)院教學(xué)模式和漢語國際推廣形勢的迅猛發(fā)展，參加HSK 考試的考生人數(shù)不斷增加。截止到2012 年底，HSK 已經(jīng)在全球超過95 個國家設(shè)立了近400 個考點(diǎn)（參見表1），考生人數(shù)已累計超過200 萬。HSK 具有考試規(guī)模大、考點(diǎn)分布廣和考生來源國家較多以及考生的母語背景多元等顯著特點(diǎn)。為了提高HSK 考試的信息化水平，給國內(nèi)外考點(diǎn)的考生提供個性化服務(wù)模式，從2010 年起，HSK 在美國、加拿大等國以及國內(nèi)的部分考點(diǎn)采用了紙筆測試（Paper-and-Pencil Testing,PPT）和計算機(jī)測試兩種模式并行進(jìn)行施測，考生可以根據(jù)自己的實(shí)際需求選擇報考任意一種測量模式。每年有幾萬名考生在世界各地通過國際互聯(lián)網(wǎng)和計算機(jī)終端完成了遠(yuǎn)程HSK 測試，在相當(dāng)程度上提高了測量、評分和分?jǐn)?shù)報告的效率，并為大規(guī)模遠(yuǎn)程自適應(yīng)性測量系統(tǒng)的開發(fā)、推廣和普及積累了豐富的研究成果和實(shí)踐經(jīng)驗(yàn)。

表1 HSK海外考點(diǎn)基本情況

然而，從測量的理論基礎(chǔ)和計算機(jī)操作的邏輯過程來看，無論是基于Internet的網(wǎng)絡(luò)版TOEFL考試還是HSK 考試都不是真正意義上的完全計算機(jī)自適應(yīng)性考試[3][4]。其中，TOEFL 遠(yuǎn)程考試沒有完全實(shí)現(xiàn)計算機(jī)自適應(yīng)性考試的主要原因有兩個：其一是出于題庫維護(hù)成本和考試安全性的考慮；其二主要是因?yàn)椴糠挚荚噧?nèi)容，特別是閱讀理解測試部分的考試題目，在計算機(jī)自適性選題參數(shù)和智能選題過程方面還存在諸多制約[5]。對于HSK的遠(yuǎn)程考試而言，網(wǎng)絡(luò)版HSK仍然是以經(jīng)典測量理論（CTT）為基礎(chǔ)的紙筆測量模式的平行遷移。同樣，大學(xué)英語考試（CET）尚未完全采用CAT 考試的重要原因，除了考試規(guī)模、遠(yuǎn)程技術(shù)、網(wǎng)速和考試安全等方面的因素之外，還因?yàn)樵陂喿x理解測驗(yàn)的選題標(biāo)準(zhǔn)和參數(shù)體系方面尚存在一定的制約因素。由此可見，閱讀理解測驗(yàn)中的智能選題方法和參數(shù)標(biāo)準(zhǔn)的確定問題，已經(jīng)成為國內(nèi)外大規(guī)模遠(yuǎn)程自適應(yīng)性語言測試模式推廣與應(yīng)用中必須面對的最大挑戰(zhàn)之一[6][7][8]。基于上述考慮，本文將首先對計算機(jī)自適應(yīng)性遠(yuǎn)程語言測試原理進(jìn)行簡要介紹，然后參照國外最新研究成果，介紹以文本屬性參數(shù)為標(biāo)準(zhǔn)代替項(xiàng)目屬性參數(shù)作為計算機(jī)自適應(yīng)性考試的操作模式，以期本研究思路對未來中國漢語水平考試（HSK）和國內(nèi)其它語言測試在閱讀理解測驗(yàn)的遠(yuǎn)程CAT系統(tǒng)設(shè)計和開發(fā)過程方面提供借鑒。

二、遠(yuǎn)程CAT語言測試的基本原理

遠(yuǎn)程計算機(jī)自適應(yīng)性測試（Computer-Adaptive Testing，CAT）與基于計算機(jī)的考試（Computer-Based Testing，CBT）是當(dāng)代計算機(jī)科學(xué)和互聯(lián)網(wǎng)技術(shù)相結(jié)合在遠(yuǎn)程教育測量模式中的兩種重要考試方式[9][10]。其中，CBT 是傳統(tǒng)的紙筆測試方式（PPT）向網(wǎng)絡(luò)化和遠(yuǎn)程化考試的平行遷移，其實(shí)施的遠(yuǎn)程技術(shù)要求和題目的呈現(xiàn)方式已經(jīng)相對比較成熟，因而在提高測驗(yàn)效率、完善考試內(nèi)容和分?jǐn)?shù)處理自動化等方面均具有紙筆測試無法比擬的優(yōu)勢，而且其實(shí)際應(yīng)用和普及范圍比CAT 模式更廣泛；CAT 與CBT 相比最大的優(yōu)點(diǎn)在于：可以更充分地利用當(dāng)代計算機(jī)科學(xué)和互聯(lián)網(wǎng)技術(shù)，以項(xiàng)目反應(yīng)理論（IRT）為基礎(chǔ)設(shè)計自適應(yīng)性考試系統(tǒng)（CAT System），并為全球各地的考生提供“因材施考，按需施測”的個性化測量模式，在測量的科學(xué)性、測量誤差控制等方面具有獨(dú)特優(yōu)勢，是未來遠(yuǎn)程語言測試模式發(fā)展的主流方向。

（一）CAT測試的原理

所謂遠(yuǎn)程CAT 語言測試，就是以現(xiàn)代教育測量理論為基礎(chǔ)，充分利用計算機(jī)科學(xué)和互聯(lián)網(wǎng)技術(shù)進(jìn)行遠(yuǎn)程考試組織和施測的方式。CAT 考試過程中，系統(tǒng)可以根據(jù)考生語言水平自動從統(tǒng)一的題庫（Item pool）中選擇題目并進(jìn)行個性化遠(yuǎn)程測量。盡管CAT 測量模式既可以采用非遠(yuǎn)程、單機(jī)測驗(yàn)形式，也可以借助互聯(lián)網(wǎng)進(jìn)行遠(yuǎn)程考試形式，但由于受題庫的物理存儲、安全和更新方面的限制，不可能在每次考試之前分別為每一個考生或部分考生預(yù)裝相同的題庫，特別是對于考試規(guī)模巨大、考點(diǎn)分布距離較遠(yuǎn)的全球性語言測試而言，比如漢語水平考試（HSK）、TOEFL 等，更是如此。因此，計算機(jī)自適應(yīng)性考試（CAT）只有采用遠(yuǎn)程測量模式才能充分發(fā)揮其優(yōu)勢。遠(yuǎn)程CBT 考試與遠(yuǎn)程CAT 考試的本質(zhì)區(qū)別在于：前者仍屬于定長、定時測驗(yàn)，測試過程和測試內(nèi)容不具備任何自適應(yīng)性特征（adaptability），即所有考生無論其語言水平差異有多大，都必須在規(guī)定時間內(nèi)完成相同的測驗(yàn)題目[11][12][13]；而CAT考試則是一個根據(jù)考生語言水平不同可以自動進(jìn)行智能化選題的考試技術(shù)，因而考生在測驗(yàn)中只需回答與自己語言水平相當(dāng)?shù)念}目即可，一旦測驗(yàn)滿足既定的誤差控制要求，系統(tǒng)將自動終止對該考生的測量過程，并提供在線分?jǐn)?shù)報告。遠(yuǎn)程CAT 測量系統(tǒng)的設(shè)計必須以遠(yuǎn)程教育信息技術(shù)和項(xiàng)目反應(yīng)理論為先決條件（prerequisite），并以題庫、考生信息管理數(shù)據(jù)庫為基礎(chǔ)，實(shí)現(xiàn)遠(yuǎn)程考試中心和遠(yuǎn)程考生終端的集成化管理（如圖1）。與傳統(tǒng)的紙筆測試模式相比，遠(yuǎn)程CAT 語言測試模式具有如下明顯的優(yōu)勢：

圖1 遠(yuǎn)程CAT語言測試組織示意圖

1.考試安排具有高度靈活性

現(xiàn)代網(wǎng)絡(luò)技術(shù)和計算機(jī)科學(xué)的發(fā)展使CAT 測量模式根據(jù)全球不同考點(diǎn)或不同考生的要求隨時提供遠(yuǎn)程測試，而不必像傳統(tǒng)的紙筆測驗(yàn)?zāi)菢硬捎萌?、全國統(tǒng)一的考試時間，考試安排（scheduling）更加靈活，并將考試對不同時區(qū)考生的時空限制降低到最低限度，因而考試的次數(shù)和時間安排也更符合考點(diǎn)和考生的實(shí)際需求。

2.測試過程更富有人性化

由于遠(yuǎn)程CAT 語言測試模式采用的是自適應(yīng)性選題技術(shù)，因此系統(tǒng)可以根據(jù)考生的語言水平自動選擇最接近考生語言能力的題目進(jìn)行測量，而不必讓考生回答難度水平已經(jīng)明顯高于或明顯低于自己語言水平的題目。這樣，一方面有效地縮短了考試時間，提高了考試效率；另一方面也提高了測量的準(zhǔn)確性，考試過程更符合個性化和人性化要求。

3.測試標(biāo)準(zhǔn)化程度更高

由于遠(yuǎn)程CAT 測量模式完全由計算機(jī)系統(tǒng)控制，考試指令更加明確、規(guī)范和統(tǒng)一，考試程序完全相同，從而避免了在傳統(tǒng)的紙筆測試中因試卷印刷、監(jiān)考行為和指令發(fā)布等方面存在的無關(guān)因素對測量結(jié)果產(chǎn)生的干擾。

4.測驗(yàn)內(nèi)容效度更高

在傳統(tǒng)的紙筆測試方式中，由于受測驗(yàn)題目呈現(xiàn)方式的限制，語言測試的內(nèi)容或題目經(jīng)常因?yàn)槊撾x目標(biāo)語言應(yīng)用情景而導(dǎo)致測驗(yàn)任務(wù)缺乏真實(shí)性（authenticity），從而影響測驗(yàn)的內(nèi)容效度。遠(yuǎn)程CAT語言測試方法可以充分利用多媒體技術(shù)設(shè)計更加豐富和真實(shí)的考試內(nèi)容，不僅可以提高測驗(yàn)任務(wù)的互動程度，而且還可以提高測驗(yàn)的構(gòu)想效度（construct validity）[14][15]。

5.分?jǐn)?shù)處理效率更高

遠(yuǎn)程CAT 考試不僅可以對考生的表現(xiàn)情況進(jìn)行在線（on-line）評分，還可以針對考生的測驗(yàn)表現(xiàn)提供豐富的評價信息，因此測量模式更符合現(xiàn)代語言教學(xué)和語言測試的認(rèn)知診斷性（diagnostic）發(fā)展趨勢。另一方面，評分過程比較客觀，分?jǐn)?shù)處理準(zhǔn)確性更高，考試結(jié)束后，考生可以立即獲得一個標(biāo)準(zhǔn)的分?jǐn)?shù)報告（score report）。

除此之外，遠(yuǎn)程CAT 語言測試在題庫的存儲、維護(hù)、等值、更新、激發(fā)考生動機(jī)以及確保考試安全性等方面也具有紙筆測驗(yàn)不具備的諸多優(yōu)點(diǎn)。

（二）遠(yuǎn)程CAT語言測試的題庫建設(shè)

遠(yuǎn)程計算機(jī)自適應(yīng)性語言測試系統(tǒng)的開發(fā)必須經(jīng)過兩個階段：第一階段是題庫的建設(shè)，第二階段是基于題庫的遠(yuǎn)程CAT 系統(tǒng)設(shè)計。所謂題庫就是大量測驗(yàn)題目的集合，而且其中的每個測驗(yàn)題目都必須被標(biāo)注完整的參數(shù)體系（parameter system）。參數(shù)的估計是在對目標(biāo)被試進(jìn)行大樣本實(shí)測或預(yù)測基礎(chǔ)上獲得的。如果題庫中的題目沒有完整的描述性參數(shù)（比如難度、區(qū)分度和猜測度）指標(biāo)，那么遠(yuǎn)程CAT 測試系統(tǒng)的適應(yīng)性邏輯過程就無法實(shí)現(xiàn)[16]，所以，題庫建設(shè)是實(shí)現(xiàn)CAT 測驗(yàn)方式的必要條件。題庫的建設(shè)包括三個基本步驟（如圖2）：

圖2 CAT測試題庫建設(shè)過程

1.命題與組卷

命題不僅是紙筆測驗(yàn)方式的核心工作，同時也是題庫建設(shè)的必要條件。題庫的基本單位是試題（items），試題的質(zhì)量將直接影響題庫的性能。所以，命題工作必須要在專業(yè)命題人員的指導(dǎo)下，由專職漢語教師參照測試的目的和內(nèi)容，嚴(yán)格按照測驗(yàn)細(xì)目表（specifications）的要求進(jìn)行命題。在題目編寫結(jié)束以后，為了在測試基礎(chǔ)上獲得測驗(yàn)題目的參數(shù)指標(biāo)，首先要進(jìn)行組卷工作（assembly）。組卷的過程應(yīng)參照擬采用的CBT 測量模式或紙筆測量模式的要求編制標(biāo)準(zhǔn)的定長測驗(yàn)（fixed form test），以便對目標(biāo)考生進(jìn)行團(tuán)體施測。

2.測試

在命題和組卷工作完成以后，再選擇目標(biāo)考生進(jìn)行實(shí)測或預(yù)測，以便獲得估計題目參數(shù)所需要的基本數(shù)據(jù)。實(shí)測是指以CBT 或PPT（紙筆測試）方式對考生進(jìn)行正式測試的過程，考試結(jié)束后在為考生提供標(biāo)準(zhǔn)成績報告的同時，還要根據(jù)預(yù)先選擇的IRT模型繼續(xù)估計題目的參數(shù)，并將符合參數(shù)指標(biāo)要求的題目全部保存在題庫中，以便為進(jìn)一步開發(fā)CAT 考試系統(tǒng)提供測量基礎(chǔ)；預(yù)測（pretest）則是為了積累題庫中的題目數(shù)量或獲得題目參數(shù)而對部分考生進(jìn)行的一種實(shí)驗(yàn)性測試。題庫的規(guī)模只有在不斷積累紙筆測試或CBT 測試題目的基礎(chǔ)上才能達(dá)到一定的數(shù)量要求。如果題庫內(nèi)測驗(yàn)題目的數(shù)量太少，在遠(yuǎn)程CAT測試中的題目曝光率（item exposure）就無法控制，題目指標(biāo)的分布就會不均衡，因而也就無法滿足大規(guī)模施測時對不同水平考生的適應(yīng)性測量要求[17]。

3.參數(shù)估計與等值

題庫不同于“卷庫”，它不是測驗(yàn)題目的簡單積累或追加。題庫中的題目必須具備完整的描述參數(shù)，否則系統(tǒng)就無法針對不同語言能力的考生從題庫中自動選擇適應(yīng)性題目。所以，在紙筆測試和CBT 測試結(jié)束以后，必須基于適當(dāng)參數(shù)的IRT模型，借助計算機(jī)對每個測驗(yàn)題目的區(qū)分度（參數(shù)a）、難度（參數(shù)b）和猜測度（參數(shù)c）等進(jìn)行參數(shù)估計和標(biāo)注，以便為遠(yuǎn)程CAT 語言考試系統(tǒng)的實(shí)現(xiàn)提供智能化選題標(biāo)準(zhǔn)和進(jìn)行能力估計的參數(shù)體系。在所有測驗(yàn)題目的參數(shù)估計結(jié)束以后，還要對題目的參數(shù)進(jìn)行等值化處理（equating），以便將它們統(tǒng)一到同一個單位系統(tǒng)上，確保題目參數(shù)的穩(wěn)定性、準(zhǔn)確性和可比較性。

（三）遠(yuǎn)程CAT語言測試的制約因素

遠(yuǎn)程CAT 語言測試模式的理論基礎(chǔ)是項(xiàng)目反應(yīng)理論（IRT）。項(xiàng)目反應(yīng)理論研究的主要內(nèi)容就是被試在測驗(yàn)題目上的答對概率（反應(yīng)行為）與測驗(yàn)題目所測的潛在能力或者說語言水平之間的函數(shù)關(guān)系（如圖3），即項(xiàng)目特征曲線（ICC）[18][19]。

圖3 項(xiàng)目特征曲線

項(xiàng)目特征曲線是以潛在特質(zhì)水平（θ）為橫坐標(biāo)，以被試正確回答的概率值P(θ)為縱坐標(biāo)，以此反應(yīng)項(xiàng)目為基本特征的曲線。其中b是該測驗(yàn)項(xiàng)目的難度參數(shù)，并與被試的能力水平θ 定義在同一個量表上，b 值的大小與項(xiàng)目特征曲線（ICC）斜率最大處在能力量表（橫坐標(biāo)）上所對應(yīng)點(diǎn)的θ 值相等，也就是曲線拐點(diǎn)所對應(yīng)的能力值。項(xiàng)目的區(qū)分度由參數(shù)a表示，是曲線拐點(diǎn)處切線斜率的函數(shù)，斜率越大，曲線在b 點(diǎn)附近就越陡峭，項(xiàng)目的區(qū)分度也就越大（a值越大），反之，a 值越小。項(xiàng)目的猜測度反映的是考生在不具備或沒有達(dá)到項(xiàng)目所測能力水平時隨機(jī)猜測的概率值的大小，通常用參數(shù)c表示。該模型也可以用以下三參數(shù)邏輯斯蒂克模型（logistic model）進(jìn)行數(shù)學(xué)描述：

由上述項(xiàng)目特征曲線可出看出，不同能力水平的考生在同一個測驗(yàn)題目上答對的概率不同，同一個考生在難度等參數(shù)不同的題目上答對的概率也不相同。因此借助上述模型和計算機(jī)技術(shù)就可以根據(jù)被試的能力水平和每個題目的具體參數(shù)從題庫中智能化地選擇題目。同時，系統(tǒng)也可以根據(jù)測驗(yàn)題目的屬性參數(shù)和考生的表現(xiàn)情況估計考生的語言能力。由此保證測驗(yàn)題目的難度水平與考生的能力水平最匹配，不同能力水平的考生可以不必回答完全相同的測驗(yàn)題目，從而獲得最佳測驗(yàn)精度和提高測驗(yàn)的效率[20][21]。所以，根據(jù)測驗(yàn)題目的屬性參數(shù)選擇測驗(yàn)題目進(jìn)行個性化測試是遠(yuǎn)程CAT語言測試的關(guān)鍵環(huán)節(jié)。

三、實(shí)現(xiàn)HSK遠(yuǎn)程CAT模式的制約因素

實(shí)現(xiàn)遠(yuǎn)程CAT 語言測試模式的基本條件包括三個主要方面：一是計算機(jī)科學(xué)和技術(shù)；二是互聯(lián)網(wǎng)技術(shù)；三是以IRT 為基礎(chǔ)的題庫建設(shè)和隨機(jī)選題方法。進(jìn)入本世紀(jì)以來，計算機(jī)科學(xué)和國際互聯(lián)網(wǎng)技術(shù)的高速發(fā)展已經(jīng)為遠(yuǎn)程CAT 測試模式的開發(fā)和普及奠定了良好的基礎(chǔ)。而基于題庫系統(tǒng)的參數(shù)結(jié)構(gòu)和自動選題技術(shù)則是目前制約國內(nèi)外包括TOEFL、CET 和HSK等遠(yuǎn)程CAT測量模式實(shí)現(xiàn)的重要“瓶頸”之一。

一般情況下，大規(guī)模、綜合性語言測試通常都是由聽力、語法、閱讀和填空等若干分測驗(yàn)構(gòu)成的集成式測驗(yàn)體系，測驗(yàn)中的很多題目都是基于共同的輸入材料所編制的，而不是由完全孤立的測驗(yàn)項(xiàng)目所構(gòu)成的。比如在篇章型閱讀理解測驗(yàn)中，考生只有在對一篇閱讀理解材料進(jìn)行完整閱讀的基礎(chǔ)上，才能回答根據(jù)該閱讀材料編制的若干多項(xiàng)選擇題（multiplechoice items）。顯然，在遠(yuǎn)程CAT 語言測試的實(shí)現(xiàn)過程中存在一個明顯的制約因素，即考試題目的智能選題過程是以測驗(yàn)的項(xiàng)目為單位，還是以整篇閱讀材料為單位。如果完全按照三參數(shù)IRT理論的邏輯斯蒂克模型來選擇題目，就會發(fā)生不同測驗(yàn)題目的難度值可能滿足對不同語言水平的考生的測量要求，但他們還必須閱讀相同材料的現(xiàn)象。此時，考生對不同測驗(yàn)題目的回答情況并不能完全反映考生對同一篇閱讀材料的理解水平。為了克服上述因素對遠(yuǎn)程CAT 測量模式的限制，國內(nèi)外大型語言測試機(jī)構(gòu)分別采用了一些相關(guān)的妥協(xié)方案。目前，TOEFL 考試采用了遠(yuǎn)程“CAT+CBT”混合的測量模式，回避了閱讀理解題庫參數(shù)結(jié)構(gòu)和能力估計要求之間的矛盾，即對分離式客觀題采用完全CAT 測量方式，而對閱讀理解測驗(yàn)則采用“定長”和“定時”的遠(yuǎn)程CBT 測量模式。同時，ETS目前也正在進(jìn)行基于文本難度參數(shù)法的多階段適應(yīng)性考試（Multistage Adaptive Test,MST）方法的對比實(shí)驗(yàn)[22]；國內(nèi)CET 考試則仍處在對遠(yuǎn)程CBT 考試和CAT 考試的實(shí)驗(yàn)研究和嘗試階段。中國漢語水平考試在遠(yuǎn)程CBT 考試方面已經(jīng)取得了初步成功，但在未來HSK 遠(yuǎn)程CAT 測試系統(tǒng)的設(shè)計構(gòu)想中，針對閱讀理解測驗(yàn)的智能選題標(biāo)準(zhǔn)和題庫參數(shù)結(jié)構(gòu)體系的設(shè)計問題，將不可避免地成為影響測量系統(tǒng)設(shè)計成功與否的關(guān)鍵因素之一，或者說HSK 遠(yuǎn)程CAT 測試模式的實(shí)現(xiàn)必須首先考慮閱讀理解測驗(yàn)中題庫參數(shù)和選題的技術(shù)問題。

四、CAT閱讀理解測試的實(shí)現(xiàn)方式

為了解決遠(yuǎn)程CAT 閱讀理解測試模式中存在的上述諸多制約，國外遠(yuǎn)程教育測量領(lǐng)域、信息技術(shù)領(lǐng)域和教育測量界的不少研究人員先后進(jìn)行了若干實(shí)驗(yàn)研究，并嘗試采用包括多級項(xiàng)目反應(yīng)模型（polytomous IRT）、題組反應(yīng)理論（TRT）模型等在內(nèi)的各種參數(shù)選擇標(biāo)準(zhǔn)。不過，由于這些方法目前尚處在理論探索階段，并且還存在其他許多不成熟的地方，所以上述模型并不能完全解決遠(yuǎn)程CAT 閱讀理解測試的可行性問題[23]。

近年來，國外部分學(xué)者（Luecht et al，2006[24]；Yang et al，2011[25]）在大量蒙特卡洛（Monte Carlo method）實(shí)驗(yàn)研究的基礎(chǔ)上提出了遠(yuǎn)程CAT 閱讀測量模式的文本屬性參數(shù)法，亦稱之為文本難度參數(shù)法。文本難度參數(shù)法的應(yīng)用，不僅能夠充分發(fā)揮和挖掘CAT 測量模式的各種優(yōu)勢，克服智能選題參數(shù)的制約，還可以充分順應(yīng)計算機(jī)自適應(yīng)性語言測試發(fā)展的歷史趨勢。文本難度參數(shù)法的實(shí)現(xiàn)包括題庫參數(shù)的完善和測試過程的邏輯設(shè)計兩個階段。

（一）題庫結(jié)構(gòu)與參數(shù)體系

所謂文本難度參數(shù)法（readability parameter approach），是為了解決傳統(tǒng)CAT 閱讀理解測驗(yàn)題目選擇過程中存在的操作矛盾，采用文本難度參數(shù)作為考生語言能力的適應(yīng)性選題標(biāo)準(zhǔn)，實(shí)現(xiàn)對考生語言水平的遠(yuǎn)程測量。文本難度參數(shù)法，也稱之為多階段法或文本路徑漫游法[26]，即在CAT 測驗(yàn)系統(tǒng)的智能選題中不是以測驗(yàn)題目的屬性參數(shù)（a、b和c）為標(biāo)準(zhǔn)，而是以整篇閱讀材料的難度參數(shù)為標(biāo)準(zhǔn)進(jìn)行文本的邏輯選擇。系統(tǒng)根據(jù)對被試閱讀能力的初步估計結(jié)果一旦選擇一篇閱讀材料，那么考生將在閱讀該文章的基礎(chǔ)上必須回答基于該文本編制的所有測驗(yàn)題目，無論其中的個別測驗(yàn)題目的難度是否完全與考生的能力水平相匹配。同時，系統(tǒng)在對被試的閱讀能力（θ）進(jìn)行估計時則仍然以測驗(yàn)項(xiàng)目的難度、區(qū)分度等項(xiàng)目屬性參數(shù)為基礎(chǔ)進(jìn)行統(tǒng)計分析[27][28]。一方面可以有效地避免不同能力水平的考生雖然所回答的題目不同，但又必須閱讀同一篇閱讀材料的矛盾，另一方面還可以充分利用每個測驗(yàn)題目的參數(shù)信息對被試的閱讀水平進(jìn)行準(zhǔn)確的估計，從而充分發(fā)揮和實(shí)現(xiàn)遠(yuǎn)程CAT考試的潛在優(yōu)勢。

實(shí)現(xiàn)文本難度參數(shù)法的前提是必須對題庫的參數(shù)系統(tǒng)進(jìn)行更新和完善，即在題庫建設(shè)階段，除了估計傳統(tǒng)的項(xiàng)目參數(shù)之外，還必須借助計量語言學(xué)（computational linguistics）的方法對每篇閱讀材料的難度或易讀度參數(shù)（readability，用參數(shù)R 表示）進(jìn)行估計，同時由命題專家對文章的題材（topic，用參數(shù)T 表示）和體裁（genre，用參數(shù)G 表示）等屬性進(jìn)行人工標(biāo)注[29]。這樣題庫的參數(shù)體系除了包括一般項(xiàng)目特征維度以外，又額外增加了一組文章屬性和難度描述參數(shù)（如圖4）。其中文章屬性參數(shù)包括參數(shù)R、參數(shù)T 和參數(shù)G。這三個參數(shù)主要反映的是文章本身的難度和其他屬性，并且可以用做控制智能選題的邏輯路徑（logical routines）。而題目屬性參數(shù)則是由測量模型針對每個題目進(jìn)行估計所得到的難度、區(qū)分度和猜測度等參數(shù)，這些參數(shù)描述的對象是具體的測驗(yàn)題目而不是整篇文章，它們主要用于對被試的綜合閱讀水平進(jìn)行精確的估計[30][31]。

圖4 CAT閱讀測試題庫參數(shù)系統(tǒng)結(jié)構(gòu)

（二）遠(yuǎn)程CAT閱讀測試的邏輯過程

基于文本難度參數(shù)法實(shí)現(xiàn)遠(yuǎn)程CAT 閱讀理解測試的基本原理是：考試的自適應(yīng)性智能選題的單位是以整篇閱讀材料為基礎(chǔ)，文本選擇的標(biāo)準(zhǔn)是閱讀材料的屬性參數(shù)，其中主要是參數(shù)R。同時，為了避免同一個考生在閱讀過程中重復(fù)閱讀難度不同但題材和體裁相同的文章，在文章選擇過程中還要參照參數(shù)T和參數(shù)G 作為文章選擇的二級和三級控制變量，從而保證考生閱讀的文章不僅在難度方面具有較高的適應(yīng)性，而且還可以有效地平衡文章題材和體裁的呈現(xiàn)頻率。文章選擇過程完成后，考生的閱讀能力值（θ）則完全是根據(jù)與文章相關(guān)的測驗(yàn)題目的參數(shù)進(jìn)行估計（如圖5）。具體的測驗(yàn)過程包括初測和正式測量兩個核心階段。

圖5 基于文本難度參數(shù)的CAT閱讀測驗(yàn)過程

1.初測階段

初測階段也稱之為摸底測試階段，主要是對所有被試的閱讀水平進(jìn)行一個粗略的估計，以便判斷正式考試階段應(yīng)該為每個考生提供的閱讀材料的難度水平。因此考生在摸底階段的表現(xiàn)一般不計入考生最終的評價結(jié)果中。在初測階段，CAT 系統(tǒng)將根據(jù)文本的難度參數(shù)值為所有的考生隨機(jī)呈現(xiàn)一篇中等難度（以R 的平均值為依據(jù)）的閱讀文章及其與該文章相關(guān)的j 個測驗(yàn)題目（S1-Sj），考生閱讀完該文章和完成測驗(yàn)題目后，系統(tǒng)立即根據(jù)題庫中的題目屬性參數(shù)（item attribute parameters）對被試的閱讀水平（θ）進(jìn)行估計，同時參照每個考生在初測階段的表現(xiàn)水平再決定正式考試階段將要閱讀的文本難度。

2.正式測量階段

如果考生在初測階段的表現(xiàn)水平較高，那么系統(tǒng)將采用隨機(jī)抽樣或分層隨機(jī)抽樣的方法，從題庫中選擇一篇比初測階段閱讀的文章更難的閱讀材料讓考生閱讀；反之，如果考生在初測階段的表現(xiàn)水平較低，那么系統(tǒng)就繼續(xù)選擇一篇比初測階段更簡單的文章讓考生閱讀。只要考生完成針對當(dāng)前文本材料的閱讀過程并提交選擇答案后，系統(tǒng)將對考生的閱讀能力值進(jìn)行即時估計，并判斷測驗(yàn)是否滿足結(jié)束的標(biāo)準(zhǔn)。如果測驗(yàn)的信息函數(shù)值（test information function）達(dá)到了事先設(shè)定的誤差控制要求，那么測驗(yàn)即告結(jié)束。系統(tǒng)將估計考生的最終閱讀能力值和信度指標(biāo)，然后進(jìn)行分?jǐn)?shù)處理和轉(zhuǎn)換，最后繼續(xù)進(jìn)行其他部分的測驗(yàn)。如果測驗(yàn)尚未達(dá)到結(jié)束的標(biāo)準(zhǔn)，那么系統(tǒng)將按照上述邏輯過程為考生提供適當(dāng)難度的閱讀文章和題目繼續(xù)測試，如此不斷循環(huán)直到考試滿足結(jié)束的條件。

文本難度參數(shù)模型在遠(yuǎn)程CAT 閱讀理解測驗(yàn)中的精髓在于：測試過程采用文本屬性參數(shù)（passage attribute parameters）和題目屬性參數(shù)分別滿足自適應(yīng)性考試的文章選擇和能力估計的測量要求，可以有效避免閱讀材料和測驗(yàn)題目之間的邏輯脫節(jié)現(xiàn)象。這種測驗(yàn)?zāi)Ｊ?，不但充分發(fā)揮了閱讀材料難度的語言學(xué)評價優(yōu)勢，避免了命題過程中引入的命題者構(gòu)想無關(guān)變異（construct-irrelevant variance）因素對測驗(yàn)構(gòu)想效度的潛在威脅[32]，而且還可以借助先進(jìn)的計算機(jī)科學(xué)和信息技術(shù)將現(xiàn)代教育測量理論的自適應(yīng)性優(yōu)勢發(fā)揮，從而為考生提供更準(zhǔn)確和更富有針對性、個性化的測驗(yàn)服務(wù)。

五、結(jié)束語

以當(dāng)代信息技術(shù)和項(xiàng)目反應(yīng)理論為基礎(chǔ)的遠(yuǎn)程計算機(jī)自適應(yīng)性（CAT）漢語水平考試（HSK）是未來發(fā)展的必然趨勢，不少傳統(tǒng)的分離式（discrete）測驗(yàn)題目盡管在測量效率和遠(yuǎn)程CAT 的實(shí)現(xiàn)方面具有一定的優(yōu)勢，但是現(xiàn)代語言測試更追求對被試語言能力的綜合性評價，這種傳統(tǒng)的測驗(yàn)方法已經(jīng)越來越難以適應(yīng)語言測試的效度要求。因此，要全面實(shí)現(xiàn)HSK 的遠(yuǎn)程CAT 測量模式，必須首先解決閱讀理解測驗(yàn)等綜合性測驗(yàn)內(nèi)容的題目選擇問題。本文介紹的文本難度參數(shù)法，不僅可以解決閱讀材料的選擇單位問題，還可以充分利用測驗(yàn)題目的微觀信息（題目屬性參數(shù)）實(shí)現(xiàn)對被試閱讀能力的準(zhǔn)確估計。當(dāng)然，由于這種測量模式是基于英語考試的最新研究成果之一，國外針對英語閱讀材料的難度參數(shù)的計算機(jī)自動估計技術(shù)已經(jīng)相對比較成熟，而漢語閱讀文本難度的自動估計在準(zhǔn)確性方面尚存在一定差距，因此，為了穩(wěn)妥、積極地開發(fā)、推廣和普及遠(yuǎn)程自適應(yīng)性漢語水平考試（HSK），我們有必要結(jié)合漢語自身的特點(diǎn)，首先對漢語文本難度的計算機(jī)自動估計手段進(jìn)行探索，然后采用文本難度參數(shù)法，在局部實(shí)驗(yàn)的基礎(chǔ)上逐步實(shí)現(xiàn)HSK考試的完全遠(yuǎn)程自適應(yīng)性測量模式。

[1]Jamieson J.Trends in computer-based second language assessment[J].Annual Review of Applied Linguistics,2005,(25):228-242.

[2][22]Fulcher G.Practical Language Testing[M].London:Hodder Education,2010.

[3]Sawaki Y.,Stricker L.,&Oranje A.Factor structure of the TOEFL Internet-based Test(iBT):Exploration in a field trial sample[R].Educational Testing Service.TOEFL Research Report:08-09.Revised November 2,2008,from Http://www.ets.org/Media Research/pdf/RR-08-09.pdf.

[4]唐進(jìn).計算機(jī)化語言測試題庫與CET4 的對比實(shí)驗(yàn)研究[J].外國語言文學(xué)，2011，（1）：32—37.

[5]Ockey G J.Developments and Challenges in the Use of Computer-Based Testing for Assessing Second Language Ability [J].The Modern Language,2009,(93):836-847.

[6][20]Chalhoub-Deville M &Deville C.Computer adaptive testing in second language contexts [J].Annual Review of Applied linguistics,1999.(19):273-299.

[7][27][29]Chalhoub-Deville M.Issues in Computer-adaptive Testing of Reading Proficiency [M].Cambridge:Cambridge University Press,1999.

[8][18]蔡旻君，劉仁云.計算機(jī)輔助教育測量與評價[M].北京：中國水電出版社，2010.

[9]李建珍.教育傳播理論在信息化自主學(xué)習(xí)中的運(yùn)用[J].電化教育研究，2006，（7）：30-33.

[10]Rover C.Web-based language testing [J].Language Learning &Technology,2010,5(2):84-94.

[11]Sawaki Y.Comparability of conventional and computerized tests of reading in a second language [J].Language Learning &Technology,2001,(2):38-59.

[12][26]楊建原，柏檜，趙守盈.計算機(jī)自適應(yīng)性測驗(yàn)開發(fā)的程序研究[J].中國考試，2012，（3）：3-7.

[13][19]簡小珠，張敏強(qiáng)，彭春妹.計算機(jī)自適應(yīng)性測驗(yàn)的測試流程與測試技術(shù)[J].教育測量與評價，2011，（12）：9—14.

[14][32]Alderson J C.Assessing Reading [M].Cambridge:Cambridge University Press,2000.

[15][25][30]Yang M.Computer-Adaptive Testing of ESL Reading Proficiency[J].Read and Write Periodical,2011,(3):10-11.

[16]熊春明，吳瑞.紙筆測驗(yàn)和計算機(jī)自適應(yīng)測驗(yàn)的比較研究[J].計算機(jī)與現(xiàn)代化，2006，（9）：28-35.

[17]Douglas D &Hegelheimer V.Assessing language using computer technology[J].Annual Review of Applied Linguistics,2007,27:115-132.

[23][24][28][3]Luecht R M,Brumfield T,Breithaupt K.A testlet assembly design for adaptive multistage tests [J].Applied Measurement in Education,2006,19(3):189-202.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看