基于項(xiàng)目反應(yīng)理論的自適應(yīng)考試系統(tǒng)設(shè)計(jì)

2013-10-22 03:23:02呂嵐

陜西理工大學(xué)學(xué)報(自然科學(xué)版) 2013年2期

呂嵐

(陜西鐵路工程職業(yè)技術(shù)學(xué)院機(jī)電工程系，陜西渭南 714000)

1 計(jì)算機(jī)自適應(yīng)考試的背景及意義

隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展，將計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)應(yīng)用于教育已經(jīng)成為一種趨勢?；赪eb的在線考試是教育研究的一項(xiàng)重要組成，在線考試取代傳統(tǒng)考試，教師從出卷、考試、閱卷、登記成績、分析考試結(jié)果等大量的重復(fù)勞動中解放出來，降低了人為因素對考試結(jié)果的影響。

傳統(tǒng)考試在實(shí)踐過程中已經(jīng)暴露出很多的缺點(diǎn)及不足，如未考慮到考生的個體差異性，如果試題難度太高，對一些中等或水平低的考生，容易通過猜題獲取答案;而對于水平高的考生，如果測驗(yàn)的試題太簡單，則難以準(zhǔn)確地測試其真實(shí)水平，影響考試的公正性、公平性和有效性，也容易打擊學(xué)生的學(xué)習(xí)積極性、不易培養(yǎng)學(xué)生主觀能動學(xué)習(xí)，因此，探索一種新的考試形式對現(xiàn)代教育教學(xué)有著積極的意義。計(jì)算機(jī)化自適應(yīng)考試(Computerized Adaptive Test，CAT)建構(gòu)在20世紀(jì)50年代發(fā)展起來的現(xiàn)代測驗(yàn)理論——項(xiàng)目反應(yīng)理論(Item Response Theory，IRT)的基礎(chǔ)之上，同時也是近年來將計(jì)算機(jī)技術(shù)應(yīng)用于教育測量學(xué)并取得重大進(jìn)展的考試方法[1]。在自適應(yīng)考試中，每個考生首先會通過一組基本測試項(xiàng)目確定其所對應(yīng)的能力水平，然后測驗(yàn)系統(tǒng)會選擇一組最適合于考生個體特質(zhì)水平的項(xiàng)目對其進(jìn)行測驗(yàn)，使測試結(jié)果能最大限度地真實(shí)、客觀反映被測試者的能力水平。自適應(yīng)考試和傳統(tǒng)考試相比，其測驗(yàn)時間可大大縮短，做到因人施測，可以解決傳統(tǒng)考試中存在的諸多問題。

2 項(xiàng)目反應(yīng)理論介紹

2.1 項(xiàng)目反應(yīng)理論概念

項(xiàng)目反應(yīng)理論[2]也稱潛在特質(zhì)理論或潛在特質(zhì)模型，是一種現(xiàn)代心理測量理論。Hambleton和Swami Nathan對項(xiàng)目反應(yīng)理論作了如下定義[3]:在測驗(yàn)情景中，通過定義被測試者的特征，即特質(zhì)或能力，估計(jì)被測試者在這些特質(zhì)上的得分(稱作能力值)，并運(yùn)用這些分?jǐn)?shù)預(yù)測或解釋項(xiàng)目以及答題情況，來解釋和預(yù)測被測試者的作答。

2.2 項(xiàng)目反應(yīng)理論模型

IRT模型按照項(xiàng)目特征曲線的數(shù)學(xué)形式以及項(xiàng)目反應(yīng)的評分方式分為三類:二元評分IRT模型、多級評分IRT模型、連續(xù)評分IRT模型[4]，如表1所示。

表1 IRT模型分類表

在IRT中應(yīng)用最廣泛的是二元評分模型中的Logistic系列模型，分別是單參數(shù)Logistic模型(One-Parameter Logistic Module，1PL)、雙參數(shù) Logistic 模型(Two-Parameter Logistic Module，2PL)、三參數(shù) Logistic 模型(Three-Parameter Logistic Module，3PL)，模型公式如下[5]:

單參數(shù)模型

雙參數(shù)模型

三參數(shù)模型

其中:i=1，2，3，…，n;θ表示考生的能力水平;Pi(θ)表示能力水平為θ的考生答對試題i的概率;D=1.7表示量表因子;ai代表示試題i的區(qū)分度;bi表示試題i的難度;ci表示試題i的猜測參數(shù)。僅當(dāng)猜測參數(shù)ci=0時，即為雙參數(shù)邏輯斯蒂模型[6];當(dāng)ci=0且ai=1時，即為單參數(shù)邏輯斯蒂模型。

3 自適應(yīng)考試系統(tǒng)的設(shè)計(jì)

3.1 系統(tǒng)功能模塊

本系統(tǒng)可以分為用戶管理模塊、試題庫管理模塊、考試管理模塊。系統(tǒng)功能如圖1所示。

這些模塊可以實(shí)現(xiàn)下列功能:

(1)用戶管理模塊:實(shí)現(xiàn)教師信息管理、學(xué)生信息管理、用戶權(quán)限管理。教師信息管理對教師信息進(jìn)行查詢、添加、刪除、修改;學(xué)生信息管理對學(xué)生信息進(jìn)行查詢，設(shè)置學(xué)生所在系部、專業(yè)和班級信息;用戶權(quán)限管理實(shí)現(xiàn)對教師、學(xué)生權(quán)限進(jìn)行設(shè)置，實(shí)現(xiàn)數(shù)據(jù)備份、還原，系統(tǒng)配置等操作。

(2)試題庫管理模塊:實(shí)現(xiàn)瀏覽、查詢試題，設(shè)置題干、答案、項(xiàng)目參數(shù)等屬性，試題的錄入、更新、刪除操作，試題項(xiàng)目、知識點(diǎn)統(tǒng)計(jì)及分析。

圖1 系統(tǒng)功能模塊圖

(3)考試管理模塊:從不同課程，各種題型在知識點(diǎn)、數(shù)量、難度等方面對某份試卷生成組卷規(guī)則，按照項(xiàng)目反應(yīng)理論逐步生成考題;學(xué)生正確登錄系統(tǒng)、完成考試、順利提交試卷;自動完成抽題、能力估計(jì)及自動終止考試，能夠自動評分;對題庫進(jìn)行導(dǎo)入/導(dǎo)出操作、查詢科目知識點(diǎn)及題庫相關(guān)信息;查看考生的考試成績，進(jìn)行成績統(tǒng)計(jì)，分析知識點(diǎn)及項(xiàng)目的相關(guān)信息，包括考試人數(shù)、最高分、最低分、平均分以及各分?jǐn)?shù)段得分人數(shù)等，對信息進(jìn)行維護(hù)。

3.2 UML 建模

在本系統(tǒng)中，使用UML建模對考試系統(tǒng)進(jìn)行了分析。根據(jù)功能需求，本系統(tǒng)共設(shè)計(jì)出14個類，能實(shí)現(xiàn)系統(tǒng)的所有信息管理及相關(guān)操作。CUserGroup類(用戶分組類)、CUser類(用戶管理及操作類)、CGroupRight類(用戶權(quán)限管理類)、CSubject類(科目管理及操作類)、CStyle類(試題分類及管理類)、Subject-Styles類(科目與試題題型關(guān)聯(lián)類)、CAnswer類(試題答案及管理類)、CSubjectiveQuestion類(主觀試題題目及管理類)CObjectiveQuestion類(客觀試題題目及管理類)、CTestingTopic類(記錄正在測試試題信息及管理類)、CProjectList類(對考生所有測試過的項(xiàng)目進(jìn)行管理)、CStudent類(考生信息及狀態(tài)管理類)、CMessagebox類(實(shí)現(xiàn)信息顯示類)、CTimer類(計(jì)時與定時管理類)。系統(tǒng)中的類圖如圖2所示。

3.3 系統(tǒng)開發(fā)關(guān)鍵技術(shù)

3.3.1 能力值初始化

本系統(tǒng)在自適應(yīng)考試的測驗(yàn)開始采用的方法是:如果考生參加過測驗(yàn)，則根據(jù)歷史記錄確定考生的初始能力值，以此為依據(jù)，選擇測驗(yàn)的起始題目;對于沒有參加過測驗(yàn)的考生，本系統(tǒng)選擇一道中等難度的試題開始測試，根據(jù)測量理論，如果考生所測試的項(xiàng)目難度恰好為該考生答對概率為0.5左右，那么該項(xiàng)目對考生的測量精度最大[7]。

3.3.2 選題策略

本系統(tǒng)對最大信息量選題法進(jìn)行改進(jìn)，按a值遞增，同時考慮被測項(xiàng)目的均衡性，算法如下:

(1)根據(jù)a值大小將題庫分為k層，第一層具有最小a值，第k層的題目(項(xiàng)目)具有最大a值;

(2)將自適應(yīng)考試分為m個階段;

(3)第n階段時在第y層題庫中選ny項(xiàng)目，1≤n≤m，1≤y≤k;求取所選項(xiàng)目的信息函數(shù)及能力估計(jì)值;并對ny項(xiàng)目的章節(jié)進(jìn)行標(biāo)記計(jì)數(shù)，設(shè)為參數(shù)值z;

(4)計(jì)算y+1層下所有項(xiàng)目的信息函數(shù)值，選取最大信息量對應(yīng)項(xiàng)目，并計(jì)算新的;若選取的項(xiàng)目參數(shù)標(biāo)記z出現(xiàn)的次數(shù)超過2次，則選取第二大的信息量的項(xiàng)目，可以確保抽題不會總集中在某一個章節(jié)上，降低了試題曝光率;

(5)重復(fù)(4)，對n=1，2，…，m;直到m值達(dá)到考試的長度，終止考試。

3.3.3 終止條件

首先設(shè)定最大允許測試長度，如果在最大測試項(xiàng)目長度內(nèi)，滿足了信息量控制法就結(jié)束測試，否則在達(dá)到最大允許項(xiàng)目長度時結(jié)束測試。

圖2 系統(tǒng)類圖

4 總結(jié)與展望

本系統(tǒng)可以使試題管理者不斷改善測試項(xiàng)目，教師可以根據(jù)測試結(jié)果更好地運(yùn)用于教學(xué)，學(xué)生則可以對所學(xué)知識有一個較全面的認(rèn)識，對學(xué)習(xí)活動適當(dāng)?shù)恼{(diào)整，提高學(xué)習(xí)效率。

當(dāng)然，本系統(tǒng)還有很多需要完善之處:

(1)試題庫中項(xiàng)目參數(shù)的確定:建立一個科學(xué)、合理的試題庫必須要對測試項(xiàng)目的參數(shù)a，b，c進(jìn)行較準(zhǔn)確的估計(jì)，同時也要考慮試題章節(jié)分布的合理和全面，本系統(tǒng)中試題參數(shù)的設(shè)置由于受樣本等因素限制，還沒有找到一個精確估計(jì)項(xiàng)目參數(shù)的方法。

(2)選題策略:選題策略是CAT中最核心的問題，目前對自適應(yīng)考試系統(tǒng)也研究出了很多選題策略，但這些策略在實(shí)際應(yīng)用中也出現(xiàn)了一些缺陷，如過度依賴高區(qū)分度的試題或某種特定的數(shù)學(xué)模型，導(dǎo)致不能客觀地對被測試者能力值進(jìn)行估計(jì)。因此要深入研究選題策略，對其不斷改進(jìn)。

(3)CAT安全設(shè)置:在CAT應(yīng)用中出現(xiàn)過盜題現(xiàn)象，如何有效防止惡意盜題行為，提高系統(tǒng)的安全性，也是CAT研究的熱點(diǎn)。

在CAT測驗(yàn)發(fā)展過程中提出了多種測驗(yàn)安全控制方法，主要有:①SH條件概率法及其變式;②項(xiàng)目合格方法;③多重最大曝光率法;④a分層法及其變式。由于本系統(tǒng)選題策略使用的是a分層最大信息量選題法，所以對題庫曝光率的控制則采用a分層法及其變式來解決。主要思路是每一個測試項(xiàng)目有一個章節(jié)參數(shù)，當(dāng)在ki層選取了一道測試項(xiàng)目np后，在ki+1層根據(jù)新的能力估計(jì)值選擇難度b和它最接近的題目nq，如果nq和np同屬一個章節(jié)，則另外選擇一個難度次接近并且和np不在同一章節(jié)的題目。通過這種方法，既保持了a分層最大信息量選題法的優(yōu)勢，也很好的解決了試題曝光率的問題。

隨著CAT越來越廣泛的應(yīng)用和研究的不斷深入，上述問題會逐步解決。

[1]唐寧玉.三種心理側(cè)量理論的信度觀[J].心理科學(xué)，1994(1):33-34.

[2]顧海根.心理與教育測量[M].北京:北京大學(xué)出版社，2008:73.

[3]巫華芳.基于.NET的計(jì)算機(jī)化自適應(yīng)測驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].上海:華東師范大學(xué)，2009.

[4]余嘉元.項(xiàng)目反應(yīng)理論及其應(yīng)用[M].南京:江蘇教育出版社，1992.

[5]薛榮.從經(jīng)典測量理論到項(xiàng)目反應(yīng)理論:談?wù)Z音測試的兩種數(shù)學(xué)模型[J].外語研究，2007(4):60-64.

[6]Chang Qian Z.A-stratified multistage CAT with b-blocking Applied Psychological Measurement[J].Advanced Learning echnologies，2003(6):333-341.

[7]Wang Feng-hsu .Application of Componential IRT Model for Diagnostic Test in a standard Conformant Learning System[J].Advanced Learning Technologies，2006(4):237-241.