呂 嵐
(陜西鐵路工程職業(yè)技術(shù)學(xué)院機(jī)電工程系,陜西 渭南 714000)
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,將計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)應(yīng)用于教育已經(jīng)成為一種趨勢?;赪eb的在線考試是教育研究的一項(xiàng)重要組成,在線考試取代傳統(tǒng)考試,教師從出卷、考試、閱卷、登記成績、分析考試結(jié)果等大量的重復(fù)勞動中解放出來,降低了人為因素對考試結(jié)果的影響。
傳統(tǒng)考試在實(shí)踐過程中已經(jīng)暴露出很多的缺點(diǎn)及不足,如未考慮到考生的個體差異性,如果試題難度太高,對一些中等或水平低的考生,容易通過猜題獲取答案;而對于水平高的考生,如果測驗(yàn)的試題太簡單,則難以準(zhǔn)確地測試其真實(shí)水平,影響考試的公正性、公平性和有效性,也容易打擊學(xué)生的學(xué)習(xí)積極性、不易培養(yǎng)學(xué)生主觀能動學(xué)習(xí),因此,探索一種新的考試形式對現(xiàn)代教育教學(xué)有著積極的意義。計(jì)算機(jī)化自適應(yīng)考試(Computerized Adaptive Test,CAT)建構(gòu)在20世紀(jì)50年代發(fā)展起來的現(xiàn)代測驗(yàn)理論——項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)的基礎(chǔ)之上,同時也是近年來將計(jì)算機(jī)技術(shù)應(yīng)用于教育測量學(xué)并取得重大進(jìn)展的考試方法[1]。在自適應(yīng)考試中,每個考生首先會通過一組基本測試項(xiàng)目確定其所對應(yīng)的能力水平,然后測驗(yàn)系統(tǒng)會選擇一組最適合于考生個體特質(zhì)水平的項(xiàng)目對其進(jìn)行測驗(yàn),使測試結(jié)果能最大限度地真實(shí)、客觀反映被測試者的能力水平。自適應(yīng)考試和傳統(tǒng)考試相比,其測驗(yàn)時間可大大縮短,做到因人施測,可以解決傳統(tǒng)考試中存在的諸多問題。
項(xiàng)目反應(yīng)理論[2]也稱潛在特質(zhì)理論或潛在特質(zhì)模型,是一種現(xiàn)代心理測量理論。Hambleton和Swami Nathan對項(xiàng)目反應(yīng)理論作了如下定義[3]:在測驗(yàn)情景中,通過定義被測試者的特征,即特質(zhì)或能力,估計(jì)被測試者在這些特質(zhì)上的得分(稱作能力值),并運(yùn)用這些分?jǐn)?shù)預(yù)測或解釋項(xiàng)目以及答題情況,來解釋和預(yù)測被測試者的作答。
IRT模型按照項(xiàng)目特征曲線的數(shù)學(xué)形式以及項(xiàng)目反應(yīng)的評分方式分為三類:二元評分IRT模型、多級評分IRT模型、連續(xù)評分IRT模型[4],如表1所示。
表1 IRT模型分類表
在IRT中應(yīng)用最廣泛的是二元評分模型中的Logistic系列模型,分別是單參數(shù)Logistic模型(One-Parameter Logistic Module,1PL)、雙參數(shù) Logistic 模型(Two-Parameter Logistic Module,2PL)、三參數(shù) Logistic 模型(Three-Parameter Logistic Module,3PL),模型公式如下[5]:
單參數(shù)模型
雙參數(shù)模型
三參數(shù)模型
其中:i=1,2,3,…,n;θ表示考生的能力水平;Pi(θ)表示能力水平為θ的考生答對試題i的概率;D=1.7表示量表因子;ai代表示試題i的區(qū)分度;bi表示試題i的難度;ci表示試題i的猜測參數(shù)。僅當(dāng)猜測參數(shù)ci=0時,即為雙參數(shù)邏輯斯蒂模型[6];當(dāng)ci=0且ai=1時,即為單參數(shù)邏輯斯蒂模型。
本系統(tǒng)可以分為用戶管理模塊、試題庫管理模塊、考試管理模塊。系統(tǒng)功能如圖1所示。
這些模塊可以實(shí)現(xiàn)下列功能:
(1)用戶管理模塊:實(shí)現(xiàn)教師信息管理、學(xué)生信息管理、用戶權(quán)限管理。教師信息管理對教師信息進(jìn)行查詢、添加、刪除、修改;學(xué)生信息管理對學(xué)生信息進(jìn)行查詢,設(shè)置學(xué)生所在系部、專業(yè)和班級信息;用戶權(quán)限管理實(shí)現(xiàn)對教師、學(xué)生權(quán)限進(jìn)行設(shè)置,實(shí)現(xiàn)數(shù)據(jù)備份、還原,系統(tǒng)配置等操作。
(2)試題庫管理模塊:實(shí)現(xiàn)瀏覽、查詢試題,設(shè)置題干、答案、項(xiàng)目參數(shù)等屬性,試題的錄入、更新、刪除操作,試題項(xiàng)目、知識點(diǎn)統(tǒng)計(jì)及分析。
圖1 系統(tǒng)功能模塊圖
(3)考試管理模塊:從不同課程,各種題型在知識點(diǎn)、數(shù)量、難度等方面對某份試卷生成組卷規(guī)則,按照項(xiàng)目反應(yīng)理論逐步生成考題;學(xué)生正確登錄系統(tǒng)、完成考試、順利提交試卷;自動完成抽題、能力估計(jì)及自動終止考試,能夠自動評分;對題庫進(jìn)行導(dǎo)入/導(dǎo)出操作、查詢科目知識點(diǎn)及題庫相關(guān)信息;查看考生的考試成績,進(jìn)行成績統(tǒng)計(jì),分析知識點(diǎn)及項(xiàng)目的相關(guān)信息,包括考試人數(shù)、最高分、最低分、平均分以及各分?jǐn)?shù)段得分人數(shù)等,對信息進(jìn)行維護(hù)。
在本系統(tǒng)中,使用UML建模對考試系統(tǒng)進(jìn)行了分析。根據(jù)功能需求,本系統(tǒng)共設(shè)計(jì)出14個類,能實(shí)現(xiàn)系統(tǒng)的所有信息管理及相關(guān)操作。CUserGroup類(用戶分組類)、CUser類(用戶管理及操作類)、CGroupRight類(用戶權(quán)限管理類)、CSubject類(科目管理及操作類)、CStyle類(試題分類及管理類)、Subject-Styles類(科目與試題題型關(guān)聯(lián)類)、CAnswer類(試題答案及管理類)、CSubjectiveQuestion類(主觀試題題目及管理類)CObjectiveQuestion類(客觀試題題目及管理類)、CTestingTopic類(記錄正在測試試題信息及管理類)、CProjectList類(對考生所有測試過的項(xiàng)目進(jìn)行管理)、CStudent類(考生信息及狀態(tài)管理類)、CMessagebox類(實(shí)現(xiàn)信息顯示類)、CTimer類(計(jì)時與定時管理類)。系統(tǒng)中的類圖如圖2所示。
3.3.1 能力值初始化
本系統(tǒng)在自適應(yīng)考試的測驗(yàn)開始采用的方法是:如果考生參加過測驗(yàn),則根據(jù)歷史記錄確定考生的初始能力值,以此為依據(jù),選擇測驗(yàn)的起始題目;對于沒有參加過測驗(yàn)的考生,本系統(tǒng)選擇一道中等難度的試題開始測試,根據(jù)測量理論,如果考生所測試的項(xiàng)目難度恰好為該考生答對概率為0.5左右,那么該項(xiàng)目對考生的測量精度最大[7]。
3.3.2 選題策略
本系統(tǒng)對最大信息量選題法進(jìn)行改進(jìn),按a值遞增,同時考慮被測項(xiàng)目的均衡性,算法如下:
(1)根據(jù)a值大小將題庫分為k層,第一層具有最小a值,第k層的題目(項(xiàng)目)具有最大a值;
(2)將自適應(yīng)考試分為m個階段;
(3)第n階段時在第y層題庫中選ny項(xiàng)目,1≤n≤m,1≤y≤k;求取所選項(xiàng)目的信息函數(shù)及能力估計(jì)值;并對ny項(xiàng)目的章節(jié)進(jìn)行標(biāo)記計(jì)數(shù),設(shè)為參數(shù)值z;
(4)計(jì)算y+1層下所有項(xiàng)目的信息函數(shù)值,選取最大信息量對應(yīng)項(xiàng)目,并計(jì)算新的;若選取的項(xiàng)目參數(shù)標(biāo)記z出現(xiàn)的次數(shù)超過2次,則選取第二大的信息量的項(xiàng)目,可以確保抽題不會總集中在某一個章節(jié)上,降低了試題曝光率;
(5)重復(fù)(4),對n=1,2,…,m;直到m值達(dá)到考試的長度,終止考試。
3.3.3 終止條件
首先設(shè)定最大允許測試長度,如果在最大測試項(xiàng)目長度內(nèi),滿足了信息量控制法就結(jié)束測試,否則在達(dá)到最大允許項(xiàng)目長度時結(jié)束測試。
圖2 系統(tǒng)類圖
本系統(tǒng)可以使試題管理者不斷改善測試項(xiàng)目,教師可以根據(jù)測試結(jié)果更好地運(yùn)用于教學(xué),學(xué)生則可以對所學(xué)知識有一個較全面的認(rèn)識,對學(xué)習(xí)活動適當(dāng)?shù)恼{(diào)整,提高學(xué)習(xí)效率。
當(dāng)然,本系統(tǒng)還有很多需要完善之處:
(1)試題庫中項(xiàng)目參數(shù)的確定:建立一個科學(xué)、合理的試題庫必須要對測試項(xiàng)目的參數(shù)a,b,c進(jìn)行較準(zhǔn)確的估計(jì),同時也要考慮試題章節(jié)分布的合理和全面,本系統(tǒng)中試題參數(shù)的設(shè)置由于受樣本等因素限制,還沒有找到一個精確估計(jì)項(xiàng)目參數(shù)的方法。
(2)選題策略:選題策略是CAT中最核心的問題,目前對自適應(yīng)考試系統(tǒng)也研究出了很多選題策略,但這些策略在實(shí)際應(yīng)用中也出現(xiàn)了一些缺陷,如過度依賴高區(qū)分度的試題或某種特定的數(shù)學(xué)模型,導(dǎo)致不能客觀地對被測試者能力值進(jìn)行估計(jì)。因此要深入研究選題策略,對其不斷改進(jìn)。
(3)CAT安全設(shè)置:在CAT應(yīng)用中出現(xiàn)過盜題現(xiàn)象,如何有效防止惡意盜題行為,提高系統(tǒng)的安全性,也是CAT研究的熱點(diǎn)。
在CAT測驗(yàn)發(fā)展過程中提出了多種測驗(yàn)安全控制方法,主要有:①SH條件概率法及其變式;②項(xiàng)目合格方法;③多重最大曝光率法;④a分層法及其變式。由于本系統(tǒng)選題策略使用的是a分層最大信息量選題法,所以對題庫曝光率的控制則采用a分層法及其變式來解決。主要思路是每一個測試項(xiàng)目有一個章節(jié)參數(shù),當(dāng)在ki層選取了一道測試項(xiàng)目np后,在ki+1層根據(jù)新的能力估計(jì)值選擇難度b和它最接近的題目nq,如果nq和np同屬一個章節(jié),則另外選擇一個難度次接近并且和np不在同一章節(jié)的題目。通過這種方法,既保持了a分層最大信息量選題法的優(yōu)勢,也很好的解決了試題曝光率的問題。
隨著CAT越來越廣泛的應(yīng)用和研究的不斷深入,上述問題會逐步解決。
[1]唐寧玉.三種心理側(cè)量理論的信度觀[J].心理科學(xué),1994(1):33-34.
[2]顧海根.心理與教育測量[M].北京:北京大學(xué)出版社,2008:73.
[3]巫華芳.基于.NET的計(jì)算機(jī)化自適應(yīng)測驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].上海:華東師范大學(xué),2009.
[4]余嘉元.項(xiàng)目反應(yīng)理論及其應(yīng)用[M].南京:江蘇教育出版社,1992.
[5]薛榮.從經(jīng)典測量理論到項(xiàng)目反應(yīng)理論:談?wù)Z音測試的兩種數(shù)學(xué)模型[J].外語研究,2007(4):60-64.
[6]Chang Qian Z.A-stratified multistage CAT with b-blocking Applied Psychological Measurement[J].Advanced Learning echnologies,2003(6):333-341.
[7]Wang Feng-hsu .Application of Componential IRT Model for Diagnostic Test in a standard Conformant Learning System[J].Advanced Learning Technologies,2006(4):237-241.