劉慶思 關丹丹
計算機自適應序列測試(Computer-Adaptive Sequential Testing,CAST)是一種在計算機自適應測試(CAT)基礎上開發(fā)出的計算機化測試形式,幾乎繼承了CAT所有的優(yōu)點,同時還有獨到之處,已經(jīng)成為計算機輔助測試發(fā)展的方向(關丹丹&劉慶思,2010)。注意跟蹤考試技術發(fā)展的全國英語等級考試(Public English Tests System,PETS)在此領域進行了探索,并開發(fā)出了相應的考試系統(tǒng),稱為PETS-CAST(關丹丹,劉慶思,莫春暉,2011)。
PETS-CAST采用的是1-2-5-5框架,每個控制板由13個模塊構成,組成13條路徑(見圖1,最初的設計不包含通過虛線箭頭所能到達的路徑)。PETS-CAST將對考生在英語語言知識掌握方面和聽、讀方面的能力進行考查,采用的題型為較適合自適應測試需要的選擇題。首先,任一考生將需要解答來自PETS-3級的完形填空題。作為本測試系統(tǒng)中的中等難度試題,該部分內(nèi)容有著雙重考查功能,一是確定考生的大致能力層次,以為其選取相應難度的后續(xù)試題;二是考查本級別考生對語言知識的掌握情況。鑒于PETS各級別試題難度跨度較大,一、二級別的考生會覺得該完形填空題過難,而四、五級別的考生則會覺得過易,因此,難以用這篇完形填空考查出這幾個能力層次考生對語言知識的掌握情況,所以在第二階段為這些考生設計了難度較為恰當?shù)耐晷翁羁疹}。處于三級能力范圍內(nèi)的考生,將直接得到PETS三級聽力試題。測試系統(tǒng)會對考生解答每一階段試題的情況進行分析,估算出其大致的語言能力,然后據(jù)此為其投放相應難度(級別)的下一階段的試題??忌淖鞔鸱磻M態(tài)為0/1二元計分方式,考生的能力估計采用極大似然估計法,作答完閱讀理解模塊后施測終止。
為了檢驗PETS-CAST測試系統(tǒng)的性能,研究者從理論和實踐兩方面探討CAST測試的可行性和測試效果。模擬研究顯示(關丹丹,劉慶思,莫春暉,2011;關丹丹 & 劉慶思,2013)PETS-CAST測試所設計的路徑能夠滿足不同能力水平考生的要求,一次測試能夠對考生英語水平所達到的級別(五個級別)進行準確的判斷,各條路徑的測量精度均能夠達到適應性考試的要求。為了確保PETS-CAST測試的效度,除了模擬研究外,實證研究是必不可少的。談到效度的概念時,《心理與教育測量標準》指出,“效度指證據(jù)和理論支持從測驗分數(shù)得出推斷的程度”(p.9);“效度研究(validation)就是搜集證據(jù)來科學合理地論證測驗的解釋是否恰當。按照現(xiàn)代效度理論觀,研究者需要從整個考試過程的各個環(huán)節(jié)來闡述效度概念。為了檢驗PETS-CAST的效度,根據(jù)全國英語等級考試的考生群體分布,研究者選擇有代表性的學生群體參加PETS-CAST考試,從多個角度搜集效度證據(jù)。具體包括:了解學生的計算機操作水平,采用實證方式獲得PETS-CAST的多項信度和效度指標,調(diào)查學生對PETS計算機呈現(xiàn)形式和輔助工具的意見。測試系統(tǒng)的效度研究,有助于為該測試形式的完善和正式推出提供依據(jù)。
考慮到PETS各級別目標學生的英語語言能力,研究者選擇了兩個考試群體作為考試樣本,一個是普通中學的高二學生,主要用于測試PETS低級別;另一個是大學英語系學生,主要測試PETS高級別。為了便于考試實施,利于考試效度研究,該研究采取整群抽樣方法。
北京某中學高二的全體學生共423人參加了PETS-CAST考試;男生179人,占42.3%;女生244人,占57.7%。北京某高校英語系大一(75人)、大二(140人)和大三(126人)共 341人參加了PETS-CAST考試;男生24人,占7%;女生317人,占93%。大部分學生熟悉計算機操作,65.72%的高二學生經(jīng)常(一周一次以上)使用計算機,93.26%的大學生經(jīng)常使用計算機;高中從未使用過計算機的為16人(3.78%),大學從未使用過計算機的有2人(0.59%)。88.74%的學生對自己計算機熟練程度的自我評定為一般或較好,其中高二學生中認為自己計算機操作水平為一般(67.14%)和較好(19.39%)的占總人數(shù)的86.52%,大學生認為自己計算機操作水平為一般(66.57%)和較好(24.93%)的占總人數(shù)的91.50%。因此,大部分學生都具備了一定的計算機操作技能,達到了作答PETS-CAST考試的基本要求。
為了驗證PETS-CAST的可靠性,大學英語系學生在參加完第一次PETS-CAST考試(使用控制板1)一個月后,再次參加了PETS-CAST考試(使用控制板2)。兩次考試中,構成考試控制板的模塊的數(shù)量、試題量,以及模塊的難度等均是平行的,即為兩套等價、可替換的考試控制板。
為了驗證PETS-CAST的效度,研究者搜集了各學生群體最近一次的英語統(tǒng)一模擬考試成績,作為效標。
考試結束后,通過在線問卷調(diào)查的形式從四個方面調(diào)查了學生對本次PETS-CAST考試的感受與意見,分別是:對答題演示、指導語和作答方式的滿意情況,對試題難度的感知情況,對計算機自適應考試優(yōu)點的認同情況,對計算機自適應考試缺點的認同情況。
表1顯示的是抽樣學生在各路徑的人數(shù)分布。
表1 學生在各路徑的人數(shù)分布
高中作答人數(shù)較多的路徑是3222、3-32和3-33這三個路徑,占高中學生總人數(shù)的61.47%,為低級別學生設計的各條路徑均有學生分布(3232、3233、3234、3432、3433、3434這六條路徑試測時尚未開啟);從路徑來看,大部分高二學生的英語水平應介于PETS-2級和PETS-3級之間。大學生作答人數(shù)分布較多的路徑是3434、3444、3445和3455,占總人數(shù)的84.76%,各高級別路徑均有學生分布;從路徑來看,大學英語系學生的英語水平應介于PETS-4級和PETS-5級之間。另外,3434這條臨時開啟的輔助路徑考試人數(shù)最多,這說明增加輔助路徑的決策是正確的,對于某個水平的學生而言,輔助路徑可能恰恰是測量這部分學生的最佳路徑。據(jù)此,最終確定了PETS-CAST系統(tǒng)測試框架(見圖1,包含通過虛線箭頭所能到達的路徑)。
學生作答結束后,根據(jù)學生在各部分的作答情況采用極大似然法估計學生能力值,同時,參照PETS各級別合格標準,對學生英語水平所屬級別進行判斷(見表2)。
表2 PETS-CAST對學生合格與否的判斷情況
69.27%的高二學生達到PETS二級合格水平,達到一級合格和三級合格水平的學生分別占高二學生的14.89%和14.18%;57.48%的大學英語專業(yè)學生達到PETS四級合格水平,31.09%達到五級合格水平。
高二男生和女生英語水平對比見圖2。女生達到PETS二級合格和三級合格的總百分比(91.80%)要遠高于男生(72.07%)。
大一、大二、大三3個年級學生的英語水平對比見圖3。大二和大三學生在PETS三級和四級合格率上相差不明顯,大一學生的五級合格率(14.67%)要遠遠低于大二學生(34.29%)和大三學生(37.30%)的合格率。
圖1 PETS-CAST系統(tǒng)測試框架
圖2 PETS-CAST考試高二男、女學生各級別合格率
由于PETS-CAST采用的是項目反應理論模型,反映測量信度的指標是估計的標準誤。高二學生和大學英語系學生的具體測量精度分別見表3和表4。對于不同的群體,測量標準誤均小于0.20,顯示該考試具有非常高的測量精度。
圖3 PETS-CAST考試大學一、二、三年級學生各級別合格率
表3 高二學生在PETS-CAST上的測量精度
表4 大學英語系學生在PETS-CAST上的測量精度
重測的有效樣本為223人。計算兩次考試對學生能力估計值的相關,即為大學英語系學生在PETS-CAST上的重測信度。PETS-CAST的復本重測信度為0.785。其中,大一學生的重測信度為0.746,大二學生的重測信度為0.815,大三學生的重測信度為0.713。PETS-CAST覆蓋的學生英語水平跨度較大,而考試中受各種條件的限制僅選取高級別學生作為試測對象,使得群體的同質性較強,這一樣本選取方法無疑會低估PETS-CAST的重測信度。
高二學生在PETS-CAST上的成績與最近一次模擬考試成績的相關為0.557,男生的相關系數(shù)為0.523,女生的相關系數(shù)為0.439。大學英語系學生在PETS-CAST上的成績與最近一次模擬考試成績的相關具體為:大一學生的相關系數(shù)為0.438,大二英文專業(yè)學生的相關系數(shù)為0.619,大二英教專業(yè)學生的相關系數(shù)為0.556,大三英文專業(yè)學生的相關系數(shù)為0.520,大三英教專業(yè)學生的相關系數(shù)為0.444。
上述相關系數(shù)的大小介于0.40~0.65,屬于中等程度相關。經(jīng)檢驗,均具有統(tǒng)計學意義(P<0.01),即學生在PETS-CAST上的成績與最近一次模擬考試成績具有顯著相關。對于高二學生而言,男生在PETS-CAST上的成績與最近一次模擬考試成績的相關系數(shù)要明顯高于女生的相關系數(shù);對于大學英語系學生而言,大二學生在PETS-CAST上的成績與最近一次模擬考試成績的相關系數(shù)要高于大一、大三學生的相關系數(shù)。雖然總體上選擇了兩個英語水平相差比較大的群體,但在計算效標關聯(lián)效度時卻需對若干群體分別計算,即仍然是同質性比較強的群體,這無疑也會低估PETS-CAST的效標關聯(lián)效度。
另需加以說明的是,作為效標的模擬考試與PETS-CAST考試的考試性質、構想等均有較大差別,這也是造成兩者相關不夠高的原因。
毫無疑問,計算機熟練程度會影響學生在PETS-CAST上的成績。將高二學生和大學英語系學生中計算機操作水平自評為較差的(高二刪除52人,大學刪除29人)刪除后,再次計算其他學生在PETS-CAST上的成績與最近一次模擬考試成績的相關。高二學生在PETS-CAST上的成績與最近一次模擬考試成績的相關無論是總體(0.588)上,還是分男生(0.553)、女生(0.474)不同群體,均有一定程度的提高;大學英語系學生則表現(xiàn)為英文專業(yè)(大一為0.495,大二為0.633,大三為0.577)均有提高,而英教專業(yè)(大二為0.533,大三為0.436)略有下降。對于大學英語系學生而言,計算機水平較差的人數(shù)非常少(29人),具體到各年級和各專業(yè)刪除掉的學生更少,如英教大二和英教大三各刪除3人,所以英教專業(yè)相關系數(shù)的下降幅度可以忽略。
總體上看,校正后的相關系數(shù)提高,表明計算機操作水平對學生在PETS-CAST的成績有一定影響。
3.6.1 對考試形式和優(yōu)缺點的評價
絕大部分學生都“同意”或“基本同意”“考前答題演示對答題有幫助”(92.41%)、“各部分指導語清楚,容易理解”(96.86%),以及“各部分試題呈現(xiàn)和答題方式合適”(95.55%)。
學生對計算機化英語考試的優(yōu)點滿意程度非常高,大部分學生都認同計算機自適應考試的各項優(yōu)點,具體包括:形式新穎(92.80%),界面舒服(85.99%),無須書寫、涂卡(96.47%),聽力聲音大小可調(diào)(94.50%),提供標記等輔助工具(92.67%),顯示剩余時間提醒(93.98%)和有漏答提醒(97.77%)。同時,他們認為,相比于紙筆考試,計算機自適應考試形式也有很多不易適應之處,具體包括:“長時間盯著計算機屏幕”(86.39%)、“不能答題前瀏覽全卷”(88.35%)以及“不能自由選擇作答的順序”(87.57%)。這些缺點對計算機自適應考試而言難以克服。
另外,考試過程中,研究者記錄了學生使用標記等輔助工具的情況,對試題題號做標記的頻率為人均0.92次,對試題內(nèi)容做標記的頻率是人均1.04次。對標記等輔助工具使用的頻率總體上非常低。這表明學生對計算機呈現(xiàn)的英語考試還不太適應,不能有效地利用計算機提供的輔助工具做標記。
3.6.2 學生對PETS-CAST的難度感知(見表5)
表5 學生對PETS-CAST難度的感知
表6 學生對PETS紙筆考試和計算機考試的偏好
總體看來,超過60%的學生認為試題難度適中;但具體到兩個群體,差別較大。高二學生近半數(shù)認為試題較難,原因是:其一,PETS考試與學校里常見的英語水平考試在設計理念、題型上等有所不同,學生不適應;其二,PETS-CAST針對某些能力較強學生拋出的試題較他們熟悉的高考題難度增加,而導致他們明顯感到試題較難。這兩點在最后的開放性意見與建議中,均得到印證,許多英語水平好的學生都在“其他意見與建議”中指出試題較難。
68.85%的學生認為不同階段的試題在難度上有一些差別,76.70%的學生感覺“有些不會答、有些會答”,這兩個問題的調(diào)查結果可互為印證,符合自適應考試的特點。
3.6.3 學生對英語采用紙筆考試和計算機自適應考試的偏好
關于學生對紙筆考試和計算機自適應考試的感受見表6。
總體看來,學生關于“計算機打字速度與手寫速度哪個更快”的選擇,“計算機”(49.61%)比“手寫”(34.42%)稍多;認為“計算機上對試題做標記有影響”的比率(45.94%)比沒影響的(33.51%)稍多;認為“在屏幕上閱讀長篇材料需要滾動,影響作答”的比率(44.24%)與沒影響的(44.76%)持平;但喜歡“參加紙筆考試”的比率(59.16%)遠遠高于計算機的(26.83%)。
大學英語系學生對計算機考試的喜好程度大大低于高二學生,喜歡參加紙筆英語考試的竟占到80.35%;高二學生對紙筆考試(42.08%)和計算機考試(41.61%)的選擇基本持平,沒有明顯偏好(見圖4)。
圖4 高二學生和大學生對紙筆考試和計算機考試的偏好選擇
該研究所選取的被試為高二學生和大學英語系學生。高二學生是PETS低級別考試的目標考試對象,而大學英語系學生則是PETS高級別考試的目標考試對象,關于他們英語水平的級別判斷也符合研究者對學生能力分布的預期。
大部分學生具備計算機操作的基本能力,僅少數(shù)學生尚未接觸過計算機,可能導致對其英語成績的測量產(chǎn)生一定誤差。高二學生的英語水平基本上呈正態(tài)分布,大部分處于PETS二級合格水平,其次是一級合格和三級合格水平;大學英語系學生大部分處于PETS四級和五級合格水平。從能力分布看,所選被試廣泛地分布于PETS的各個級別,具有一定的代表性。
從測量標準誤來看,PETS-CAST的信度非常好,能夠對學生的英語水平進行比較準確的測量;從PETS-CAST成績與最近一次統(tǒng)考成績的相關來看,相關顯著但相關系數(shù)并不高。這一方面與效標的選擇有關,校方提供的最近一次統(tǒng)考成績都是由學校老師自命的非標準化測驗,無論是測量目標、測驗構想、測驗質量都與PETS考試不同。另一方面,計算機考試形式以及被試對計算機的熟練程度等會對考試成績帶來一定影響,如,女生的相關系數(shù)值明顯低于男生,可能是女生對計算機不夠熟練而受作答方式的影響較大;另一例證是,排除了計算機操作水平較差的學生后,效標關聯(lián)效度有所提高。
就學生對PETS-CAST中工具的使用以及考試感受進行的調(diào)查顯示,學生對考試系統(tǒng)所提供的輔助工具使用不足,這與學生不熟悉計算機形式的英語考試、缺乏經(jīng)驗等有關。學生對計算機自適應考試的優(yōu)點非常認同,對其缺點也有同感,這與其他計算機自適應考試研究得出的結果類似??傮w上看,高二學生對于計算機自適應考試和紙筆考試的選擇沒有明顯偏好,但大學英語系學生則對計算機考試的缺點反應更加強烈,更傾向于選擇紙筆考試。
綜上所述,計算機自適應英語考試的效度研究,證實了PETS-CAST系統(tǒng)的考試效果,展現(xiàn)了CAST考試的優(yōu)越性;研究結果為該考試形式的完善指明了方向。由于本研究中考試對象的代表性不夠,試測樣本未能覆蓋PETS各級別的目標學生;另外,還需對兩種考試成績的可比性等進行更為深入的研究。所以,PETS-CAST考試目前只能作為英語學習者或者PETS考生的自我考試或練習工具,尚難以取代現(xiàn)有的各級別紙筆考試。
[1]關丹丹,劉慶思.計算機自適應序列考試概述[J].中國考試,2010(1):29-35.
[2]關丹丹,劉慶思,莫春暉.PETS計算機自適應序列測試設計與模擬研究[J].心理學探新,2011,31(5):467-471.
[3]關丹丹,劉慶思.兩種PETS計算機自適應序列測試框架比較研究[J].中國考試,2013(1):16-22.
[4]AERA,APA,&NCME.Standardsfor Educational and Psychological Testing.Washington,D.C.:AERA,1999:1-174.