廣東省北京師范大學(xué)(珠海)附屬高級(jí)中學(xué)(519080)黃嘉鵬
在任何一場(chǎng)大型考試中,對(duì)試題質(zhì)量的科學(xué)分析評(píng)價(jià),是對(duì)考試結(jié)果有效性的重要檢驗(yàn),更是指導(dǎo)后續(xù)教學(xué)的重要參照物.目前較為盛行的評(píng)價(jià)理論,主要有經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論.
經(jīng)典測(cè)驗(yàn)理論(Classical Test Theory)的理論架構(gòu)簡(jiǎn)單,采用的計(jì)算公式淺顯,在歷史上為心理測(cè)量學(xué)的發(fā)展做出過(guò)巨大貢獻(xiàn),也是目前測(cè)驗(yàn)學(xué)界使用較為廣泛的理論依據(jù).但它卻有著許多先天的不足之處:(1)觀察分?jǐn)?shù)等權(quán)重累計(jì)的不合理性:(2)對(duì)被試的評(píng)價(jià)與對(duì)試題的評(píng)價(jià)相互依賴; (3)被試能力與試題難度的非統(tǒng)一性;(4)測(cè)量誤差估計(jì)的不精確性和籠統(tǒng)性.[1,2]
項(xiàng)目反應(yīng)理論(Item Response Theory)正是為了改進(jìn)經(jīng)典測(cè)量理論的這些先天不足而出現(xiàn)的.相比經(jīng)典測(cè)量理論,它具有如下的優(yōu)點(diǎn):(1)試題參數(shù)和被試能力參數(shù)的不變性;(2)被試能力和試題難度的統(tǒng)一性;(3)對(duì)試題測(cè)量誤差估計(jì)的精確性.由于項(xiàng)目反應(yīng)理論具有上述優(yōu)點(diǎn),我們可以通過(guò)它獲得較準(zhǔn)確的被試能力參數(shù)和試題參數(shù),判斷試題是否合理,完成鑒別學(xué)生的能力差異等評(píng)價(jià)工作.[1,2]
基于項(xiàng)目反應(yīng)理論,我們認(rèn)為在一次考試中,學(xué)生的潛在能力與學(xué)生的作答結(jié)果之間存在一種關(guān)系,這種關(guān)系可以用一條單調(diào)遞增的S 型連續(xù)函數(shù)來(lái)近似模擬.我們把被試能力值作為自變量,把被試答對(duì)試題的概率作為因變量,那么由不同能力的考生答對(duì)題目概率的關(guān)系散點(diǎn)擬合得到的曲線,就稱為試題特征曲線.
在單參數(shù)和雙參數(shù)Logistic 模型中,試題特征曲線的拐點(diǎn)(同時(shí)也是曲線的中心),就是縱坐標(biāo)為0.5 的點(diǎn).
項(xiàng)目反應(yīng)理論認(rèn)為,試題的難度是試題本身所具有的一種特性,與被試樣本無(wú)關(guān).難度參數(shù)b的取值就是試題特征曲線拐點(diǎn)處的自變量的值.換句話說(shuō),在單參數(shù)和雙參數(shù)Logistic 模型中,能力值等于試題難度的考生答對(duì)該題的概率為0.5,能力值高于試題難度的考生答對(duì)的概率高于0.5,反之則低于0.5.
難度參數(shù)b 值越大表示試題越困難,b 值越小表示試題越簡(jiǎn)單.
異于經(jīng)典測(cè)量理論,項(xiàng)目反應(yīng)理論中的區(qū)分度參數(shù)a 表示的是試題特征曲線拐點(diǎn)處切線的斜率.區(qū)分度參數(shù)a值越大,表示該試題對(duì)于能力在試題難度附近的考生的區(qū)分作用越大,反之則作用越小.
我們需要特別注意的是,項(xiàng)目反應(yīng)理論中的區(qū)分度,主要是相對(duì)于能力落在拐點(diǎn)附近的考生而言,而不是針對(duì)整個(gè)的被試群體而言.
試題特征曲線的下漸近線y=c中的常數(shù)c稱為偽機(jī)遇參數(shù),它反映的是能力低下的考生答對(duì)該試題的概率.值得一提的是,偽機(jī)遇參數(shù)并不是考生隨機(jī)作答的正答概率.偽機(jī)遇參數(shù)對(duì)所有被試的正答率會(huì)有所影響,但它對(duì)能力水平高的考生影響非常小,而對(duì)能力水平低的考生影響卻非常大.
上文中提及的單參數(shù)Logistic 模型,指的是僅包含難度參數(shù)b的模型.而雙參數(shù)和三參數(shù)模型,分別指的是包含參數(shù)a、b的模型和包含參數(shù)a、b、c的模型.
項(xiàng)目反應(yīng)理論提出了一個(gè)用于描述試題與診斷試題的依據(jù),那就是試題信息函數(shù).某個(gè)試題的信息函數(shù)能展現(xiàn)出該試題對(duì)被試能力估計(jì)的有效性有多大,從而判斷試題對(duì)于整個(gè)考試的貢獻(xiàn)有多大.
整份試卷所有試題的信息函數(shù)累加得到的結(jié)果,稱為總信息函數(shù).
課堂小測(cè)主要用于對(duì)學(xué)生某項(xiàng)知識(shí)或能力的檢查或訓(xùn)練,隨堂檢驗(yàn)學(xué)生理解掌握的情況和學(xué)習(xí)狀態(tài).這種考試無(wú)需具備選拔和區(qū)分的能力,所以對(duì)區(qū)分度參數(shù)的要求極低.而從加強(qiáng)學(xué)生雙基和增強(qiáng)學(xué)生學(xué)習(xí)興趣方面入手的話,應(yīng)選擇難度系數(shù)適中或偏低的題目組成試題.此類小型考試的試題評(píng)價(jià),主要依賴于難度參數(shù)和試題內(nèi)容,對(duì)其他參數(shù)信息的要求較低.
這是多見(jiàn)于學(xué)生完成了某一階段的完整學(xué)習(xí),并在教師的指導(dǎo)下進(jìn)行了系統(tǒng)復(fù)習(xí)之后的一種考試,如單元考試、期中期末考試.這種考試主要目的在于檢驗(yàn)學(xué)生學(xué)習(xí)成果和教師教學(xué)效果,并根據(jù)考試結(jié)果進(jìn)行學(xué)習(xí)和教學(xué)策略的調(diào)整.此類試卷的試題編制過(guò)程中,我們需要挑選各種不同難度的題目以適應(yīng)能力水平不同的全體學(xué)生,并注意試題的典型性和區(qū)分度.其試題評(píng)價(jià)主要依賴于試題特征曲線、難度參數(shù)、區(qū)分度參數(shù)和試題信息函數(shù).
此類考試的目的是為了檢驗(yàn)考生是否達(dá)到了某個(gè)預(yù)先設(shè)定的標(biāo)準(zhǔn).這種標(biāo)準(zhǔn)包括了內(nèi)容標(biāo)準(zhǔn)(學(xué)生是否掌握了所需的知識(shí)或能力)和分?jǐn)?shù)標(biāo)準(zhǔn)(通過(guò)分?jǐn)?shù)來(lái)說(shuō)明學(xué)生掌握所需的知識(shí)或能力的比例,進(jìn)而評(píng)價(jià)是否達(dá)標(biāo)).內(nèi)容標(biāo)準(zhǔn)關(guān)心的是題目本身是否覆蓋了所要考查的知識(shí)或能力;分?jǐn)?shù)標(biāo)準(zhǔn)則是要求試題具有足夠的代表性,然后用一個(gè)劃界分?jǐn)?shù)作為標(biāo)準(zhǔn)來(lái)體現(xiàn)學(xué)生的學(xué)習(xí)能力和掌握情況.
為了讓考試結(jié)果更好地反映考生的水平,提高劃界分?jǐn)?shù)對(duì)考生水平的正確判斷率,我們需要盡量降低測(cè)量誤差.羅照盛老師在《項(xiàng)目反應(yīng)理論基礎(chǔ)》一書中指出,這類試題的命制要使得各部分內(nèi)容之間的試題參數(shù)指標(biāo)分布接近,同一部分內(nèi)容之間的難度分布均勻,區(qū)分度指標(biāo)不低于0.3,考試的總信息函數(shù)的圖像是單峰的,并在劃界分?jǐn)?shù)附近取得峰值.[1]按照這個(gè)標(biāo)準(zhǔn),我們編制試題時(shí),需要在各部分考查內(nèi)容中,精心挑選具有適合的難度和高區(qū)分度的題目,同時(shí)還要求其試題信息函數(shù)在劃界分?jǐn)?shù)附近取得最大值.而此類考試的試題評(píng)價(jià),也主要依賴于難度參數(shù)、區(qū)分度參數(shù)、試題信息函數(shù)和總信息函數(shù).
選拔性考試的主要目的在于選拔,也就是要把能力水平不同的考生準(zhǔn)確地區(qū)分出來(lái),找出他們?cè)谌后w中的相對(duì)排位.根據(jù)選拔性考試的目的,試卷應(yīng)該能夠使得能力水平不同的學(xué)生的得分是不一樣的.那么,這些試題應(yīng)該具有較好的代表性,且在全部能力范圍內(nèi)具有較高區(qū)分能力.為了實(shí)現(xiàn)這種效果,考試的總信息函數(shù)圖像必須是呈高原狀的.[1]
按照這個(gè)思路,我們編制此類試題時(shí),需要先設(shè)定總信息函數(shù),然后精心選取多種不同難度且區(qū)分度較高的題目,并使得各個(gè)試題信息函數(shù)的和可以盡量填滿設(shè)定的總信息函數(shù)以下的位置,且沒(méi)有突兀的高點(diǎn),最后對(duì)試題再進(jìn)行優(yōu)化組合.這類考試的試題評(píng)價(jià),對(duì)試題各種信息參數(shù)的要求都比較高,尤其是區(qū)分度參數(shù)和試題信息函數(shù).
學(xué)科競(jìng)賽類的考試是為了優(yōu)中選優(yōu),篩選出知識(shí)掌握程度最佳、能力水平最高的一批考生.這種考試的試題難度較大,且應(yīng)該不能被學(xué)生輕易猜中答案.所以,較佳的難度參數(shù)和盡可能低的偽機(jī)遇參數(shù)是我們挑選試題的重要參照指標(biāo),當(dāng)然也是我們?cè)u(píng)價(jià)試題的重要指標(biāo).
在本節(jié)中,我們將以珠海市期末全市統(tǒng)考的理科數(shù)學(xué)A卷試題為例,基于項(xiàng)目反應(yīng)理論,運(yùn)用軟件PARSCALE4.1,使用Logistic 三參數(shù)模型,對(duì)試題進(jìn)行分析評(píng)價(jià).
本次考試共有3591 位學(xué)生參加,由于數(shù)據(jù)量不是特別大,所以我們不進(jìn)行抽樣,而是直接對(duì)試題和全體考生的作答結(jié)果進(jìn)行分析.
本次統(tǒng)考試卷中,客觀題(單選題和填空題)共18 道,占90 分;主觀題(解答題)共5 道,占60 分.
本次考試作為期末統(tǒng)考,屬于階段性考試,目的是為了對(duì)教學(xué)質(zhì)量進(jìn)行檢驗(yàn),試題的理想狀態(tài)應(yīng)該是在能力全距上均有較高信息量.
從圖1中可以看到,試題的總信息函數(shù)呈雙峰狀,在能力水平區(qū)間[-2,2] 之間均有較大信息量; 整套試題的總信息量在能力水平中等偏下的-1.1 處和能力水平中等偏上的1.3 處分別取得9.76 和11.38 的兩個(gè)信息量峰值,這兩處標(biāo)準(zhǔn)誤最小,分別為0.103 和0.074;信息量最少的地方出現(xiàn)在能力水平為3 的地方,此處信息量?jī)H有0.71,標(biāo)準(zhǔn)誤最大,達(dá)到1.18.
整體而言,整份試題用于鑒別不同能力水平的學(xué)生是比較有效的,尤其對(duì)鑒別中等能力水平附近的學(xué)生所起的作用更加明顯.唯一美中不足的就是比較欠缺高質(zhì)量的難題,這可能會(huì)使得最優(yōu)秀的那部分學(xué)生得不到區(qū)分.
圖1 試題信息量、標(biāo)準(zhǔn)誤和考生能力參數(shù)之間的關(guān)系
下邊我們將分別使用二元計(jì)分和部分計(jì)分模型對(duì)客觀題和主觀題進(jìn)行微觀分析.
①客觀題部分
表1 客觀題試題參數(shù)信息
18 道客觀題的參數(shù)信息如表1所示.試題難度跨度較大,但高質(zhì)量的難題較少;大部分題目的區(qū)分度較高,提供的信息量較豐富;但也有少量題目不盡如意.
其中,最優(yōu)質(zhì)的題目有第18、10、5、4、15 題.以第18 題為例(圖2),該題的信息函數(shù)提供信息量最大,試題特征曲線形態(tài)良好;區(qū)分度達(dá)到了0.995,可以很好地區(qū)分不同能力水平的學(xué)生;難度為0.877,適合中等偏上水平的學(xué)生.如果考慮建立題庫(kù),那么這種題目就是較佳的選擇.
較差的題目有第14、1 題.以第14 題(圖3)為例,該題的試題特征曲線整體偏高且平緩,區(qū)分度較小,難度很低;試題信息函數(shù)幾乎與x軸平行,提供的信息量非常低.這種題目不適宜加入通過(guò)性考試、選拔性考試和學(xué)科競(jìng)賽類的試題庫(kù),應(yīng)作為課堂小測(cè)或是階段性考試的送分題.
圖2 第18 題的試題特征曲線和試題信息函數(shù)
圖3 第14 題的試題特征曲線和試題信息函數(shù)
②主觀題部分
表2 主觀題參數(shù)信息
5 道主觀題的參數(shù)信息如表2所示.主觀題難度相比客觀題較大,整體提供信息量遠(yuǎn)大于客觀題.
其中第19、22、23 非常優(yōu)質(zhì).以第23 題(圖4)為例,不同能力水平的學(xué)生對(duì)應(yīng)不同分值的特征曲線差異非常明顯;信息函數(shù)在較大范圍內(nèi)均能提供較多的信息量,尤其對(duì)鑒別中等偏上水平的學(xué)生作用非常明顯.我們建議在建立題庫(kù)的過(guò)程中保留此題目.
第20 題(圖5)較不理想.試題不同分值的特征曲線均比較平緩,也就是說(shuō)不同能力的學(xué)生獲得各種分?jǐn)?shù)的可能性比較隨機(jī);試題整體提供的信息量也不足.建立題庫(kù)的過(guò)程中,建議刪除此題.
圖4 第23 題的試題特征曲線和試題信息函數(shù)
圖5 第20 題的試題特征曲線和試題信息函數(shù)
當(dāng)今社會(huì),升學(xué)、招聘、行業(yè)準(zhǔn)入等都需要考試.社會(huì)對(duì)考試的需求正日益增長(zhǎng),對(duì)考試質(zhì)量的要求也在不斷提高.在這樣的時(shí)代浪潮下,項(xiàng)目反應(yīng)理論展現(xiàn)出了勃勃生機(jī):
大規(guī)模的高質(zhì)量的題庫(kù)是高質(zhì)量考試所必備的.可以想象,在具備合適的人力、管理和時(shí)間成本的情況下,我們可以運(yùn)用項(xiàng)目反應(yīng)理論,通過(guò)大量考試試題的參數(shù)信息進(jìn)行分析評(píng)價(jià),并對(duì)其進(jìn)行等值化,隨后進(jìn)行結(jié)構(gòu)分類,建立題庫(kù).題庫(kù)建成后,它除了能夠更好指導(dǎo)我們命制高質(zhì)量的試題,還將極大地節(jié)省命題組織成本和專家成本,同時(shí)保障考試的公平性和安全性.而計(jì)算機(jī)化測(cè)試的蓬勃發(fā)展,更將使題庫(kù)的安全性、公正性、公平性和組織便利性得到質(zhì)的提高.[1,4]
計(jì)算機(jī)化自適應(yīng)考試(Computerized Adaptive Testing),又叫量身定制式測(cè)試(Tailored Testing),指的是根據(jù)測(cè)量學(xué)理論編寫計(jì)算機(jī)程序,在考生答完一道題之后,根據(jù)考生的作答情況重新估計(jì)考生能力,再根據(jù)特定的選題原則選擇最匹配的題目繼續(xù)測(cè)驗(yàn),直到達(dá)到終止規(guī)則為止.[4,6]項(xiàng)目反應(yīng)理論中,對(duì)考生能力和對(duì)試題參數(shù)的估計(jì),是計(jì)算機(jī)化自適應(yīng)考試的理論基礎(chǔ)之一.
認(rèn)知診斷理論是上世紀(jì)開始興起的一種新的測(cè)驗(yàn)理論,它關(guān)注的是考生的作答反應(yīng)和其內(nèi)部的認(rèn)知結(jié)構(gòu)特征之間的關(guān)系.[7]根據(jù)認(rèn)知診斷理論,考生相同的得分并不意味著相同的學(xué)習(xí)水平,所以評(píng)價(jià)考生的能力和教師的教學(xué)效果應(yīng)該根據(jù)考生作答的具體結(jié)果而不僅僅是分?jǐn)?shù).教師可以根據(jù)考生作答結(jié)果的不同,識(shí)別考生知識(shí)結(jié)構(gòu)和解題策略,進(jìn)行教學(xué)反思并改進(jìn)教學(xué)實(shí)踐.項(xiàng)目反應(yīng)理論對(duì)認(rèn)知診斷的發(fā)展有著很多應(yīng)用,主要分為在構(gòu)建認(rèn)知診斷分類方法上和構(gòu)建新的認(rèn)知診斷模型上的應(yīng)用.[4]
運(yùn)用項(xiàng)目反應(yīng)理論對(duì)各種考試進(jìn)行分析評(píng)價(jià),具有傳統(tǒng)理論所不具備的優(yōu)越性,但其理論較為艱深,數(shù)據(jù)計(jì)算也比較繁雜.所幸的是,現(xiàn)在已經(jīng)有了諸如BILOGMG,PARSCALE 等軟件,我們只需要學(xué)習(xí)一下基本的操作,就可以對(duì)數(shù)據(jù)進(jìn)行分析解讀,這為項(xiàng)目反應(yīng)理論的普及和推廣帶來(lái)了很大的便利.教育者們可以利用它們得到試題的參數(shù)信息和考生的能力信息,以便于指導(dǎo)教育教學(xué)實(shí)踐和試題命制評(píng)價(jià),還可以把一些優(yōu)質(zhì)的試題項(xiàng)目進(jìn)行積累,為未來(lái)大規(guī)模題庫(kù)的建設(shè)等打下基礎(chǔ).