梅松竹,冷 平
(淮北師范大學(xué) a.教育學(xué)院;b.數(shù)學(xué)科學(xué)學(xué)院,安徽 淮北 235000)
教育,是培養(yǎng)人的活動,教育的成效如何需要進(jìn)行評價。評價原指對客體滿足主體需要程度的判斷[1],教育評價則是系統(tǒng)地、有步驟地從數(shù)量或性質(zhì)上描述兒童的學(xué)習(xí)過程與結(jié)果[2],并判斷是否滿足個體發(fā)展和社會發(fā)展需求的程度。教育評價是教育測量的深化和發(fā)展,它屬于價值判斷,強(qiáng)調(diào)科學(xué)性與綜合性,是定量和定性相結(jié)合的活動[3]。教育評價的范圍十分廣泛,幾乎涵蓋了教育的所有因素。近年來,關(guān)于考試的評價逐漸升溫,特別是在“高利害”考試的環(huán)境下,試卷命制的科學(xué)性、合理性和規(guī)范性成為考試相關(guān)利益人評議的焦點(diǎn)。當(dāng)前,試卷評價的理論主要有經(jīng)典真分?jǐn)?shù)理論(Classic True Score Theory,CTT)、概化理論(Generalizability Theory,GT)和項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)。此三種理論源于西方,我國教育界雖然對其進(jìn)行了充分的借鑒和發(fā)展,但仍然存在著“誤用”“濫用”“非用”等亂象,這無疑不利于我國教育評價的健康發(fā)展和教育公平的順利實(shí)施。因此,在教育評價國際化和現(xiàn)代化的背景下,在我國基礎(chǔ)教育改革的當(dāng)口,厘清試卷評價理論的本質(zhì)屬性及其適用范圍,理性選擇恰當(dāng)?shù)脑u價理論,謹(jǐn)防陷入試卷評價的誤區(qū),可謂當(dāng)務(wù)之急、必要之舉。
CTT是歷史上第一個教育與心理測量理論,也是最基礎(chǔ)、最根本的測量理論,GT和IRT是為了克服CTT在信度和效度方面的不足而分別發(fā)展起來的現(xiàn)代測量理論,三者在諸多方面有所不同,比較如下:
CTT的理論基礎(chǔ)是隨機(jī)樣本理論,即隨機(jī)抽取足夠數(shù)量的試題樣本和被試樣本,進(jìn)行測評和統(tǒng)計(jì)分析,它弱化個體間差異,強(qiáng)調(diào)總體表現(xiàn)水平,具有諸多不可避免的缺陷,但是發(fā)展至今仍具有旺盛的生命力,因此堪稱經(jīng)典測量理論。GT從考試的外部和宏觀角度入手,繼續(xù)沿著隨機(jī)樣本理論的思路,關(guān)注考試的外部效度,重點(diǎn)討論測量條件和測量結(jié)論推廣及其應(yīng)用范圍之間的關(guān)系,以及測量誤差及其來源的問題,改變了真分?jǐn)?shù)固定不變,測量誤差只是含混不清的隨機(jī)誤差,測驗(yàn)信度就是計(jì)算相關(guān)系數(shù)等傳統(tǒng)看法[4]。GT將考試看作是對考生進(jìn)行觀測的一般樣本,將試卷看作是一個由無數(shù)試題組成的全域的一個樣本,它只假設(shè)平行試題來自同一全域。GT是一種評價行為測量的可靠性或信度的統(tǒng)計(jì)理論,它擴(kuò)展了真分?jǐn)?shù)理論,但并不包含真分?jǐn)?shù)理論的所有特征。與GT相比,IRT從考試的內(nèi)部或微觀角度入手,放棄隨機(jī)樣本理論的思路,轉(zhuǎn)而關(guān)注考試的內(nèi)部效度,采取數(shù)學(xué)建模和統(tǒng)計(jì)調(diào)整的方法,重點(diǎn)討論考生的能力水平與試題之間的關(guān)系,它將被試對試題的應(yīng)答看作是考生的特征和試題特征的函數(shù),假定被測在某道試題上的表現(xiàn)只依賴于某一潛在特質(zhì)或能力,并且被測在該題上的表現(xiàn)與其測量的特質(zhì)之間是單調(diào)增函數(shù)的關(guān)系[5]。IRT將原始分?jǐn)?shù)轉(zhuǎn)化為能力參數(shù)和難度參數(shù)的做法,是對CTT的一大改進(jìn),克服了樣本依賴性的弊端。由此可見,CTT、GT、IRT的理論基礎(chǔ)各異,但并不具有包含和從屬關(guān)系,GT和IRT只是在某種程度上完善了CTT,滿足了現(xiàn)代教育測量與評價的精度和多樣化的需求。
CTT認(rèn)為測驗(yàn)分?jǐn)?shù)X是由真分?jǐn)?shù)T和隨機(jī)誤差E組合而成。真分?jǐn)?shù),又稱為無誤差分?jǐn)?shù),在概念上它是假設(shè)對同一試卷(或不同試卷)多次重復(fù)測量后得到的平均分,它是一個單獨(dú)的參數(shù),并假定考生的每個觀察分?jǐn)?shù)都可以用來估計(jì)這個參數(shù)。CTT將真分?jǐn)?shù)看作是考生的特征,將隨機(jī)誤差分?jǐn)?shù)看作是考試的特征。GT的焦點(diǎn)不是真分?jǐn)?shù),而是全域分?jǐn)?shù),它將被測稱為測量目標(biāo),將影響和制約測量目標(biāo)的各種因素稱為側(cè)面,如教師側(cè)面、試題側(cè)面,而評分教師和試題則構(gòu)成了相應(yīng)側(cè)面的一個條件,所有這些側(cè)面的總體構(gòu)成可接受的觀察全域,考生在某個側(cè)面或某些側(cè)面的所有條件上的平均得分叫做全域分?jǐn)?shù)。GT研究隨機(jī)側(cè)面和固定側(cè)面,關(guān)注觀測分?jǐn)?shù)在隨機(jī)側(cè)面上可以被概化的水平及其信度。IRT放棄了測驗(yàn)的原始分?jǐn)?shù),將被試對于試題的某種反應(yīng)概率與此題目的特征聯(lián)系起來,進(jìn)而確定考生具有怎樣的能力水平才能夠做出正確的應(yīng)答。IRT用一組數(shù)學(xué)模型來估計(jì)模型參數(shù),如考生的能力(或特質(zhì))參數(shù)、試題難度參數(shù),并將其定義到同一量標(biāo)之上,可以直接進(jìn)行比較。IRT主要是為了獲得試題的特征參數(shù),確定考生具有什么樣的能力水平才能夠?qū)υ囶}做出正確的應(yīng)答,以及試題對什么能力水平的學(xué)生具有良好的區(qū)分能力,進(jìn)而判斷試題是否有質(zhì)量問題。因此,不管是“全域分?jǐn)?shù)”,還是“能力參數(shù)”,都與真分?jǐn)?shù)的概念非常接近,但是它們的計(jì)量單位不同,所具特征也有所差異。
CTT是基于桑代克(E.L.Thorndike)的“凡客觀存在的事物都有其數(shù)量”和麥考(W.A.McCall)的“凡有數(shù)量的東西都可以測量”這一可測性假設(shè)提出的[6]。1950年,古麗科森(Harold Gulliksen)提出了CTT的三個假設(shè),即受測者總體的誤差分?jǐn)?shù)的平均數(shù)為零、受測者總體的真分?jǐn)?shù)與誤差分?jǐn)?shù)的相關(guān)為零、受測者參加的兩次獨(dú)立測驗(yàn)的誤差分?jǐn)?shù)相關(guān)為零[7]。CTT假設(shè)是標(biāo)準(zhǔn)化考試的重要的理論基礎(chǔ)和技術(shù)支柱,是考試公平和評分公正的前提條件,在實(shí)際考試中發(fā)揮著巨大的作用。GT改變了CTT誤差因素的假設(shè),關(guān)注樣本的代表性及概化推測,它有兩個基本假設(shè)——觀察樣本具有代表性、樣本容量足夠大,可以控制抽樣誤差[8]。也就是說,GT假定受測者的特定測量能概化到更廣泛的測量領(lǐng)域中去,不同側(cè)面對概化程度都會產(chǎn)生影響,通過擴(kuò)大樣本容量來減少抽樣時的系統(tǒng)誤差。GT的假設(shè)將不同來源的測量誤差區(qū)別開來,并確定其效應(yīng),研究不同變量對整卷測量效果的影響,這是對CTT假設(shè)的一大改進(jìn)。IRT有三個強(qiáng)假設(shè),即假定考生對于試題的解答只由唯一潛在特質(zhì)或能力來解釋,并且針對在潛在特質(zhì)量表上的某一點(diǎn)的受測者子體而言,對所有試題的應(yīng)答是相互獨(dú)立的,即單維性和局部獨(dú)立性。單維性假定表明決定考生對試題應(yīng)答的能力只有一種,局部獨(dú)立假定表明任何一道試題都不會給另一道試題提供線索。單維性和局部獨(dú)立性不是等價概念,項(xiàng)目獨(dú)立有可能測驗(yàn)是多維的,測驗(yàn)單維項(xiàng)目局部獨(dú)立卻不一定成立。在實(shí)際測量時,單維性和局部獨(dú)立性往往難以滿足,還需要進(jìn)一步驗(yàn)證或修改試題以滿足此假設(shè)。IRT還假定所有試題沒有猜測因素,即試題特征曲線僅反映出被試的應(yīng)答表現(xiàn)與其測量特質(zhì)之間的單調(diào)遞增關(guān)系。
CTT認(rèn)為測量誤差是觀察分?jǐn)?shù)與真分?jǐn)?shù)之間的假設(shè)差別,它是隨機(jī)的和不可預(yù)測的,在概念上不同于系統(tǒng)誤差。系統(tǒng)誤差往往是有規(guī)律的且是可以預(yù)測的,它可能是因?yàn)殡y度不等值的兩套試卷引起。當(dāng)參加測試的兩個群體水平相當(dāng)時,做難度較小的試卷的平均分通常會高于做難度較大的試卷的平均分,而且這種結(jié)果顯而易見,是可以事先預(yù)測到的。測量誤差的來源主要包括三個方面:測量工具、測量目標(biāo)和施測過程。顯然,CTT并不區(qū)分這些誤差來源,而是將它們統(tǒng)一看成籠統(tǒng)的、含糊不清的隨機(jī)誤差,因而估計(jì)的測量誤差總是偏大,誤差分析單位定義太籠統(tǒng),揭示的信息相對較少,獲得的考生群體和考生的真分?jǐn)?shù)誤差較大[9]。GT改變了CTT無視誤差區(qū)別的做法,將誤差分為系統(tǒng)誤差和隨機(jī)誤差,并重點(diǎn)關(guān)注了誤差的來源,包括被試之間水平差異、評分差異、測量內(nèi)容差異、平行測驗(yàn)之間差異、不同施測環(huán)境差異、不同體力狀況差異、初試與復(fù)試的差異以及被試臨場發(fā)揮不當(dāng)?shù)牟町怺10]。GT將不同來源的測量誤差區(qū)別開來,進(jìn)一步評價不同變量對整卷測量效果的影響,所獲得的概化全域的分?jǐn)?shù)較為準(zhǔn)確,為改善測驗(yàn)、提高試卷質(zhì)量提供了大量有用的信息。IRT雖沒有嚴(yán)格區(qū)分誤差來源,但是它從模型本身入手力圖減小不必要的誤差,根據(jù)測驗(yàn)精度和試卷組成的不同,分別設(shè)計(jì)了Rasch模型、logistic模型及其改良形式,并引入難度參數(shù)、區(qū)分度參數(shù)和猜測度參數(shù),采用迭代法計(jì)算參數(shù),再對模型和數(shù)據(jù)的擬合程度進(jìn)行檢驗(yàn)和修正,以減小測量誤差。在IRT中,當(dāng)獲得了能力參數(shù)的極大似然估計(jì)值之后,便可以對被試的能力參數(shù)估計(jì)值的精度進(jìn)行估計(jì),而且考生能力參數(shù)的估計(jì)值的標(biāo)準(zhǔn)誤與試卷長度和質(zhì)量密切相關(guān),試卷越長,或試題區(qū)分度參數(shù)越大,或試題猜測參數(shù)越小,或試題難度參數(shù)與考生實(shí)際能力水平越接近,標(biāo)準(zhǔn)誤都將越小,而且項(xiàng)目反應(yīng)模式還提供了利用信息函數(shù)來評價試題和試卷的質(zhì)量的方法,這與CTT中測量的標(biāo)準(zhǔn)誤差不變是不同的。
在CTT中,由于施測者真正關(guān)心的是真分?jǐn)?shù),而不是觀測分?jǐn)?shù)。因此,如何在二者之間建立一種有效聯(lián)系,就顯得特別重要。由于無法得到真分?jǐn)?shù)和所有可能的觀測分?jǐn)?shù),所以CTT采用平行測驗(yàn)的方法,將兩套平行測驗(yàn)分?jǐn)?shù)之間的關(guān)系定義為信度系數(shù),以此來驗(yàn)證模型的可靠性。此處,平行測驗(yàn)需要滿足兩個條件,即每個受測者在該測驗(yàn)的兩種形式上的真分?jǐn)?shù)相同,兩種形式的誤差方差相等?;谄叫袦y驗(yàn)的定義,可以得到兩套平行測驗(yàn)的觀察分?jǐn)?shù)之間的信度系數(shù)。實(shí)際上,完全平行測驗(yàn)的獲得并非易事。若考慮在不同場合對同一組受測者進(jìn)行同一形式的測試,則還需要判斷場合的變化、被測認(rèn)知水平的變化及記憶的作用對測試的影響,通常用穩(wěn)定系數(shù)來表示這個變化。若考慮在同一場合對相同受測者實(shí)施內(nèi)容相同但形式不同的測試,那么平行試卷的命制就尤為關(guān)鍵,通常用等值系數(shù)來表示平行試卷的關(guān)聯(lián)程度。穩(wěn)定系數(shù)和等值系數(shù)都有可能低估理論上真正平行測驗(yàn)的信度系數(shù)。
類似于經(jīng)典測量理論中的信度系數(shù),GT用概化系數(shù)來刻畫觀察分?jǐn)?shù)與全域分?jǐn)?shù)之間的相關(guān)關(guān)系,以此來判斷測量結(jié)果可以概化到全域分?jǐn)?shù)的程度。定義概化系數(shù)的常用方法是用全域分?jǐn)?shù)方差與觀測分?jǐn)?shù)方差期望值的比值來表示,根據(jù)測試情形的不同,有不同的概化系數(shù)計(jì)算公式,如不同評分者給每個受測者評分,每個受測只有一名評分者的情形下,其概化系數(shù)為σ2p/(σ2p+σ2i+σ2δ)。對于測量的精度,GT使用可靠性指數(shù)?來刻畫,并將其定義為(其中,?p是指考生p的考試結(jié)果被有效概化的可靠性指數(shù),σ2p是考生 p自身的分?jǐn)?shù)變異,σ2Δ則包括了全部的系統(tǒng)誤差和隨機(jī)誤差的變異)。GT用方差分析法來全面估計(jì)出各種方差成分的相對大小,既能估計(jì)出主效應(yīng),也能估計(jì)出交互作用的效應(yīng),并能對各估計(jì)值的大小進(jìn)行直接比較。
相比之下,IRT對考試結(jié)果和模型的擬合性檢驗(yàn)更為全面和細(xì)致,它從模型假設(shè)檢驗(yàn)、模型性質(zhì)檢驗(yàn)和模型預(yù)測能力檢驗(yàn)三個方面進(jìn)行[11]。模型假設(shè)檢驗(yàn)包括單維假定檢驗(yàn)和等區(qū)分度假定檢驗(yàn),前者可采用因素分析法,后者可以計(jì)算各試題與總分的點(diǎn)二列相關(guān)系數(shù)。模型性質(zhì)檢驗(yàn)又包括試題參數(shù)不變性檢驗(yàn)和考生能力參數(shù)不變性檢驗(yàn),前者可以在所有被測中隨機(jī)抽取兩個子群體,分別估計(jì)試題參數(shù),然后檢查其線性相關(guān)程度;后者采用兩組難度不同的試題對同一考生群體施測,估計(jì)兩組能力參數(shù),并檢驗(yàn)其線性相關(guān)程度。模型預(yù)測能力檢驗(yàn)主要采用試題和考試的信息函數(shù)來表示考生能力水平估計(jì)值的測量精度。為了充分驗(yàn)證模型對考生能力水平估計(jì)的精度和可靠性,IRT定義了試題信息函數(shù),根據(jù)試題提供的信息量的大小來判斷試題的優(yōu)劣??忌芰λ脚c試題難度參數(shù)越接近,試題提供的信息量越大;試題區(qū)分度越大,試題提供的信息量越大,但是區(qū)分度很大的試題也只能在一定的能力水平范圍內(nèi)可以提供較大的信息;試題猜測度越小,試題提供的信息量越大,猜測度較大的試題增加了考生正確應(yīng)答的偶然性,基于偶然性的考試結(jié)果所提供的信息就有可能存在較大的偏差。
在CTT中,考生能力參數(shù)嚴(yán)重地依賴于試題樣本,試題難,則得分低,反之則高;試題參數(shù)也嚴(yán)重地依賴于考生樣本,考生的平均水平會影響試題的難度,考生個體的差異程度也會直接影響試題的信度和區(qū)分度水平。CTT對于樣本的依賴性使得抽樣誤差會明顯改變測評的結(jié)果,以及相應(yīng)的統(tǒng)計(jì)論斷和教育決策。GT對于樣本也有一定的依賴性,試題抽樣的代表性以及對于全域的覆蓋程度將直接影響到概化系數(shù)。為此,GT采用擴(kuò)大抽樣樣本容量,減小抽樣誤差的方法來提高整個模型的信度水平。IRT對考生能力水平的估計(jì)與考試采用試題無關(guān),對試題參數(shù)的估計(jì)與考生樣本無關(guān),考生的能力參數(shù)與試題的難度參數(shù)統(tǒng)一到同一量標(biāo)上,可以直接對比,也可以直接估計(jì)考生能力參數(shù)估計(jì)值的精度,這一點(diǎn)是CTT和GT無法比擬的。
CTT自誕生之日起,便得到了廣泛的應(yīng)用,它對心理和教育測量領(lǐng)域的理論和實(shí)踐都產(chǎn)生了巨大的貢獻(xiàn),雖然它有明顯的缺陷,但是仍有不凡的效用,特別是為標(biāo)準(zhǔn)化考試奠定了理論基礎(chǔ),并且這種影響一直持續(xù)到當(dāng)今,并將繼續(xù)發(fā)揮作用。1950年,古麗科森(Gulliksen,1950)出版了《心理測量的理論》,首次使用公理化的方法系統(tǒng)地總結(jié)了標(biāo)準(zhǔn)化考試的原理和方法,這標(biāo)志著CTT走向成熟。GT最重要的應(yīng)用是概化推測,即根據(jù)觀察的分?jǐn)?shù)推測概化全域的分?jǐn)?shù),因而常常被用作交叉設(shè)計(jì)和嵌套設(shè)計(jì),通過控制某些側(cè)面,觀察其它側(cè)面對于考試結(jié)果的影響,從而找到控制誤差的方法,為測驗(yàn)內(nèi)容、測驗(yàn)方式的設(shè)計(jì)提供了有價值的信息,并作出最佳決策設(shè)計(jì)。IRT在教育領(lǐng)域的應(yīng)用更為廣泛,其一是指導(dǎo)測驗(yàn)編制,其二是指導(dǎo)計(jì)算機(jī)自適應(yīng)測驗(yàn)系統(tǒng)的開發(fā),其三是將測量導(dǎo)向與認(rèn)知心理學(xué)相結(jié)合。在指導(dǎo)測驗(yàn)編制的過程中,IRT不但可以提供全卷的信息量和標(biāo)準(zhǔn)測量誤差,而且能夠提供每一道試題或評分項(xiàng)的信息量和標(biāo)準(zhǔn)測量誤差,因此提供考試信度和標(biāo)準(zhǔn)測量誤差的信息最為完全,IRT還為因人(被試)實(shí)施測提供了可能。IRT通過項(xiàng)目特征曲線還可以預(yù)測被試在其他項(xiàng)目上的正確反應(yīng)概率,提高了試題庫特征參數(shù)的完備性及題庫管理的可控性,對于基于標(biāo)準(zhǔn)的測驗(yàn)的試題開發(fā)具有重要效用。
CTT的模型構(gòu)造簡單、淺顯易懂,所用公式及其計(jì)算并不復(fù)雜,模型參數(shù)估計(jì)具有概念上的直觀性,不需要嚴(yán)格的擬合檢驗(yàn),統(tǒng)計(jì)結(jié)果對于分?jǐn)?shù)的解釋相對直觀、清晰,因而容易為一線教師所接受。GT區(qū)別不同來源測量誤差,關(guān)注不同側(cè)面對整卷測量效果的影響,所獲得的概化全域分?jǐn)?shù)較為準(zhǔn)確,為改善測驗(yàn)、提高試卷質(zhì)量提供了有用信息,但由于需要利用方差分析等數(shù)學(xué)工具,導(dǎo)致很多一線教師理解困難。IRT提供考試信度和標(biāo)準(zhǔn)測量誤差的信息最為完全,通過項(xiàng)目特征曲線還可以預(yù)測被試在其他項(xiàng)目上的正確反應(yīng)概率,提高了試題特征參數(shù)的完備性,測驗(yàn)編制具有主動性和可控性,不需要嚴(yán)格的平行測驗(yàn)來評估測驗(yàn)信度,因而在技術(shù)層面具有一定的優(yōu)越性。
CTT對考生能力參數(shù)估計(jì)的精度不夠高,用測量信度和標(biāo)準(zhǔn)誤來估計(jì)所有考生的能力參數(shù),這一做法顯然沒有考慮考生個體的差異,因而是不恰當(dāng)?shù)?;信度估?jì)所依賴的平行測驗(yàn)的假設(shè)在現(xiàn)實(shí)中往往難以滿足;試題難度定義在考生樣本上,考生能力參數(shù)定義在試題樣本上,二者不屬于同一參照系,因而無法統(tǒng)一,也難以判斷二者是否匹配,不利于測驗(yàn)工作的改進(jìn);另外,由于使用了配對或標(biāo)準(zhǔn)化技術(shù)和隨機(jī)化技術(shù),使得測量條件的完全一致性難以滿足,進(jìn)而制約了測驗(yàn)結(jié)果的可拓廣性。GT并未改良經(jīng)典測量理論的微觀結(jié)構(gòu)及其項(xiàng)目參數(shù)系統(tǒng),只是更多地從整個測驗(yàn)的宏觀結(jié)構(gòu)及其與外部測驗(yàn)條件的關(guān)系上作了深入的計(jì)量分析,因此,經(jīng)典理論在其自身框架下的一些主要局限性依然存在[12]。而且,GT模型結(jié)構(gòu)比較復(fù)雜,統(tǒng)計(jì)計(jì)算也相當(dāng)繁雜,需要借助統(tǒng)計(jì)分析工具方可解決此類問題,這也是不利于GT廣泛推廣的一個重要因素。IRT依賴于更強(qiáng)的假設(shè),模型結(jié)構(gòu)復(fù)雜、計(jì)算量偏大,對信息技術(shù)的依賴性較強(qiáng),項(xiàng)目參數(shù)的獲得需要合適的樣本量,而且被試的能力分布范圍要廣,如果不能滿足此要求,則會影響模型結(jié)果的精確性,也很難檢測出模型與數(shù)據(jù)之間的偏差。此外,項(xiàng)目反應(yīng)模型并沒有對考試的效度問題提供獨(dú)到的見解。
CTT、GT、IRT既有廣泛聯(lián)系,又有顯著區(qū)別,它們各有利弊,三者分別展示了不同的試卷評價理論框架和參數(shù)表征,為研究者和應(yīng)用者提供多樣化的選擇。
每一位研究者對試卷評價都有自己獨(dú)特的需求或希望獲得的報告形式,而不同的試卷評價理論正是為個性化的需求提供了自由選擇。如果研究者關(guān)注的是整卷的統(tǒng)計(jì)指標(biāo)、總量指標(biāo)、相對指標(biāo)和平均指標(biāo),那么CTT將是最佳選擇,它可以提供試卷的信度、效度、難度、區(qū)分度、偏度、峰度、均值、眾數(shù)、中位數(shù)、標(biāo)準(zhǔn)差、分布圖表或曲線等方面的信息,呈現(xiàn)出直觀的或經(jīng)驗(yàn)性的統(tǒng)計(jì)數(shù)據(jù)和報表,有助于非專業(yè)人士的理解。如果研究者側(cè)重于測量的信度及其驗(yàn)證,那么GT將是理想選擇,它可以提供概化系數(shù)、可靠性指數(shù)、誤差分類等信息,全面考量影響考試分?jǐn)?shù)的多個側(cè)面,可以進(jìn)行交叉設(shè)計(jì)和嵌套設(shè)計(jì)等方面的試題開發(fā)。如果研究者偏向測量的效度及其檢驗(yàn),那么IRT將是不二之選,它可以提供信息函數(shù)、參數(shù)驗(yàn)證等信息,易于對不同群體的正確應(yīng)答的預(yù)測及全面的誤差分析。
CTT、GT和IRT在誤差處理方面有著明顯的不同,因而產(chǎn)生了不同的測量精度。如果研究者對測量的精度要求不高,那么就可以直接選用CTT,它并沒有嚴(yán)格區(qū)分誤差的類別和來源,而且弱化了個體間的差異,強(qiáng)調(diào)樣本總體表現(xiàn)水平和整卷效果,因而統(tǒng)計(jì)結(jié)果是宏觀而粗糙的。如果研究者對測量精度有稍高要求,特別是希望區(qū)分不同的誤差來源對測驗(yàn)結(jié)果的影響,那么就需要選用GT了,它將誤差分為系統(tǒng)誤差和隨機(jī)誤差,并考查誤差的來源,重點(diǎn)關(guān)注被試的生理、動機(jī)、興趣、注意力、情緒、答題速度、受訓(xùn)情況、測驗(yàn)技巧,以及考試的物理環(huán)境、監(jiān)考者狀態(tài)、意外干擾、評分計(jì)分和分?jǐn)?shù)轉(zhuǎn)換等環(huán)節(jié)所產(chǎn)生的誤差。如果研究者對測量精度有更高的要求,希望考查試題設(shè)置和呈現(xiàn)方式對不同群體的“偏見”或功能差異,那么就可以選用IRT,因?yàn)樗愿泳_的數(shù)學(xué)模型和函數(shù)表達(dá)式來呈現(xiàn)難度參數(shù)、能力參數(shù)及其他參數(shù)之間的關(guān)系,可以量化地分析誤差的大小及其對測量的影響。當(dāng)然,我們還需要注意到,并不是所有的分?jǐn)?shù)變化都必然歸咎于測量誤差,還有可能是因?yàn)橥獠拷槿?、自身學(xué)習(xí)或成熟度提高的結(jié)果。此時,分?jǐn)?shù)差異或變化于是成為信度所依賴的測量值[13]。
三種評價理論的理論體系、方法原理、模型結(jié)構(gòu)和參數(shù)估計(jì)方法各不相同,其復(fù)雜程度也有所差異。對于研究水平有限的一線教師和普通研究者而言,CTT相對簡單且容易被人理解和掌握,統(tǒng)計(jì)結(jié)果對于分?jǐn)?shù)的解釋相對比較直觀、清晰,所倡導(dǎo)的標(biāo)準(zhǔn)化測驗(yàn)技術(shù)在考試誤差等方面具有明顯的效果,并為多數(shù)人所認(rèn)可。相比之下,GT對于研究者在測量與評價領(lǐng)域的理論素養(yǎng)和數(shù)學(xué)應(yīng)用能力有一定的要求,否則難以理解各側(cè)面的影響及概化的過程和水平。如果研究者是專業(yè)人士,尤其是大規(guī)模測評試卷的命題或?qū)徍巳藛T,可能會具有深厚的測量與評價理論基礎(chǔ)以及精湛的試卷評價技術(shù),因而可以選用IRT來進(jìn)行更為深入、細(xì)致的試卷質(zhì)量分析,進(jìn)而實(shí)施更廣泛的試卷質(zhì)量評判、命題指導(dǎo)和有效測評。
綜上,CTT、GT與IRT有諸多不同,至于選擇哪一種理論模型,主要依據(jù)各模型的適用條件、測驗(yàn)的分析要求以及研究者的理論與實(shí)踐水平。每一種理論模型都不是完美的,在實(shí)際測量與評價過程中,可以進(jìn)行有效的組合,以發(fā)揮各自的優(yōu)勢,從而對試卷質(zhì)量進(jìn)行全面、客觀、科學(xué)、理性的分析。
[1]陳玉琨.教育評價學(xué)[M].上海:華東師范大學(xué)出版社,2005:1.
[2]王景英.教育評價學(xué)[M].長春:東北師范大學(xué)出版社,2005:3.
[3]王孝玲.教育評價的理論與技術(shù)[M].上海:上海教育出版社,2002:2-3.
[4]漆書清,戴海崎,丁樹良.現(xiàn)代教育與心理測量學(xué)原理[M].北京:高等教育出版社,2002:42.
[5]Martin T Wells.Handbook of Modern Item Response Theory[J].Journal of the American Statistical Association,1997,92(439):1227.
[6]鐘軼,季曉輝.兩種教育測量理論在試卷質(zhì)量控制和評價中的應(yīng)用及其展望[J].南京醫(yī)科大學(xué)學(xué)報:社會科學(xué)版,2013(1):66.
[7]Linda Crocker& James Algina.經(jīng)典和現(xiàn)代測驗(yàn)理論導(dǎo)論[M].金瑜,等,譯.上海:華東師范大學(xué)出版社,2004:121.
[8]雷新勇.基于標(biāo)準(zhǔn)的教育考試—命題、標(biāo)準(zhǔn)設(shè)置和學(xué)業(yè)評價[M].上海:上??萍汲霭嫔?2011:27-29.
[9]周群.基于論證的我國高考開發(fā)質(zhì)量評價模型研究[D].上海:華東師范大學(xué),2011:165.
[10]楊志明,張雷.測評的概化理論及其應(yīng)用[M].北京:教育科學(xué)出版社,2003:41.
[11]雷新勇.大規(guī)模教育考試命題與評價[M].上海:華東師范大學(xué)出版社,2006:71.
[12]熊江玲.經(jīng)典測量理論、概化理論及項(xiàng)目反映理論比較研究[J].求索,2004(4):99.
[13][美]美國教育研究協(xié)會,美國心理學(xué)協(xié)會,全美教育測量學(xué)會,主編.教育與心理測試標(biāo)準(zhǔn)[M].燕娓琴,謝小慶,譯.沈陽:沈陽出版社,2003:41.