周丐曉 劉恩山
(1.溫州大學(xué)生命與環(huán)境科學(xué)學(xué)院,浙江 溫州 325035; 2.北京師范大學(xué)生命科學(xué)學(xué)院,北京 100875)
當(dāng)前學(xué)業(yè)質(zhì)量監(jiān)測作為教育質(zhì)量提升的重要途徑日益受到各國的重視,學(xué)業(yè)質(zhì)量監(jiān)測的結(jié)果可以為國家和地方?jīng)Q策、教育教學(xué)改進(jìn)提供重要信息和客觀反饋,有益于國家教育改革的發(fā)展.作為學(xué)業(yè)質(zhì)量監(jiān)測的核心話題,工具質(zhì)量的優(yōu)劣直接影響了測試結(jié)果的信效度.試題是監(jiān)測工具中最為常見和重要的工具,如何對試卷的質(zhì)量進(jìn)行評估和分析,哪些技術(shù)可以幫助獲取試卷質(zhì)量相關(guān)的各種信息等均是試卷質(zhì)量評估中亟待探討的議題.當(dāng)前主要依據(jù)經(jīng)典測驗理論(classic test theory,CTT)或項目反應(yīng)理論(item response theory,IRT)分析工具的質(zhì)量.CTT的優(yōu)勢在于便于獲取被試和工具的整體測試信息,參數(shù)和估算方法易于理解和掌握,但相比IRT更易受樣本影響,而IRT中所用的項目參數(shù)不受樣本影響,且基于IRT的測量能夠?qū)⒄`差具體到個人,更為精確也更能反映客觀的被試情況.因此結(jié)合IRT和CTT綜合分析試題,對試題個體及工具整體的質(zhì)量進(jìn)行分析,可有效提高工具的科學(xué)性.
在測量理論的發(fā)展過程中, CTT和IRT在心理學(xué)與教育測量方面發(fā)揮了重要作用.當(dāng)前在學(xué)科測試工具質(zhì)量評估方面,主流方向是結(jié)合IRT和CTT綜合分析工具,通過難度、區(qū)分度、信效度等分析,對每個試題及工具整體的質(zhì)量進(jìn)行分析,從而提高工具的科學(xué)性和有效性.
相比IRT,CTT出現(xiàn)較早,理論研究較多、體系較為完善,其基本思想是:X=T+e(X指觀察值,T為真實值,e為誤差),即觀察值為真實值與誤差之和,由此可以發(fā)現(xiàn)CTT所涉及的數(shù)學(xué)模型相對簡單,參數(shù)和估算方法易于理解和掌握,對研究者統(tǒng)計學(xué)原理知識的掌握程度要求不高,便于操作使用,因此在過去的幾十年應(yīng)用廣泛.隨著測量理論的不斷發(fā)展,CTT漸漸展現(xiàn)出其理論和方法體系的弱點,包括:項目難度與被試能力互相依賴,這就導(dǎo)致項目與被試能力之間無法進(jìn)行等值化比較,各參數(shù)受樣本質(zhì)量的影響;項目之間平行、不區(qū)分問題重要性;相比IRT的測量結(jié)果,CTT的測量結(jié)果信度較低,這是因為CTT的信度針對的是全體被試者并且假設(shè)所有被試的測量標(biāo)準(zhǔn)誤差均相等,統(tǒng)計量(難度、區(qū)分度、誤差等)是籠統(tǒng)的全組被試的平均值,因此CTT的信度僅能代表平均測量精確度,然而這一假設(shè)與真實情況不符,在真實情境下不同水平被試的測量標(biāo)準(zhǔn)誤差往往不相等;最后,CTT缺乏預(yù)測推理能力等.
針對上述CTT理論的不足,項目反應(yīng)理論應(yīng)運而生,目前該理論被廣泛應(yīng)用于學(xué)業(yè)評估等多方面的研究中.IRT理論是一種現(xiàn)代測驗理論,也被稱作項目特征曲線理論(item characteristic curse theory) 或者潛在特質(zhì)理論(latent trait theory),它克服了經(jīng)典測驗理論(CTT)的缺點.CTT是通過被試對所有項目的反應(yīng)總和(即測驗的總分)來預(yù)測被試的某一潛在心理特質(zhì),它認(rèn)為被試對單個項目的反應(yīng)與其測量心理特質(zhì)之間沒有聯(lián)系.而IRT的基本思想是:被試能力與被試在某一具體項目上的反應(yīng)存在某種函數(shù)關(guān)系,以θ表示被試者的某一潛在心理特質(zhì),用P(θ)表示該被試在項目i上作出正確反應(yīng)的概率,那么根據(jù)IRT理論即可推斷出θ與P(θ)間的函數(shù)關(guān)系,并在此基礎(chǔ)上做出進(jìn)一步的預(yù)測,即IRT是一種探討被試對項目的反應(yīng)與其潛在特質(zhì)之間關(guān)系的概率性方法,它根據(jù)一定的數(shù)學(xué)模型,用項目參數(shù)去估計被試的潛在心理特質(zhì).相比CTT易受樣本影響的特點,IRT中所用的項目參數(shù)(如題目難度、區(qū)分度等)不受樣本影響,被試能力與難度參數(shù)相互獨立,這些參數(shù)的獲得不會因被試樣本的變化而變化,同時對被試能力的估計不會因為試題的不同而不同[1].其次,它將定序測量轉(zhuǎn)化為等距測量,將項目難度與被試放在同一量尺上進(jìn)行測量,便于比較操作.最后,基于IRT的測量能夠?qū)⒄`差具體到個人,更為精確也更能反映客觀的被試情況.
基于經(jīng)典測驗理論的試題質(zhì)量檢驗參數(shù)主要包括:難度、區(qū)分度、選項分析等.
研究者獲得試題作答后,首先需對試題整體概況和分布特征進(jìn)行描述性分析.主要包括:被試總分、平均分、眾數(shù)、最高(低)分、峰度與偏度、選項分析.總分、平均分、眾數(shù)和最高(低)分可描述被試的整體得分和分?jǐn)?shù)特征情況,而峰度與偏度都用來描述被試總分的分布形態(tài).
其中峰度描述的是數(shù)據(jù)圍繞平均分分布的密集情況,峰度的絕對值數(shù)值越大表示被試分?jǐn)?shù)分布形態(tài)的陡緩程度與正態(tài)分布的差異程度越大[2].峰度可通過觀察總體中所有取值分布形態(tài)的陡緩程度獲得,峰度為0表示被試總分分布曲線與正態(tài)分布的陡緩程度相同;峰度大于0表示被試總分分布曲線與正態(tài)分布相比更為陡峭,為尖頂峰,表明被試數(shù)據(jù)分布較為密集地分布在本卷平均分周圍;峰度小于0表示被試總分分布曲線與正態(tài)分布相比較為平坦,為平頂峰,表明被試數(shù)據(jù)分布較為分散.偏度描述數(shù)據(jù)分布的對稱性和偏斜程度,通常以均值與眾數(shù)(中位數(shù))差值和標(biāo)準(zhǔn)差的比值衡量數(shù)據(jù)的偏斜程度,偏度的絕對值數(shù)值越大表示其分布形態(tài)的偏斜程度越大,描述偏度的統(tǒng)計量同樣需要與正態(tài)分布相比較.偏度為0表示其數(shù)據(jù)分布形態(tài)與正態(tài)分布的偏斜程度相同;偏度大于0表示其數(shù)據(jù)分布形態(tài)與正態(tài)分布相比為右偏態(tài)(正偏態(tài)),即數(shù)據(jù)右測尾巴更長,數(shù)據(jù)右端有較多的極端值,總體均值在眾數(shù)的右邊,表明被試總分偏低,試題難度偏大;偏度小于0表示其數(shù)據(jù)分布形態(tài)與正態(tài)分布相比為左偏態(tài)(負(fù)偏態(tài)),即數(shù)據(jù)左測長尾更長,總體均值在眾數(shù)的左邊,表明被試總分較高,試題難度較易.試題開發(fā)者和教育研究者可根據(jù)峰度和偏度綜合分析試題相對特定被試的難易程度,以幫助進(jìn)一步修訂試題,開發(fā)出與被試水平適切度較高的試題.
此外,試題中的選擇題還可進(jìn)一步分析被試的選項作答情況.選項包括正確選項和若干錯誤選項.錯誤選項應(yīng)具有一定干擾和誘答作用,能夠迷惑部分學(xué)習(xí)水平稍弱的學(xué)生選擇干擾項,從而探查出學(xué)生學(xué)習(xí)困難及薄弱點,同時也能提高試題的區(qū)分度.誘答選項在設(shè)計上宜以學(xué)生看似熟悉、但并不正確的陳述或者常犯的錯誤為依據(jù),使用專業(yè)的語言來撰寫誘答選項.另一方面,通常認(rèn)為若某一選項沒有被試選擇或者選擇率低于5%,則說明該選項的誘答作用太弱,不具備干擾功能,可考慮修改或者刪除.
經(jīng)典測試?yán)碚撝性囶}的難度指的是試題的難易程度,一般用得分率來表示,對于選擇題,難度計算的方法是“P=答對此題的人數(shù)/作答的總?cè)藬?shù)”;對于非選擇題,難度計算的方法是“P=所有人在此題上得分的均值/此題的分值”.難度取值范圍在0~1之間,難度數(shù)值越小表示試題難度越大,學(xué)生在該試題上的得分越低,反之難度越小.通常認(rèn)為0.6~0.75為中等難度,大于0.75表示試題得分率高較為容易,小于0.6則表示試題較難.考生對試題內(nèi)容的熟悉程度、考察行為目標(biāo)的層次、試題情境材料的信息量、試題的形式以及測試時間均會在一定程度上影響試題的難度值.
經(jīng)典測試?yán)碚搶υ囶}的區(qū)分度并沒有精確的定義.一般可認(rèn)為,試題的區(qū)分度即指試題有效區(qū)分學(xué)生某種心理特征不同水平的程度[3].即指試題在區(qū)分高水平和低水平學(xué)生的程度和能力,取值范圍在-1~1之間,區(qū)分度越高,表明該題在區(qū)分不同水平的被試上具有更大價值.通常認(rèn)為區(qū)分度大于0.4即為區(qū)分度較好.
區(qū)分度的計算有多種方法,判斷區(qū)分度的指標(biāo)主要包括鑒別指數(shù)和相關(guān)系數(shù).鑒別指數(shù)的計算選取樣本中總分最高的前27%作為高分組,同樣選取樣本中總分最低的后27%作為低分組,由高分組在此題上的得分率減去低分組在此題上的得分率,從而得到鑒別指數(shù).而當(dāng)前在大規(guī)模教育測評通常用試題單題與同一量表總分的相關(guān)系數(shù)計算各試題的區(qū)分度,常用的表示區(qū)分度的相關(guān)系數(shù)有3種:肯德爾相關(guān)非參數(shù)(Kendall′ tau-b correlation),皮爾遜積差相關(guān)(Pearson’s correlation)和斯皮爾曼等級相關(guān)(Spearman correlation).由于采用相關(guān)系數(shù)計算區(qū)分度的方法更為普遍,以下重點闡述采用相關(guān)系數(shù)衡量區(qū)分度,表1具體呈現(xiàn)了這三種相關(guān)分析的適用情境及條件.
表1 三類相關(guān)系數(shù)的內(nèi)涵
由表1,實際選擇哪種相關(guān)系數(shù)主要參考3個方面的信息:每個變量的類型,連續(xù)變量、雙歧變量或者順序變量;潛在的分布性質(zhì),正態(tài)分布還是非正態(tài)分布;變量分布特征,線性的還是非線性的.試題的區(qū)分度通常采用皮爾遜積差相關(guān)和斯皮爾曼等級相關(guān)計算.
在試題分析時,需要特別注意的是若區(qū)分度小于0,可能的原因有:試題的答案有誤;某一個選項的干擾性過強;此題過難,被試胡亂作答.要了解具體原因,還可同時參考試題難度值,若試題難度值顯示通過率較低,則可判斷此題的區(qū)分度小于0是由于試題過難導(dǎo)致被試胡亂作答,以此為根據(jù)可進(jìn)行試題的修改.
教育研究中采集的數(shù)據(jù)是否可信,測量的結(jié)果是否有效是決定整個教育研究質(zhì)量的關(guān)鍵要素,因此測量工具的信度和效度檢驗是工具開發(fā)中最為重要的分析.信度分析是指研究所進(jìn)行的測量和獲得的結(jié)果一致性和穩(wěn)定性程度[4],測量結(jié)果中由于隨機誤差因素所帶來的方差變異大小,信度是效度的基礎(chǔ).
信度包括重測信度、復(fù)本信度、折半信度、評分者信度和同質(zhì)性信度等多種類型,重測信度和復(fù)本信度旨在驗證多次測量之間的穩(wěn)定性和可靠性,同質(zhì)性信度則是度量工具量表中的各個題目是都探查的是同一概念或結(jié)構(gòu)的程度.其中在工具研發(fā)和測量中使用較多的包括評分者一致性信度中的Kappa一致性系數(shù)和同質(zhì)性信度中的科隆巴赫系數(shù)(Cronbach’s Alpha).
在測試中,對同一組試題不同評分者的評判可能存在一定差異性,因此需要對若干個評分者的評分結(jié)果一致性進(jìn)行信度分析,常用Kappa一致性分析.Kappa一致性系數(shù)常被用來表示各評分者之間評分結(jié)果的一致性,它適用于類別或者名義變量資料需要做歸類或者評定時評分者間歸類評定為一致的程度判定指標(biāo),同時也被視為一種評分者信度指標(biāo)[5].通常認(rèn)為Kappa值大于0.75表示評價者之間的一致性較好.
Cronbach’s Alpha是測驗一組同質(zhì)測驗總和的信度,其本質(zhì)是測驗量表工具中所有試題的一致性程度.若所有試題均反映了相同的構(gòu)造(如能力、態(tài)度、知識等),那么各個試題之間應(yīng)該具有相關(guān)存在,若某一試題和其他試題之間沒有相關(guān)存在,說明這個試題與其它試題測試的構(gòu)造不同,需要考慮修改或者刪除該試題.通常α系數(shù)大于0.6認(rèn)為是可接受水平,0.8以上表示信度良好[6].
Cronbach’s Alpha是對工具中一組試題信度的分析,但無法獲悉單題的信度信息,有時工具開發(fā)者還需要知道整套工具中具體哪些單題信度較低,降低整卷的信度.可通過Cronbach’s Alpha if item deleted 指標(biāo)了解單題對整卷信度的影響.Cronbach’s Alpha if item deleted表示如果單獨刪除某一題目后,整卷的信度值.若單題在該指標(biāo)上的信度值高于整卷信度值,表示刪除該題后,整卷信度提高,即該題與其它題目的同質(zhì)性較低,對信度產(chǎn)生負(fù)面影響,可考慮修改或者刪除此題,Cronbach’s Alpha if item deleted可以幫助進(jìn)一步分析單題的信度情況以幫助提高整卷的信度.綜合參考Cronbach’s Alpha和Cronbach’s Alpha if item deleted兩個信度參數(shù)可幫助試題研發(fā)者和教育研究者進(jìn)一步提高試題單題以及工具整體的信度.
效度是指研究真正、正確地揭示所研究問題的本質(zhì)和規(guī)律的程度,數(shù)據(jù)測量結(jié)果反映測量屬性的程度或?qū)崿F(xiàn)測量目標(biāo)的程度,即效度分析就是對測量性質(zhì)準(zhǔn)確性和測量結(jié)果正確性的評價[7].效度有多種類型,在試題分析上,主要采用內(nèi)容效度.
內(nèi)容效度是指工具中的試題對測驗有關(guān)知識、能力或者行為等內(nèi)容范圍取樣選擇的適當(dāng)性,即考察試題是否可以代表所規(guī)定的內(nèi)容.試題的內(nèi)容效度通常不用數(shù)字化的量化指標(biāo)衡量,而是通過相關(guān)領(lǐng)域的專家根據(jù)學(xué)科內(nèi)容和測試藍(lán)圖進(jìn)行邏輯分析以判斷工具的內(nèi)容效度.
由于經(jīng)典測驗理論的檢驗參數(shù)對樣本有嚴(yán)重的依賴性,穩(wěn)定性不高,因此在試題分析中還需要結(jié)合項目反應(yīng)理論對試題質(zhì)量進(jìn)行分析.基于項目反應(yīng)理論的試題分析主要關(guān)注:難度、項目擬合度、懷特圖、信息量圖等參數(shù).其中,項目擬合度、懷特圖等是對工具效度的檢驗,為工具效度分析提供更為科學(xué)和客觀的信息.
IRT難度與CTT難度的意義相同,但是IRT理論所采用的數(shù)學(xué)模型與CTT不同,通常IRT難度正常的取值范圍為-3~3之間,數(shù)值越大,表示試題越難,即學(xué)生正確作答的可能性越小.IRT難度比CTT難度的計算更為復(fù)雜,也相對更為精細(xì)準(zhǔn)確.IRT理論中,一般要求試題的難度應(yīng)該介于-2~2之間.
項目擬合度分析是指收集數(shù)據(jù)與IRT模型的擬合程度,運行ConQuest軟件可得到兩類卡方擬合指標(biāo):Outfit MNSQ (Outfit Mean Square)和Infit MNSQ (Infit Mean Square).其中Infit MNSQ 則指代加權(quán)后的殘差均方,反映了與題目難度水平相當(dāng)?shù)膶W(xué)生的作答方式是否與模型一致,若偏差大則說明作答模式不一樣.Outfit MNSQ 是殘差的均方,Outfit MNSQ對數(shù)據(jù)中的極端值較敏感,而對于那些項目難度和被試能力水平相當(dāng)?shù)臄?shù)據(jù)Infit MNSQ則表現(xiàn)地更為敏感.Outfit MNSQ 和Infit MNSQ 可接受的取值范圍和研究目的有很大關(guān)系,不同的研究目的可接受的范圍略有不同.通常認(rèn)為Outfit MNSQ 和Infit MNSQ取值范圍在0.75~1.3為擬合度良好[8].若很多能力強的被試答錯題目,而能力弱的被試答對題目,一般殘差會比較大,說明該題目不符合IRT模型的預(yù)期,可能是因為題目表述有問題,導(dǎo)致能力強的個體答錯,也可能是該題目與其他題目所測試的潛在心理構(gòu)造不同,需綜合各項指標(biāo)進(jìn)行分析.
懷特圖又被稱為項目—被試圖,是根據(jù)IRT模型將數(shù)據(jù)進(jìn)行分析處理后將項目難度與被試能力映射在一個共同量尺上,從而使測量更加直觀具體.通常以一根豎線表示測量值的大小,從下往上依次增大,在豎線的兩邊分別為項目難度與被試能力.懷特圖以Logit為基本單位,將被試能力與項目難度放在同一量尺上的左右兩邊,把它們視為一個問題的兩個方面,可進(jìn)行直觀比較.通過懷特圖,可以判定一個確定水平的被試正確作答某一項目的概率、不同題目之間的難易關(guān)系以及試卷的整體難度與被試群體的水平是否適宜等多種信息.
最左邊數(shù)字表示的是量尺的刻度logit單位,在豎線左邊的是被試的能力分布,它表明考生所處量尺的位置,豎線右邊則是試題的難度分布.自下往上,試題難度和學(xué)生能力值依次升高,即在懷特圖最下面的學(xué)生的能力水平較低,試題的難度最小較為簡單.學(xué)生之間的差距表示被試能力水平之間的差距,而試題之間的距離表示的是不同試題的難度水平之間的差距.需要注意的是,在量尺的“0”處表示個體正確回答題目的概率為 50%,能力在0以上的學(xué)生對0以下的項目正確回答的概率大于 50%.以下圖為例,懷特圖的檢驗主要關(guān)注三個問題:被試能力范圍分布;試題難度范圍分布;被試能力分布于試題難度分布的匹配程度以及分布形態(tài).由圖可知,試題難度分布約為4個logit單位,被試能力分布為正態(tài)分布且占據(jù)約4個logit單位,試卷整體難度分布跨度與被試能力值分布大致相當(dāng),這說明試題的內(nèi)容覆蓋了所有能力水平的考生.整體來看,試題與被試的能力分布對應(yīng)較好.
圖1 懷特圖示例
試題信息量分析分析的基本思想是:設(shè)計良好的試題應(yīng)能為測試提供較多的信息,降低對被試能力水平估計方面的誤差.項目反應(yīng)理論認(rèn)為,用與被試能力水平相當(dāng)?shù)脑囶}進(jìn)行測試時,試題才能提供最精準(zhǔn)的測量結(jié)果.信息量越大的試題對被試的估計越為精確、誤差越小,表明該試題在評價該被試的特質(zhì)水平上越有價值,因此工具檢驗時應(yīng)找出信息量較大的試題.試題的信息量與試題的難度和區(qū)分度緊密相關(guān),因此透過試題信息量還可幫助獲取試題難度及區(qū)分度方面的信息,便于對試題進(jìn)行改進(jìn).
在IRT測量中,使用試題信息函數(shù)分析試題信息量.試題信息函數(shù)顯示出每一道題目對不同能力的被試提供不同的測量精準(zhǔn)度.當(dāng)題目的難度越接近被試的能力值時,就能提供較高的測量精準(zhǔn)度,反之則獲得的測量精準(zhǔn)度較差.相同的一份測驗對于不同水平的被試,其信息量(測量的標(biāo)準(zhǔn)誤差)不同.試題信息函數(shù)圖通常有一個峰值,表示試題的信息量達(dá)到最大值時,則說明測驗對此能力水平的測量誤差最小.即當(dāng)被試能力處于峰值時,試題可提供最大信息量,該試題適合測試能力值處于峰值附近的被試.
圖2的橫軸坐標(biāo)表示被試的能力估計值,縱軸坐標(biāo)表示的試題的信息量.該圖顯示了試題在不同能力點上的測量精準(zhǔn)度,信息量越高表示試題對該能力點的測量精準(zhǔn)度越高.從圖中可以看出,該試題對估計能力在-0.1左右的被試時,測量誤差最小.
圖2 試題信息函數(shù)示例
需要特別注意的是,研究人員若依據(jù)試題信息函數(shù)驗證試題時,首先需保證項目特征曲線能夠與試題相擬合,若擬合度差,則會產(chǎn)生誤導(dǎo)作用.
依據(jù)本文中試題質(zhì)量分析的各個指標(biāo),以某次小學(xué)科學(xué)學(xué)業(yè)質(zhì)量測試試卷為例,內(nèi)容覆蓋生命科學(xué)、物質(zhì)科學(xué)和地球科學(xué)3個學(xué)科領(lǐng)域,對其試題質(zhì)量進(jìn)行分析.參加本次測試的學(xué)生人數(shù)為683人,共計25個選擇題,2道問答題,滿分為100分.
4.1.1試卷的總體描述性和整卷信效度分析
本次測試學(xué)生平均分為62.51,標(biāo)準(zhǔn)差12.65,最高分92分,最低分18分,偏度-0.454,考生成績集中分布在50分~80分(54.1%),說明其數(shù)據(jù)分布形態(tài)與正態(tài)分布相比略為負(fù)偏態(tài)分布,即數(shù)據(jù)左測長尾更長,總體均值在眾數(shù)的左邊,表明被試總分較高,試題難度略易.峰度為0.091,說明被試總分分布曲線與正態(tài)分布相比更為陡峭,為尖頂峰,表明被試數(shù)據(jù)分布較為密集地分布在本卷平均分周圍.該卷信度分析采用同質(zhì)性信度中的科隆巴赫系數(shù)(Cronbach’s Alpha),信度為0.69,說明信度良好.效度檢驗采用內(nèi)容效度分析,通過相關(guān)領(lǐng)域的專家根據(jù)學(xué)科內(nèi)容和測試藍(lán)圖進(jìn)行邏輯分析后,認(rèn)為試卷的內(nèi)容效度良好.
4.1.2試題難度、區(qū)分度分析
本套試卷共計35個小題,項目的難度是所有考生在該項目得分的平均數(shù)與該項目滿分的比值;區(qū)分度是考生在此項目得分與其測驗總分間的相關(guān),難度與區(qū)分度的散點圖見圖3.
圖3 經(jīng)典測驗理論計算得到的項目區(qū)分度和難度散點圖
由圖可知:大多數(shù)試題的區(qū)分度分布在0.2~0.4之間,說明區(qū)分度良好,試題的難度分布在0.2~0.8之間,多數(shù)試題的難度都分布于0.5~0.8之間,說明試題難度分布較廣,整體試卷難度適中.
4.2.1試題難度、擬合度分析
用分步評分模型同時對試題中的所有項目進(jìn)行分析,其結(jié)果主要包括試題的IRT難度以及Rasch模型的INFIT擬合度,IRT難度與INFIT擬合度的散點圖見圖4.
圖4 項目反應(yīng)理論計算得到的項目難度和INFIT擬合度散點圖
圖5 項目反應(yīng)理論懷特圖分析
由圖可知,試題難度介于-5.66~1.582之間, Infit擬合度介于0.91到1.11之間,所有試題均非常接近于1,說明所有試題與假設(shè)Rasch模型有較好擬合.
4.2.2懷特圖分析
在項目反應(yīng)理論中,被試的能力水平與項目的難度是處于一個共同的量尺之上,因此它們之間可以直接進(jìn)行比較.由圖5可知,考生的能力主要分布在(-2,2)之間,其中大多數(shù)考生的能力水平處于(-1,1)之間.試題的分布范圍較之學(xué)生能力的分布范圍更廣,能較好地涵蓋所有學(xué)生的能力水平,即學(xué)生能力值與試題難度分布匹配性較好.
4.2.3試題信息量分析
項目反應(yīng)理論提出了測驗信息量和項目信息量的概念.測驗的信息量越大,則測驗測量能力水平的誤差就越小,它與測量標(biāo)準(zhǔn)誤差成反比.相同的一份測驗對于不同水平的考生,其信息量(測量的標(biāo)準(zhǔn)誤差)不同.當(dāng)測驗在某個能力水平的信息量達(dá)到最大,則說明測驗對此能力水平的測量誤差最小.圖6給出該次測驗的信息函數(shù),由圖可知,該試卷對估計能力在1.0左右的被試時,測量誤差最小.
圖6 測驗信息量圖
為了獲得對學(xué)生知識和能力等的科學(xué)客觀診斷結(jié)果,提高測試的信效度,需要通過項目分析對試題進(jìn)行篩選和甄別.而參考CTT和IRT的測試結(jié)果,可有效幫助研究者提高工具質(zhì)量,研究者可從以下三方面分析工具質(zhì)量,適當(dāng)修改工具以提高工具質(zhì)量.
1)從試題個體和工具總體兩方面綜合考量工具質(zhì)量.工具質(zhì)量的分析不但要考慮各個單題的質(zhì)量,也要考察工具整體的信效度,從而找出影響工具質(zhì)量提高的關(guān)鍵要素和單題.其中衡量單題質(zhì)量的主要技術(shù)指標(biāo)包括:試題難度、區(qū)分度、選項分析.在工具整體層面的分析主要涉及信度和效度分析.綜合兩方面的檢驗結(jié)果,可找出有待修改的試題,從而提高工具質(zhì)量.
2)綜合CTT和IRT理論的優(yōu)勢,綜合檢驗試題的質(zhì)量將進(jìn)一步提高工具的信效度.當(dāng)前通常依據(jù)經(jīng)典測驗理論(CTT)和項目反應(yīng)理論(IRT)綜合分析工具測試結(jié)果以提高工具質(zhì)量,其中經(jīng)典測試?yán)碚摰臋z驗參數(shù)主要包括:難度、區(qū)分度、選項分析等,而項目反應(yīng)理論則重點關(guān)注試題難度、項目擬合度、懷特圖、標(biāo)準(zhǔn)誤、試題信息量等參數(shù).
3)統(tǒng)計指標(biāo)是試題修改的輔助工具,研究者除了綜合參考各種統(tǒng)計指標(biāo)外,試題的修改及刪除與否還需要參考試題設(shè)計的理論框架和測試藍(lán)圖等,結(jié)合測試目的才能最終確定試題的修改方向.工具質(zhì)量評估的過程是一個不斷尋找證據(jù)支持論證工具信效度和客觀性的過程,除了側(cè)重量化分析的測量學(xué)指標(biāo)的運用,還需特別注意參照工具開發(fā)的測試目的以及理論框架,這些均能夠為工具質(zhì)量評估提供重要的證據(jù)支持,因此要充分重視并綜合運用這些信息,促進(jìn)高質(zhì)量工具的開發(fā).