李瑛
經(jīng)典測量理論(Classical Test Theory,CTT)和項目反應(yīng)理論(Item Response Theory,IRT)是當(dāng)前測量領(lǐng)域中的兩大理論[1]。無論是CTT還是IRT,都把題目難度作為重要參數(shù)之一。CTT將考生的通過率或得分率作為難度指標(biāo),以0、1計分的題目為例,答對某題的人數(shù)占被試總?cè)藬?shù)的比值叫做該題的難度值,非以0、1計分的題目,所有被試學(xué)生的平均分占該題總分的比值叫做該題的難度值,在這種定義下,難度值越大,說明該題越容易,這種計算得到的難度值依賴于樣本的群體能力水平;IRT是建立在潛在特質(zhì)理論之上的,難度等題目參數(shù)是獨立于考生樣本的,反映的是題目固有的屬性,因此更能反應(yīng)題目的固有屬性和考生的能力水平。由于項目反應(yīng)理論對數(shù)學(xué)模型與實測數(shù)據(jù)的擬合程度要求較高,且建立在嚴(yán)格的假設(shè)之上,所以目前在國內(nèi)大規(guī)模的考試中,經(jīng)典測量理論的應(yīng)用較為廣泛。高考是常模參照考試,其難度指標(biāo)常用考生的通過率來表示,考生的通過率也即相對難度,是試題對考生知識和能力水平合適程度的指標(biāo),是由參與測試的考生整體水平來決定的。
在現(xiàn)實條件下,由于各地教育資源的不均衡,尤其是優(yōu)質(zhì)教育資源較少的情況下,高考的難度問題仍然十分敏感,難度的不正常波動,不僅引起當(dāng)年高考考生及社會的反應(yīng),也會給中學(xué)教學(xué)帶來一定的影響。題目太難,會讓中學(xué)教學(xué)應(yīng)試痕跡越來越深,教師和學(xué)生的負(fù)擔(dān)愈重;題目太易,也可能不能有效地區(qū)分各類考生,達(dá)不到選拔的目的。所以在命題過程中,科學(xué)調(diào)控高考試題難度尤為重要,既要保持相對平穩(wěn),也不能一味降低難度,而失去高考選拔的本質(zhì)功能。
試題難度一般是指試題的整體平均難度和各題的難度(結(jié)構(gòu)難度),科學(xué)調(diào)控試題難度應(yīng)該包含對試題整體平均難度和結(jié)構(gòu)難度進(jìn)行合理的預(yù)測和有效控制兩個方面,從而達(dá)到科學(xué)區(qū)分的效果。如何對試題難度進(jìn)行有效預(yù)測,美國的SAT和ACT在試題命制過程中都有試題試測的環(huán)節(jié),SAT是運用錨題,作為不計分的實驗部分放在正式考題中,取得當(dāng)次考題難度等方面的信息;ACT試題在正式使用前雖不像SAT那樣放在正式的考題中進(jìn)行試測,但其每道試題都會在一些能夠代表總體的樣本考生中進(jìn)行試測,以了解這些試題的難度水平是否適宜,以及是否能正確地發(fā)揮測量功能。無論是SAT還是ACT,都是在考試之前進(jìn)行大規(guī)模的試測,通過項目反應(yīng)理論將試題難度等參數(shù)進(jìn)行等值,從而用于建立和充實題庫。在我國目前的高考命題實踐中,由于考試題型的不同(不完全是多項選擇題)、組卷方式的差異(絕大部分不是直接來源于題庫),考試安全因素的影響,不可能如美國SAT和ACT的模式那樣對考題進(jìn)行大規(guī)模的試測,以獲得難度等方面的指標(biāo)。目前,命題實踐者在有限的條件下對試卷的難度預(yù)測進(jìn)行了各種探索,大部分依據(jù)命題專家多年的經(jīng)驗來進(jìn)行,有的是在專家經(jīng)驗基礎(chǔ)上建立預(yù)估模型或難度常模,取得了一定的經(jīng)驗和預(yù)期的效果,為高考質(zhì)量的保證起到了積極的重要的作用。
為了保證命題的科學(xué)性,在無法事先對試題進(jìn)行大規(guī)模的試測情形下,抽取少量樣本在保密的前提下對試題進(jìn)行事先試測,利用試測環(huán)節(jié)中的實測數(shù)據(jù)對試題難度進(jìn)行預(yù)測,并和專家的估計相結(jié)合,從而達(dá)到有效調(diào)控試題難度的目的,也是命題實踐中的一種探索。
本文擬結(jié)合測量理論,通過試測生的有效選擇、試測生考試數(shù)據(jù)的利用等方面就高考試卷送審稿(正式審題和付印之前的高考試卷,下同)的難度預(yù)測過程和有效調(diào)控進(jìn)行探討。
在測量學(xué)理論中,預(yù)測(試測)是測驗的技術(shù)分析與鑒定程序中的一個重要部分,尤其是在大型的重要考試中更是必不可少的方法和步驟。這種操作必須滿足下列條件和要求:預(yù)測對象必須是將來正式測驗施測對象全體的一個代表性樣本,且樣本數(shù)不必太多,亦不能太少;預(yù)測的實施過程和情境力求和將來正式測驗時的情況近似;時限最好使每個被試將題目答完,以搜集充分的反應(yīng)資料,從而使統(tǒng)計分析的結(jié)果更為可靠;在預(yù)測過程中,應(yīng)將被試反應(yīng)情況隨時加以記錄,如一般被試完成預(yù)測所花費的時間、題意有何不清之處、被試態(tài)度等;預(yù)測要有高度保密性[2]。所以試測過程必須最大限度滿足以上條件和要求。
在研究過程中,由于要用到平均值等值(Mean Equating)和等百分位等值(Equipercentile Equating)等方法和相關(guān)的其他測量學(xué)理論,所以還需盡量達(dá)到以下要求和假設(shè):
①試測生源學(xué)校近幾年高考成績分布基本一致;
②所選試測生各科成績均衡,沒有較明顯的偏科現(xiàn)象,且與參照的年份所選試測生的能力水平分布基本一致;
③高考試卷送審稿難度變化與高考成績狀態(tài)分布變化呈正相關(guān);
④試測生成績穩(wěn)定,不同學(xué)習(xí)水平的試測生能代表相應(yīng)能力水平的考生群;
⑤近幾年的高考題型穩(wěn)定,考試內(nèi)容、測試目標(biāo)、教學(xué)方式等變化不大,同一學(xué)科考查的能力分布幾乎相同,與上一年相比,考生整體水平也沒產(chǎn)生較大差異;
⑥由平均值之差預(yù)測的試卷量表之差與試卷各個點的成績分布之差相同。
試測生是指參加考試試測的學(xué)生樣本群體,此樣本必須是將來正式測驗施測對象全體的代表性樣本,且樣本數(shù)適中。Kolen和Brennan認(rèn)為,在傳統(tǒng)等值和線性等值中通常每個測驗需要400各樣本,等百分位等值需要略多于1 500的樣本量[3]。但由于我國高考的特殊性質(zhì)以及高度保密的需要,不可能抽取較多的樣本,通常是在參加當(dāng)年高考的考生群體中抽取12~20名參加試測,其中文理科各一半。由于樣本較少,所以需對樣本的性質(zhì)作嚴(yán)格要求,才會保證結(jié)果推測的更加有效。除上文提到的要求以外,每一樣本需是中等偏上的能力水平,一方面考生能客觀準(zhǔn)確提供答題方面信息,另一方面這部分學(xué)生一般具有較穩(wěn)定的反應(yīng)傾向,能力水平較穩(wěn)定,應(yīng)試狀況較正常,可以有效避免測試結(jié)果的誤差。
將上一年試測生的成績,分別按文、理科總分從高到低進(jìn)行排序,并依據(jù)上一年本省錄取高考分?jǐn)?shù)線將學(xué)生進(jìn)行分類(等級),比如本一(分?jǐn)?shù)達(dá)到一本線以上的)、本二(分?jǐn)?shù)在二本線以上、一本線以下的)或是本三(分?jǐn)?shù)在最低本科線以上、二本線以下的),這種分類的方法近似于將學(xué)生按能力分成不同的群體,也即不同的能力分布。以該群體文科考生為例,對照表1,A群體是2009年的試測生,該群體6位學(xué)生的能力分布為3個本一、2個本二、1個本三。因為近幾年湖南省錄取率大體穩(wěn)定,這種分類可作為當(dāng)年試測生選擇的依據(jù)。
表1 試測生對照選擇表(文科)
首先是找出B群體所在學(xué)校上一年總分的頻數(shù)分布表,將A群體的分?jǐn)?shù)視為B群體需對應(yīng)的百分點,根據(jù)此百分點在B群體所在學(xué)校的頻數(shù)分布表中找到對應(yīng)的百分等級,如表1所示,A群體甲校三位學(xué)生分?jǐn)?shù)和能力層級分別是600分(本一)、580分(本一)、568分(本二),此3個分?jǐn)?shù)視為B群體的3個百分點,根據(jù)這3個百分點在B群體所在學(xué)校頻數(shù)分布表中找到相應(yīng)的百分等級分別是4.03%、16%、26.7%,根據(jù)B群體2009年各批次錄取率判定,這三個百分等級分別落在相應(yīng)的本一或本二層次內(nèi),與A群體能力分布吻合。所以這3個百分等級就是將要參加本年度試測的樣本群體(B群體)需要對應(yīng)的百分等級,也是我們選擇B群體的標(biāo)準(zhǔn)。
由于選擇群體用的是百分位常模,百分位常模只是順序量表,而非等距量表,測驗分?jǐn)?shù)也是呈常態(tài)分布,所以在兩個群體中可能很難找到完全對應(yīng)的百分等級和百分點,只要是所在層次(錄取批次)相同,百分等級略微在附近應(yīng)該是影響不大的。如表1,讓丙校按較大比例(一般是1∶4左右)推薦愿意參加試測的相應(yīng)層次的學(xué)生作為B群體的備選項,分別是本一層次3.6%、9.5%、9.7%、15.3%、15.5%,本二層次25.5%、36.1%,以上百分等級是丙校根據(jù)學(xué)生最近幾次??汲煽兣琶脕淼摹8鶕?jù)丙校提供的B群體備選項的百分等級和該校上一年的高考總分頻數(shù)分布表找出各個備選項百分等級所對應(yīng)的百分點,確定B群體及準(zhǔn)確位置(層次、百分等級、百分點),如表1,分別是考生1(本一,3.6%、601分)、考生2(本一、15.3%、581分)、考生3(本二、25.5%、570分)。同樣步驟,選出乙校對應(yīng)丁校的B群體中3位學(xué)生及準(zhǔn)確位置,如表1,分別是考生1(本一,0.7%、598分)、考生2(本二、8.4%、552分)、考生3(本三、53%、496分)。
我們對等百分位等值原理可以理解為:如果考生既參加模塊A的考試又參加模塊B的考試,我們比較考生在模塊A和模塊B的表現(xiàn),就可以將兩個模塊中相同的分?jǐn)?shù)作為是等值的,這樣就實現(xiàn)了模塊A和模塊B的分?jǐn)?shù)等值[4]。利用等百分位原理,因為近幾年試測生水平大致相當(dāng),我們可以假設(shè)參加試測的每一樣本都參加了2007年、2008年、2009年的高考,可以根據(jù)考生B群體的百分等級以及所在學(xué)校的三年成績總分頻次表,用等百分位映射方法可以找出每一樣本在三年的百分點,通過所在學(xué)校相應(yīng)年份相關(guān)層次的各科總分、各學(xué)科分?jǐn)?shù)的平均分進(jìn)行加權(quán)分析,預(yù)測出試測生在相應(yīng)年份各科應(yīng)達(dá)到的分?jǐn)?shù)。(因為湖南省自主命題科目是語文、數(shù)學(xué)、英語三科,本文僅對這三科的難度預(yù)測進(jìn)行探討)
以考生1為例(參考表1、表2),該生在學(xué)校的綜合排名為前3.6%(百分等級),為本一層次。
第1步,找對應(yīng)百分點(總分)。根據(jù)該生所在學(xué)校2007~2009年文科各學(xué)科總分的頻數(shù)分布表(1分段表)找到3.6%對應(yīng)的百分點,分別是596分(2007年)、573分(2008年)、601分(2009年),對照這三年湖南省本一層次的錄取線及該生所在丙校的錄取率,百分位及對應(yīng)的百分點都在本一范圍內(nèi),可初步驗證此判斷方向正確。
第2步,找出考生1所在丙校某一年本一以上與本二以上(含本一)所在層次語文、數(shù)學(xué)、英語及總分的平均分及兩層次相同學(xué)科之間的差值,算出該層次三科變化在總分變化中所占的權(quán)重。以2007年為例,兩校本一以上層次語文、數(shù)學(xué)、英語及總分的平均分分別為112.1分、106.85分、123.98分、586.24分,本二以上層次(含本一)語文、數(shù)學(xué)、英語及總分的平均分分別為109.33分、101.15分、117.81分、561.23分,計算兩個層次各科及總分對應(yīng)差值分別為2.77、5.7、6.17、25.01,可理解為三科在總分變化25.01的權(quán)重分別為11%、22.8%、24.7%。
第3步,推測出在各年總分下對應(yīng)各學(xué)科的分?jǐn)?shù)。如,2007年考生1的總分是596分,該校本一層次當(dāng)年總分的平均分是586.24分,超出平均分9.76分,將9.76分別與權(quán)重11%、22.8%、24.7%相乘,得到分?jǐn)?shù)的變化應(yīng)是分別上升1.07、2.23、2.41,這樣可以預(yù)測出596分的總分對應(yīng)的各學(xué)科分?jǐn)?shù)是113.17分、109.08分、126.39分。
同理,可以預(yù)測出考生1對應(yīng)2008年、2009年的各科成績以及其他考生在各年度的各科成績。
第4步,推斷出與各年等值情況下今年考生群體應(yīng)該達(dá)到的平均分。以文科6個考生為例,假設(shè)今年各科送審稿的難度和2007年大體一致,根據(jù)每位試測生的百分等級在試測生所在學(xué)校2007年的總分頻次表中找到對應(yīng)的百分點,按照上述方法推算對應(yīng)各學(xué)科的分?jǐn)?shù),從而得出今年三科的總分和、平均分分別為:語文,總分644.55分(平均分107.43分);文科數(shù)學(xué),總分620.28分(平均分103.38分);英語,總分667.27分(平均分111.2分)。假設(shè)今年難度與2008年難度大體相當(dāng),則三科的總分和平均分分別為:語文652.11分(108.69分)、文科數(shù)學(xué)633.64分(105.61分)、英語661.01分(110.17分)。假設(shè)今年難度與2009年難度大體相當(dāng),則三科的總分和平均分分別為:語文,總分648.77分(平均分108.13分);文科數(shù)學(xué),總分704.34分(平均分117.4分);英語,總分700.41分(平均分116.74分)。
同樣方法和步驟,可推算出假如今年試卷和某年試卷等值情況下所有試測學(xué)生相應(yīng)學(xué)科的分?jǐn)?shù),從而得出試測生群體在相應(yīng)情形下各學(xué)科應(yīng)達(dá)到的平均分。
以上算法的前提是試測生所在學(xué)校近幾年學(xué)生的水平相對穩(wěn)定,且該年所選試測生各科學(xué)習(xí)水平大體平衡,每位學(xué)生沒有偏科現(xiàn)象。
表2 試測生各科分值推測(文科)
因為試測生的選擇和結(jié)果分析用到了等百分位等值(Equipercentile Equating)和平均值等值(Mean Equating)等方法,而要將兩個不同的考試等值,還必須滿足如下條件:兩個測驗的信度相同,且都是測量同一心理特質(zhì)的測驗[5]。所以要將試測的結(jié)果與高考相比,應(yīng)在保證都是測量同一心理特質(zhì)的前提下,試測過程和情境必須和高考的情形近似,以保證測驗的信度。比如,可以對試測過程作以下幾方面要求:
①按高考的要求布置考室和進(jìn)行組考,考前對試卷進(jìn)行嚴(yán)格保密;
②試卷題型和題量與高考一致;
③作答時限和正式高考的時限一樣,能讓學(xué)生答完全卷;
④在學(xué)生作答時,將每題花費的時間隨時加以記錄;
⑤測驗完成后,通過與考生交談了解更多被試反應(yīng)情況,如題意的理解等;
⑥評卷標(biāo)準(zhǔn)和程序嚴(yán)格按高考評卷的要求進(jìn)行。
在以上這種嚴(yán)格程序下,試測實施過程才是真實可靠的。
對命題工作的全過程而言,試題分析是其中的重要環(huán)節(jié)。試題分析通常包含兩個方面的過程和步驟,首先是內(nèi)容效度方面的評價和分析,如整卷是否有一定的覆蓋面,考查目標(biāo)是否明確,各題考查的能力層級描述是否與考綱一致,對主干知識的考查力度等;其次是量的統(tǒng)計和分析,如各題的難度、區(qū)分度、信度、標(biāo)準(zhǔn)差以及各題分?jǐn)?shù)分組分析等,形式一般是以圖或表的方式。試題分析的目的主要是對試卷的總體質(zhì)量和存在的問題作出客觀判斷和分析,從而對下一步命題提供改進(jìn)意見和建議。
對試測結(jié)果的統(tǒng)計和分析也是為了達(dá)到以上所描述的目的,讓學(xué)生按照高考的要求和場景答完試卷送審稿,對學(xué)生的作答總體及各題分?jǐn)?shù)進(jìn)行統(tǒng)計和分析,其效度分析的主要步驟之一是對照雙向細(xì)目表,將考試內(nèi)容和考試能力層級等一一對應(yīng)驗證。由于試測的樣本較少,相對全樣本來說,在區(qū)分度、信度等方面的評價準(zhǔn)確度可能會較弱,但從近些年的命題實踐經(jīng)驗來看,對試測生的實測成績進(jìn)行統(tǒng)計、分析及過后的調(diào)整對穩(wěn)定試卷難度起到了很大的作用。
這里所提及的試測結(jié)果的統(tǒng)計和分析主要包括對試測生整體各科成績的統(tǒng)計和分析、試測生個體各科成績的比較和分析、每道題目總體和個體的答題情況及分析等。通過各種分析和比較可發(fā)現(xiàn)以下幾方面的問題和結(jié)論:首先是可以直觀的發(fā)現(xiàn)考生答題的異常,比如預(yù)測高分值的考生(根據(jù)平常成績可以拿高分的考生)在某道較易選擇題的選答上出現(xiàn)問題,而預(yù)測較低分值學(xué)生反而答對,說明該題可能容易被猜或是選項有迷惑性不夠、不同質(zhì)等問題,需要進(jìn)一步改進(jìn);其次是可發(fā)現(xiàn)整卷難度分布狀況,如果某一題型的得分不是從易到難的分布,則需對該題型的題目順序進(jìn)行調(diào)整;再則是將試測生的實測結(jié)果和之前預(yù)測的試測生的各科成績進(jìn)行比較,可為下一步預(yù)測和調(diào)控試卷難度提供數(shù)據(jù)支撐。同樣是因為樣本較少的問題,難度曲線圖對分析預(yù)測全樣本的難度分布準(zhǔn)確性不夠,所以一般也不用。
平均值等值(Mean Equating)方法,是將兩份試卷比較,計算平均分之差,然后將兩年的試卷進(jìn)行等值比較,將一份試卷的成績加上或減去平均值之差,從而將兩份試卷放在同一量表上。如果樣本很穩(wěn)定,可以認(rèn)為平均值之差是試卷的不同而產(chǎn)生的。這種方法的前提是:首先是樣本穩(wěn)定,再則是由平均值之差預(yù)測的試卷量表之差與試卷各個點的成績分布之差是相同的,這個假設(shè)在成績分布的中心部分是比較合理的,但在高分和低分段范圍內(nèi),并不總是符合條件[6]。
在用試測來預(yù)測試卷難度的實踐中,特別注意的是試測生的選聘條件,即整體成績位于中等偏上,且相鄰年份之間試測生的成績很穩(wěn)定,下一年的選擇標(biāo)準(zhǔn)是參照上一年試測生的成績來選擇的,這樣,將兩份試卷放在同一量表上進(jìn)行比較則比較合理。
表3是2010年高考命題過程中將送審稿試測后對試卷難度的預(yù)測數(shù)據(jù)表,此數(shù)據(jù)表分為三個部分,以第一部分為例,是將2010年送審稿與2007年高考試卷放在同一量表上,從而預(yù)估出2010年送審稿的難度。以語文學(xué)科為例,首先根據(jù)本文第4部分所述方法得出假設(shè)2010年難度與2007年一致的情況下,試測生的語文平均成績應(yīng)是105.78分(成績一),而2010年試測生的實測平均分為108.08分(成績二),成績一和成績二比較,后者比前者高出2.3分,由此推出2010年與2007年的試卷的量表之差就是2.3,已知2007年全樣本的平均值是87.73分,則2010年全樣本平均分的預(yù)估值應(yīng)是90.03分(87.83+2.3)。同樣,可以推算出在將2007年的試卷與2010年試卷放在同一量表下其他三科(文數(shù)、理數(shù)、英語)試卷平均分的預(yù)估值,分別是81.59分、87分、89.32分。
在表3中,之所以將2010年的試卷與2007年、2008年、2009年等不同年份的數(shù)據(jù)分別進(jìn)行等值處理,然后進(jìn)行綜合分析,是為了求證這種計算方法結(jié)論的更加可靠和穩(wěn)定性,也避免了某一年樣本稍有偏差,如有個別虛報成績的差生或偏科生等情況而造成影響判斷的情況。
通過試測生的實測數(shù)據(jù),可以了解試卷的難度結(jié)構(gòu)分布,推測全樣本的整卷難度,從而根據(jù)事先設(shè)計的難度藍(lán)圖對試卷的難度進(jìn)行調(diào)整,這是難度調(diào)控的基本思路。比如2010年難度藍(lán)圖是:語文90~95分,文科數(shù)學(xué)是70~75分,理科數(shù)學(xué)是80~85分,英語是80~85分(參照上一年數(shù)據(jù)和當(dāng)年的錄取率確定),從表3中數(shù)據(jù)得出,文科數(shù)學(xué)和英語偏易,需要調(diào)整難度,語文、理科數(shù)學(xué)剛好在預(yù)設(shè)區(qū)間,只要根據(jù)試測生答題情況進(jìn)行微調(diào)就行。
在命題過程中,其實還會用到另一個預(yù)測難度的方法,即學(xué)科專家對難度的預(yù)估。學(xué)科專家將歷年高考試題分題型、內(nèi)容按難度值的大小分布集合起來,形成一個類似的難度常模,對照難度常模,根據(jù)該門學(xué)科試題難度影響因素,分析得出每道題的預(yù)估難度,然后經(jīng)過加權(quán)處理得到整卷的難度。試測推算和專家預(yù)估數(shù)據(jù)的結(jié)合和綜合分析,實際也是試測后難度調(diào)控的一項重要內(nèi)容。
值得注意的是,對試卷難度的調(diào)整不是對每道題的難度進(jìn)行調(diào)整,而是需根據(jù)試測生在每道題的作答反應(yīng)、作答結(jié)果等情況的觀察和分析,對比往年試題難度分布進(jìn)行決策的。定了調(diào)整方向后,根據(jù)影響題目難度的各種因素對試題進(jìn)行調(diào)難或易的操作。
表3 難度預(yù)測數(shù)據(jù)表
由于各種條件的限制,在目前不可能像國外那樣進(jìn)行題庫建設(shè),在題目正式入庫之前進(jìn)行考試前期的大型試測情形下,選取少量的樣本全入闈進(jìn)行試測是命題實踐的一種探索。少量樣本提前試測,對觀察不同層次考生答題反應(yīng)、發(fā)現(xiàn)陳題等起著很重要的作用,但由于樣本偏少,往往認(rèn)為不足以對難度等參數(shù)做出確切判斷。但從幾年的命題實踐可以得出:只要嚴(yán)格把好試測生選擇條件,即試測生水平在中等以上,且相鄰兩年試測生學(xué)習(xí)水平大體一致等假設(shè)條件(文中第二部分提到的研究假設(shè))基本成立的話,文中這種預(yù)測方法和過程可以較好把握難度調(diào)控的方向(調(diào)難或易、調(diào)控的幅度大?。?,這種方法和命題教師的主觀預(yù)估結(jié)合,相互佐證,對命題難度的調(diào)控起到了很好的效果。
[1]Van der linden,W.J.and R.K.Hambleton.Handboo of Modern Itemresponse Theory[M].New York:Springer.1996.
[2][5]張敏強.教育測量學(xué)[M].北京:人民教育出版社.1998.
[3]Kolen,M.J.,&Brennan,R.L.,Test Equating,Scaling,and Linking methodsand Practices,2nd ed,Springer.2004.
[4]溫忠麟,羅冠忠.模塊化科目考試的分?jǐn)?shù)轉(zhuǎn)換——以香港中學(xué)文憑考試為例[J].中國考試,2012(9):3-7.
[6][美]約瑟夫·M.瑞安.基于經(jīng)典測量理論和項目反應(yīng)理論的等值和連接——等值設(shè)計和經(jīng)典測量理論等值程序[J].考試研究,2011(2):83-95.