程乾 張心
新一輪考試招生制度綜合改革明確要求在高中學(xué)業(yè)水平考試和外語(yǔ)科目考試中,為學(xué)生提供兩次考試機(jī)會(huì)。這可以避免考生因偶然因素導(dǎo)致的考試失誤。然而將哪一次考試成績(jī)作為考生的最終成績(jī)是一個(gè)必須面臨且必須解決的問題。原因在于,即使兩次考試考查的是同一種能力結(jié)構(gòu),也很難確保這兩次考試的難度完全相等。若一部分學(xué)生只進(jìn)行了難度相對(duì)大的那一次考試,而一部分學(xué)生只進(jìn)行了難度相對(duì)小的那一次,顯然后者的成績(jī)更有可能比前者高。這樣就會(huì)產(chǎn)生考試的不公平。因此為了消除這種因兩次考試難度差異而造成的不公平,就需要將這兩次考試的成績(jī)放在同一個(gè)量尺上進(jìn)行比較。這就是測(cè)驗(yàn)等值。
對(duì)實(shí)現(xiàn)不同測(cè)驗(yàn)間的分?jǐn)?shù)可比以及相應(yīng)方法的需求可以追溯到心理測(cè)量的起源。[1]在過去的90多年中,不同測(cè)驗(yàn)分?jǐn)?shù)之間可比性的標(biāo)準(zhǔn)化評(píng)價(jià)已經(jīng)成為心理測(cè)量領(lǐng)域一個(gè)重要焦點(diǎn)。[2]如今,實(shí)現(xiàn)測(cè)驗(yàn)分?jǐn)?shù)間可比的過程被統(tǒng)一稱作“測(cè)驗(yàn)連接”。[3]作為測(cè)驗(yàn)連接分類中條件最嚴(yán)格的一種,測(cè)驗(yàn)等值因教育與心理實(shí)踐的需要(兩個(gè)平行測(cè)驗(yàn)間的分?jǐn)?shù)需要相互轉(zhuǎn)換)得到廣泛重視。核等值法、局部觀察分?jǐn)?shù)等值法等新的等值方法不斷涌現(xiàn),對(duì)現(xiàn)有方法進(jìn)行持續(xù)有效的改進(jìn)、測(cè)驗(yàn)等值??某霭?,[4][5][6]都體現(xiàn)測(cè)驗(yàn)等值研究領(lǐng)域的蓬勃發(fā)展。但是,等值的嚴(yán)格條件,也給測(cè)驗(yàn)等值的實(shí)際應(yīng)用帶來諸多困難,能否嚴(yán)格有效地控制各個(gè)環(huán)節(jié)將直接影響等值的效果。本文擬從6個(gè)方面說明測(cè)驗(yàn)等值需要注意的一些關(guān)鍵性問題,以期為高考改革面臨的技術(shù)性問題提供參考和借鑒。
測(cè)驗(yàn)等值作為測(cè)驗(yàn)連接的一種,其定義隨著理論和實(shí)踐研究的深入而發(fā)生變化[7][8][9][10][11][12],有些定義甚至還存在明顯的矛盾,這給等值研究帶來一定的困難。Kolen和Brennan[13]的等值定義是現(xiàn)在普遍認(rèn)同的:等值是通過調(diào)節(jié)測(cè)驗(yàn)間的難度差異使得測(cè)驗(yàn)分?jǐn)?shù)可以相互轉(zhuǎn)換的統(tǒng)計(jì)過程。這種調(diào)節(jié)是對(duì)測(cè)驗(yàn)難度差異的調(diào)節(jié),而非對(duì)測(cè)驗(yàn)內(nèi)容差異進(jìn)行調(diào)節(jié)。等值的實(shí)現(xiàn)是建立在一系列前提假設(shè)上的,只有滿足這些前提假設(shè),等值質(zhì)量才能得到保證。他們總結(jié)前人的研究提出了測(cè)驗(yàn)等值的5個(gè)前提:對(duì)稱性(Symmetry)、相同細(xì)目(Same specification)、公平性(Equity)、觀察分?jǐn)?shù)等值性(Observed score equating)和群體不變性(Population invariance)。這5個(gè)等值前提是測(cè)驗(yàn)等值的基礎(chǔ)。在教育測(cè)量中,兩套試卷只有在滿足或者近似滿足這5個(gè)前提時(shí),才能有效地進(jìn)行等值。我們也可以依據(jù)這5個(gè)前提,對(duì)兩次考試是否適合等值進(jìn)行預(yù)先判斷。當(dāng)然,最終還是需要根據(jù)對(duì)以上5個(gè)前提的實(shí)測(cè)數(shù)據(jù)判斷等值的有效性。
在進(jìn)行等值前,先要考慮選擇什么樣的等值設(shè)計(jì)。等值設(shè)計(jì)的主要原則是使得所采集的數(shù)據(jù)能夠最有效地提供不同測(cè)驗(yàn)形式的差異信息。常見的等值設(shè)計(jì)主要有平衡單組設(shè)計(jì)、隨機(jī)等組設(shè)計(jì)和錨題非等組設(shè)計(jì)。
平衡單組設(shè)計(jì)的優(yōu)點(diǎn)是最大可能地節(jié)約了考生樣本,但缺點(diǎn)是很難保證測(cè)驗(yàn)安全,測(cè)驗(yàn)施測(cè)存在順序效應(yīng)、考生疲勞效應(yīng)和學(xué)習(xí)效應(yīng)。平衡單組設(shè)計(jì)的使用可以檢測(cè)是否存在嚴(yán)重的順序效應(yīng)、疲勞效應(yīng)和學(xué)習(xí)效應(yīng)。當(dāng)這些效應(yīng)的影響特別大時(shí),可以放棄后測(cè)兩組數(shù)據(jù)從而變成隨機(jī)等組設(shè)計(jì)。
隨機(jī)等組設(shè)計(jì)假設(shè)兩個(gè)考生樣本來自同一個(gè)總體,因此要盡可能地抽取兩個(gè)等同的樣本。隨機(jī)等組設(shè)計(jì)需要的樣本量相對(duì)較大。
錨題非等組設(shè)計(jì)需要通過設(shè)置錨題來調(diào)節(jié)兩個(gè)不同總體之間的差異。由于現(xiàn)實(shí)原因,等值經(jīng)常使用錨題非等組設(shè)計(jì)。未來高考外語(yǔ)和高中學(xué)業(yè)水平考試將實(shí)行一年兩次考試,倘若要對(duì)兩次考試進(jìn)行等值,只能使用錨題非等組設(shè)計(jì)。因?yàn)榭忌芰υ趦纱慰荚囍g有明顯的變化,在統(tǒng)計(jì)上不能認(rèn)為這兩批考生來自同一個(gè)考生總體。但是,錨題非等組設(shè)計(jì)也是這幾種等值設(shè)計(jì)中最復(fù)雜的一種,許多潛在因素(如錨題的編制)可能會(huì)嚴(yán)重影響等值的有效性。
此外,在條件允許的情況下,在這些等值設(shè)計(jì)中還可輔以雙鏈/多鏈技術(shù),以降低等值誤差。[14]總而言之,等值設(shè)計(jì)的選擇包括試卷開發(fā)和實(shí)施的復(fù)雜性、是否滿足統(tǒng)計(jì)假設(shè)等方面的現(xiàn)實(shí)考慮。
在教育測(cè)量中,當(dāng)我們收集到考試數(shù)據(jù)時(shí),還應(yīng)基于數(shù)據(jù)判斷兩次考試是否可以等值,這是常被忽略的問題。判斷的原則涉及兩個(gè)方面,一是來自兩次考試的數(shù)據(jù)差異過大而不適合等值;二是來自兩次考試數(shù)據(jù)過于相似而沒必要等值。一方面,如果兩次考試數(shù)據(jù)差異過大,很可能是由于兩次考試本身就不符合等值前提,導(dǎo)致其數(shù)據(jù)不能用來等值。另一方面,如果試卷開發(fā)、等值設(shè)計(jì)、數(shù)據(jù)收集以及質(zhì)量控制過程都得到了有效保障,得到的數(shù)據(jù)極有可能十分相似,將這些分?jǐn)?shù)直接進(jìn)行相互轉(zhuǎn)換就能夠滿足當(dāng)前的需求。那么在這種情況下,不使用等值或者使用恒等函數(shù)也許是一種更好的選擇[15],使用等值反而極有可能會(huì)引入更多的誤差。
Hanson[16]基于對(duì)數(shù)線性模型提出一種確定是否使用等值的方法。如果來自兩個(gè)測(cè)驗(yàn)的分?jǐn)?shù)分布間的差異僅由隨機(jī)誤差造成(沒有拒絕零假設(shè)),那么基于任何等值方法的結(jié)果與恒等函數(shù)之間的差異同樣也由隨機(jī)誤差造成。這時(shí),等值僅會(huì)引入誤差,因此使用恒等函數(shù)也許是更好的選擇。所以,兩次考試的分?jǐn)?shù)進(jìn)行等值之前,必須明確是否有必要等值。如果兩次考試及其分?jǐn)?shù)滿足等值的條件,那么分?jǐn)?shù)分布間的差異應(yīng)該不會(huì)太大,這時(shí)就要確定使用等值還是使用恒等函數(shù)。只有當(dāng)引入的誤差比恒等函數(shù)小時(shí),才會(huì)考慮等值。
等值方法多種多樣,如何在教育考試中選擇合適的等值方法是一個(gè)棘手的問題。Kolen和Brennan給出了幾種常見等值方法的適用條件和建議。[17]他們認(rèn)為試題開發(fā)、等值設(shè)計(jì)、數(shù)據(jù)收集、標(biāo)準(zhǔn)化和質(zhì)量控制的有效性等都是等值方法能否有效使用的前提。雖然可以分析比較所有這些等值方法的結(jié)果,然后選擇在當(dāng)前等值情景中表現(xiàn)最好的等值方法。但是,由于這些等值方法分別有各自的適用條件,因此可以先分析它們的適用條件,排除掉一部分方法選項(xiàng),進(jìn)而分析比較剩下的那些方法。
樣本量是選擇合適等值方法的一個(gè)重要因素,其大小直接影響到等值的精度。Kolen和Brennan認(rèn)為在隨機(jī)等值設(shè)計(jì)中,等百分位等值至少需要1 500的樣本量,線性等值至少需要400的樣本量,平均數(shù)等值需要的樣本量更少;在錨題非等組設(shè)計(jì)中需要的樣本量不僅要參考隨機(jī)等值設(shè)計(jì),還要結(jié)合錨題與測(cè)驗(yàn)的相關(guān)程度等其他因素。[18]Harris建議三參數(shù)IRT等值法需要的樣本量參照等百分位等值,基于Rasch模型的IRT等值法需要的樣本量參照線性等值。[19]因此,僅就樣本量而言,當(dāng)樣本量小于400但不是特別小時(shí),平均數(shù)等值法也許是比較好的選擇;當(dāng)樣本量大于400小于1 500時(shí),平均數(shù)等值、線性等值和基于Rasch模型的IRT等值法也許是比較好的選擇;當(dāng)樣本量大于1 500時(shí),樣本量則也許不是選擇等值方法的重要影響因素。另外,如果進(jìn)行等值的測(cè)驗(yàn)涉及標(biāo)準(zhǔn)設(shè)定(即通過等值從一個(gè)測(cè)驗(yàn)的臨界分?jǐn)?shù)確定另一個(gè)測(cè)驗(yàn)的臨界分?jǐn)?shù)),那么在等值時(shí),這兩個(gè)測(cè)驗(yàn)臨界分?jǐn)?shù)附近的精確性應(yīng)該是首先要考慮的問題。相應(yīng)的,在兩測(cè)驗(yàn)各自臨界分?jǐn)?shù)附近應(yīng)有足夠的被試,才能保證等值精確性。
測(cè)驗(yàn)難度差異是影響等值方法選擇的另一個(gè)重要因素。等值是對(duì)測(cè)驗(yàn)形式間難度差異的調(diào)節(jié)。當(dāng)難度差異較小時(shí),任何等值方法都能取得相對(duì)好的效果;若測(cè)驗(yàn)難度差異過大,任何等值方法都不會(huì)得到有效的結(jié)果。[20]在可接受的難度差異范圍內(nèi),對(duì)方法的選擇就受到難度差異大小的影響。平均數(shù)等值法和線性等值法適用于兩測(cè)驗(yàn)間難度差異較小時(shí)的等值;等百分位等值法和IRT等值法更適用于兩測(cè)驗(yàn)間難度相對(duì)較大時(shí)的等值。但Kim等人認(rèn)為很難確定測(cè)驗(yàn)難度差異在什么程度才能保證某種等值方法有效。[21]因此根據(jù)難度差異大小選擇等值方法應(yīng)充分參考已有的文獻(xiàn)資料和經(jīng)驗(yàn),并在條件允許的情況下多進(jìn)行前期研究。
等值后分?jǐn)?shù)量表的使用范圍也是合理選擇等值方法時(shí)應(yīng)考慮的因素。如果只使用平均數(shù)附近的等值分?jǐn)?shù),即只要求平均值附近的分?jǐn)?shù)點(diǎn)滿足一定等值精度而不考慮其他分?jǐn)?shù)點(diǎn)的等值精度,平均數(shù)等值和線性等值就是簡(jiǎn)單而可靠的方法;如果要使用整個(gè)分?jǐn)?shù)量表,那么就應(yīng)該考慮等百分位等值和IRT等值。
最后,還應(yīng)考慮統(tǒng)計(jì)假設(shè)是否成立。比如在錨題非等組設(shè)計(jì)中,若兩批考生能力差異過大、兩個(gè)測(cè)驗(yàn)差異過大或者錨題設(shè)置不同于測(cè)驗(yàn),那么該設(shè)計(jì)的假設(shè)就會(huì)不成立。這樣,該等值設(shè)計(jì)任何等值方法都不會(huì)得到理想結(jié)果。同樣在錨題非等組設(shè)計(jì)中,每一種方法都有各自的強(qiáng)假設(shè),如果這些假設(shè)沒有近似滿足,也不能得到理想的等值結(jié)果。
通過以上環(huán)節(jié)收集到考試數(shù)據(jù)后,最終目標(biāo)就是確定最理想的等值結(jié)果。為了實(shí)現(xiàn)這個(gè)目的,需要先嘗試多種等值方法,然后依據(jù)一些評(píng)價(jià)標(biāo)準(zhǔn)作出一種最佳選擇。然而每一種評(píng)價(jià)標(biāo)準(zhǔn)都有其優(yōu)劣與適用條件。Harris和Crouse指出,測(cè)驗(yàn)等值中沒有一個(gè)放之四海而皆準(zhǔn)的標(biāo)準(zhǔn)。因此必須選擇合適的等值評(píng)價(jià)標(biāo)準(zhǔn)。[22]
2.5.1 公平性
Lord首先提出“公平性”的概念,但他所提的公平性只有在測(cè)驗(yàn)嚴(yán)格平行下才能實(shí)現(xiàn)。因此實(shí)際應(yīng)用中并沒有使用Lord的概念,而是采用弱公平性。Digivi[23]和Morris[24]分別提出一階公平性(First-Order Equity,F(xiàn)OE)和二階公平性(Second-Order Equity,SOE)兩種弱公平性概念。在給定真分?jǐn)?shù)的條件下,它們分別要求被試在測(cè)驗(yàn)Y的觀察分?jǐn)?shù)分布與變換后的測(cè)驗(yàn)X觀察分?jǐn)?shù)分布的期望(一階矩)和方差(二階矩)相同。公平性標(biāo)準(zhǔn)直接對(duì)應(yīng)當(dāng)前等值情境下哪種等值方法更滿足公平性前提。Kim等人,Tong和Kolen以及Lee等人用弱公平性比較了多種條件下不同等值方法的表現(xiàn);[25][26][27]Andrews用弱公平性評(píng)價(jià)多維IRT等值結(jié)果。[28]
2.5.2 群體不變性
與公平性標(biāo)準(zhǔn)一樣,群體不變性也是一種直接對(duì)應(yīng)等值前提的評(píng)價(jià)標(biāo)準(zhǔn)。例如,如果考生群體分為男女兩個(gè)子群體后,男女子群體的等值關(guān)系與總體的等值關(guān)系差異過大,說明這種等值關(guān)系是依賴于群體的,此時(shí)就因不滿足群體不變性前提而不適合等值。Dorans和Holland用差異均方根(RMSD)和差異期望均方根(REMSD)這兩個(gè)指標(biāo)來評(píng)價(jià)線性等值中群體不變性。[29]Von Davier等人和Dorans等人同樣用RMSD和REMSD來分析錨題非等組設(shè)計(jì)中的等值方法的群體不變性。[30][31]當(dāng)這兩個(gè)指標(biāo)過大時(shí),即兩測(cè)驗(yàn)間的連接關(guān)系表現(xiàn)出明顯的群體依賴性,那么這種連接關(guān)系不能看作是等值關(guān)系。
2.5.3 等值誤差
等值誤差包括系統(tǒng)誤差和隨機(jī)誤差,二者之和稱為等值總誤差。隨機(jī)誤差就是因抽樣引起的等值標(biāo)準(zhǔn)誤,又稱等值標(biāo)準(zhǔn)誤;若能直接應(yīng)用總體數(shù)據(jù)估計(jì)測(cè)驗(yàn)間的等值關(guān)系,那么所估等值關(guān)系就不會(huì)存在隨機(jī)誤差,[32]但實(shí)際等值中往往因采用抽樣數(shù)據(jù)而肯定存在隨機(jī)誤差。不同等值方法在不同等值情境中的等值標(biāo)準(zhǔn)誤不同,因此可以比較各方法間等值標(biāo)準(zhǔn)誤大小來選擇。
系統(tǒng)誤差來源復(fù)雜,方法的假設(shè)條件不滿足,數(shù)據(jù)采集不規(guī)范,施測(cè)被試群體的代表性不足,數(shù)據(jù)處理技術(shù)等都可能產(chǎn)生系統(tǒng)誤差。不同方法的等值誤差不同,顯然誤差越小的方法等值越精確。計(jì)算系統(tǒng)誤差和總誤差必然涉及等值真值,但等值真值在真實(shí)情景中是未知的,一般是通過蒙特卡洛模擬得到,并以某種測(cè)量模型(如項(xiàng)目反應(yīng)理論中的各種模型)定義。在模擬過程中,為使模擬更接近真實(shí)數(shù)據(jù),常采取的手段是先利用真實(shí)作答數(shù)據(jù)估計(jì)出IRT項(xiàng)目參數(shù)與能力,然后將這些估計(jì)值作為參數(shù)真值,再以此為基礎(chǔ)模擬出作答數(shù)據(jù),最后對(duì)模擬出的作答數(shù)據(jù)使用各種等值方法。用等值誤差作為等值評(píng)價(jià)標(biāo)準(zhǔn)存在的潛在問題主要是模擬與真實(shí)情況的一致性。
2.5.4 等值到自身/循環(huán)等值
該評(píng)價(jià)標(biāo)準(zhǔn)是通過將一個(gè)測(cè)驗(yàn)直接或通過一組測(cè)驗(yàn)間接地等值到自己,然后比較直接和間接的分?jǐn)?shù)轉(zhuǎn)換的差異。比如將測(cè)驗(yàn)A等值到測(cè)驗(yàn)B,測(cè)驗(yàn)B等值到測(cè)驗(yàn)C,測(cè)驗(yàn)C又等值回測(cè)驗(yàn)A。通過這種方式,測(cè)驗(yàn)A就等值到自身。Brennan和Kolen指出了該評(píng)價(jià)標(biāo)準(zhǔn)的局限性:(1)估計(jì)更少參數(shù)的等值方法(如線性等值)將比估計(jì)更多參數(shù)的等值方法可?。ㄈ绲劝俜治坏戎担唬?)在錨題非等組設(shè)計(jì)中,用循環(huán)等值得到的結(jié)果取決于循環(huán)開始時(shí)選擇的測(cè)驗(yàn)。[33]比如將測(cè)驗(yàn)A通過測(cè)驗(yàn)B和測(cè)驗(yàn)C等值到自身與將測(cè)驗(yàn)C通過測(cè)驗(yàn)A和測(cè)驗(yàn)B等值到自身會(huì)得到不同的結(jié)果。因此使用這個(gè)評(píng)價(jià)標(biāo)準(zhǔn)時(shí)應(yīng)該注意這些局限。但是用該標(biāo)準(zhǔn)確實(shí)有助于識(shí)別產(chǎn)生較差等值結(jié)果的方法。因?yàn)?,若將測(cè)驗(yàn)等值到自身時(shí),某種方法都得到不好的結(jié)果,那么這種方法在將測(cè)驗(yàn)等值到另一個(gè)測(cè)驗(yàn)也不會(huì)得到很好的結(jié)果。
2.5.5 大樣本
如果能夠基于被試總體數(shù)據(jù)進(jìn)行等值,那么就可以將其作為等值的評(píng)價(jià)標(biāo)準(zhǔn)。一些研究者[34][35]使用了非常大的被試樣本,并把這個(gè)樣本當(dāng)作被試總體。然后在這個(gè)大樣本抽取一些小樣本,并將其等值結(jié)果與大樣本等值結(jié)果比較。大樣本評(píng)價(jià)標(biāo)準(zhǔn)的局限是很少能夠獲得大量的被試樣本。
正如前面提到的,任何等值標(biāo)準(zhǔn)都有其優(yōu)劣。在測(cè)驗(yàn)等值時(shí),應(yīng)盡量使用多種評(píng)價(jià)標(biāo)準(zhǔn)。最理想的結(jié)果是這些評(píng)價(jià)標(biāo)準(zhǔn)都指向一致的等值方法。但是,當(dāng)這些評(píng)價(jià)標(biāo)準(zhǔn)指向不同的等值方法時(shí),就必須仔細(xì)分析導(dǎo)致這一問題的原因,并根據(jù)等值的實(shí)際用途、客觀事實(shí)及主觀經(jīng)驗(yàn)進(jìn)行彌補(bǔ)和選擇。
測(cè)驗(yàn)等值由許多環(huán)節(jié)組成,每一個(gè)環(huán)節(jié)間都相互聯(lián)系。只有將每個(gè)環(huán)節(jié)都控制得當(dāng),才能獲得有效的等值結(jié)果。[36]質(zhì)量控制對(duì)測(cè)驗(yàn)等值是否充分至關(guān)重要,但是也相當(dāng)繁雜和耗費(fèi)時(shí)間。[37]可以從以下幾個(gè)方面對(duì)測(cè)驗(yàn)等值質(zhì)量進(jìn)行控制:檢查是否按平行測(cè)驗(yàn)原則編制測(cè)驗(yàn);檢查錨題設(shè)置是否有效;檢查測(cè)驗(yàn)是否按照標(biāo)準(zhǔn)化流程實(shí)施;檢查需要等值的兩份測(cè)驗(yàn)是否有統(tǒng)一的評(píng)分標(biāo)準(zhǔn);檢查是否按標(biāo)準(zhǔn)化流程閱卷;檢查用于等值的樣本是否有代表性;檢查等值設(shè)計(jì)是否可行;檢查是否正確應(yīng)用等值方法;檢查等值結(jié)果與以往研究和實(shí)踐是否一致;如果涉及臨界分?jǐn)?shù)的等值,還應(yīng)檢查等值結(jié)果是否與預(yù)期一致。
測(cè)驗(yàn)等值作為心理測(cè)量領(lǐng)域的重要組成部分,其理論和實(shí)踐在國(guó)外都有比較深入的研究。相比之下,國(guó)內(nèi)有關(guān)測(cè)驗(yàn)等值的研究顯得有些滯后,且大多從理論出發(fā),實(shí)際應(yīng)用則少之又少。隨著我國(guó)考試招生制度改革的深入,高中學(xué)業(yè)水平考試和高考外語(yǔ)正在探索為考生提供兩次考試,實(shí)現(xiàn)兩次考試分?jǐn)?shù)間的相互轉(zhuǎn)換是一個(gè)必須解決的問題。測(cè)驗(yàn)等值理論與技術(shù)為該問題的解決提供了明確方向,也必將在考試中得到實(shí)際應(yīng)用。在當(dāng)前對(duì)等值有較高需求的大環(huán)境下,需要更多測(cè)驗(yàn)等值的應(yīng)用研究,以逐步解決等值實(shí)踐中的難題。
[1] Holland,P.W.,&Dorans,N.J.Linking and equating[M]//R.L.Brennan.Educational measurement(4th ed.).Westport,CT:Praeger Publishers,2006.
[2] Davier,A.A.Von.Statistical Models for Test Equating,Scaling,and Linking[M].New York:Springer-Verlag,2011.
[3] 程乾.“測(cè)驗(yàn)連接”概念框架演變述評(píng)[J].考試研究,2013(2):72-79.
[4] Dorans,N.J.Assessing the population sensitivity of equating functions[J].Journal of Educational Measurement,2004,41(1):1-2.
[5] Pommerich,M.,&Dorans,N.J.Linking Scores via Concordance:Introduction to the Special Issue[J].Applied Psychological Measurement,2004,28(4):216-218.
[6] Davier,A.A.Von,&Liu,M.Population invariance[J].Applied Psychological Measurement,2008,32(9).
[7] Angoff,W.H.Scales,norms,and equivalent scores[M]//R.L.Thorndike.Educational measurement(2nd ed.).Washington,DC:American Council on Education,1971.
[8] Dorans,N.J.,Moses,T.P.,&Eignor,D.R.Equating Test Scores:Toward Best Practices[M]//Davier,A.A.Von.Statistical Models for Test Equating,Scaling,and Linking.New York:Springer-Verlag,2011.
[9] Feuer,M.J.,Holland,P.W.,Green,B.F.,Berdahl,J.L.,&Hemphill,F.C.Uncommon Measures:Equivalence and Linkage among Educational Tests[M].Washington,D.C:National Academy Press,1999.
[10] Flanagan,J.L.Units,scores,and norms[M]//E.F.Lindquist.Educational measurement.Washington,D.C:American Council on Education,1951.
[11] Lord,F.M.Applications of item response theory to practical testing problems[M].Hillsdale,NJ:Lawrence Erlbaurn Associates,Inc,1980.
[12] Mislevy,R.J.Linking educational assessments:Concepts,issues,methods,and prospects[M].Princeton,NJ:ETS Policy Information Center,1992.
[13][15][17][18] Kolen,M.J.,&Brennan,R.L.Test Equating,Scaling,andLinking:MethodsandPractices(3rded.)[M].NewYork:Springer-Verlag,2014.
[14] 戴海琦.等值誤差理論與我國(guó)高考等值誤差控制[J].江西師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),1999,32(1):29-35.
[16] Hanson,B.Testing for differences in test score distributions using log-linear models[C]//Paper presented at the Annual Meeting of the National Council on Measurement in Education.San Fraincisco,1992.
[19] Harris,D.C.Practical issues in equating[C]//Paper presented at the annual meeting of the American Educational Research Association.Atlanta,1993.
[20] Kolen,M.J.,&Brennan,R.L.Test Equating,Scaling,and Linking:Methods and Practices(2nd ed.)[M].New York:Springer-Verlag,2004.
[21][25] Kim,D.I.,Brennan,R.,&Kolen,M.A Comparison of IRT Equating and Beta 4 Equating[J].Journal of Educational Measurement,2005,42(1):77-99.
[22] Harris,D.J.,&Crouse,J.D.A Study of Criteria Used in Equating[J].Applied Measurement in Education,1993,6(3):195-240.
[23] Divgi,D.R.Two procedures for scaling and equating test with item response theory[C]//Paper presented at the annual meeting of the American Educational Research Association.Los Angeles,1981.
[24] Morris,C.N.On the foundations of test equating[M]//P.W.Holland,&D.B.Rubin.Test equating.New York:Academic Press,1982.
[26] Tong,Y.,&Kolen,M.J.Assessing Equating Results on Different EquatingCriteria[J].AppliedPsychologicalMeasurement,2005,29(6):418-432.
[27] Lee,E.,Lee,W.C.,&Brennan,R.L.Assessing Equating Results Based on First-order and Second-order Equity[R].Iowa City:Center for Advanced Studies in Measurement and Assessment,2010.
[28] Andrews,B.J.Assessing first-and second-order equity for the common-item nonequivalent groups design using multidimensional IRT[R].Iowa City,2011.
[29] Dorans,N.J.,&Holland,P.W.Population Invariance and the Equatability of Tests:Basic Theory and the Linear Case[J].Journal of Educational Measurement,2000,37(4):281-306.
[30] Davier,A.A.Von,Holland,P.W.,&Thayer,D.T.The Chain and Post-Stratification Methods for Observed-Score Equating:Their Relationship to Population Invariance[J].Journal of Educational Measurement,2004,41(1):15-32.
[31] Dorans,N.J.,Jinghua Liu,&Hammond,S.Anchor Test Type and Population Invariance:An Exploration across Subpopulations and Test Administrations[J].Applied Psychological Measurement,2008,32(1):81-97.
[32] 漆書青,戴海琦,丁樹良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社,2002.
[33][37] Brennan,R.L.,&Kolen,M.J.Some Practical Issues in Equating[J].Applied Psychological Measurement,1987,11(3):279-290.
[34] Hanson,B.A.,et al.A Comparison of Presmoothing and Postsmoothing Methods in Equipercentile Equating[R].ACT Research Report Series,Iowa City,1994.
[35] Livingston,S.A.,et al.What Combination of Sampling and Equating Methods Works Best?[J].Applied Measurement in Education Revised,1990,3(1):73-95.
[36] Allalouf,A.Quality Control Procedures in the Scoring,Equating,and Reporting of Test Scores[J].Educational Measurement:Issues and Practice,2007,26(1):36-46.