• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      題目參數(shù)漂移:概念厘定及相關研究*

      2015-02-26 14:41:05
      心理科學進展 2015年10期
      關鍵詞:等值測驗效應

      葉 萌 辛 濤

      (1陜西師范大學現(xiàn)代教學技術教育部重點實驗室, 西安 710062)(2北京師范大學發(fā)展心理研究所, 北京 100875)

      1 引言

      隨著人們越來越關注項目功能差異(Differential Item Functioning, DIF), 進行DIF檢測, 保證題目參數(shù)不變性(parameter invariance)假設跨考生群體滿足成為了測驗開發(fā)的一個必要環(huán)節(jié)。而DIF的思想和檢測方法也被其相似概念——題目參數(shù)漂移(Item Parameter Drift, IPD)借用, 用以考察進行測驗鏈接時, 題目參數(shù)跨測驗試卷/水平不變的假設是否得到了滿足。不過, 這樣的直接借用恰當嗎? 要回答這個問題, 我們首先需要掌握IPD的概念, 澄清它和DIF有何異同, 進而分析IPD的既有研究具有什么特點。這正是本文的主旨所在。

      2 題目參數(shù)漂移概念的厘定

      DIF和IPD概念的出現(xiàn)都源于參數(shù)不變性這一項目反映理論(IRT)的重要性質。其中“參數(shù)”是一個表示總體的量, 它在心理與教育測量中指的是對應于特定測量模型的一套題目參數(shù)或能力參數(shù), 參數(shù)值是固定的, 但不可知, 只能通過樣本統(tǒng)計量加以估計; “不變性”表明不論使用哪一考生(題目)總體, 不論在何種測量條件下, 題目(考生)的參數(shù)值都是一樣的(Rupp & Zumbo, 2006)。這一性質衍生出了IRT的技術優(yōu)勢: “與個人無關的題目測量”和“與題目無關的個人測量”, 進而成為IRT參數(shù)估計及IRT測驗鏈接中參數(shù)標定的理論基礎。不過, 參數(shù)不變性表示的是一種理想狀態(tài),它只在模型完美擬合時成立(Hambleton,Swaminathan, & Rogers, 1991)。

      對于題目參數(shù)而言, 由于種種原因, 一些題目的參數(shù)值會跨群體或跨測驗試卷/水平發(fā)生改變, 成為極端題目。參數(shù)值在不同子群體之間的變化稱為DIF (Holland & Wainer, 1993)。某個題目檢測出DIF意味著該題對于被比較的兩個或多個群體而言參數(shù)不同, 即發(fā)揮著不同的功能, 這可能反映出該題對于某(些)群體而言是不公平的。因此DIF是測驗公平性的一個重要考察因素。例如某個基于計算機的閱讀理解題若檢測出在城鄉(xiāng)考生之間存在DIF, 可能說明該題對參照組——城市考生來說考察的確實是閱讀理解, 而對目標組——農(nóng)村考生而言則考察的是操作計算機的熟練程度, 這樣該題對農(nóng)村考生可能是不公平的。題目參數(shù)值在若干連續(xù)性測試場合(經(jīng)常以“年”為單位)或測驗水平之間的變化稱為題目參數(shù)漂移(Item Parameter Drift, IPD), 其中的“題目”指的是實施測驗鏈接所用的錨題(Ye & Xin, 2014)。根據(jù)錨題所涉年級是否相同, 我們可以將IPD劃分為橫向IPD (horizontal IPD)和縱向IPD (vertical IPD)兩類。橫向IPD對應于量尺保持(scale maintenance)語境, 該語境旨在通過等值技術, 將在不同測試場合作答的若干套測驗試卷上的分數(shù)放在同一個量尺上, 以使作答不同試卷的考生分數(shù)可以實現(xiàn)互換和比較。若等值時檢測出某個錨題有IPD, 說明該錨題的參數(shù)值發(fā)生了跨場合的變化。等值所用錨題是施測于同一年級的考生的, 故此時檢測出的IPD稱為橫向IPD。與之不同, 縱向IPD對應于垂直量尺化(vertical scaling)語境, 該語境旨在通過垂直量尺化技術, 將不同年級在若干測驗水平上的分數(shù)放在同一個量尺上, 以使分數(shù)可以做出跨年級的比較。若在量尺化時檢測出某個錨題有IPD, 說明該錨題的參數(shù)值發(fā)生了跨測驗水平的變化。量尺化所用錨題是施測于相鄰的年級的, 故此時檢測出的IPD稱為縱向IPD (Ye & Xin,2014)。例如, 我們要針對高中入學考試的數(shù)學測驗實施量尺保持, 以考察某地區(qū)學生分數(shù)的變化趨勢, 2010年和2011年的試卷得以鏈接的前提假設是兩年間錨題集的參數(shù)值跨年不變, 但若某個錨題被檢測出IPD, 說明該題的參數(shù)發(fā)生了跨年份的變化, 從而違背了參數(shù)不變性假設。類似地,針對初中數(shù)學測驗實施垂直量尺化, 以考察某地區(qū)學生初中三年的學業(yè)發(fā)展情況, 初一和初二測驗水平得以鏈接的前提假設是兩個年級間錨題集的參數(shù)值跨年級不變, 但若檢測出某個錨題有縱向IPD, 說明該題的參數(shù)發(fā)生了跨年級的變化,我們應該考慮是否繼續(xù)使用其做錨題。

      從定義中可以看到, 雖然DIF和IPD探討的都是題目由于參數(shù)值發(fā)生改變而成為極端(異常)題這一統(tǒng)計問題, 但兩個主題有下列實質性的區(qū)別。(1)就背景而言, DIF探討的是測驗公平問題,而IPD探討的是測驗鏈接的準確性問題。換句話說, DIF要檢測的是某個測驗中的題目對不同的考生群體而言是否公平, IPD要檢測的則是若干個測驗試卷/水平間的錨題集是否能保障鏈接的準確性。(2)就漂移題目的影響而言, DIF出現(xiàn)意味著目標題目對于不同的考生群體而言考察的是不同的構念, 而IPD出現(xiàn)意味著目標題目對于作答不同測驗試卷/水平的考生而言難度不同, 因此不能再被視為同一道題, 但其對于不同的考生群體而言考察的構念是否相同則有待進一步分析。(3)就產(chǎn)生的原因而言, DIF有賴于追溯測驗設計、測驗內容、測驗排版格式、刺激材料等因素(American Educational Research Association [AERA], American Psychological Association [APA], & National Council on Measurement in Education [NCME], 1999), 而IPD則可能是由于課程內容變化、曝光度、題目位置效應等因素引起的。(4)就“改變”所涉對象的容量比較而言, DIF研究涉及的對象——參照組和目標組一般人數(shù)懸殊, 通常目標組是少數(shù)人群組, 而IPD研究涉及的對象——作答若干測驗試卷/水平的考生一般人數(shù)相當(Donoghue & Isham,1998)。(5)就“改變”是否傳遞或累積而言, 雖然可能存在多群體間DIF, 但題目參數(shù)值的改變是不能在群體間傳遞或累積的, 而IPD很傾向于在多個測試場合或測驗水平間加以傳遞和累積。因此,即便兩個測驗試卷/水平間的IPD對鏈接的影響可以忽略, 當被鏈接的測驗試卷/水平數(shù)目較多時,IPD效應可能會膨脹, 從而對鏈接造成實質性后果。(6)就處理策略而言, IPD效應除了修改題目內容和移除極端題目這兩種和DIF相同的處理方式之外, 還可以通過修正鏈接方法等策略來加以消除, DIF效應則不能通過修訂參數(shù)估計方法之類的方式來處理。(7)雖然DIF和IPD都可以通過移除極端題目的方式來解決, 二者在移除的考慮因素、移除的方式及相應后果上卻存在差異。DIF的主要考慮是總測驗的內容覆蓋面和統(tǒng)計分布是否會受到明顯影響, IPD考慮的則是錨測驗對總測驗的代表性是否會受到明顯影響。對于極端題目, DIF將其從總測驗中直接刪除, 從而可能導致最終的參數(shù)估計所使用的總測驗題目數(shù)減少; 而IPD則僅將極端錨題從錨題集中移除, 它仍然是總測驗中的一個題目。

      綜上可見IPD和DIF是不同的兩個問題, 不過很多研究者對此認識不足。而且, 當前鏈接研究的熱點是探索鏈接方法, 但較少有人考慮會影響鏈接結果的方法外因素, 從而忽視了方法得以發(fā)揮作用的前提是使用非等組錨測驗(NEAT)設計進行測驗鏈接時, 錨題參數(shù)不變性假設滿足。這些都導致了IPD研究相比其他領域而言較少的現(xiàn)狀, 但很顯然, IPD的研究價值不可忽視。

      3 題目參數(shù)漂移的相關研究

      當前的IPD研究(本節(jié)除特殊說明外都是橫向IPD)雖然絕對數(shù)量不多, 但基本覆蓋了IPD的各個方面, 即分析正式測試項目中是否存在IPD,探索發(fā)生IPD的原因, 尋求檢測IPD的方法, 考察IPD對鏈接結果的效應, 以及探究極端錨題的處理策略。本節(jié)將分別對這幾個方面的相關研究進行回顧。

      3.1 探測是否存在IPD

      由于要探測實際測試項目中是否存在IPD,這類研究都采用實證數(shù)據(jù)進行。一些研究探測到了IPD。比如Bock, Muraki和Pfeiffenberger (1988)用一個“時間相依” (time-dependent) IRT模型來擬合實測數(shù)據(jù)并做了雙因素方差分析, 發(fā)現(xiàn)基于物理成就測驗的分析結果顯示出明顯的IPD, 而基于英語成就測驗的分析結果并未得到相同結果。聚焦于物理測驗后, 他們發(fā)現(xiàn)(1)如果相關主題上的課程重點發(fā)生變化, 在全國施測的教育測驗中,漂移會在若干年中出現(xiàn); (2)題目位置導致的漂移在較大總體中相對穩(wěn)定, 且可以表示為時間的線性函數(shù)。Sykes和Ito (1993)針對兩個相關的健康護理專業(yè)研究了執(zhí)照考試, 用一系列協(xié)方差模型來擬合數(shù)據(jù), 以探索題庫難度值改變的量以及任何(變化和記錄表明)影響到題目參數(shù)穩(wěn)定性的變量之間的關系。針對兩個考試項目都發(fā)現(xiàn)難度值未受到題目位置在不同試卷中的變化的影響, 不過它似乎作為時間的函數(shù)系統(tǒng)變化——具體說來,在一個考試中發(fā)現(xiàn)了題目參數(shù)或量尺漂移, 在另一個考試中則發(fā)現(xiàn)了題庫漂移, 即整個題庫的難度參數(shù)都發(fā)生了系統(tǒng)性改變。

      相反, 一些研究顯示IPD可以忽略。Giordano,Subhiyah和Hess (2005)針對一項以帶回家作答的方式施測的考試, 考察了題目曝光度是否會影響考試的難度和考生的后續(xù)表現(xiàn)。為了評測題目曝光度, 他們在考試中重復使用了60個題目。他們使用Winsteps (Lincare, 2003)中的DIF程序實施了IPD分析, 比較了重復使用的題目和未重復題目的平均難度。結果顯示重復題目中只有12個有顯著的DIF, 這些題中有6個在重復施測的過程中變容易了。這些數(shù)據(jù)揭示了應試者沒有因題目過度曝光而更有優(yōu)勢。也就是說, 在該研究中的語境下, 重復使用題目不會導致廣泛的異常行為。Wollack, Sung和Kang (2005)對一個德國分班測驗連續(xù)六年的年度測驗試卷進行了等值, 檢測了IPD。他們使用了10個不同的等值—審查模型,發(fā)現(xiàn)這個測驗中幾乎所有題目的兩年間漂移和多年累積漂移都非常小。

      3.2 探索發(fā)生IPD的原因

      在等值的語境中, 研究者發(fā)現(xiàn)有很多題目水平上的因素都可能會導致IPD。部分研究發(fā)現(xiàn), 漂移的一個原因可能是課程內容變化。如Mislevy(1982, 引自Wells, Subkoviak, & Serlin, 2002)考察了測量公制轉換(metric system conversion)的四年級科學題目。發(fā)現(xiàn)隨著國家逐漸推進公制度量衡(metrification), 教師在公制上花的時間越來越多,在美制上花的時間越來越少。于是, 要求公制的科學題目可能會變得越來越容易, 而要求美制技能的題目可能容易變得更難。這里的課程內容變化也反映出了教學效應。與之類似, Bock等(1988)也將物理成就測驗和英語成就測驗上出現(xiàn)的IPD的差異歸結為在10年的時間里, 物理課程可能比英語課程發(fā)生了更大的變化。Chan, Drasgow和Sawin (1999, 引自Wells et al., 2002) 研究了軍隊職業(yè)傾向測驗16年來的IPD, 發(fā)現(xiàn)比起更依賴于一般技能的測驗, 負載著更多的語義/知識的測驗往往有更高比例的漂移。

      題目位置效應也是引起IPD的一個重要原因,而它在各種實踐語境中都是最易觀測和量化的。該效應在等值領域的涵義是, 錨題在所有測驗試卷中必須放在相同的位置, 否則題目的難度將不相同, 而且將會出現(xiàn)系統(tǒng)的等值誤差(Wu, 2010)。若干研究者發(fā)現(xiàn)錨題位置改變會影響等值時題目參數(shù)的估計和最終的鏈接結果。Meyers, Miller和Way (2006)發(fā)現(xiàn)從預測驗到正式測驗, 如果10個以上(或10個左右)題目的位置都發(fā)生了變化, 那么IPD可能就會出現(xiàn)。他們強調這是IPD的一個非常普遍的誘因。Meyers, Miller和Way (2009)結合實證和模擬數(shù)據(jù), 將整個測驗試卷都作為錨題來推導等值常數(shù), 進一步表明一個題目的位置變化就會顯著影響題目難度的變化。Meyers,Murphy, Goodman和Turhan (2012)擴展了Meyers等(2009)的研究, 探索在采用其他IRT模型、其他等值程序和不同題目重用規(guī)則(指第一次使用以來的時間和先前使用次數(shù))的實際測試項目中, 題目位置變化的影響。研究結果和Meyers等(2009)的發(fā)現(xiàn)一致: 題目難度和區(qū)分度參數(shù), 以及預測驗和實際測驗等值結果都受到錨題位置變化的負面影響。模擬結果進一步表明錨題位置變化會導致導出量尺分數(shù)和其等值前值在各個原始分數(shù)點上都會有更大的差異, 進而使得考生分界分數(shù)有很大一部分產(chǎn)生漂移。而且, 若參數(shù)變化增大, 等值時需要做出更大的調整。另外, 相對于不同題目重用規(guī)則, 題目位置變化對量尺分數(shù)及其他幾個重要考察因素的影響大得多。

      Veerkamp和Glas (2000)指出, 在計算機化自適應測試 (computerized adaptive testing, CAT)中,部分題目的提前曝光可能會使它們被較多考生提前知道, 從而產(chǎn)生參數(shù)值的漂移。他們進一步推導出了漂移的量: 如果比例為ci的考生提前知道了題目i, 使用單參數(shù)logistic (1PL)曲線來描述題目作答時, 題目難度參數(shù)似乎下降了將近2ci個單位; 使用三參數(shù)logistic (3PL)模型時, 猜測度參數(shù)變?yōu)?γi表示原始猜測度), 難度和區(qū)分度參數(shù)不變。

      Donoghue和Isham (1998)指出, 對建構式反應題(constructed response item)的評分者所做的培訓前后不一致也可能導致IPD。還有其他一些可能導致IPD的原因, 如估計誤差、非代表性錨測驗、錨題過度曝光、樣本量變化, 以及其他在IRT應用中沒有正式認識到或做出控制的IPD來源(如Stocking & Lord, 1983)。

      除過上述在國家內等值項目中發(fā)現(xiàn)的IPD,研究者在國際評測中也發(fā)現(xiàn)諸多因素可能會導致IPD發(fā)生。比如Monseur和Berezner (2006)研究表明, 不同國家對課程和教學的強調有所不同, 測驗參加行為不同, 或者出于本國施測需要而導致的題目措辭或題目位置跨國家不同等等, 這些因素均會導致錨題跨國家和施測場合呈現(xiàn)不同的性能。

      3.3 檢測IPD的方法

      Donoghue和Isham (1998)指出, IPD研究的問題在形式上和DIF是相同的: 某題目在兩套數(shù)據(jù)中所起的作用相同嗎? 因此, DIF程序可能可以用來分析IPD。既有IPD檢測研究在采用DIF檢測程序來分析IPD的同時, 也針對IPD提出了一些方法。

      Donoghue和Isham (1998)將早期檢測漂移的方法系統(tǒng)總結為三類。第一類是基于比較IRT題目參數(shù)估計值的測度 (measure), 稱為基于IRT的方法。該類別包括5種測度, (1) Lord (1980) χ2統(tǒng)計量; (2) Raju (1988)兩題目作答函數(shù)(item response function, IRF)間有符號面積測度; (3) Raju (1988)兩IRF間無符號面積測度; (4) Kim & Cohen (1991)有符號閉合區(qū)間測度; 以及(5) Kim & Cohen (1991)無符號閉合區(qū)間測度。在這五種方法中, (2)和(3)通過計算兩個IRF的曲線間面積來檢測IPD是否存在, 其中方法(2)只考察題目參數(shù)是否發(fā)生了跨場合變化, 方法(3)則進一步分析參數(shù)是變難了還是變容易了; (4)和(5)通過比較-4至4的積分區(qū)間內的題目參數(shù)來檢測IPD是否存在, 兩方法的區(qū)別同方法(2)和(3)的區(qū)別。第二類測量是Mantel-Haenszel(MH) χ2統(tǒng)計量(Holland & Thayer, 1988, 引自Donoghue & Isham, 1998)。MH統(tǒng)計量針對各個題目都計算兩種方法。方法一(MH1)根據(jù)觀測總分進行匹配。方法二(MH2)從NAEP BILOG/PARSCALE“偽-計數(shù)”中計算MH統(tǒng)計量, 從而試圖盡量匹配能力 θ, 而不是常用的在理論上有劣勢的觀測總分。MH1是計算MH統(tǒng)計量的常用方法。第三類是NAEP BILOG/PARSCALE題目水平的χ2統(tǒng)計量。該測度的基礎是一個單獨評測中的數(shù)據(jù)和聯(lián)合標定中合成數(shù)據(jù)的IRF之間的離散度的擬合,主旨是考察從各分別標定中得到的 χ2, 以及從聯(lián)合運行中得到的“各子群體的χ2”。

      基于以上分類, Donoghue和Isham (1998)使用蒙特卡洛方法比較了幾種IPD測度。結果發(fā)現(xiàn)總體說來, Lord χ2測度在識別IPD方面是最有效的。不過, 該測度只有在限定所研究題目的猜測度跨標定相等時才準確。要使其他的方法很好地發(fā)揮功能, 我們需要對測驗統(tǒng)計量的臨界值進行經(jīng)驗性估計。在應用中, 合理的方法是設計出一個和特定的測試情境密切匹配的模擬研究, 這樣諸如題目參數(shù)、題目數(shù), 及考生數(shù)等因素就可以和目標數(shù)據(jù)集密切匹配。

      Veerkamp和Glas (2000)針對IPD的特征, 推薦使用累加和(cumulative sum, CUSUM)圖表來檢驗參數(shù)漂移。CUSUM圖表是統(tǒng)計質量控制中使用的工具, 它利用了在一個連續(xù)性的統(tǒng)計檢驗中,無變化的虛無假設從來不會被接受這一特點。他們指出, 對于自適應測試題庫中的質量控制, 該方法能以標定得到的難度參數(shù)估計值的累積偏差為基礎。它意味著一個單尾檢驗, 適用于題目變得越來越簡單, 并逐漸失去區(qū)分度的漂移情形,對相反方向的參數(shù)漂移則沒有檢驗力。

      DeMars (2004)使用了區(qū)分度和難度參數(shù)的線性對比, 比較了三種IPD檢測方法: BILOG-MG(Zimowski, Muraki, Mislevy, & Bock, 2002)中估計題目難度的線性趨勢的方法、Veerkamp和Glas(2000)的CUSUM程序, 及Kim, Cohen和Park(1995)用于檢測多群體DIF的C2檢驗的修訂版。研究分別模擬了在3、4和5個時間點上收集的數(shù)據(jù), 而參數(shù)漂移模式包括三種: 逐年的線性模式、線性更強但仍然單調的模式, 及在第三個時間點上發(fā)生突然漂移。結果發(fā)現(xiàn)BILOG-MG和Kim等程序的修訂版比CUSUM的檢驗力更強, 幾乎總能檢測到漂移。另外, 這三個程序都在稱名alpha附近有無漂移題目的誤報率。

      3.4 考察IPD對鏈接結果的效應

      關于IPD對鏈接結果有何影響, 學界的研究結果尚存在分歧。大部分研究支持IPD效應的存在, 有的則發(fā)現(xiàn)IPD沒有明顯效應。在支持IPD效應的研究中, 關于“反方向的等量IPD鏈接效應能否互相抵消”, 研究目前又得到了兩種不同的發(fā)現(xiàn)。因此我們分別介紹探索IPD效應是否存在的研究和探討“反方向的等量IPD鏈接效應能否互相抵消”的研究。

      3.4.1 探索是否有明顯的IPD效應

      Kolen和Brennan (2004)將IPD列為可以影響等值的構念無關因素之一。有一系列研究都支持了這一點。Michaelides (2006)基于四個有1到3個題目被標記為“異?!钡膶嶋H測驗, 考察了等值中極端錨題對將考生分成兩類的分類的效應。結果顯示, 如果第二年的考生表現(xiàn)高于第一年的考試, 那么在錨測驗中包含這些題目將會導致有更多的學生被分為有能力組。Miller和Fitzpatrick(2009)表明IPD會導致期望等值誤差增大。具體說來, 他們使用3PL模型, 用統(tǒng)計學方法推導了由于未正確處理IPD而導致的期望等值誤差模型。模型表明, 期望等值誤差主要歸因于題目難度參數(shù)漂移的量和發(fā)生IPD的題目的比例。Babcock和Albano (2012)研究了IPD對多年量尺保持的影響, 表明在相對沒什么IPD, 潛特質有小到中等的周期性改變的條件下, Rasch量尺可能可以在15年內保持穩(wěn)定。較大的IPD則會嚴重影響題目參數(shù)返真度和分類準確度, 降低量尺的壽命。O’Neil (2010)考察了IPD對垂直量尺的量尺保持的潛在影響。他從實際數(shù)據(jù)中創(chuàng)建了一個垂直量尺并模擬了第二次施測。研究結果顯示, IPD對垂直量尺保持有影響, 其效應和漂移的錨題的比例、IPD的量, 以及IPD的方向有直接的關聯(lián)。在所有IPD條件下, 分類誤差都超過了預期由測量誤差所引起的量。Huang和Shyu (2003, 引自Miller & Fitzpatrick, 2009)深化了IPD效應研究,發(fā)現(xiàn)IPD效應和到底是哪個參數(shù)漂移有關。具體說來, 他們使用3PL模型研究了IPD如果被忽視的話, 就平均量尺分數(shù)和通過率而言等值是否受到影響。結果發(fā)現(xiàn)盡管區(qū)分度漂移對這兩個指標都有統(tǒng)計上顯著的效應, 但它對它們沒有實踐上的顯著效應(或者都沒有有意義的變化); 但難度參數(shù)漂移、樣本規(guī)模和發(fā)生漂移的錨題的比例則對這兩個指標都有(統(tǒng)計和)實踐上的顯著效應。Ye和Xin (2014)探討了在Rasch模型下, 縱向IPD對帶Stocking & Lord (SL)轉換的分別標定的效應。結果表明更大的縱向IPD量會導致平均能力、跨年級增長和年級間效應值的估計產(chǎn)生更差的返真結果, 且當兩個題目各自產(chǎn)生0.5 logit的漂移時, 這三個參數(shù)的估計值都將產(chǎn)生顯著的偏差。而IPD對參數(shù)標定結果的影響模式和產(chǎn)生IPD的測驗對有著密切的關聯(lián), 該關聯(lián)反映了垂直量尺化的固有特性。

      和以上得出IPD對鏈接結果有明顯效應的研究不同, 發(fā)現(xiàn)IPD沒什么影響的研究較少。Stahl,Bergstrom和Shneyderman (2002, 引自Miller &Fitzpatrick, 2009)及Wells, Subkoviak和Serlin(2002)分別在Rasch模型和雙參數(shù)logistic (2PL)模型下, 操縱了不同的條件, 結果都發(fā)現(xiàn)IPD對能力估計影響不大。盡管如此, Wells等就IPD效應還是給出了更多的細節(jié)。他們發(fā)現(xiàn)樣本量和漂移題目的百分比對漂移和能力估計之間的關系有影響, 而且IPD對能力估計的影響取決于漂移的類型。對于區(qū)分度漂移和難度、區(qū)分度同時漂移,影響的程度取決于考生在能力分布上所處的位置;而對于難度漂移, IPD對不同能力位置上的考生的影響是一致的。Rupp和Zumbo (2003a, 2003b,引自Wells et al., 2002)針對1PL、2PL和3PL的模型, 考察了題目的難度參數(shù)值漂移前后, 考生正確作答該題目的概率的差異。由跨所有題目的漂移造成的每個題目在概率上的差異對測驗的累積效應可以轉換為對考生能力參數(shù)的整體效應。結果發(fā)現(xiàn)考生能力估計沒什么變化, 除非IPD很大。不過, 這些未支持IPD效應的研究也并非認為IPD可以忽略。正如Wells等(2002)所言, 能力估計受IPD的影響較小并不意味著漂移對測量沒有威脅。

      3.4.2 關于“反方向的等量IPD鏈接效應是否能互相抵消”的研究

      關于“反方向的等量IPD鏈接效應是否能互相抵消”, 既有的大多研究者都持肯定態(tài)度。Meyers等(2006)在操作層面上發(fā)現(xiàn), 對于由題目位置變化導致的參數(shù)變化, 在測驗施測時對題目的位置進行仔細安排會使得不同個體題目的IPD在等值的過程中抵消掉。Vukmirovic, Hu和Turner(2003, 引自Hu, Rogers, & Vukmirovic, 2008)也通過模擬研究發(fā)現(xiàn)相較于極端值都出現(xiàn)在相關擬合直線的一側, 如果極端值隨機分布于直線兩側,包含極端值和移除它對等值結果來說是沒什么差異的。Babcock和Albano (2012)進一步模擬發(fā)現(xiàn)如果在兩個方向上有相等的IPD, Rasch量尺上的題目和考生參數(shù)的返真度也可以保持得較好。這些都和Miller和Fitzpatrick (2009)認為在錨題的個體題目中顯示出的IPD可能會有效地互相抵消這一觀點一致。

      不過這種可抵消的觀念受到了Han, Wells和Sireci (2012)的挑戰(zhàn)。他們操縱了變量“多方向IPD模式”: 向內IPD、向外IPD、均勻IPD, 以及局部IPD, 探索了不同方向的IPD模式對等值程序和重新量尺化的能力估計值的影響。其中向內IPD指IPD題目向平均題目難度處漂移, 此時的預期變化是錨測驗均值不變, 標準差(SD)減小; 向外IPD指IPD題目朝遠離平均題目難度的方向漂移,此時的預期變化是錨測驗均值不變, SD增加; 均勻IPD指一半IPD題目向平均題目難度處漂移,另一半IPD題目朝遠離平均題目難度的方向漂移,此時的預期變化是錨測驗均值不變, SD適度變化;局部IPD和均勻IPD類似, 只不過只有難度值高于平均難度的題目發(fā)生了漂移, 此時的預期變化是均值不變, SD變化最小。研究發(fā)現(xiàn), 在向外IPD及均勻IPD模式和一定的量尺化方法聯(lián)合使用時,我們不能通過平衡IPD的方向和量來有效抵消多方向IPD對測驗等值的影響, 而且IPD的效應可以是比較大的。在另外一些IPD模式下, IPD的效應則通過平衡IPD幾乎被抵消掉了?;诖私Y果,他們建議實踐者不要盲目地假設多方向IPD的效應可以通過平衡IPD題目加以抵消。相反, 如果IPD模式是很可能會引起量尺化/等值過程嚴重扭曲的模式時, 我們應仔細考察。另外, 該研究也發(fā)現(xiàn)鏈接方法的選擇對結果有直接影響, 不論IPD模式如何, 均值-均值(MM)方法都對多方向IPD很穩(wěn)健, 而均值-標準差(MS)方法受IPD的影響最不易通過平衡IPD消除掉。

      3.5 探究極端錨題的處理策略

      目前的策略主要有移除產(chǎn)生IPD的題目和修正鏈接方法兩類。針對題目位置效應導致的極端值還有一些專門的處理研究。因此我們將題目位置效應的處理策略單列一節(jié)。

      3.5.1 移除策略

      誠如Miller和Fitzpatrick (2009)所言, 做等值時, 最簡單而直接的極端錨題處理策略是刪除或者說移除。垂直量尺化中通常也是在做量尺化之前根據(jù)錨題的兩套參數(shù)繪制出一條直線, 將遠離這條線的題目從錨測驗中刪掉(Kolen & Brennan,2004)。就移除IPD題目的必要性, 研究者從理論角度和統(tǒng)計角度都進行了論證。

      從理論角度而言, 既有研究傾向于認可如果一個題目被(通過統(tǒng)計或數(shù)字標準)標記為IPD題目, 我們需要根據(jù)參數(shù)改變的原因采取相應的處理方案。如果IPD是由構念無關因素造成的, 那么不將該題目從錨測驗中移除預期將會導致等值誤差。尤其是對于資格認證考試, 謹慎處理, 將IPD錨題移除, 產(chǎn)生更為保守的分類, 即讓過低分類多于過高分類可能是可取的 (Sukin & Keller,2008)。相反, 如果IPD是和所測構念相關的, 移除它既沒有正當理由, 也不是推薦做法。而且, 如果關心錨測驗的內容代表性, 那么也應該在等值中保留異常錨題 (Cook & Eignor, 1991; Miller &Fitzpatrick, 2009; Sukin & Keller, 2008)。

      從統(tǒng)計的角度而言, 多數(shù)研究表明應該移除IPD題目。Vukmirovic等(2003, 引自Hu et al., 2008)發(fā)現(xiàn)當使用固定共同題參數(shù)(fixed common item parameter, FCIP)的標定時, 如果題目難度值不一致, 固定隨機極端值和不固定隨機極端值將導致不同的等值結果。Michaelides (2010)以大規(guī)模評測項目中的混合題型實測數(shù)據(jù), 探索將極端值從錨題庫中保留或刪除對等值的合成分數(shù)的效應。結果也顯示在等值中缺乏自動程序的情況下, 基于判斷將一到三個異常錨題包括進來或剔除, 這可能對等值的合成分數(shù)產(chǎn)生不可忽略的效應。不過, Sukin和Keller (2008)則研究發(fā)現(xiàn)沒多少必要移除。他們使用模擬數(shù)據(jù), 探索了移除一個極端錨題對學生表現(xiàn)分類的效應, 結果顯示盡管考生的分類過高和分類過低受影響, 考生的正確分類率不受移除或保留極端錨題的影響, 而且研究所用的四種IRT分別量尺化方法之間沒有差異。

      3.5.2 修正鏈接方法策略

      既然IPD題目不一定要移除, 探索其他極端錨題處理途徑就成為一種必要。其中一種涉獵的較多的途徑是修正鏈接方法, 使其對極端錨題更為穩(wěn)健。研究者已經(jīng)開發(fā)出了一系列程序來修正積矩(包括MM和MS)轉換方法。如, Cook, Eignor和Hutton (1979)對積矩計算中所用的錨題難度做了范圍限制。Bejar和Wingersky (1981)建議給極端值賦更小的權重。Linn, Levine, Hastings和Wardrop (1980)使用了加權的題目難度, 其中權重是題目的誤方差的倒數(shù)。Stocking和Lord (1983)提出了一個迭代程序, 同時利用了Linn等 (1980)和Bejar與Wingersky (1981)的方法。Cohen和Kim(1998)則擴展了Linn等的方法, 計算多級評分的題目的等值系數(shù)。

      Hu, Rogers和Vukmirovic (2008)實施了一項較為全面的研究, 探討了不同數(shù)據(jù)收集設計下,以上的修正等值方法的程序可以在多大程度上改善等值結果。具體說來, 他們考察的修正后的量尺轉換方法包括移除極端值的同時標定、移除極端值的Haebara轉換、移除極端值的MS轉換、極端值加權的MS轉換、不固定極端值的FCIP標定、移除極端值的FCIP標定。結果發(fā)現(xiàn)有極端值時, 在等組條件下, 除了極端值加權的MS轉換,考慮了極端值的方法所產(chǎn)生的系統(tǒng)誤差傾向于比沒考慮極端值的方法更小。而在非等組條件下,并非所有考慮了極端值的方法所產(chǎn)生的系統(tǒng)誤差都傾向于比沒考慮極端值的方法更小。對于同時和FCIP標定, 排除極端值并沒有減小預期的系統(tǒng)誤差。對于MS和Haebara轉換, 排除極端值會產(chǎn)生較小的系統(tǒng)誤差, 而包含它則會導致中等或較大的系統(tǒng)誤差。

      3.5.3 題目位置效應處理策略

      Meyers等(2009)對由題目位置效應導致的IPD的處理策略進行了總結:

      為了緩解潛在的位置效應, 有兩種程序是等值中普遍使用的。第一, 和基于最初估計建立預等值轉換相反, 基于正式數(shù)據(jù)重新估計題目參數(shù),然后將其鏈接回之前的估計。第二, 如果一個題目的前后兩次估計的差異大于一定的閾值, 人們通常使用一個篩選程序來從錨測驗中清除題目(Miller, Rotou, & Twing, 2004, 引自Meyers et al.,2009)。在閾值應該是什么上, 測量學家之間沒有達成一致。理論上來講, 這個閾值應該和樣本量相關。不過, Wright和Douglas (1975, 引自Meyers et al., 2009)在Rasch模型下注意到, 題目難度中小于0.3個logit值的隨機不確定性對個人測量沒有實踐影響。因此, 很多基于Rasch的評測程序使用0.3作為閾值。

      不過, Miller, Rotou和Twing (2004, 引自Meyers et al., 2009)的研究結果顯示, 如果考生數(shù)很小(如500或更少), 或者相反, 如果考生數(shù)很大(如5000或更多), 這一做法會導致將題目從錨測驗中刪除的概率膨脹。他們以代數(shù)方式推導出了一個漸進實驗對誤差率準則(asymptotic experimentwise error rate criterion)作為清除參數(shù)前后不一致的錨題的標準(鑒于未能看到全文, 此處無法展開介紹)。

      4 總結與展望

      由于縱向IPD是新近提出并進行概念化的主題, 目前只有一項公開發(fā)表的研究, 因此第3部分中除特別說明外, 所有的研究都是關于橫向IPD的。整體來講, 橫向IPD的研究目前已經(jīng)形成了系統(tǒng)框架, 研究本身也趨于成熟。具體說來,若干研究基于給定標準探測了在實際的測試項目中是否存在IPD; 研究發(fā)現(xiàn)有很多因素都可以導致IPD的發(fā)生; 針對IPD的探測, 研究者或者采用DIF探測的方法, 或者提出了新的方法, 并對這些方法的性能做了若干探索; 就IPD對鏈接結果的影響, 研究大多發(fā)現(xiàn)其對參數(shù)估計和鏈接準確性會產(chǎn)生不利的后果; 就如何處理IPD題目也提出了若干策略。其中IPD的檢測、效應和處理策略是研究重點。

      關于IPD檢測, Donoghue和Isham (1998)雖然指出可以使用DIF檢測方法來檢測IPD,他們也認識到實施具體分析時二者所面臨的問題經(jīng)常是不同的。比如前文關于DIF和IPD區(qū)別的(3)和(4)。因此, 他們認為評價一個具體的DIF/IPD研究的實用性時, 語境是很重要的。按照這一思想, 在將DIF探測方法應用于IPD分析時, 我們需要考察具體分析中的語境適用性, 尤其需要分析應用DIF探測方法時是否需要根據(jù)IPD不同于DIF的特征對方法做出調整, 比如探討臨界值的設定是否需要做出修正等。其次, IPD效應可傳遞和累積的傾向性是其有別于DIF的一個重要特點, 因此即便應用既有的DIF檢測方法時我們也有必要考察該傾向性是否會導致具體方法的使用有別于DIF。另外, DIF和IPD具有如前所述的諸多區(qū)別,因此兩個問題的檢測可能并不適合采用同一種方法, 如果確實如此, 針對IPD的特點提出特別的探測方法將是未來的一個重點研究方向。

      關于IPD的效應, 一個很重要的問題就是多大的IPD會對鏈接結果產(chǎn)生實質性影響。不過既有的橫向IPD研究似乎并未就此問題達成共識,而Rasch模型下0.3個logit單位的臨界值是基于實際參數(shù)估計的結果得到的。因此展開一系列研究, 討論在有實質性不同的測試情境下多少IPD會對鏈接結果產(chǎn)生顯著影響, 這可能是比較有意義的。和這個問題相關的是, 目前關于IPD的不同研究設置的IPD的量不甚相同, 考察的鏈接方法也不盡相同, 這就使結果的可比性都在不同程度上受限。可見, 實施一項綜合性更強的研究似乎是比較有價值的。

      關于IPD的處理策略, 從統(tǒng)計的角度看, 橫向IPD上的研究對是否要移除尚未達成一致。除過移除方法外, 人們提出了較多修正鏈接方法的策略, 不過針對的都是積矩方法。針對特征曲線方法應該如何修正鏈接程序, 這是一個非常值得進一步研究的問題。在人們普遍支持使用特征曲線法做鏈接的背景下, 該問題就尤為重要。而比較移除和修正這兩種策略來看, 修正的策略似乎更可取, 因為它消除了IPD的影響, 也避免了移除漂移題目所帶來的錨測驗代表性缺乏等潛在不利后果。因此, 發(fā)展修正的鏈接方法是未來的潛在探索領域。

      垂直量尺化是一種非常重要的發(fā)展性教育測量工具。在垂直量尺化中, 由于錨題所涉及的測驗水平難度不同, 使用NEAT設計的測試項目很容易面臨極端錨題帶來的語境效應(Kolen &Brennan, 2004)。而縱向IPD的相關問題又不能照搬橫向IPD的研究結果, 因此它是一個需要深入探索的研究主題。首先, 錨題是從一個測驗水平中選擇出來, 又被施測給相鄰的其他年級, 這樣它在內容上不一定能完全適合該相鄰年級, 或者說內容完全匹配是個強假設。其次, 如前所述, 關于錨題在構建垂直量尺時應該如何排放, 目前缺乏研究支持, 不過當前所建議的各種排放方式似乎都面臨題目位置效應問題。而且更為重要的是,關于參數(shù)不變性的有些問題在垂直量尺化中可能是具有領域特殊性的。比如, 在垂直量尺化領域中, 哪些原因會導致錨題成為異常錨題? 以不同方式構建垂直量尺時, 錨題參數(shù)發(fā)生不同模式的漂移會對量尺化結果產(chǎn)生什么樣的影響? 至少這些問題都需要進行專門的縱向IPD研究方能解答。

      盡管橫向IPD和縱向IPD領域的研究現(xiàn)狀不同, 我們還是能就處理參數(shù)不變性假設在測驗鏈接中的潛在威脅給出一個一般性實踐建議。做測驗鏈接前首先實施IPD檢測, 如果測出IPD, 要么修正鏈接方法, 要么從導致IPD的原因及漂移題目和錨測驗、整卷的內容與統(tǒng)計關系等各方面考慮是否要移除極端錨題。

      另外, 有一項較有啟發(fā)意義的研究, 即Veerkamp和Glas (2000)的研究。首先, 和一般研究關注難度和區(qū)分度的漂移不同, 該研究發(fā)現(xiàn)當題目提前被考生知道時猜測度參數(shù)發(fā)生了變化。那么在量尺保持中, 隨著時間的推移, 猜測度參數(shù)是否會發(fā)生變化? 如果是, 考生的題目作答概率乃至能力估計可能都會發(fā)生一定的變化??梢?猜測度參數(shù)跨時間的變化是一個值得探究的方向。其次, 該研究揭示出, 我們可以將IPD研究擴展至CAT領域中, 討論CAT測試情境中的特殊問題所導致的IPD, 比如題目過度曝光。從實踐角度講, CAT對個體題目參數(shù)的質量有著很高的要求,因此IPD的潛在影響可能不可忽視。從技術的角度講, IPD的各個相關問題在CAT中和在鏈接領域中都不甚一樣。因此, 將CAT中的既有研究問題和IPD結合起來, 可能會推進兩個領域的研究進展, 對CAT的實踐起到促進作用。

      American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (1999).Standards for educational and psycholog ical tes ting. Washington, DC:American Educational Research Association.

      Babcock, B., & Albano, A. D. (2012). Rasch scale stability in the presence of item parameter and trait drift.Applied Psychological Measurement, 36(7), 565-580.

      Bejar, I., & Wingersky, M. S. (1981).An application of item response theory to equating the Test of Standard Written English(College Board Report No. 81-8). Princeton, NJ:Educational Testing Service (ETS No. 81-35).

      Bock, R., Muraki, E., & Pfeiffenberger, W. (1988). Item pool maintenance in the presence of item parameter drift.Journal of Educational Measurement, 25, 275-285.

      Cohen, A. S., & Kim, S. H. (1998). An investigation of linking methods under the graded response model.Applied Psychological Measurement, 22(2), 116-130.

      Cook, L. L., & Eignor, D. R. (1991). IRT equating methods.Educational M easurement:Issues and P ractice, 10,37-45.

      Cook, L. L., Eignor, D. R., & Hutton, L. R. (1979).Considerations in the application of latent trait theory to objective-based criterion-referenced tests. Paper presented at the annual meeting of the American Educational Research Association, San Francisco.

      DeMars, C. E. (2004). Detection of item parameter drift over multiple test administrations.A pplied Measurement in Education, 17(3), 265-300.

      Donoghue, J. R., & Isham, S. P. (1998). A comparison of procedures to detect item parameter drift.Applied Psychological Measurement, 22(1), 33-51.

      Giordano, C., Subhiyah, R. & Hess, B. (2005).An analysis of item exposure and ite m parameter drift on a take-home recertification e xam. Paper presented at the annual meeting of the American Educational Research Association,Montreal, Quebec, Canada.

      Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991).Fundamentals of item response theory. Newbury Park, CA:Sage.

      Han, K. T., Wells, C. S., & Sireci, S. G. (2012). The impact of multidirectional item parameter drift on IRT scaling coefficients and proficiency estimates.Applied Measurement in Education, 25(2), 97-117.

      Holland, P. W., & Wainer, H. (1993).Differential ite m functioning. Hillsdale, NJ: Lawrence Erlbaum Associates.

      Hu, H., Rogers, W. T., & Vukmirovic, Z. (2008). Investigation of IRT-based equating methods in the presence of outlier common items.Applied P sychological M easurement,32(4), 311-333.

      Kim, S. H., & Cohen, A. S. (1991). A comparison of two area measures for detecting differential item functioning.Applied Psychological Measurement,15, 269-278.

      Kim, S. H., Cohen, A. S., & Park, T. H. (1995). Detection of differential item functioning in multiple groups.Journal of Educational Measurement, 32, 261-276.

      Kolen, M. J., & Brennan, R. L. (2004).Test equating, scaling,and linking:Methods and practices(2nd ed.). New York:Springer-Verlag.

      Lincare, J. M. (2003). WINSTEPS [Computer software].Chicago: MESA Press.

      Linn, R. L., Levine, M. V., Hastings, C. N., & Wardrop, J. L.(1980).An investigation of item bias in a test of reading comprehension(Tech. Rep. No. 163). Urbana: Center for the Study of Reading, University of Illinois.

      Lord, F. M. (1980).Applications of i tem response theory to practical testing problems. Hillsdale NJ: Erlbaum.

      Meyers, J. L., Miller, G. E., & Way, W. D. (2006).Item position and item difficulty change in an IRT-based common item equa ting design. Paper presented at the annual meeting of the American Educational Research Association,San Francisco.

      Meyers, J. L., Miller, G. E., & Way, W. D. (2009). Item position and item difficulty change in an IRT-based common item equating design.Applied M easurement in Education, 22(1), 38-60.

      Meyers, J. L., Murphy, S., Goodman, J., & Turhan, A. (2012).The i mpact of item pos ition change on ite m param eters and common item equating results under the 3PL model.Paper presented at the annual meetings of the National Council on Measurement in Education, Vancouver, B. C.

      Michaelides, M. P. (2006).Effects of misbehaving common items on aggregate score s and an applicat ion o f the Mantel-Haenszel sta tistic in tes t equating(CSE Report 688). Los Angeles, CA: Center for the Study of Evaluation,University of California.

      Michaelides, M. P. (2010). Sensitivity of equated aggregate scores to the treatment of misbehaving common items.Applied Psychological Measurement, 34(5), 365-369.

      Miller, G. E., & Fitzpatrick, S. J. (2009). Expected equating error resulting from incorrect handling of item parameter drift among the common items.Educational and Psychological Measurement, 69(3), 357-368.

      Monseur, C., & Berezner, A. (2006).The co mputation of linking error.Paper presented at the AERA annual convention’s symposium on measuring trends in international comparative research: Results from the first two cycles of the OECD/PISA study, San Francisco, CA.

      O’Neil, T. P. (2010).Maintenance of vertical scales unde r conditions of item parameter drift and Rasch model-data misfit(Unpublished doctorial dissertation). University of Massachusetts-Amherst.

      Rupp, A. A., & Zumbo, B. D. (2006). Understanding parameter invariance in unidimensional IRT models.Educational and Psychological Measurement, 66(1), 63-84.

      Raju, N. S. (1988). The area between two item characteristic curves.Psychometrika,53, 495-502.

      Stocking, M. L., & Lord, F. M. (1983). Developing a common metric in item response theory.Applied Psychological Measurement, 7, 201-210.

      Sukin, T. & Keller, L. (2008).The effect of deleting anchor on the classification of examinees. Paper presentation at the Annual Meeting of the American Educational Research Association, New York, NY.

      Sykes, R., & Ito, K. (1993, April).Item parameter drift in IRT-based licensure examinations. Paper presented at the annual meeting of the National Council on Measurement in Education, Atlanta, GA.

      Veerkamp, W. J. J., & Glas, C. A. W. (2000). Detection of known items in adaptive testing with a statistical quality control method.Journal of Educational and Behavioral Statistics, 25(4), 373-389.

      Wells, C. S., Subkoviak, M. J., & Serlin, R. C. (2002). The effect of item parameter drift on examinee ability estimates.Applied Psychological Measurement, 26(1), 77-87.

      Wollack, J. A., Sung, H. J., & Kang, T. (2005).Longitudinal effects of i tem para meter dri ft. Paper presented at the annual meeting of the National Council on Measurement in Education. Montreal, Canada.

      Wu, M. L. (2010). Measurement, sampling, and equating errors in large-scale assessments.Educational Measurement:Issues and Practice, 29(4), 15-27.

      Ye, M., & Xin, T. (2014). Effects of item parameter drift on vertical scaling with the Nonequivalent Groups with Anchor Test (NEAT) design.Educational and Psychological Measurement, 74(2), 227-235.

      Zimowski, M. F., Muraki, E., Mislevy, R. J., & Bock, R. D.(2002). BILOG-MG [Computer software]. Chicago, IL:Scientific Software International.

      猜你喜歡
      等值測驗效應
      鈾對大型溞的急性毒性效應
      懶馬效應
      異步電動機等值負載研究
      防爆電機(2020年5期)2020-12-14 07:03:50
      《新年大測驗》大揭榜
      趣味(語文)(2018年7期)2018-06-26 08:13:48
      應變效應及其應用
      兩個處理t測驗與F測驗的數(shù)學關系
      考試周刊(2016年88期)2016-11-24 13:30:50
      電網(wǎng)單點等值下等效諧波參數(shù)計算
      基于戴維南等值模型的靜穩(wěn)極限在線監(jiān)視
      你知道嗎?
      少年科學(2014年10期)2014-11-14 07:38:17
      漢語國俗語義在維吾爾語中的等值再現(xiàn)
      語言與翻譯(2014年1期)2014-07-10 13:06:11
      蓬莱市| 上思县| 阳城县| 达孜县| 河曲县| 东乡县| 时尚| 华安县| 高青县| 葫芦岛市| 宁河县| 手机| 方城县| 友谊县| 张家港市| 乡城县| 清镇市| 永胜县| 大足县| 织金县| 贵港市| 舟曲县| 黑水县| 平南县| 乌拉特中旗| 含山县| 凌源市| 河间市| 伽师县| 潢川县| 开江县| 重庆市| 嵩明县| 鄄城县| 池州市| 清水县| 云南省| 赤城县| 双牌县| 广饶县| 神农架林区|