陳 平 代 藝 黃穎詩
·研究方法(Research Method)·
測驗(yàn)?zāi)J叫?yīng):來源、檢測與應(yīng)用*
陳 平 代 藝 黃穎詩
(北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心, 北京 100875)
測驗(yàn)?zāi)J叫?yīng)(Test Mode Effect, TME)是指同一測驗(yàn)采用不同測驗(yàn)形式施測而產(chǎn)生的測驗(yàn)功能差異。TME的存在會對測驗(yàn)公平、選拔標(biāo)準(zhǔn)和測驗(yàn)等值等產(chǎn)生影響, 因此對TME進(jìn)行準(zhǔn)確檢測和合理解釋具有重要意義。通過對TME的來源、檢測(包括實(shí)驗(yàn)設(shè)計(jì)和檢測方法)以及研究結(jié)果進(jìn)行系統(tǒng)梳理, 全面展示TME研究的方法論。對TME模型進(jìn)行進(jìn)一步解釋、對TME研究中的測驗(yàn)形式進(jìn)行拓展以及將TME的研究成果應(yīng)用于我國的大規(guī)模教育測評項(xiàng)目, 都是TME領(lǐng)域的未來重要發(fā)展方向。
測驗(yàn)?zāi)J叫?yīng), 測驗(yàn)公平, 測量不變性, 計(jì)算機(jī)測驗(yàn)
隨著計(jì)算機(jī)技術(shù)的進(jìn)步和網(wǎng)絡(luò)的普及, 計(jì)算機(jī)測驗(yàn)已經(jīng)在測量和評估領(lǐng)域得到廣泛使用。大到國際大規(guī)模測評項(xiàng)目, 小到課堂測試, 都越來越多地使用計(jì)算機(jī)進(jìn)行施測。測驗(yàn)形式正經(jīng)歷著從傳統(tǒng)“紙筆測驗(yàn)(Paper-based Testing, PBT)”向“計(jì)算機(jī)測驗(yàn)(Computer-based Testing, CBT)”的轉(zhuǎn)變。與PBT相比, CBT具有很多優(yōu)點(diǎn), 比如: (1)采用計(jì)算機(jī)輔助測驗(yàn), 測量更加高效、公平; (2)可以呈現(xiàn)高生態(tài)效度和高交互性的新穎題型, 增加被試的作答興趣(Pomplun et al., 2006); (3)可以方便記錄被試的作答步驟、動作序列和作答時(shí)間等過程性信息, 從而更全面地評價(jià)被試。正因如此, CBT已在國際學(xué)生評估項(xiàng)目(Programme for International Student Assessment, PISA)、國際數(shù)學(xué)和科學(xué)趨勢研究(Trends in International Mathematics and Science Study, TIMSS)、美國國家教育進(jìn)展評估(National Assessment of Educational Progress, NAEP)等大規(guī)模測評項(xiàng)目中得到廣泛應(yīng)用(檀慧玲等, 2018)。
盡管大多數(shù)測驗(yàn)都在朝著CBT的方向發(fā)展, 但這并非一個(gè)簡單的過程。在進(jìn)行測驗(yàn)形式的轉(zhuǎn)化之前, 研究者和實(shí)踐者面臨一個(gè)關(guān)鍵性問題: 當(dāng)同一測驗(yàn)采用不同測驗(yàn)形式(比如PBT和CBT)施測時(shí), 其測驗(yàn)結(jié)果不一定相同, 因而不能盲目地對它們進(jìn)行直接比較(Jerrim, 2016)。這種由測驗(yàn)形式不同而帶來的測驗(yàn)功能差異, 被稱為測驗(yàn)?zāi)J叫?yīng)(Test Mode Effect, TME; Kroehne et al., 2019; OECD, 2017)。在已有研究中, TME在絕大多數(shù)情況下特指PBT和CBT這兩種測驗(yàn)形式間的差異。考慮到測驗(yàn)形式從PBT向CBT轉(zhuǎn)變是大勢所趨, 因此對TME進(jìn)行研究具有以下重要意義:
首先, 對TME進(jìn)行研究可以促進(jìn)測驗(yàn)公平。測驗(yàn)公平是衡量測驗(yàn)質(zhì)量的一個(gè)重要方面, 一直受到測驗(yàn)開發(fā)者、使用者、心理測量學(xué)家和普通大眾的廣泛關(guān)注(Kline, 2013)。一個(gè)公平的測驗(yàn)應(yīng)該能給被試提供平等的機(jī)會, 來反映他們掌握的與測驗(yàn)?zāi)康南嚓P(guān)的知識和技能。然而, 不同測驗(yàn)形式間的轉(zhuǎn)換可能會引入與測驗(yàn)?zāi)康臒o關(guān)的變量, 比如被試操作計(jì)算機(jī)的能力可能會對其CBT的成績產(chǎn)生影響。因此, 研究TME有助于明確和控制無關(guān)因素的影響, 從而提高測驗(yàn)的公平性。
其次, 對TME進(jìn)行研究可以保障選拔結(jié)果的可比性。很多大型考試都曾出現(xiàn)同時(shí)使用PBT和CBT的情況。比如, TOEFL就同時(shí)存在PBT和基于互聯(lián)網(wǎng)的測驗(yàn)(Internet-based Testing, iBT)等多種測驗(yàn)形式。考慮到TME的存在, 美國教育考試服務(wù)中心在使用PBT時(shí), 并不是將CBT中的題目直接轉(zhuǎn)移到PBT上, 而是有針對性地對PBT中的測驗(yàn)內(nèi)容、實(shí)施過程和評價(jià)標(biāo)準(zhǔn)等進(jìn)行修改, 以保障不同測驗(yàn)形式下的結(jié)果具有可比性, 從而增加選拔與評價(jià)結(jié)果的可信度。
最后, 對TME進(jìn)行研究可以幫助獲得準(zhǔn)確的等值結(jié)果。隨著CBT的廣泛使用, PISA等國際測評項(xiàng)目已經(jīng)出現(xiàn)“不同測驗(yàn)周期使用不同測驗(yàn)形式”的情況(Feskens et al., 2019)。TME的存在會影響不同測驗(yàn)周期學(xué)生分?jǐn)?shù)等值結(jié)果的準(zhǔn)確性, 使得研究者沒法合理刻畫學(xué)生的能力發(fā)展趨勢, 進(jìn)而削弱教育評估項(xiàng)目的意義。因此, 對題庫中可能存在TME的題目進(jìn)行檢測, 可進(jìn)一步改善測驗(yàn)和題目質(zhì)量, 從而保障教育評估項(xiàng)目的有效性。
鑒于這一主題的重要性, 本文對TME進(jìn)行系統(tǒng)述評, 以期為測量研究者與實(shí)踐者了解TME的來源、檢測方法和研究思路提供幫助。本文將按以下順序進(jìn)行組織: 首先介紹TME的來源, 然后探討TME的檢測(包括控制TME影響的實(shí)驗(yàn)設(shè)計(jì)和對TME進(jìn)行檢測的方法), 接著總結(jié)TME研究的結(jié)果與不足, 最后展望TME的未來研究方向。
TME來源于測驗(yàn)形式不同所帶來的差異, 這種差異可以來自4個(gè)層面: 測驗(yàn)層面、題目層面、被試層面和評分者層面。接下來分別介紹這4個(gè)層面的差異如何導(dǎo)致TME的產(chǎn)生。
測驗(yàn)層面的差異是指由于不同測驗(yàn)形式具有的特征不同而導(dǎo)致的差異, 比如PBT與CBT在作答設(shè)備、作答過程中是否允許檢查并修改答案、測驗(yàn)過程中有無監(jiān)督以及測驗(yàn)計(jì)時(shí)和選題方式等方面都具有不同的特征。具體來說:
(1)作答設(shè)備。在PBT中, 被試通常使用紙筆進(jìn)行作答; 而在CBT中, 被試需要在顯示屏上閱讀題目, 并使用鼠標(biāo)和鍵盤進(jìn)行作答。屏幕大小、分辨率和刷新速度等都可能對被試在計(jì)算機(jī)上的作答產(chǎn)生影響。Ziefle (1998)對被試在PBT和兩種屏幕分辨率(1664×1200和832×600)下CBT的閱讀表現(xiàn)及感受到的疲勞程度進(jìn)行比較, 結(jié)果發(fā)現(xiàn): 被試在PBT中的表現(xiàn)顯著好于兩種分辨率下CBT的表現(xiàn); 而且分辨率越高, 被試感受到的疲勞程度越輕。在屏幕大小方面, 其對TME的影響因人而異, 但總體來說, 更大的屏幕會增加文字的可讀性, 從而提高測驗(yàn)表現(xiàn)(Bridgeman et al., 2003)。
(2)是否允許檢查并修改答案。在PBT中, 被試可以不按題目的呈現(xiàn)順序進(jìn)行作答, 甚至可以隨時(shí)對已作答題目進(jìn)行檢查并修改答案; 而有些CBT (如計(jì)算機(jī)化自適應(yīng)測驗(yàn)[Computerized Adaptive Testing, CAT])一般不允許被試返回檢查并修改答案, 主要是因?yàn)榭荚嚈C(jī)構(gòu)擔(dān)心提供修改機(jī)會會帶來兩個(gè)問題: ①“聰明”被試或“聰明”備考機(jī)構(gòu)所指導(dǎo)的被試通過采用Wainer策略(Wainer, 1993)和Kingsbury策略(Wise et al., 1997)等作弊策略獲得虛高的分?jǐn)?shù), 從而影響測驗(yàn)的公平性、公正性和準(zhǔn)確性; ②增加測驗(yàn)時(shí)間, 相應(yīng)地增加測驗(yàn)費(fèi)用。CAT不提供修改功能也會給被試帶來兩方面的影響: ①被試在PBT中慣用的作答策略不能用于CAT, 會給他們帶來焦慮和壓力; ②若被試完全有能力答對某道題目但是鍵入或點(diǎn)擊失誤了, 不允許修改會導(dǎo)致其能力被低估; 相反, 若被試沒有能力答對某道題目但是猜對了, 不允許修改會導(dǎo)致其能力被高估(陳平, 丁樹良, 2008; 高旭亮等, 2016; 林喆等, 2015)。不提供修改機(jī)會的CAT可能導(dǎo)致TME的產(chǎn)生。
(3)測驗(yàn)過程有無監(jiān)督。一般情況下, PBT的實(shí)施過程中往往有主試在場監(jiān)督; 而對于部分CBT (比如通過網(wǎng)絡(luò)進(jìn)行的在線測驗(yàn))很有可能會在無人監(jiān)督的情況下開展, 這也有可能導(dǎo)致TME的產(chǎn)生。Goldberg和Pedulla(2002)比較被試在PBT、有監(jiān)督CBT和無監(jiān)督CBT的GRE分?jǐn)?shù), 結(jié)果表明: 被試在PBT和有監(jiān)督CBT中的表現(xiàn)顯著好于無監(jiān)督CBT。測驗(yàn)過程有無監(jiān)督可能會對被試的作答動機(jī)產(chǎn)生影響, 從而影響其在測驗(yàn)中的表現(xiàn)。
(4)測驗(yàn)計(jì)時(shí)與選題方式。在CBT中, 計(jì)算機(jī)為更精細(xì)的考試流程設(shè)計(jì)提供了可能: ①測驗(yàn)開發(fā)者可以將測驗(yàn)的計(jì)時(shí)設(shè)計(jì)為“以單道題目為單位”、“以測驗(yàn)?zāi)K為單位”或“以整個(gè)測驗(yàn)為單位”; ②測驗(yàn)的組卷不再拘泥于固定試題, 而允許被試作答與自身能力匹配的題目(即CAT)。雖然沒有研究直接表明不同的測驗(yàn)計(jì)時(shí)設(shè)計(jì)會引起TME, 但是相比于以單道題為單位的計(jì)時(shí), 目前主流的大型CBT (如PISA和NAEP)通常以一個(gè)測驗(yàn)?zāi)K為單位進(jìn)行計(jì)時(shí), 且部分CBT (如GRE)允許被試選擇偏好的時(shí)間呈現(xiàn)方式(即顯示或不顯示倒計(jì)時(shí))。另外, 相比于可能包含簡單題的PBT, CAT中高能力水平被試的測驗(yàn)過程可能更“吃力”, 因?yàn)榭偸亲鞔鹋c自身能力水平匹配的難題。為探究CAT匹配被試能力的選題策略是否會增加被試的測驗(yàn)焦慮程度進(jìn)而引起TME, Powers (1999)基于GRE的PBT和CBT樣本進(jìn)行回歸分析, 發(fā)現(xiàn)被試在兩種測驗(yàn)形式下的焦慮與GRE分?jǐn)?shù)之間的關(guān)系并無顯著差異, 而且自適應(yīng)的選題策略并未加劇被試的測驗(yàn)焦慮。Fritts和Marszalek (2010)分析中學(xué)生的學(xué)業(yè)進(jìn)度測驗(yàn)(measures of academic progress)結(jié)果后發(fā)現(xiàn): 在控制被試對考試的基線焦慮水平和對電腦使用的焦慮后, 相比于CAT, 被試在PBT上表現(xiàn)出更高的焦慮水平。
題目層面的差異來源于題目本身的屬性, 這些屬性可能在不同測驗(yàn)形式下的表現(xiàn)不同, 從而導(dǎo)致TME的產(chǎn)生。具體包括:
(1)題目呈現(xiàn)方式。呈現(xiàn)方式包括題目的字體、字號、粗細(xì)和顏色(Bernard et al., 2002; Bernard & Mills, 2000)、每一行的文字長度(Chaparro et al., 2002)、每一頁中呈現(xiàn)的題目數(shù)量和行數(shù)(Duchnicky & Kolers, 1983)以及每一頁中空白部分的面積大小(McMullin et al., 2002)等。由于CBT的形式多樣且多借助現(xiàn)成軟件或平臺進(jìn)行施測, 很難保證所有題目都以相同方式呈現(xiàn)給被試, 從而導(dǎo)致TME的產(chǎn)生。
(2)題目類型。題目類型可能會影響被試和題目間的交互方式, 從而影響被試的作答表現(xiàn)(Kr?hne & Martens, 2011)。題目類型主要包括兩大類: 選擇題與建構(gòu)題。對于選擇題, 特別是當(dāng)題目較短時(shí), 不同測驗(yàn)形式的差異較小, 較少檢測出TME (Buerger et al., 2016; Lynch, 2022)。而對于建構(gòu)題, 考生在PBT上的表現(xiàn)傾向于比CBT更好(Bennett et al., 2008)。這可能源于題目交互方式的復(fù)雜程度的變化, 交互方式較復(fù)雜的題目更容易影響被試在CBT上的成績(Kingston, 2008)。例如, 當(dāng)題目包含較長的文本或作答過程涉及使用鼠標(biāo)、滾輪和下拉菜單等, 題目的作答難度會增加(Poggio et al., 2005)。另外, Liu等人(2016)對美國基礎(chǔ)教育評價(jià)系統(tǒng)(PARCC)的數(shù)學(xué)建構(gòu)題進(jìn)行分析后發(fā)現(xiàn): 相對于PBT被試群體, CBT被試群體在低年級(3~8年級)題目上的表現(xiàn)更好; 而對于高年級的建構(gòu)題, 結(jié)論則相反。這意味著題型在不同測驗(yàn)形式上的差異還可能源于題目所涉及的認(rèn)知過程不同。Johnson和Green (2006)通過觀察和訪談小學(xué)生后發(fā)現(xiàn), 約1/3的被試在作答不同測驗(yàn)形式下的題目時(shí)會采用不同的作答策略。而對于作文任務(wù), 研究認(rèn)為被試在CBT上的表現(xiàn)優(yōu)于PBT, 或兩者沒有顯著差異(Lee, 2002; Lynch, 2022; Zhi & Huang, 2021)。Li (2006)讓被試在作答學(xué)術(shù)英語任務(wù)(English for academic purposes)時(shí)進(jìn)行出聲思維, 發(fā)現(xiàn)被試在CBT上展現(xiàn)出更高階的思維能力, 并且比PBT做出更多的修改。相比于關(guān)注單詞水平的修改, 被試在CBT上更多地進(jìn)行句子和段落層次的完善和組織(Chan et al., 2018)。
被試層面的差異來源于被試本身的屬性, 這些屬性并非測驗(yàn)想要測量的特質(zhì), 但是它們在不同測驗(yàn)形式上的差異可能會導(dǎo)致TME的產(chǎn)生。具體包括:
(1)人口學(xué)變量。性別、年齡、種族和社會經(jīng)濟(jì)地位等人口學(xué)變量并不直接導(dǎo)致TME, 而是通過影響與測驗(yàn)?zāi)康南嚓P(guān)的被試能力等來間接導(dǎo)致TME。比如, 老年人可能由于使用計(jì)算機(jī)的熟練程度不如年輕人, 因而在CBT上的表現(xiàn)更差(Chua et al., 1999); 但也有研究表明, 年齡帶來的差異并不像研究者預(yù)期的那樣顯著(Weigold et al., 2016)。Fouladi等人(2002)發(fā)現(xiàn)不同測驗(yàn)形式間的結(jié)果存在較大差異, 但在控制性別和種族的影響后, 不同測驗(yàn)形式間的結(jié)果差異顯著減小。
(2)計(jì)算機(jī)的熟練程度。對計(jì)算機(jī)使用越熟練, 在CBT中的表現(xiàn)就越好(Jerrim et al., 2018; Pomplun, 2007)。一方面, 對計(jì)算機(jī)越熟練, 在作答時(shí)的操作就越快捷; 另一方面, 被試的學(xué)習(xí)過程和測試過程的形式相匹配時(shí), 他們的作答分?jǐn)?shù)會更高, 即存在一定的遷移適用加工過程(transfer appropriate processing; Clariana & Wallace, 2002)。但也有研究發(fā)現(xiàn), 使用計(jì)算機(jī)的熟練程度不會對被試在CBT上的結(jié)果產(chǎn)生影響(Jeong, 2012)。
(3)作答動機(jī)。與低利害測驗(yàn)相比, 參加高利害測驗(yàn)的被試具有更高的作答動機(jī), 從而在PBT和CBT上有更相近的表現(xiàn)(Rowan, 2010)。有意思的是, 也有研究發(fā)現(xiàn): 與PBT相比, 被試對CBT普遍有更好的體驗(yàn)、更高的作答動機(jī)和自我效能感, 但在CBT上的得分卻更低(Chua, 2012)。
評分者層面的差異本質(zhì)上源于評分者內(nèi)在認(rèn)知加工的不同, 認(rèn)知加工的不同可能使得評分者在不同測驗(yàn)形式下的評分結(jié)果有所差異, 從而導(dǎo)致TME的產(chǎn)生。也即, 評分者效應(yīng)(rater effect; 韓建濤等, 2019)也可能是TME的來源之一。測驗(yàn)中的客觀題由于評分標(biāo)準(zhǔn)明確、客觀, 所以其評分結(jié)果不易被評分者效應(yīng)影響; 而對于主觀題, 其評分結(jié)果則容易受到評分者主觀因素的影響, 從而導(dǎo)致其在PBT和CBT中的評分結(jié)果存在差異。具體來說, 評分者在評定不同測驗(yàn)形式下的被試作答時(shí), 主要受到被試作答呈現(xiàn)方式的影響(Hunsu, 2015), 其中手寫版(handwritten)和打字版(typed or word-processed)的差異是研究關(guān)注的重點(diǎn)。Arnold等人(1990)發(fā)現(xiàn), 評分者傾向于對手寫版作答采用更寬松的標(biāo)準(zhǔn), 而對打字版更苛刻。這可能是因?yàn)槭謱懽鞔鹪谝欢ǔ潭壬暇哂懈L的感知視覺效果, 并保留被試的修改痕跡, 而且有評分者認(rèn)為手寫版比打字版更有“力量” (Powers et al., 1994; Russell & Tao, 2004a)。另外, 為探討不同測驗(yàn)形式給評分者帶來的感知長度差異對測驗(yàn)結(jié)果的影響, 研究者對比單倍行距與雙倍行距的作文評分, 發(fā)現(xiàn)長度的變化并沒有消除CBT與PBT的得分差異(Russell & Tao, 2004b)。
需要注意的是, 來自評分者的影響通常與題型相互交織, 評分者對CBT與PBT的評分差異大多出現(xiàn)于建構(gòu)題上。為區(qū)分兩者的影響, 研究者將手寫版的作答輸入計(jì)算機(jī), 讓評分者對混合之后的打字版作答進(jìn)行評分, 發(fā)現(xiàn)被試在CBT上的得分更高(Jin & Yan, 2017; Russell & Haney, 1997)。但也有對學(xué)術(shù)英語測試的研究發(fā)現(xiàn), 控制評分者的嚴(yán)格程度和信度之后, 被試在CBT與PBT下的整體測驗(yàn)得分差異較小, 評分者僅在詞匯量測試題中呈現(xiàn)出對手寫版的偏好(Chan et al., 2018)。
表1對TME的來源進(jìn)行總結(jié), 并對TME的產(chǎn)生進(jìn)行說明。
在實(shí)踐中, 研究者往往需要在排除無關(guān)變量的影響后, 再探究測驗(yàn)形式對測驗(yàn)結(jié)果的影響。因此, 對TME的來源進(jìn)行梳理有助于研究者在實(shí)驗(yàn)設(shè)計(jì)階段對無關(guān)變量進(jìn)行嚴(yán)格控制, 以減少無關(guān)變量的影響。比如, 在測驗(yàn)層面保證被試都能檢查并修改答案, 且作答過程都在有人監(jiān)督的情況下進(jìn)行; 在題目層面保證所有題目在PBT和CBT上有相同的呈現(xiàn)效果; 在被試層面保證在兩種測驗(yàn)形式上作答的被試的年齡和性別等方面一致。
TME研究一般采用兩類實(shí)驗(yàn)設(shè)計(jì)控制被試特征: 組間設(shè)計(jì)和組內(nèi)設(shè)計(jì)(Buerger et al., 2016)。在TME的研究背景下, 組間設(shè)計(jì)中每名被試只接受PBT或者CBT, 而在組內(nèi)設(shè)計(jì)中每名被試先后接受這兩種測驗(yàn)形式。TME組間設(shè)計(jì)和組內(nèi)設(shè)計(jì)如圖1所示(共名被試和道題)。根據(jù)被試是否能夠自由選擇測驗(yàn)形式, 組間設(shè)計(jì)又被分為兩類: (1)自由選擇。即被試可以自由選擇測驗(yàn)形式(Puhan et al., 2007); (2)隨機(jī)分配。即研究者將被試隨機(jī)分配給某種測驗(yàn)形式(Gu et al., 2021; Schwarz et al., 2003)。根據(jù)被試作答順序是否固定, 組內(nèi)設(shè)計(jì)也可以被分為兩類: (1)固定順序。即所有被試接受兩種形式測驗(yàn)的順序固定且一致(Jeong, 2012); (2)平衡順序。即先將被試隨機(jī)分成兩組, 一組先接受測驗(yàn)形式A (如PBT), 一段時(shí)間后再接受測驗(yàn)形式B (如CBT), 另一組則與之相反, 即所謂的“AB-BA設(shè)計(jì)” (Bodmann & Robinson, 2004; Kim et al., 2018; Seifert & Paleczek, 2022)。
表1 TME的來源和對TME產(chǎn)生的說明
組間設(shè)計(jì)和組內(nèi)設(shè)計(jì)各有其適用范圍。與前者比, 后者能有效避免由組間個(gè)體差異帶來的無關(guān)變量干擾, 但也容易受到疲勞效應(yīng)和練習(xí)效應(yīng)的影響, 因此適用于樣本量和題量都較少的情況, 更適用于練習(xí)效應(yīng)較小的人格測驗(yàn)。而在組間設(shè)計(jì)中, 雖然組間個(gè)體差異難以避免、容易引入無關(guān)變量, 但是由于每名被試只接受一種測驗(yàn)形式, 實(shí)施起來更方便、快捷, 因而適用于樣本量和題量都較多的情境, 更適用于能力測驗(yàn)。
為改進(jìn)這兩種設(shè)計(jì)的不足, 研究者將它們結(jié)合形成平衡不完全區(qū)組(Balanced Incomplete Block, BIB; Brunfaut et al., 2018)設(shè)計(jì), 如表2所示。在BIB設(shè)計(jì)中, 原測驗(yàn)被分成多個(gè)平行題本, 相應(yīng)地被試也被隨機(jī)分成多個(gè)組, 這多個(gè)被試組理論上可被看作是相互平行的。表2中的“Test 1”和“Test 2”代表被試的作答順序。每組被試作答兩個(gè)題本, 并在題本序號和作答順序上進(jìn)行平衡, 從而減輕被試的疲勞效應(yīng)。由于題本A和B理論上平行, 比較每組中兩個(gè)題本間的作答就可以估計(jì)TME。通過設(shè)計(jì)組1和組4以及組2和組3可以控制順序效應(yīng)、疲勞效應(yīng)和學(xué)習(xí)效應(yīng)。BIB設(shè)計(jì)結(jié)合兩種設(shè)計(jì)的優(yōu)點(diǎn), 因而在樣本量大、題目較多的測評項(xiàng)目(如PISA)中已經(jīng)得到較為成熟的運(yùn)用(OECD, 2014)。
通過實(shí)驗(yàn)設(shè)計(jì), 可以有效控制組間被試特征的影響。但是即使控制組間差異, BIB設(shè)計(jì)依舊無法完全避免組內(nèi)個(gè)體差異(如年齡、計(jì)算機(jī)的使用和作答動機(jī))的影響, 此時(shí)可以在測驗(yàn)過程中估計(jì)由個(gè)體特征造成的TME。接下來介紹TME的檢測方法。
對TME進(jìn)行檢測就是對被試在PBT和CBT上的作答表現(xiàn)進(jìn)行比較, 作答表現(xiàn)的比較可以分為兩個(gè)層面: 觀測變量層面和潛變量層面。在觀測變量層面, 一般采用方差分析(Analysis of Variance, ANOVA)法進(jìn)行比較。在潛變量層面, 一般通過檢驗(yàn)測量不變性或參數(shù)不變性來檢測TME。在結(jié)構(gòu)方程模型框架下, 測量不變性是指在測量被試的目標(biāo)特質(zhì)時(shí), 觀測變量和潛在特質(zhì)間以及潛在特質(zhì)之間的關(guān)系在待比較的各組之間或在不同情境下等同(白新文, 陳毅文, 2004); 而在項(xiàng)目反應(yīng)理論(Item Response Theory, IRT)框架下, 參數(shù)不變性體現(xiàn)在題目參數(shù)和能力參數(shù)的不變性上(聶旭剛等, 2018)。目前, 潛變量層面的TME檢測方法主要包括多組驗(yàn)證性因子分析(Multigroup Confirmatory Factor Analysis, MCFA)法、題目功能差異(Differential Item Functioning, DIF)法和模式效應(yīng)模型(Mode Effect Model, MEM)法。下面對這4種方法進(jìn)行述評。
圖1 TME組間設(shè)計(jì)(左)和組內(nèi)設(shè)計(jì)(右)示意圖
表2 TME研究中的BIB設(shè)計(jì)
3.2.1 ANOVA法
ANOVA法首先計(jì)算兩種測驗(yàn)形式下的作答指標(biāo)(包括測驗(yàn)層面的總分以及題目層面的平均分、正確率和空缺率等), 然后根據(jù)實(shí)驗(yàn)設(shè)計(jì)是組內(nèi)或組間設(shè)計(jì), 采用被試內(nèi)或被試間的ANOVA對這些作答指標(biāo)進(jìn)行比較。如果這些指標(biāo)間存在顯著差異, 則說明存在TME并且TME會對測驗(yàn)結(jié)果產(chǎn)生影響(Bodmann & Robinson, 2004; Goldberg et al., 2003; Khoshsima et al., 2017)。ANOVA法可通過SPSS或R中的TAM包(Robitzsch et al., 2022)實(shí)現(xiàn)。
3.2.2 MCFA法
MCFA法采用多組比較的思想, 對兩種測驗(yàn)形式下的結(jié)果進(jìn)行測量不變性檢驗(yàn)(Kim & Huynh, 2008)。測量不變性檢驗(yàn)是通過比較一系列嵌套模型來實(shí)現(xiàn), 具體表現(xiàn)在依次對以下不變性進(jìn)行檢驗(yàn): (1)結(jié)構(gòu)不變性(configural invariance)檢驗(yàn)。即檢驗(yàn)不同組之間的因子結(jié)構(gòu)(即觀測變量和潛變量間的關(guān)系)是否相同; (2)弱不變性(weak invariance)檢驗(yàn)。若結(jié)構(gòu)不變性得到滿足, 則進(jìn)一步檢驗(yàn)不同組之間的因子載荷是否相等; (3)強(qiáng)不變性(strong invariance)檢驗(yàn)。若弱不變性得到滿足, 則進(jìn)一步檢驗(yàn)不同組之間的截距(潛變量預(yù)測觀測變量時(shí)的截距)是否相同; (4)嚴(yán)格不變性(strict invariance)檢驗(yàn)。若強(qiáng)不變性得到滿足, 則檢驗(yàn)不同組之間的殘差方差是否相同。這4種檢驗(yàn)對應(yīng)的測量不變性水平具有層級嵌套關(guān)系, 只有低一級的不變性得到證實(shí)后, 進(jìn)行高一級的不變性檢驗(yàn)才有意義(蔡華儉等, 2008)。如果測驗(yàn)在某一級水平的測量不變性上出現(xiàn)違反, 則說明該測驗(yàn)在對應(yīng)水平上存在TME, 通過這種方式可以對測驗(yàn)層面的TME進(jìn)行檢驗(yàn)。
為進(jìn)一步尋找違反測量不變性的成因, 可以根據(jù)輸出結(jié)果確定當(dāng)前測量不變性水平下對模型擬合違反較大的題目。在放松該題目上的檢驗(yàn)限制后, 若模型擬合顯著變好, 則說明該題目的存在會對測量不變性產(chǎn)生影響, 可認(rèn)為存在TME。這樣依次對所有題目進(jìn)行檢測, 即可找出所有具有TME的題目。此時(shí), 測驗(yàn)滿足部分(partial)弱不變性、部分強(qiáng)不變性或部分嚴(yán)格不變性。
已有研究幾乎都得到結(jié)構(gòu)不變性的結(jié)果, 這可能是因?yàn)橐粋€(gè)用于施測的成熟測驗(yàn)往往具有較好的信效度, 所以在測驗(yàn)形式發(fā)生變化后因子結(jié)構(gòu)并沒有發(fā)生變化。大多數(shù)測驗(yàn)具有完全或部分弱不變性, 還有一些測驗(yàn)具有完全或部分強(qiáng)不變性, 但是極少有測驗(yàn)?zāi)軌蜻_(dá)到嚴(yán)格不變性(比如, Hox et al., 2015)。一般來說, 只要達(dá)到弱不變性或部分強(qiáng)不變性, 就說明不同測驗(yàn)形式下的結(jié)果可比。MCFA法可通過R中的lavaan包(Rosseel, 2012)實(shí)現(xiàn)。
3.2.3 DIF法
TME和DIF都反映“由于某種因素的影響, 導(dǎo)致能力相同的被試在同一題目上具有不同的正確作答概率”, 在DIF中這種因素是指被試來自不同群體, 而在TME中這種因素是指不同的測驗(yàn)形式。鑒于兩者的相似性, 不少研究者將檢測DIF的方法用于對TME的檢測(Chan et al., 2004; Keng et al., 2008; Puhan et al., 2007; Schwarz et al., 2003), 此時(shí)作答CBT的被試組可看作是目標(biāo)組(focus group), 作答PBT的被試組可看作是參照組(reference group)。
常見的DIF檢測方法主要有兩類: 一類是基于IRT的方法(即將潛在特質(zhì)作為匹配變量), 包括IRT似然比檢驗(yàn)法(IRT Likelihood Ratio, IRT-LR)、測驗(yàn)與題目功能差異法(Differential Functioning of Items and Test, DFIT)以及同時(shí)題目偏差檢驗(yàn)法(Simultaneous Item Bias Test, SIBTEST; Shealy & Stout, 1993)等; 另一類是非IRT的方法(即直接將測驗(yàn)總分作為匹配變量), 包括Mantel- Haenszel法、標(biāo)準(zhǔn)化法(Standardization, STND)和邏輯斯蒂克回歸法(Logistic Regression, LRDIF)等。其中, Mantel-Haenszel、SIBTEST、IRT-LR和DFIT法都已被用于檢測TME(Claudia et al., 1999; Puhan et al., 2007; Terluin et al., 2018)。值得注意的是, 只有DFIT法可以同時(shí)對測驗(yàn)和題目層面的DIF進(jìn)行檢測, 其他方法只能對單個(gè)題目的DIF進(jìn)行檢測(Raju et al., 1995)。
以SIBTEST法為例, 簡要介紹檢測TME的步驟: (1)將所有題目分為匹配子測驗(yàn)和待測子測驗(yàn)。匹配子測驗(yàn)由不存在TME的題目組成, 因此可將被試在匹配子測驗(yàn)上的分?jǐn)?shù)作為其能力估計(jì)值; (2)對目標(biāo)組和參照組在匹配子測驗(yàn)和待測子測驗(yàn)中的作答結(jié)果進(jìn)行評價(jià), 并基于匹配子測驗(yàn)上的分?jǐn)?shù)將能力相同但組別不同的被試進(jìn)行匹配。SIBTEST假定在匹配子測驗(yàn)中分?jǐn)?shù)相同的被試具有相同能力, 所以組別不同的匹配被試在待測子測驗(yàn)上的分?jǐn)?shù)差異就是TME的值; (3)對TME的值進(jìn)行顯著性檢驗(yàn), 從而確定題目是否有TME(蔡曉芬, 2014; 湯楚, 2016)。DIF法可通過R中的mirt包(Chalmers, 2012)實(shí)現(xiàn)。
3.2.4 MEM法
von Davier等人(2019)提出可以通過在兩參數(shù)邏輯斯蒂克模型(Two-Parameter Logistic Model, 2PLM)中加入量化的TME參數(shù)從而形成MEM, 然后在估計(jì)題目參數(shù)和能力參數(shù)的同時(shí)也對TME參數(shù)進(jìn)行估計(jì)。MEM包含三個(gè)子模型, 每個(gè)子模型都有不同的模型假設(shè)。
MEM中的模型2假設(shè)測驗(yàn)形式和題目之間存在交互作用, 也即在測驗(yàn)形式發(fā)生變化后, 測驗(yàn)中有的題目可能會變得更難, 有的題目會變得更簡單。因此, 模型2也被稱為題目特異性的MEM (item-specific MEM), 公式如下:
MEM中的模型3假設(shè)測驗(yàn)形式和被試之間存在交互作用, 即在測驗(yàn)形式轉(zhuǎn)化后, 對于有的被試來說題目變得更難, 對于有的被試來說題目變得更簡單。模型3也被稱為個(gè)體特異性的MEM (person-specific MEM), 公式如下:
MEM法的以上三個(gè)子模型分別假設(shè)三種不同的情況。在使用這種方法檢測TME時(shí), 通常的做法是使用AIC和BIC等模型擬合指標(biāo)比較三個(gè)模型和數(shù)據(jù)的擬合程度, 擬合越好說明數(shù)據(jù)更接近對應(yīng)模型的假設(shè), 從而可以探究TME是具有一般性、題目特異性還是個(gè)體特異性(von Davier et al., 2019)。模型擬合的同時(shí)也對題目參數(shù)、能力參數(shù)和TME參數(shù)進(jìn)行估計(jì), 進(jìn)而找出具有TME的題目并對其進(jìn)行調(diào)整。另外, 模型1和2具有嵌套關(guān)系, 模型3與模型1和2沒有嵌套關(guān)系。如果簡單模型和復(fù)雜模型的擬合不存在顯著差異, 則選擇性價(jià)比更高的簡單模型。MEM法可通過mdltm軟件(von Davier, 2005)實(shí)現(xiàn)。
MEM法的三個(gè)子模型還可以從TME來源的角度進(jìn)行理解。模型1假設(shè)TME只與測驗(yàn)形式有關(guān), 說明此時(shí)TME的來源只包括測驗(yàn)層面的差異, 如計(jì)算機(jī)的硬件設(shè)施和是否允許檢查并修改答案等。模型2假設(shè)TME具有題目特異性, 說明此時(shí)TME會受到題目層面差異的影響, 如題目類型和題目的呈現(xiàn)方式等。這種情況在能力測驗(yàn)中較為常見, 特別是包含多種題型的考試中, 不同題目受到測驗(yàn)形式的影響也不同, 從而導(dǎo)致題目特異性的TME。模型3假設(shè)TME具有個(gè)體特異性, 說明此時(shí)TME會受到被試層面差異的影響, 如年齡、性別、計(jì)算機(jī)的熟練程度和作答動機(jī)等。這種情況可能出現(xiàn)在個(gè)體差異較大的時(shí)候, 即使通過實(shí)驗(yàn)設(shè)計(jì)進(jìn)行控制, 也沒法完全避免個(gè)體差異的影響, 從而導(dǎo)致個(gè)體特異性的TME。
為促進(jìn)TME檢測方法的應(yīng)用, 本文在附錄部分呈現(xiàn)能實(shí)現(xiàn)ANOVA、MCFA和DIF方法的R代碼示例, 并以組間設(shè)計(jì)為例給出檢驗(yàn)題目層面TME的簡要流程。
3.2.5 TME檢測方法的比較
表3對上述4種TME檢測方法的優(yōu)缺點(diǎn)、適用范圍和實(shí)現(xiàn)方法進(jìn)行了總結(jié)。
ANOVA法通過“計(jì)算PBT和CBT上的作答指標(biāo), 再比較兩者間的差異”來檢測TME, 優(yōu)點(diǎn)在于方便快捷、計(jì)算簡單, 適合對測驗(yàn)層面的TME進(jìn)行初步檢測; 不足在于檢驗(yàn)力較低, 而且只能對觀測指標(biāo)進(jìn)行比較。MCFA法通過驗(yàn)證測量不變性來對TME進(jìn)行檢測。與ANOVA法類似, MCFA法更適合對測驗(yàn)層面的TME進(jìn)行檢測, 可以探究觀測變量與潛在特質(zhì)間以及潛在特質(zhì)間的關(guān)系; 不足在于對題目層面TME進(jìn)行檢測的過程繁瑣、不易操作。
DIF法利用DIF和TME在概念和檢測方法上的共通性, 采用DIF檢測方法對TME進(jìn)行檢測。DIF法的優(yōu)點(diǎn)體現(xiàn)在兩方面: 一是能對測驗(yàn)中具有TME的題目進(jìn)行準(zhǔn)確識別; 二是包含的方法非常多樣, 在實(shí)踐中可以靈活選擇。MEM法通過建立包含TME參數(shù)的IRT模型, 直接對TME的值進(jìn)行估計(jì)。與前三種方法相比, MEM法具有兩方面的優(yōu)點(diǎn): 一是能對TME的大小進(jìn)行直接估計(jì); 二是能在一定程度上探究TME的來源, 從而更好地對TME進(jìn)行解釋和控制; 缺點(diǎn)是模型較為復(fù)雜(特別是模型3), 可能會面臨模型識別和參數(shù)估計(jì)等方面的挑戰(zhàn)。
在過去30多年里, 已經(jīng)有超過300項(xiàng)研究對PBT和CBT的測驗(yàn)結(jié)果(包括成就測驗(yàn)、人格與態(tài)度測驗(yàn)和職業(yè)興趣測驗(yàn)等領(lǐng)域的結(jié)果)進(jìn)行比較(Duchnicky & Kolers, 1983; Kulik et al., 1980), 但并沒有得到一致的結(jié)論。很多研究者發(fā)現(xiàn), 同一測驗(yàn)在CBT上的難度要普遍高于PBT, 導(dǎo)致被試在PBT上的表現(xiàn)顯著好于在CBT上的表現(xiàn)(比如, Backes & Cowan, 2019; Beatty et al., 2022; Lee et al., 1986; Jeong, 2012)。然而也有一些研究得出相反的結(jié)論, 即被試在CBT上的表現(xiàn)要好于在PBT上的表現(xiàn)(比如, Brunfaut et al., 2018; Russell & Plati, 2002)。還有不少研究發(fā)現(xiàn), 被試在不同測驗(yàn)形式上的作答結(jié)果沒有顯著差異(Blumenthal & Blumenthal, 2020; Hamhuis et al., 2020; Khoshsima & Toroujeni, 2017; Paleczek et al., 2021; Porion et al., 2016; Prisacari & Danielson, 2017a, 2017b)。
出現(xiàn)這樣的結(jié)果可能與研究發(fā)表的年代有關(guān)。隨著研究發(fā)表年代的遞進(jìn), 被試在PBT和CBT上的作答表現(xiàn)也發(fā)生變化。在21世紀(jì)之前, 計(jì)算機(jī)還沒有得到普及, 相應(yīng)地人們對計(jì)算機(jī)的使用不太熟練, 因此會出現(xiàn)PBT得分顯著高于CBT的結(jié)果。隨著計(jì)算機(jī)的逐漸普及, 人們使用計(jì)算機(jī)的能力也得到提高, 再加上對計(jì)算機(jī)有著較強(qiáng)的興趣和作答動機(jī), 因此出現(xiàn)更多在CBT上得分更高的情況。
表3 四種TME檢測方法的總結(jié)
對于沒有檢測出TME的研究, 則可能有以下幾點(diǎn)原因: (1)部分測驗(yàn)題目(如多選題)的穩(wěn)定性較好, 不易產(chǎn)生TME; (2)隨著題型越來越多樣化, 可能會出現(xiàn)“在同一測驗(yàn)中, 部分題目對PBT更有利, 而另一些題目對CBT更有利”的情況。如果只對測驗(yàn)層面的TME進(jìn)行檢測, 則可能出現(xiàn)效應(yīng)上的抵消; (3)在“測驗(yàn)本身結(jié)構(gòu)較好、實(shí)驗(yàn)設(shè)計(jì)較完善且對TME來源控制較好”的前提下, 測驗(yàn)層面不存在較大的TME。若研究者采用檢驗(yàn)力較低的ANOVA和MCFA法, 則容易出現(xiàn)TME檢測不顯著的情況。
因此, 很多研究在對測驗(yàn)層面的TME進(jìn)行檢測后, 還會對題目層面的TME進(jìn)行檢測(Keng et al., 2008; Puhan et al., 2007; OECD, 2017)。通過綜合測驗(yàn)和題目層面的檢測結(jié)果, 可以為測驗(yàn)在PBT和CBT上的可比性提供依據(jù), 也可以更細(xì)致地探究TME的來源, 從而為題目的修訂提出建議。
目前隨著計(jì)算機(jī)和網(wǎng)絡(luò)的廣泛運(yùn)用, TME已經(jīng)成為大型測驗(yàn)電子化進(jìn)程中不容忽視的問題。PISA、NAEP和TIMSS等大規(guī)模測評項(xiàng)目都在經(jīng)歷著從PBT到CBT的變化。在進(jìn)行測驗(yàn)形式的轉(zhuǎn)變之前, 采用嚴(yán)密的實(shí)驗(yàn)設(shè)計(jì)和精確的檢測方法對測驗(yàn)中可能存在的TME進(jìn)行檢測, 是保證PBT和CBT上作答結(jié)果具有可比性的重要途徑, 也是對測驗(yàn)公平的保障。
通過前面的梳理, 可以看到盡管TME的研究已經(jīng)較為成熟, 但是也還存在一些問題: 首先, TME的來源比較復(fù)雜, 使得影響TME的因素繁多。而且對于同一因素, 還可能會在不同人群中出現(xiàn)巨大差異。比如CBT中的交互方式, 年輕人會適應(yīng)鍵盤和鼠標(biāo)的輸入方式, 而中老年人可能會非常不適應(yīng)。這使得研究者幾乎無法預(yù)測和控制影響因素, 不利于對TME進(jìn)行深入的分析與解釋。其次, 缺少對TME檢測方法的系統(tǒng)比較。盡管4種TME檢測方法各有優(yōu)勢, 有時(shí)也可以同時(shí)使用以達(dá)到更好的效果, 但是還沒有研究對它們的檢測效果進(jìn)行全面比較。最后, 不同TME研究中的結(jié)果難以進(jìn)行比較。如前所述, TME的研究結(jié)果受TME的來源、實(shí)驗(yàn)設(shè)計(jì)和檢測方法等多方面的影響, 因此有研究者使用元分析方法對TME研究的影響因素進(jìn)行探究, 然而結(jié)果不盡相同(Wang et al., 2007, 2008)。這可能是因?yàn)樵治霰旧泶嬖凇疤O果與桔子之爭”問題, 即很多研究者認(rèn)為方法不同的研究不能進(jìn)行直接比較。
綜上, TME今后的研究方向包括但不限于以下幾個(gè)方面:
第三部分提到, 可以從TME來源的角度理解MEM。但是, MEM只能在一定程度上幫助研究者鎖定TME的來源范圍, 無法對TME的來源做出解釋。因此, 可以借助“IRT模型能夠增減參數(shù)”的優(yōu)勢, 在現(xiàn)有MEM中加入與TME來源相關(guān)的因素, 從而直接在模型中對TME進(jìn)行解釋。比如, 模型1假設(shè)TME只與測驗(yàn)形式有關(guān), TME的來源可能是作答過程有無監(jiān)督等測驗(yàn)層面的特征。為進(jìn)一步對這些因素進(jìn)行解釋, 可以建立關(guān)于TME參數(shù)和測驗(yàn)層面特征的回歸方程, 以探究不同特征的權(quán)重以及不同特征對TME產(chǎn)生的貢獻(xiàn)大小。在模型2和3中, 也可以建立類似的回歸方程對TME的來源進(jìn)行解釋。
另外, 還可以使用廣義模型對TME進(jìn)行解釋。陳冠宇和陳平(2019)基于廣義線性混合模型和非線性混合模型的視角全面探討解釋性IRT模型(Explanatory IRT Model, EIRTM)。EIRTM是一個(gè)綜合性的解釋框架, 它通過在IRT模型中加入預(yù)測變量來對被試和題目間的關(guān)系進(jìn)行刻畫, 進(jìn)而解釋相關(guān)變量的影響。具體地講, 他們在EIRTM的框架下, 從固定效應(yīng)和隨機(jī)效應(yīng)的角度對TME進(jìn)行解釋。未來研究也可以在EIRTM這一更加靈活、更加廣義的框架下對混合MEM進(jìn)行進(jìn)一步界定。
再者, 已有的MEM方法主要基于IRT模型(即2PLM)。而認(rèn)知診斷測驗(yàn)(Cognitive Diagnostic Testing, CDT)由于能夠反饋學(xué)生對特定知識屬性的掌握情況、能夠剖析心理量表的潛在結(jié)構(gòu)(de La Torre & Douglas, 2004), 正日益受到測量研究者和實(shí)踐者的青睞。未來研究可進(jìn)一步開發(fā)適用于CDT的MEM方法, 比如借助廣義多策略認(rèn)知診斷模型(Ma & Guo, 2019)分析CBT與PBT下的被試作答策略差異, 以了解不同測驗(yàn)形式下的認(rèn)知加工過程變化。
目前大多數(shù)TME研究都聚焦于PBT和CBT之間的比較, 然而TME還可能出現(xiàn)在PBT和其他測驗(yàn)形式之間, 包括手機(jī)測驗(yàn)(mobile-based assessment)和電話或面對面訪談(phone or face-to-face interview)等測驗(yàn)形式(Chan et al., 2004; Magnus et al., 2016)。Kim和Walker (2021)還研究在考試中心參加測驗(yàn)和使用遠(yuǎn)程監(jiān)考在家參加測驗(yàn)之間的TME。隨著測驗(yàn)形式的不斷發(fā)展, 更多新型測驗(yàn)形式不斷涌現(xiàn), 比如基于游戲的測驗(yàn)(game-based assessment)、基于虛擬現(xiàn)實(shí)(virtual reality)和增強(qiáng)現(xiàn)實(shí)(augmented reality)等智能穿戴設(shè)備的測驗(yàn)等。對這些形式的測驗(yàn)進(jìn)行TME研究也值得未來研究者重視。
在PISA 2014年的現(xiàn)場實(shí)驗(yàn)研究(field trial study)中, 研究者在參與測試的學(xué)校中隨機(jī)選取學(xué)生參加PBT和CBT, 并通過多種方法對TME進(jìn)行檢測, 證實(shí)數(shù)學(xué)、閱讀和科學(xué)等認(rèn)知測驗(yàn)在PBT和CBT上的結(jié)果具有可比性, 從而為測驗(yàn)形式的轉(zhuǎn)變提供理論依據(jù)(OECD, 2016)。隨后在2015年的正式測驗(yàn)中, 全球參與測試的74個(gè)國家(地區(qū))中的58個(gè)國家(地區(qū))全面使用CBT進(jìn)行測驗(yàn)(OECD, 2017)。
而在我國的一些大規(guī)模教育測評項(xiàng)目中, 學(xué)科測驗(yàn)仍采用PBT的形式。這主要是因?yàn)槲覈鞯氐男畔⒒匠潭炔煌?、?jì)算機(jī)或網(wǎng)絡(luò)機(jī)房的配備程度不同, 導(dǎo)致少部分地區(qū)尚無條件使用CBT。通過對TME進(jìn)行深入研究, 可在一定程度上解決這一問題: (1)若測驗(yàn)中不存在顯著影響測驗(yàn)結(jié)果的TME, 則說明該測驗(yàn)在PBT和CBT上的結(jié)果具有測量等價(jià)性, 即可以在不同地區(qū)使用不同測驗(yàn)形式; (2)若測驗(yàn)中存在具有TME的題目, 則可以對其進(jìn)行修訂和改進(jìn), 增強(qiáng)它們在不同情境中的穩(wěn)定性。
需要注意的是: 對于部分需要人工評分的建構(gòu)題, 仍需盡量避免評分者對被試作答呈現(xiàn)方式感知差異所帶來的影響。比如: (1)考慮將手寫作答輸入計(jì)算機(jī), 能較有效地控制來自評分者層面的影響; (2)通過改良對評分者的訓(xùn)練規(guī)則來降低手寫版和打字版的評分差異(Powers et al., 1994)。另外, 隨著自動評分技術(shù)的發(fā)展(Ramesh & Sanampudi, 2022 ; Zhang et al., 2020), 測驗(yàn)或?qū)⒂瓉砣?jì)算機(jī)化模式, 屆時(shí)評分者對TME的影響將主要集中在機(jī)器評分的算法層面。
白新文, 陳毅文. (2004). 測量等價(jià)性的概念及其判定條件.(2), 231?239.
蔡華儉, 林永佳, 伍秋萍, 嚴(yán)樂, 黃玄鳳. (2008). 網(wǎng)絡(luò)測驗(yàn)和紙筆測驗(yàn)的測量不變性研究——以生活滿意度量表為例.(2), 228?239.
蔡曉芬. (2014).(碩士學(xué)位論文). 江西師范大學(xué), 南昌.
陳冠宇, 陳平. (2019). 解釋性項(xiàng)目反應(yīng)理論模型: 理論與應(yīng)用.(5), 937?950.
陳平, 丁樹良. (2008). 允許檢查并修改答案的計(jì)算機(jī)化自適應(yīng)測驗(yàn).(6), 737?747.
高旭亮, 涂冬波, 王芳, 張龍, 李雪瑩. (2016). 可修改答案的計(jì)算機(jī)化自適應(yīng)測驗(yàn)的方法.(4), 654?664.
韓建濤, 劉文令, 龐維國. (2019). 創(chuàng)造力測評中的評分者效應(yīng).(1), 171?180.
林喆, 陳平, 辛濤. (2015). 允許CAT題目檢查的區(qū)塊題目袋方法.(9), 1188?1198.
聶旭剛, 陳平, 張纓斌, 何引紅. (2018). 題目位置效應(yīng)的概念及檢測.(2), 368?380.
檀慧玲, 李文燕, 萬興睿. (2018). 國際教育評價(jià)項(xiàng)目合作問題解決能力測評: 指標(biāo)框架、評價(jià)標(biāo)準(zhǔn)及技術(shù)分析.(9), 123?128.
湯楚. (2016).(碩士學(xué)位論文). 江西師范大學(xué), 南昌.
Arnold, V., Legas, J., Obler, S., Pacheco, M. A., Russell, C., & Umbdenstock, L. (1990).. Retrieved March 7,2023, from https://files.eric.ed.gov/fulltext/ED345818.pdf.
Backes, B., & Cowan, J. (2019). Is the pen mightier than the keyboard? The effect of online testing on measured studentachievement., 89?103.
Beatty, A. E., Esco, A., Curtiss, A. B. C., & Ballen, C. J. (2022). Students who prefer face-to-face tests outperform their online peers in organic chemistry., 464?474.
Bennett, R. E., Braswell, J., Oranje, A., Sandene, B., Kaplan, B., & Yan, F. (2008). Does it matter if I take my mathematics test on computer? A second empirical study of mode effects in NAEP.(9), 1?39.
Bernard, M., Fernandez, M., Hull, S., & Chaparro, B. S. (2003). The effects of line length on children and adults’ perceived and actual online reading performance.(11), 1375?1379.
Bernard, M., Lida, B., Riley, S., Hackler, T., & Janzen, K. (2002). A comparison of popular online fonts: Which size and type is best.(1), 1?8.
Bernard, M., & Mills, M. (2000). So, what size and type of font should I use on my website?(2), 1?5.
Blumenthal, S., & Blumenthal, Y. (2020). Tablet or paper and pen? Examining mode effects on German elementary school students’ computation skills with curriculum-based measurements.(4), 669?680.
Bodmann, S. M., & Robinson, D. H. (2004). Speed and performance differences among computer-based and paper-pencil tests.(1), 51?60.
Bridgeman, B., Lennon, M. L., & Jackenthal, A. (2003). Effects of screen size, screen resolution, and display rate on computer-based test performance.(3), 191?205.
Brunfaut, T., Harding, L., & Batty, A. O. (2018). Going online: The effect of mode of delivery on performances and perceptions on an English L2 writing test suite., 3?18.
Buerger, S., Kroehne, U., & Goldhammer, F. (2016). The transition to computer-based testing in large-scale assessments: Investigating (partial) measurement invariance between modes., 597?616.
Chalmers, R. P. (2012). mirt: A multidimensional item response theory package for the R environment.(6), 1?29.
Chan, K. S., Orlando, M., Ghosh-Dastidar, B., Duan, N., & Sherbourne, C. D. (2004). The interview mode effect on the Center for Epidemiological Studies Depression (CES-D) scale: An item response theory analysis.(3), 281?289.
Chan, S., Bax, S., & Weir, C. (2018). Researching the comparability of paper-based and computer-based delivery in a high-stakes writing test., 32?48.
Chua, S. L., Chen, D.-T., & Wong, A. F. L. (1999). Computer anxiety and its correlates: A meta-analysis.(5), 609?623.
Chua, Y. P. (2012). Effects of computer-based testing on test performance and testing motivation.(5), 1580?1586.
Clariana, R., & Wallace, P. (2002). Paper-based versus computer-based assessment: Key factors associated with the test mode effect.(5), 593?602.
Claudia, P. F., Oshima, T. C., & Nambury, S. R. (1999). A description and demonstration of the polytomous-DFIT framework.(4), 309?326.
de La Torre, J., & Douglas, J. A. (2004). Higher-order latent traitmodels for cognitive diagnosis., 333?353.
Duchnicky, R. L., & Kolers, P. A. (1983). Readability of text scrolled on visual display terminals as a function of window size.(6), 683?692.
Feskens, R., Fox, J.-P., & Zwitser, R. (2019). Differential item functioning in PISA due to mode effects. In B. Veldkamp & C. Sluijter (Eds.),(pp. 231?247). Cham, Switzerland: Springer.
Fouladi, R. T., McCarthy, C. J., & Moller, N. (2002). Paper-and-pencil or online? Evaluating mode effects on measures of emotional functioning and attachment.(2), 204?215.
Fritts, B. E., & Marszalek, J. M. (2010). Computerized adaptive testing, anxiety levels, and gender differences., 441?458.
Goldberg, A., Russell, M. & Cook, A. (2003). The effect of computers on student writing: A meta-analysis of studies from 1992 to 2002.(1), 1?52.
Goldberg, A. L., & Pedulla, J. J. (2002). Performance differences according to test mode and computer familiarity on a practice graduate record exam.(6), 1053?1067.
Gu, L., Ling, G. M., Liu, O. L., Yang, Z. T., Li, G. R., Kardanova, E., & Loyalka, P. (2021). Examining mode effects for an adapted Chinese critical thinking assessment.(6), 879?893.
Hamhuis, E., Glas, C., & Meelissen, M. (2020). Tablet assessment in primary education: Are there performance differences between TIMSS’ paper-and-pencil test and tablet test among Dutch grade-four students?(6), 2340?2358.
Hox, J. J., De Leeuw, E. D., & Zijlmans, E. A. O. (2015). Measurement equivalence in mixed mode surveys, Article 87.
Hunsu, N. J. (2015). Issues in transitioning from the traditional blue-book to computer-based writing assessment., 41?51.
Jeong, H. (2012). A comparative study of scores on computer-based tests and paper-based tests.,(4), 410?422.
Jerrim, J. (2016). PISA 2012: How do results for the paper and computer tests compare?(4), 495?518.
Jerrim, J., Micklewright, J., Heine, J.-H., Salzer, C., & McKeown, C. (2018). PISA 2015: How big is the ‘mode effect’ and what has been done about it?(4), 476?493.
Jin, Y., & Yan, M. (2017). Computer literacy and the constructvalidity of a high-stakes computer-based writing assessment.(2), 101?119.
Johnson, M., & Green, S. (2006). On-Line mathematics assessment: The impact of mode on performance and question answering strategies.(5), 1?35.
Keng, L., McClarty, K. L., & Davis, L. L. (2008). Item-level comparative analysis of online and paper administrations of the Texas Assessment of Knowledge and Skills.(3), 207?226.
Khoshsima, H., Hosseini, M., & Toroujeni, S. M. H. (2017). Cross-mode comparability of computer-based testing (CBT) versus paper-pencil based testing (PPT): An investigation of testing administration mode among Iranian intermediate EFL learners.(2), 23?32.
Khoshsima, H., & Toroujeni, S. M. H. (2017). Comparability of computer-based testing and paper-based testing: Testing mode effect, testing mode order, computer attitudes and testing mode preference., 80?99.
Kim, D., & Huynh, H. (2008). Computer-based and paper- and-pencil administration mode effects on a statewide end-of-course English test.(4), 554?570.
Kim, S., & Walker, M. (2021).(ETS Research Reprot Series, No. 21-10). New Jersey, NJ: Educational Testing Service.
Kim, Y. J., Dykema, J., Stevenson, J., Black, P., & Moberg, D. P. (2018). Straightlining: Overview of measurement, comparison of indicators, and effects in mail-web mixed-mode surveys.(2), 214?233.
Kingston, N. M. (2008). Comparability of computer-and paper- administered multiple-choice tests for K-12 populations: A synthesis.(1), 22?37.
Kline, R. (2013). Assessing statistical aspects of test fairness with structural equation modelling.(2-3), 204?222.
Kroehne, U., Gnambs, T., & Goldhammer, F. (2019). Disentangling setting and mode effects for online competence assessment. In H. P. Blossfeld & H. G. Roβbach (2ndEds.),(pp. 171?193). Wiesbaden, Germany: Springer VS.
Kr?hne, U., & Martens, T. (2011). 11 Computer-based competence tests in the national educational panel study: The challenge of mode effects., 169?186.
Kulik, J. A., Kulik, C.-L. C., & Cohen, P. A. (1980). Effectiveness of computer-based college teaching: A meta-analysis of findings.(4), 525?544.
Lee, J. A., Moreno, K. E., & Sympson, J. B. (1986). The effects of mode of test administration on test performance.(2), 467?474.
Lee, Y.-J. (2002). A comparison of composing processes and written products in timed-essay tests across paper-and- pencil and computer modes., 135?157.
Li, J. (2006). The mediation of technology in ESL writing and its implications for writing assessment.(1), 5?21.
Liu, J., Brown, T., Chen, J., Ali, U., Hou, L., & Costanzo, K. (2016).. Retrieved March 6, 2023, from https://files.eric.ed.gov/fulltext/ED599049.pdf.
Lynch, S. (2022). Adapting paper-based tests for computer administration: Lessons learned from 30 years of mode effects studies in education., Article 22.
Ma, W., & Guo, W. (2019). Cognitive diagnosis models for multiple strategies.(2), 370?392.
Magnus, B. E., Liu, Y., He, J., Quinn, H., Thissen, D., Gross, H. E., & Reeve, B. B. (2016). Mode effects between computer self-administration and telephone interviewer- administration of the PROMIS(?) pediatric measures, self-and proxy report.(7), 1655?1665.
McMullin, J., Varnhagen, C., Heng, P., & Apedoe, X. (2002). Effects of surrounding information and line length on text comprehension from the web., 19?29.
OECD. (2014).. PISA, OECD Publishing, Paris.
OECD. (2016).. PISA, OECD Publishing, Paris.
OECD. (2017).PISA, OECD Publishing, Paris.
Paleczek, L., Seifert, S., & Sch?fl, M. (2021). Comparing digital to print assessment of receptive vocabulary with GraWo-KiGa in Austrian kindergarten.(6), 2145?2161.
Poggio, J., Glasnapp, D. R., Yang, X., & Poggio, A. J. (2005). A comparative evaluation of score results from computerized and paper & pencil mathematics testing in a large scale state assessment program.(6), 1?31.
Pomplun, M. (2007). A bifactor analysis for a mode-of- administration effect., 137?152.
Pomplun, M., Ritchie, T., & Custer, M. (2006). Factors in paper-and-pencil and computer reading score differences atthe primary grades.(2), 127?143.
Porion, A., Aparicio, X., Megalakaki, O., Robert, A., & Baccino, T. (2016). The impact of paper-based versus computerized presentation on text comprehension and memorization., 569?576.
Powers, D. E. (1999).(ETS Research Report Series, No. 99-15). Princeton, NJ: Educational Testing Service.
Powers, D. E., Fowles, M. E., Farnum, M., & Ramsey, P. (1994). They think less of my handwritten essay if others word process theirs? Effects on essay scores of intermingling handwritten and word-processed essays.(3), 220?233.
Prisacari, A. A., & Danielson, J. (2017a). Rethinking testing mode: Should I offer my next chemistry test on paper or computer?, 1?12.
Prisacari, A. A., & Danielson, J. (2017b). Computer-based versus paper-based testing: Investigating testing mode with cognitive load and scratch paper use., 1?10.
Puhan, G., Boughton, K., & Kim, S. (2007). Examining differences in examinee performance in paper and pencil and computerized testing.(3), 1?21.
Raju, N. S., van der Linden, W., & Fleer, P. (1995). IRT-based internal measures of differential functioning of items and tests.(4), 353?368.
Ramesh, D., & Sanampudi, S. K. (2022). An automated essay scoring systems: A systematic literature review.(3), 2495?2527.
Robitzsch, A., Kiefer, T., & Wu, M. (2022).(TAM). R package. Retrieved April 26, 2023, from https://cran.r-project.org/web/packages/TAM/TAM.pdf.
Rosseel, Y. (2012). lavaan: An R package for structural equation modeling.(2), 1?36.
Rowan, B. (2010).(Unpublished doctorial dissertation). James Madison University, Harrisonburg.
Russell, M., & Haney, W. (1997). Testing writing on computers: An experiment comparing student performance on tests conducted via computer and via paper-and-pencil.(3), 1?20.
Russell, M., & Plati, T. (2002). Does it matter with what I write? Comparing performance on paper, computer and portable writing devices.(4), 1?15.
Russell, M, & Tao, W. (2004a). Effects of handwriting and computer-print on composition scores: A follow-up to Powers, Fowles, Farnum, & Ramsey., Article 1.
Russell, M., & Tao, W. (2004b). The influence of computer-print on rater scores., Article 10.
Schwarz, R. D., Rich, C., & Podrabsky, T. (2003, April).. Paper presented at the Annual Meeting of the National Council on Measurement in Education, Chicago, IL.
Seifert, S., & Paleczek, L. (2022). Comparing tablet and print mode of a German reading comprehension test in grade 3: Influence of test order, gender and language., 1?13.
Shealy, R., & Stout, W. (1993). A model-based standardization approach that separates true bias/DIF from group ability differences and detects test bias/DTF as well as item bias/DIF.(2), 159?194.
Terluin, B., Brouwers, E. P. M., Marchand, M. A. G., & de Vet, H. C. W. (2018). Assessing the equivalence of web-based and paper-and-pencil questionnaires using differential item and test functioning (DIF and DTF) analysis: A case of the Four-Dimensional Symptom Questionnaire (4DSQ).,(5), 1191?1200.
von Davier, M. (2005).(ETS Research Report Series, No. 05-16). Princeton, NJ: Educational Testing Service.
von Davier, M., Khorramdel, L., He, Q. W., Shin, H. J., & Chen, H. W. (2019). Developments in psychometric population models for technology-based large-scale assessments: An overview of challenges and opportunities.(6), 671?705.
Wainer, H. (1993). Some practical considerations when converting a linearly administered test to an adaptive format., 15?20.
Wang, S., Jiao, H., Young, M. J., Brooks, T., & Olson, J. (2007). A meta-analysis of testing mode effects in grade K-12 mathematics tests.(2), 219?238.
Wang, S., Jiao, H., Young, M. J., Brooks, T., & Olson, J. (2008). Comparability of computer-based and paper-and- pencil testing in K-12 reading assessments: A meta-analysis of testing mode effects.(1), 5?24.
Weigold, A., Weigold, I. K., Drakeford, N. M., Dykema, S. A., & Smith, C. A. (2016). Equivalence of paper-and- pencil and computerized self-report surveys in older adults., 407?413.
Wise, S. L., Freeman, S. A., Finney, S. J., Enders, C. K., & Severance, D. D. (1997, March).. Paper presented at the annual meeting of the National Council on Measurement in Education. Chicago, IL.
Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., & Artzi, Y. (2020).. arXiv preprint arXiv:1904.09675.
Zhi, M., & Huang, B. (2021). Investigating the authenticity of computer-and paper-based ESL writing tests., Article 100548.
Ziefle, M. (1998). Effects of display resolution on visual performance.(4), 554?568.
為促進(jìn)TME檢測方法的應(yīng)用, 以下呈現(xiàn)能實(shí)現(xiàn)ANOVA、MCFA和DIF方法的R代碼示例。由于實(shí)現(xiàn)MEM方法的mdltm軟件不是開源軟件且研究者在技術(shù)報(bào)告中并未提供詳細(xì)的參數(shù)估計(jì)方法, 因此未囊括在本例中。接下來以組間設(shè)計(jì)為例, 給出檢驗(yàn)題目層面TME的簡要流程。
附表1 基于R軟件的ANOVA、MCFA和DIF方法代碼示例
檢驗(yàn)方法代碼示例 ANOVA目的: 比較每一題在PBT和CBT上的平均分# 加載所需程序包 -------library(TAM)# 數(shù)據(jù)準(zhǔn)備 ----------------# 1 = PBT, 0 = CBT# nperson 為被試量(即圖1中N)# nitem 為題目數(shù)(即圖1中I)# response_raw 包含兩種測驗(yàn)形式下的所有作答, 是一個(gè)[nperson, nitem]的矩陣# TMEbetween 用于儲存每道題在不同測驗(yàn)形式下的顯著性結(jié)果# 創(chuàng)建數(shù)據(jù)框, 包含測驗(yàn)?zāi)J綐?biāo)簽“mode”與相應(yīng)的作答數(shù)據(jù)response_b <- data.frame(mode = c(rep(1, nperson/2), rep(0, nperson/2)),response_raw)# 數(shù)據(jù)分析 ----------------# 創(chuàng)建空矩陣用于結(jié)果存儲TMEbetween <- matrix(data = NA, nrow = nitem, ncol = 1)for (j in 1:nitem){# 對每一題比較兩種測驗(yàn)?zāi)J较碌牡梅植町?第一列是標(biāo)簽, 因此從j+1開始)anova_item <- aov(response_b[, j+1] ~ mode, data = response_b)# 將結(jié)果儲存于矩陣相應(yīng)位置TMEbetween[j, 1] <- summary(anova_item)[[1]]$`Pr(>F)`[1]}
續(xù)表
檢驗(yàn)方法代碼示例 MCFA目的: 檢驗(yàn)PBT與CBT下結(jié)果的測量不變性# 加載所需程序包 -------library(lavaan)# 模型檢驗(yàn) ----------------# (本示例限定所有題目都屬于同一個(gè)潛在特質(zhì))# 1. 檢驗(yàn)形態(tài)等價(jià)(即結(jié)構(gòu)不變性)# 2. 檢驗(yàn)載荷等價(jià)(即弱不變性)# 3. 檢驗(yàn)截距等價(jià)(即強(qiáng)不變性)# 4. 依次放松每道題目的載荷限制, 并將結(jié)果儲存于cfa_itemmodel <- 'trait =~ item1 + item2 + … + itemN' # 建立模型fit1 <- cfa(model, data = response_b, group = "mode") # 形態(tài)等價(jià)fit2 <- cfa(model, data = response_b, group = "mode", group.equal = "loadings") # 載荷等價(jià)fit3 <- cfa(model, data = response_b, group = "mode",group.equal = c("loadings", "intercepts")) # 截距等價(jià)cfa_item <- matrix(data = NA, nrow = nitem, ncol = 1) # 創(chuàng)建空矩陣for (j in 1:nitem){# 依次對每一題放松限制fit4 <- cfa(model, data = response_b, group = "mode",group.equal = c("loadings", "intercepts"),group.partial = paste("item", j, "~1", sep = ""))# 將結(jié)果儲存于矩陣相應(yīng)位置cfa_item[j, 1] <- anova(fit3, fit4)$`Pr(>Chisq)`[2]} DIF (SIBTEST)目的: 分析參照組和目標(biāo)組的結(jié)果差異# 加載所需程序包 -------library(mirt)# DIF檢驗(yàn) -----------------# beta_statistic用于儲存檢驗(yàn)統(tǒng)計(jì)量的結(jié)果, 并且: # 表示不存在DIF# 表示存在中等程度DIF# 大于0.1表示存在較嚴(yán)重DIF (Puhan et al., 2007)# suspect為可能存在TME的題目集合# anchor為不存在TME的錨題集合#(當(dāng)不指定錨題時(shí), 可令除待檢題目外的所有題作為錨題集)anchor <- c(1, 2, 3) # 設(shè)置錨題為第1、2和3題suspect <- c(1:nitem)[-anchor] # 除去錨題, 即得到可能存在DIF的題目集合beta_statistic <- matrix(data = NA, nrow = length(suspect), ncol = 1) # 創(chuàng)建空矩陣for (j in 1:length(suspect)){# 對每一題進(jìn)行DIF檢驗(yàn)dif_item <- SIBTEST(response_b[, -1], response_b$mode,match_set = anchor, suspect_set = suspect[j])# 將結(jié)果儲存于矩陣相應(yīng)位置beta_statistic[j, 1] <- dif_item$beta[1]}
Test mode effect: Sources, detection, and applications
CHEN Ping, DAI Yi, HUANG Yingshi
(Collaborative Innovation Center of Assessment for Basic Education Quality, Beijing Normal University, Beijing 100875, China)
Test mode effect (TME) refers to the difference in test function caused by the administration of the same test in different test modes. The existence of TME will have an impact on test fairness, selection criteria and test equating, so it is of great significance to accurately detect and interpret TME. By systematically sorting out the source, detection (including the experimental design and detection methods) and research results of TME, the methodology of TME research is comprehensively demonstrated. Further interpretation of the TME model, expansion of the test modes in TME research, and application of TME research results to large-scale educational assessment programs in China, are important future development directions in the field of TME.
test mode effect, test fairness, measurement invariance, computer-based testing
B841
2023-01-10
* 國家自然科學(xué)基金面上項(xiàng)目(32071092)、北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心自主課題(2022-01-082-BZK01)資助。
陳平, E-mail: pchen@bnu.edu.cn