馮瑞龍 朱 宇
(北京師范大學(xué)香港浸會大學(xué)聯(lián)合國際學(xué)院,中國珠海519085;廈門大學(xué)海外教育學(xué)院,中國廈門361102)
開放式測評具有悠久的歷史。所謂開放式測評指測驗題目的正確答案并非唯一固定的,被試可以甚至被鼓勵作出基于自身理解的獨特解答。開放式測評有著封閉式測評無法比擬的優(yōu)越性,因為被試對其作答往往能向各種測評成績用家提供豐富的信息。這些信息可以被用于更好地理解被試被測評的知識、態(tài)度或能力,使測評的診斷性功能更加強化、更具個體性,并最終更好地達(dá)到通過測評幫助改善教學(xué)或幫助被試進(jìn)步的目標(biāo)。開放式測評的這一優(yōu)點還使它在教育以外的多種測評中大有用武之地。但同時,開放性測評與封閉式測評相比又有著自身的劣勢,除了評分/級標(biāo)準(zhǔn)難以厘定、過程費力耗時之外,最嚴(yán)重的問題恐怕就是其信度往往難以達(dá)到比較理想的水平了。而信度不僅是衡量測評質(zhì)量的兩個重要指標(biāo)之一,更是達(dá)至另一個指標(biāo)—效度的前提條件。在很大程度上,人們甚至可以說,正是由于開放式測評不夠嚴(yán)謹(jǐn)、科學(xué),才導(dǎo)致了封閉式測評在近現(xiàn)代的產(chǎn)生與崛起。然而,隨著教育與心理測量領(lǐng)域理論與技術(shù)的不斷進(jìn)步,信度,這一曾經(jīng)威脅開放式測評的生存與發(fā)展的瓶頸性問題已經(jīng)不再是無法突破和解決的了。
本文即旨在通過比較信度理論當(dāng)前并存的三個主流學(xué)派,甄選最適合通過改進(jìn)測驗設(shè)計提升測評信度的理論工具——概化理論,并在此基礎(chǔ)上梳理、述評近20年來概化理論用于指導(dǎo)寫作成績信度研究的案例,最后提出概化理論可進(jìn)一步發(fā)展和完善的方向。限于篇幅,本文無法全面回顧以概化理論為視角的開放式測評信度研究,只能選取開放式測評的一個典型代表。之所以選擇作文考試為開放式測評的典型代表是因為作文這一考試形式歷史悠久、廣為人知,雖備受爭議但始終難以取代,因此可謂開放式測評的常青藤式的代表。
開放式測評能否有效提升信度,不僅關(guān)乎這種測評形式本身的命運,同時還與測評界的趨勢性新潮流——真實性測評(authentic testing)的發(fā)展前途息息相關(guān)。可以說,如果信度問題不能找到有效解決途徑,開放式測評就難以取得立足之地,真實性測評的崛起也就可能永遠(yuǎn)淪為紙上談兵。那信度理論當(dāng)今有哪些流派?其優(yōu)勢與劣勢各有哪些?這其中適合通過改善測評設(shè)計提升開放式測評信度的理論是哪一個?這一理論指導(dǎo)下的研究現(xiàn)狀與動向是怎樣的?所有這些問題的解答,都要從信度流派的分析與比較開始。
經(jīng)典測試?yán)碚搶⒃嚲碛^測分?jǐn)?shù)的信度定義為真分?jǐn)?shù)的方差與觀測分?jǐn)?shù)方差的比率。而觀測分?jǐn)?shù)的方差又等于真分?jǐn)?shù)的方差和誤差分的方差之和。由于真分?jǐn)?shù)是無法預(yù)知的,所以上述定義是無法用于直接測算測驗信度的。然而,通過平行試卷或者重復(fù)施測等方法是可以估算該測驗的信度值的,例如常用的克朗巴赫和重測信度指標(biāo)就是以這兩種方法計算測驗信度的典型代表。
評卷員信度是經(jīng)典測試?yán)碚搶χ饔^評分的測驗所能考察的一項重要指標(biāo)。經(jīng)典測試?yán)碚撏ǔ⒃u卷員信度分為評卷員間的一致性信度和評卷員內(nèi)部一致性信度兩種。
評卷員間一致性信度(即Inter-rater Reliability或Intraclass Correlation Coefficient,以下縮寫為ICC)描述的是同一組內(nèi)的個體在多大程度上具有一致性,能用于衡量多名評卷員對特定被試在給定測量上作答之主觀評分的近似程度。ICC最早被提出起于對皮爾遜相關(guān)系數(shù)的改進(jìn)。皮爾遜相關(guān)系數(shù)在估算時,考慮了配對組成員得分的排序,而這種排序在評卷員一致性的估算中是無意義通常也是無根據(jù)的。因此,在估計ICC時,將皮爾遜相關(guān)系數(shù)計算過程中分別計算的兩個測驗的均值和標(biāo)準(zhǔn)差進(jìn)行了合并計算。為了解決實測數(shù)據(jù)中的數(shù)據(jù)缺失或每個被試不一定由同樣多的評卷員評分的問題,上述ICC概念又得到進(jìn)一步發(fā)展演化(Wikipedia,2010)。ICC被定義為組間方差占總方差(組間方差與誤差項方差之和)的比重。而這些方差又是根據(jù)隨機效應(yīng)模型Yij=μ+αi +εij估算的。其中Yij表示第i個分?jǐn)?shù)組的第j個觀測到的得分,μ是所有分?jǐn)?shù)的均值,αi是第i個組內(nèi)所有分?jǐn)?shù)共享的隨機效應(yīng),εij為第i個分?jǐn)?shù)組內(nèi)第j個觀測值的干擾項。
評卷員內(nèi)部一致性信度本質(zhì)是一種重測信度,表述的是給定評卷員對某被試前后兩次或以上主觀評分的一致性。其估算也可套用上述ICC的隨機效應(yīng)模型,只是在數(shù)據(jù)處理上需把評卷員分?jǐn)?shù)構(gòu)成的組別替換成由前后數(shù)個批次評分值形成的組別(Julius Sim&Chris Wright,2000:335)。
Linacre(1989)在拉氏模型(George Rasch,1980)的基礎(chǔ)上發(fā)展出多面拉氏模型。它除了能估算獨立于樣本的被試能力和題目難度之外,還能用于延伸估算不同評卷員對評卷標(biāo)準(zhǔn)把握的松緊程度、同一評卷員在不同評分場次中評分的差別等等。
多面拉氏模型分析能夠提供每個層面的每個個體的內(nèi)、外擬合值。這些值的均值為1。當(dāng)內(nèi)、外擬合值取值在0.5至1之間時,測評是富有成效的。當(dāng)它們大于1.5小于2時,表明測評不夠精準(zhǔn),但尚可接受。大于2時,測評結(jié)果是扭曲不可信的。
多面拉氏模型還可以用來計算區(qū)分性層面功能。這包括區(qū)分性項目功能,即某個被試群在某個題項上的作答模式與能力相當(dāng)?shù)钠渌辉嚾河酗@著差異;區(qū)分性閱卷員功能,即在被試能力相當(dāng)?shù)那疤嵯?,某個閱卷員對一個被試群體的打分明顯不同于其他閱卷員對該被試群體的評分(George Engelhard,2008);區(qū)分性被試功能,即在題目難度相同的前提下,被試個體在某個內(nèi)容領(lǐng)域題目上的得分與其在另外內(nèi)容領(lǐng)域題目上的得分有顯著差別 (George Johanson&Abdalla Alsmadi,1998)。是否存在上述區(qū)分性層面功能是通過層面之間的交互作用的估值來判定的。每一個交互作用被相應(yīng)的區(qū)分性層面功能分析賦予一個偏差估計值,當(dāng)該值Z分?jǐn)?shù)的絕對值大于或等于2時,一般認(rèn)為該層面的區(qū)分性功能顯著。如果發(fā)現(xiàn)存在區(qū)分性項目功能則暗示所考察的測驗題目可能有待改進(jìn);如區(qū)分性閱卷員功能顯著則提示該閱卷員打分可能出現(xiàn)了較大偏差;而顯著的區(qū)分性被試功能則能反映出考生個體對所測的具體知識或能力在掌握上的失衡狀態(tài)。
信度也是多面拉氏模型涉獵的范疇之一。使用拉氏模型的數(shù)據(jù)分析能提供兩個信度統(tǒng)計量,一個是取值范圍在0和1之間的分割指標(biāo)信度,另一個是取值范圍在1和正無窮之間的分割比。盡管拉氏模型對于每一個面的分析均能得到這兩種估值,但通常被試層面的這兩個估值越大越好,而其他層面的這兩個值則越小越好。因其他各層面中各要素帶來的差異性與被試能力無關(guān)。倘若這些層面各要素間的差異性較小則能反映測量有較高的一致性。但如果被試層面各要素(即每一個被試個體)之間差異性較小,反映的就是評卷員難以區(qū)分被試,因而屬于一種不理想的情況。
概化理論認(rèn)為被試觀測成績的方差是可以分解為多個方差分量的。這其中既包括人們希望通過寫作測試發(fā)現(xiàn)的因被試寫作水平的差異造成的寫作成績的方差分量(又稱為測量目標(biāo)方差),也包括干擾因素造成的方差分量。采用概化理論的G研究數(shù)據(jù)分析技術(shù)能對這些方差分量進(jìn)行估算。測量目標(biāo)方差分量在寫作成績方差中所占的比重越大,寫作成績就越可靠。而為了提高寫作成績的可推廣性或可靠性,就需要通過控制降低比重大的數(shù)個干擾性方差分量,而D研究分析技術(shù)則能讓人們在G研究結(jié)果的基礎(chǔ)上了解改變干擾變量的數(shù)量,如改變評卷員、試題的數(shù)量或閱卷方案等會造成測試成績信度的何種變化,從而幫助確定能保證理想信度的最佳施測及評分措施。
概化理論在估算信度時,區(qū)分了常模參照與標(biāo)準(zhǔn)參照測試的信度系數(shù)。前者即所謂g系數(shù),后者為Phi系數(shù)。這兩種系數(shù)在估算時均以測驗對象為來源的方差為分子,該方差也是分母的兩個加和項之一。另一個加和項對于g系數(shù)而言是相對誤差項方差,指測驗對象與G研究設(shè)計的各個層面的交互作用造成的方差分量之和。而對Phi系數(shù)而言,它是絕對誤差項方差,是除了測驗對象方差分量以外的各個方差之和。
經(jīng)典測量理論框架下的信度估算最大的優(yōu)點在于應(yīng)用經(jīng)典測量理論模型的前提條件較低,實測數(shù)據(jù)很容易滿足。缺點一是在于它無力估算被試能力方差之外的每一個方差分量,也就無法指認(rèn)需首先控制的一些方差因素,更無從對如何改善現(xiàn)有測量的信度提出測驗設(shè)計方面的建議。另外,其估算值受具體使用的被試和試卷樣本影響非常大,是不能獨立于樣本的估值。
項目反應(yīng)理論的拉氏模型與經(jīng)典測試?yán)碚摰男哦扔^和概化理論信度理念最大的不同在于它的分析結(jié)果是獨立于具體樣本的。而且其著眼點更加細(xì)微。它對于信度的估值不是某個測驗的整體信度,而是給出每一個層面的每一個要素的測量信度(分割指標(biāo)信度以及分割比)。若要改善信度,就可從改進(jìn)那些信度不理想的層面入手。比如,如果發(fā)現(xiàn)評卷員層面的信度指標(biāo)較低,且發(fā)現(xiàn)區(qū)分性評卷員功能顯著,就可以考慮如何合理篩選評卷員、改良評卷員培訓(xùn)或監(jiān)控評分過程與質(zhì)量。然而項目反應(yīng)理論的拉氏模型卻不能展示測驗或評分因素的變動會如何影響測驗信度。
概化理論的信度分析結(jié)果雖然不能做到樣本獨立,而且無法獲取每一名被試或各影響因素每一個層次的信度指標(biāo),但是卻能夠指認(rèn)對信度干擾較大的方差分量的來源,能夠通過全交叉的G研究推出試題因素、評卷因素層面的各種嵌套設(shè)計的方差分量估值,并且能夠通過D研究展示每一種設(shè)計下,各個層面數(shù)量的變化將會如何影響測驗的信度。
最后值得一提的是上述三個理論指導(dǎo)的信度估值在數(shù)量上具有某種對應(yīng)關(guān)系。具體而言:在拉氏模型中被試層面的分割指標(biāo)信度與經(jīng)典測量理論中的克朗巴赫信度指標(biāo)是一樣的。而在概化理論中,單面設(shè)計(即將試題作為對測量造成干擾性變異的唯一層面)的g信度系數(shù)與傳統(tǒng)的克朗巴赫信度指標(biāo)一致。如果是多面概化理論模型,所得g信度系數(shù)將低于克朗巴赫信度,而在概化理論的各種設(shè)計中,用于評估標(biāo)準(zhǔn)參照的phi信度指標(biāo)又一定不會高于相應(yīng)設(shè)計的g信度指標(biāo)。
通過信度主要理論流派的比較發(fā)現(xiàn),經(jīng)典測量理論中的信度系數(shù)是衡量評卷員信度的重要方法,但對考生變量、題目變量等其他可能影響測評信度的變量則無能為力(何蓮珍、閔尚超,2008)。項目反應(yīng)理論,特別是多面拉氏模型能根據(jù)統(tǒng)計分析調(diào)節(jié)評分人、寫作題目的難度以及寫作測評過程中其他變量對寫作成績信度的干擾,從而為獲得客觀、公平地測量寫作能力提供一個框架(George Engelhard,1992)。概化理論使測試使用者能以G研究估計出不同誤差來源的相對影響,并能在D研究中預(yù)測在某個特定的測試情況下提高信度的辦法(Lyle Bachman,1999)。項目反應(yīng)理論的多面拉氏模型長于通過調(diào)整被試成績提高測驗信度,而概化理論長于通過測驗設(shè)計和閱卷設(shè)計改善測評信度。提高寫作測評信度首先要提升測驗和評卷質(zhì)量,而基于概化理論的信度研究是能為該環(huán)節(jié)提供重要參考的關(guān)鍵性文獻(xiàn)。本文限于篇幅,不再述評基于經(jīng)典測評理論和項目反應(yīng)理論的信度研究,而是集中論述近二十年國內(nèi)外以概化理論為指導(dǎo)的寫作測評研究,以期為漢語為外語的寫作測評試題和閱卷設(shè)計提供參考、借鑒。
在教育測評領(lǐng)域,客觀題評分信度較為理想,然而其效度卻越來越為人質(zhì)疑甚至詬病,而主觀題雖然更符合真實測評的理念,效度也相對較高,但評分標(biāo)準(zhǔn)難以客觀把握、測驗成績的可推廣性不理想?yún)s也是長期困擾教育實踐者,并引發(fā)教育測評研究者關(guān)注與思考的一個難題。具體到寫作能力,直接測評(即以被試的寫作成品為評分依據(jù))雖屬傳統(tǒng)手段,但也是得到普遍認(rèn)可的最佳測量方法之一?,F(xiàn)將國內(nèi)外期刊論文數(shù)據(jù)庫近20年基于概化理論的寫作測評研究扼要述評如下,以期為日后相關(guān)研究提供一定的便利。
一次寫作測試只有一個題目,是人們司空見慣的現(xiàn)象,在中國則更是根深蒂固,由來已久。然而,近年已有多項研究結(jié)果表明增加寫作題目比增加評卷員能更有效地提高寫作成績的概化系數(shù)/可靠性。例如:Lee和Kantor(2007)用概化理論的分析工具對新一代托??荚嚨淖x寫寫作、聽寫寫作、單純寫作等新題型展開的預(yù)示研究檢驗了多種評分模式、作文題目數(shù)、評卷員人數(shù)對于寫作成績信度的影響。該研究發(fā)現(xiàn)為了提高成績的可靠性,增加作文題目數(shù)相較于增加每篇作文的評卷員是更有效率的作法。Gebril(2009)比較了讀寫和單寫成績的可推廣性。他分析了由三名評卷員評判的115名埃及大學(xué)生兩篇讀寫作文和兩篇單寫作文的整體性得分。結(jié)果表明讀寫任務(wù)同單寫任務(wù)的成績一樣可靠,但是如果只考一篇作文,寫作成績的可推廣性就大大降低。而Nie及其同事(2007)以概化理論評估了數(shù)學(xué)科的替代測評—心得寫作的質(zhì)量。29名大學(xué)生完成了給定的數(shù)個題目的心得寫作,并由2名評卷員按評分項目進(jìn)行打分。結(jié)果也表明增加題目數(shù)量比增加評卷員人數(shù)更有利于提升寫作成績的可靠性和概化系數(shù)。
還有研究者同時使用了概化理論以外的分析工具。如:Sudweeks等人(2004)的預(yù)示研究使用概化理論和多面拉氏模型同時估算了寫作評分潛在的誤差源和寫作成績的信度,并據(jù)此提出了改善評分過程的建議。結(jié)果顯示寫作題目以及被試與題目的交互作用比較高,而評卷員和考試場次造成的方差較低。這也意味著增加寫作題目是改善此項寫作測試成績可推廣性的有效途徑。
Schoonen(2005)以G研究估算了被試寫作水平、作文題目、評分的項目(內(nèi)容或語言運用等)以及評分方式(整體性評分抑或分析性評分)的效應(yīng),并通過結(jié)構(gòu)方程模型估算了寫作分?jǐn)?shù)的方差成份。該研究的被試是89名6年級學(xué)生,他們被要求寫四篇作文,每篇作文的內(nèi)容組織及語言運用兩個方面被5名評卷員以整體和分析兩種方式評分。分析結(jié)果顯示寫作成績的可推廣性以及評卷員和寫作題目的效應(yīng)在很大程度上取決于評分方式與評分項目。整體而言,寫作題導(dǎo)致的方差要高于評卷員引入的方差。
在國內(nèi),劉遠(yuǎn)我和張厚粲(1998)的研究雖然未發(fā)現(xiàn)寫作題目對測試成績可推廣性的效應(yīng),但發(fā)現(xiàn)了不同文體對評分誤差有重要影響,議論文的評分誤差最大。羅娟、肖云南(2008)采用多元概化理論對出國留學(xué)生英語分班測試的30位受試的寫作水平進(jìn)行分析,測試有兩個寫作任務(wù),任務(wù)1要求受試發(fā)揮想象力,根據(jù)提供的圖片自由編寫故事;任務(wù)2是受試較熟悉的話題作文,譬如講述自己的學(xué)習(xí)與生活經(jīng)歷、興趣愛好等。評分選用Jacobs等人1981年設(shè)計的二語作文評分量表“ESL Composition Profile”。研究結(jié)果表明兩個寫作任務(wù)的合成總分的評分信度較高。
可見,寫作題型和題量均是影響寫作成績可推廣性的要素。就題型而言,某些新題型如讀寫寫作或聽寫寫作成績的可靠性并不低于傳統(tǒng)的單純寫作,考慮到這些題型更符合真實測評的原則,漢語寫作水平測試也可以借鑒采用此類題型為命題寫作的補充。而就所測的語體來看,對議論文的評分可能相對更主觀一些,其成績的可推廣性會相對稍差。綜合考慮被試的語言水平,或許在初、中級漢語寫作水平考試時,應(yīng)避免強制考生寫議論文體的作文。至于題量方面,所參考的文獻(xiàn)幾乎一致建議相關(guān)測評應(yīng)有兩道或者兩道以上的寫作試題,以保障被試寫作成績的可推廣性。
盡管上述研究都或多或少地表明增加評卷員恐怕不是提升寫作成績概化系數(shù)的有效手段,換言之,評卷員一般不是寫作成績方差的主要來源,但寫作評分過程中,不同評卷員對同一篇作文評分的差異還是引起了業(yè)內(nèi)一些學(xué)者的注意。例如:Johnson及其同事(2005)就以概化理論研究了多名評卷員評分如出現(xiàn)差異應(yīng)如何處理的問題,處理該問題的不同方法會對操作性評分的信效度產(chǎn)生不同影響。具體而言,Johnson及其同事比較了以評卷員的平均分為被試最終得分和通過討論獲得一致性評分兩種不同方法所得被試寫作成績的準(zhǔn)確度,并考慮了討論過程中是否會出現(xiàn)個別評卷員處于支配性地位的情形。研究結(jié)果表明,以計算平均分或者討論解決評分差異的效果并沒有顯著差距,兩者對于提高評分精確性均無太大幫助。在進(jìn)行整體性評分時,若以討論方式解決評分差異,相對更容易出現(xiàn)個別評卷員處于支配性地位的情況。
相較西方的研究,國內(nèi)的相關(guān)研究更多地發(fā)現(xiàn)了評卷員對于作文成績可推廣性的顯著效應(yīng)。例如,劉遠(yuǎn)我和張厚粲(1998)使用概化理論分析了6位評卷員對20名學(xué)生每人三種文體的作文進(jìn)行分析性評分的數(shù)據(jù)。結(jié)果表明在作文評分中,評卷員效應(yīng)最大,題目效應(yīng)不明顯。
此外,國內(nèi)的一些相關(guān)研究將評卷員的評卷經(jīng)驗和語言學(xué)背景也考慮在評卷員效應(yīng)當(dāng)中。趙琪鳳(2010)以個案調(diào)查的方法對新老評卷員在HSK寫作測試的評卷員信度進(jìn)行考查,研究從2009年4月的HSK(高等)寫作測試評分的48組評卷員中隨機抽取了兩組(每組中一老一新兩名評卷員),運用概化理論對兩組的評分信度進(jìn)行了檢驗,結(jié)果表明兩組的測驗信度較高,同時了解到新老評卷員在對評分標(biāo)準(zhǔn)的把握中存在的差異。薄麗(2005)利用概化理論對有、無語言學(xué)背景的評卷員給20名被試高級漢語水平考試(HSK)寫作部分之作文評分的概化系數(shù)進(jìn)行了比較。該研究發(fā)現(xiàn)專業(yè)組評卷員評分的系統(tǒng)誤差明顯小于非專業(yè)組的。
實踐中,某語種的語言水平寫作測驗的評卷員一般都經(jīng)過比較嚴(yán)格的篩選,并在正式閱卷前會進(jìn)行比較系統(tǒng)的評卷培訓(xùn),因而上述研究發(fā)現(xiàn)的評卷員評分經(jīng)驗、語言學(xué)背景的差異可能在實際的大尺度、高風(fēng)險作文閱卷情境下未必會顯著影響被試作文成績的可推廣性。值得注意的是Johnson及其同事對倘若發(fā)生評卷員評分差異時不同處理方法的效果的研究。據(jù)他們的發(fā)現(xiàn),以討論形成一致的最終評分和通過簡單計算平均分作為最終評分對寫作成績可推廣性造成的影響并無較大差距。今后的研究可沿此方向展開,倘若發(fā)現(xiàn)與前人一致,則大可沿用計算平均分的傳統(tǒng)評分方法。
評分標(biāo)準(zhǔn)是整體抑或分析性評分同樣也會影響寫作測驗信度。劉婧(2006)的碩士學(xué)位論文搜集了40名被試HSK的寫作及評分?jǐn)?shù)據(jù),對不同的寫作任務(wù)(如說明文或議論文體裁)、評分方法(如整體評分或分析性評分)、評分項目(如內(nèi)容結(jié)構(gòu)或語言運用)等影響作文分?jǐn)?shù)變異各因素的效應(yīng)及他們之間的復(fù)雜關(guān)系進(jìn)行了實證研究。研究發(fā)現(xiàn)寫作任務(wù)和評卷員因素效應(yīng)在很大程度上受評分方法和評分項目影響。姚琴宜等人(2008)對36名英語專業(yè)大學(xué)生英語作文評分結(jié)果的質(zhì)量進(jìn)行了分析,證實分項單項評分結(jié)果的可靠性高于整體評分結(jié)果,分項復(fù)合分?jǐn)?shù)的可靠性高于分項單項分?jǐn)?shù)的可靠性,同時揭示了傳統(tǒng)的信度系數(shù)對于評價評分結(jié)果的總體質(zhì)量是一個不恰當(dāng)?shù)闹笜?biāo)。類似的,李智(2009)也從不同寫作任務(wù)和評分模式出發(fā),用概化理論分析了由4名評卷員評判的30名大學(xué)生英語分班測試的兩篇作文(一篇看圖寫作、一篇自由命題作文)的分項成績,認(rèn)為整體而言,分析性評分所得的寫作成績具有較高的信度。
羅娟、肖云南(2008)的研究則更進(jìn)一步比較了寫作分析性評分量表五個評分因子的評分信度,結(jié)果顯示:在寫作內(nèi)容、篇章結(jié)構(gòu)、詞匯使用這三個因子上的評分較為一致,相對而言,對語言表達(dá)的評分信度最高,而對書寫規(guī)范的評閱有待提高。薄麗的研究則向人們揭示了專業(yè)與非專業(yè)評卷員對分析性評分標(biāo)準(zhǔn)的理解與使用習(xí)慣的不同:在評分標(biāo)準(zhǔn)的理解與使用方面,專業(yè)評卷員更注重考生作文的語法、詞匯等方面,而非專業(yè)組評卷員則更看重作文內(nèi)容和連貫性等層面。
綜合這些研究發(fā)現(xiàn),并結(jié)合當(dāng)前的寫作測評實踐,人們有更多理由選擇分析性評分標(biāo)準(zhǔn)來評判被試的寫作能力,這不僅因為它能帶來較高的寫作成績信度,而且它所提供的評分信息可以被用于指導(dǎo)寫作評分實踐,從而降低對評分標(biāo)準(zhǔn)的主觀把握程度,增強評卷員信度,并最終達(dá)到進(jìn)一步提升寫作成績可推廣性的目標(biāo)。
評卷任務(wù)分配是近年業(yè)內(nèi)學(xué)者開始關(guān)注的影響寫作成績可推廣性的又一個因素。針對115名被試兩篇讀寫作文和兩篇單寫作文的數(shù)據(jù),Gebril(2010)所作的另一項分析結(jié)果發(fā)現(xiàn):讀寫成績同單寫成績一樣可靠且評卷員只判某種題型的作文(讀寫或單寫)與讓該組評卷員給兩種題型打分所得成績的可靠性也非常接近。由于此方面的研究數(shù)量還非常有限,人們有賴于后人對該問題更多的探究,以期得到相對客觀、全面的理解和認(rèn)識。
此外,較之對題目導(dǎo)致的寫作成績方差的高度重視而言,由被試本身的一些特征造成的寫作成績的方差受到的關(guān)注相當(dāng)有限,且集中于第二語言或外語習(xí)得領(lǐng)域。例如:Solano-Flores和Li (2008)通過應(yīng)用概化理論發(fā)現(xiàn)對于英語學(xué)習(xí)者而言,被試、作文題以及題目本身的語言(母語或外語)的交互作用是寫作成績最大的方差源。Huang(2008)用概化理論研究了加拿大ESL被試在省級英語考試寫作成績的方差源及信度。三年的數(shù)據(jù)分析結(jié)果發(fā)現(xiàn):ESL和英語為母語的被試的分?jǐn)?shù)變異不同。ESL被試作文成績的殘余方差成份比英語為母語的要高。某一年ESL被試能解釋的方差明顯小于英語為母語被試的,其ESL被試寫作成績的概化系數(shù)顯著低于英語為母語被試的。該文作者并據(jù)此質(zhì)疑了ESL被試所得寫作成績的公平性。
最后需要留意的是關(guān)于概化理論測量工具本身的可信程度的一項研究給人們的啟示。Gao和概化理論的代表性學(xué)者Brennan(2001)的論文通過分析若干年的聽力和寫作數(shù)據(jù)研究了方差成份估算的抽樣差異性并評估了測量精確性估值的穩(wěn)定性。結(jié)果顯示方差成份的估算隨年份而有差異,并且G研究估算的測量精度在實際的D決策研究中可能無法完全兌現(xiàn)。但上述理論估值與實際測量值之間的差異并沒有大到令人有理由放棄能夠帶來諸多便利的理論估值方法。Gao和Brennan(2001)同時也指出,其研究的這些發(fā)現(xiàn)因為僅僅來自一項研究,不能過度推廣到其他研究情境。他們建議在其他條件不變的情況下,盡量使用有代表性的大樣本進(jìn)行方差成份的估值,因為這樣可以提升測量估值的精確性。
一言以蔽之,寫作測評的成績不僅僅是被試寫作能力的反映,還包括施測和評價過程的諸多干擾因素帶來的影響,因此研究和改善寫作成績的可推廣性要從多角度思考,采用更合理的測量工具的同時提升測驗本身的評價標(biāo)準(zhǔn)及其可操作性等多項措施以保證測評成績的可靠性。
縱觀教育測評題型的發(fā)展,存在著一個由主觀題/開放題測評為主到數(shù)十年前以客觀題為主,近年又日益凸顯增加主觀題/開放測評份量的趨勢。這一次對主觀/開放題的回歸絕不是簡單地重返起點,而是在教育測評理論與技術(shù)取得重大進(jìn)展的前提下,在對主觀題/開放測驗題的評判的可推廣性有了一定的保障,并日益得到改善條件下的螺旋推進(jìn)式回歸。在這一大背景下,寫作測驗這一古老而又在衡量被試寫作能力方面有著難以取代之地位的主觀/開放題,應(yīng)該而且能夠成為旨在提升主觀/開放測評成績可靠性的研究的試驗田。而概化理論憑其本身在分析方差成份方面的特長及能夠指導(dǎo)測評設(shè)計的獨門秘笈,應(yīng)該而且能夠成為提升主觀/開放測評質(zhì)量的利器。本文以研究述評的形式,回顧了近20年來以概化理論為指導(dǎo)、以提升寫作成績可推廣性為目標(biāo)的中、英文研究文獻(xiàn),期望能通過梳理前人的研究發(fā)現(xiàn),為日后的相關(guān)研究提供借鑒與參考的便利。
薄 麗:《背景差異的兩類評卷員在HSK高等作文考試評分中的差異研究》,北京語言大學(xué)碩士學(xué)位論文,2005年。
何蓮珍、閔尚超:《寫作測試的主要實證研究方法及其發(fā)展趨勢》,《中國外語》,2008年第6期。
李 智:《英語作文分析性評分的多元概化理論分析》,《湖南文理學(xué)院學(xué)報》(社會科學(xué)版),2009年第2期。
劉 婧:《運用概化理論分析作文分?jǐn)?shù)的變異》,北京語言大學(xué)碩士學(xué)位論文,2006年。
劉遠(yuǎn)我、張厚粲:《概化理論在作文評分中的應(yīng)用研究》,《心理學(xué)報》,1998年第2期。
羅 娟、肖云南:《基于多元概化理論的英語寫作評分誤差分析研究》,《中國考試》,2008年第5期。
喬治·恩舟赫爾德:《以多面Rasch模型測量寫作能力》,朱宇譯,《教育與考試》,2007年第4期。
姚琴宜、祁宗海、席仲恩:《作文整體評分與分析性評分結(jié)果的質(zhì)量比對》,《外語研究》,2008年第5期。
趙琪鳳:《HSK寫作測試評分信度考查——基于對新老評卷員的個案調(diào)查》,《中國考試》,2010年第10期。
Bachman,L.Fundamental considerations in language testing.Shanghai:Shanghai Foreign Language Education Press,1999.
Engelhard,Jr.,G.Differential Rater Functioning.Rasch Measurement Transactions,2008,21(3).
Gao,X.&Brennan,R.L.Variability of estimated variance components and related statistics in a performance assessment.Applied Measurement in Education,2001,14(2).
Gebril,A.Bringing reading-to-write and writing-only assessment tasks together:A generalizability analysis.Assessing Writing,2010,15(2).
Gebril,A.Score generalizability of academic writing tasks:Does one test method fit it all?Language Testing,2009,26(4).
Huang,J.How accurate are ESL students'holistic writing scores on large-scale assessments?——A generalizability theory approach.Assessing Writing,2008,13(3).
Johanson,G.&Alsmadi,A.(1998).Differential Person Functioning.ED 420 691.
Johnson,R.,Penny,J.,Gordon,B.,Shumate,S.R.,&Fisher,S.P.Resolving score differences in the rating of writing samples:Does discussion improve the accuracy of scores?Language Assessment Quarterly,2005,2(2).
Lee,Y.-W.&Kantor,R.Evaluating prototype tasks and alternative rating schemes for a new ESL writing test through G-theory.International Journal of Testing,2007,7(4).
Linacre,J.M.Many-facet Rasch measurement.Chicago,IL:MESA Press,1989.
Nie,Y.,Yeo,S.M.&Lau,S.Application of generalizability theory in the investigation of the quality of journal writing in mathematics.Studies in Educational Evaluation,2007,33(3-4).
Rasch,G.Probabilistic models for some intelligence and attainment tests(revised and expanded ed.).Chicago:The University of Chicago Press,1980.
Schoonen,R.Generalizability of writing scores:An application of structural equation modeling.Language Testing,2005,22(1).
Sim,J.&Wright,C.Research in health care:concepts,designs and methods.Cheltenham,UK:Stanley Thornes,2000.http://books.google.com/books?id=vwjhgtUoNZIC&pg=PA335&lpg=PA335&dq=%22estimate+of+Intra-rater +reliability%22&source=bl&ots=6FQUcpr6X5&sig=fY5VEyJ_BqG54wSv0w61GVazYAM&hl=en&ei= It7LTIH2EYmAvgO0iZnMDw&sa=X&oi=book_result&ct=result&resnum=1&ved=0CBIQ6AEwAA#v= onepage&q=%22estimate%20of%20Intra-rater%20reliability%22&f=false.2010-10-30.
Solano-Flores,G.&Li,M.Examining the dependability of academic achievement measures for English language learners.Assessment for Effective Intervention,2008,33(3).
Sudweeks,R.R.,Reeve,S.&Bradshaw,W.S.A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing.Assessing Writing,2004,9(3).
Wikipedia.Intraclass correlation.http://www.answers.com/topic/intraclass-correlation.2010-10-30.