劉燕,王華
(1.山西大學(xué)商務(wù)學(xué)院 外語(yǔ)系,山西 太原 030031;2.山西大學(xué) 外語(yǔ)學(xué)院,山西 太原 030006)
任何語(yǔ)言測(cè)試在本質(zhì)上都是一個(gè)抽樣過(guò)程,抽樣必然帶來(lái)樣本的概化問(wèn)題[1],即從抽取的樣本得出的結(jié)論在多大程度上可以推論到全域中(universe domain)。Messick[2]認(rèn)為概化性是構(gòu)念效度的一個(gè)重要組成部分,可以從兩個(gè)層面去理解。第一,概化性涉及信度問(wèn)題(reliability),即對(duì)考生能力的推論在多大程度上可以概化到不同的任務(wù)、不同的群體、不同的評(píng)分員等情況下;第二牽涉遷移問(wèn)題(transfer),即考生在測(cè)量更廣闊構(gòu)念任務(wù)上表現(xiàn)的一致性問(wèn)題。概化理論[3]為分析語(yǔ)言行為測(cè)試的概化性提供了很好的分析框架。正如Schoonen[4]和McNamara[1]指出,概化理論不僅可以估算語(yǔ)言行為測(cè)試的信度,而且還可以為不同任務(wù)提供聚合效度方面的證據(jù)。本研究將使用多元概化理論分析聽(tīng)說(shuō)考試的信度和不同任務(wù)聚合效度方面的證據(jù)。
概化理論是在經(jīng)典測(cè)試?yán)碚摵头讲罘治龅幕A(chǔ)上,由Cronbach及其同事在上世紀(jì)70年代提出,經(jīng)Brennan等逐步完善的測(cè)量理論。概化理論應(yīng)用分為概化研究階段和決策研究階段。在概化研究階段,概化理論估算出不同測(cè)量側(cè)面(facet)及他們之間的交互作用的方差分量。在決策研究階段,這些方差分量則可被用于不同的測(cè)量情景中,估算不同測(cè)量條件下信度指標(biāo),如概化系數(shù)(generalizability coefficent)、可靠指數(shù)(phi index)和側(cè)寫(xiě)差異性(profile variability)指數(shù)(g^ 值)。
隨著GENOVA,EduG等概化理論測(cè)試軟件的開(kāi)發(fā)和不斷完善,概化理論被廣泛地應(yīng)用到研究測(cè)試的信度和效度上。Gebril[5],Lee[6],Lee&Kantor[7],Sawaki[8],Schoonen[9],Xi[10]等利用概化理論對(duì)語(yǔ)言行為測(cè)試進(jìn)行研究。他們的研究不僅表明概化理論可以分析信度,分析不同測(cè)量側(cè)面組合對(duì)信度的影響,也能提供不同任務(wù)聚合效度方面的證據(jù)。在國(guó)內(nèi),運(yùn)用概化理論對(duì)語(yǔ)言行為測(cè)試進(jìn)行分析的研究相對(duì)比較少,如李航[11],孫海洋[12],趙向民和王占禮[13],而且這些研究基本上都是只用單元概化理論進(jìn)行信度分析。即使使用了多元概化理論,如羅娟和肖云南[14],汪順玉和席仲恩[15],他們的分析也是停留在信度分析的層面。
在多元概化理論中,一個(gè)測(cè)試被看成是由v個(gè)測(cè)量不同構(gòu)念的部分組成,這v個(gè)部分被當(dāng)成是固定側(cè)面(fixed facet)。在概化分析中,這v個(gè)部分不能發(fā)生變化,能發(fā)生變化的是每個(gè)部分中的測(cè)量側(cè)面的數(shù)量,如題目、評(píng)分員等的數(shù)量。不同于單元概化理論,多元概化理論可以同時(shí)估算每一部分中測(cè)量側(cè)面以及他們之間的交互作用的方差和協(xié)方差。其次,多元概化理論可以估算每一部分在域分?jǐn)?shù)上之間相關(guān)系數(shù),這為分析不同部分是否測(cè)量相似的構(gòu)念提供數(shù)據(jù)支持,也為能否合理的合成一個(gè)總分提供了基礎(chǔ)。在合成總分時(shí),每一部分的權(quán)重可能不同,這個(gè)權(quán)重通常是由考試開(kāi)發(fā)者設(shè)定,稱之為名義權(quán)重。但不同部分的名義權(quán)重對(duì)考生能力方差的實(shí)際貢獻(xiàn)是否和考試開(kāi)發(fā)者預(yù)期的一樣呢?多元概化理論的另一個(gè)優(yōu)勢(shì)在于,可以估算每一部分的效應(yīng)權(quán)重,即不同部分對(duì)考生能力方差的實(shí)際貢獻(xiàn)率?;趪?guó)內(nèi)現(xiàn)有研究不足和多元概化理論的優(yōu)勢(shì),本研究將回答以下三個(gè)問(wèn)題:
1)聽(tīng)說(shuō)考試評(píng)分的信度如何?如果將評(píng)分員從1名增加到4名,評(píng)分的信度將如何變化?
2)聽(tīng)說(shuō)考試三個(gè)任務(wù)在域分?jǐn)?shù)上的相關(guān)度如何,是否支持這三個(gè)任務(wù)測(cè)試的是相似構(gòu)念?
3)聽(tīng)說(shuō)考試三個(gè)任務(wù)對(duì)總分方差的實(shí)際貢獻(xiàn)率是否和考試開(kāi)發(fā)者預(yù)期的一樣?如果改變名義權(quán)重,對(duì)考試的信度有何影響?
本研究的被試包括455名學(xué)生和6名評(píng)分員。這455名學(xué)生中,男生171名,女生284名,他們的年齡介于17至20歲之間。六名評(píng)分員中,男女各3名,他們均多次參加過(guò)口語(yǔ)考試閱卷。
本研究采用的聽(tīng)說(shuō)考試共有三個(gè)任務(wù)組成:第一個(gè)任務(wù)是模仿朗讀;第二個(gè)任務(wù)是角色扮演;第三個(gè)任務(wù)是故事復(fù)述。
這六名評(píng)分員被分成三組(每組男女各一名),每組負(fù)責(zé)一個(gè)任務(wù)的評(píng)分。在評(píng)分之前,每一組都詳細(xì)分析討論了各自任務(wù)的評(píng)分標(biāo)準(zhǔn),在對(duì)評(píng)分標(biāo)準(zhǔn)達(dá)成共識(shí)后,每一組都試評(píng)了15份(這15份不包括在最后分析的455份考生錄音)各個(gè)分?jǐn)?shù)檔的考生錄音。對(duì)于評(píng)分不一致的樣本,評(píng)分員都進(jìn)行分析和討論,最終他們對(duì)評(píng)分標(biāo)準(zhǔn)的把握達(dá)成了基本共識(shí)和一致。
數(shù)據(jù)分析使用的是多元概化理論分析軟件mGENOVA2.1[3]。英語(yǔ)聽(tīng)說(shuō)考試由3個(gè)部分組成,但每個(gè)部分只有一個(gè)任務(wù),理論上這樣的組合不適合使用多元概化理論分析,如果使用的是整體評(píng)分法。由于聽(tīng)說(shuō)考試每一部分使用的都是分項(xiàng)評(píng)分法,這使得可以使用多元概化理論進(jìn)行分析,但只能將不同的評(píng)分維度看成固定側(cè)面。這樣的研究設(shè)計(jì)存在其不足之處,即在決策研究階段,無(wú)法估算任務(wù)數(shù)量的增加是否會(huì)影響信度。多元概化理論分析最理想的分析模式是考生(p)、評(píng)分維度(d)和評(píng)分員(r)的完全交叉模式(p x d x r)。本研究使用了6名評(píng)分員,每名評(píng)分員都嵌套在某個(gè)任務(wù)中,實(shí)際上本研究的設(shè)計(jì)模式是p x(r:d)。但這樣的模式在mGENOVA2.1無(wú)法運(yùn)行,因此本研究將6名評(píng)分員對(duì)三個(gè)任務(wù)的評(píng)分看成是兩個(gè)評(píng)分員對(duì)三個(gè)任務(wù)的雙評(píng),這樣本研究就成了考生(p)、評(píng)分維度(d)和評(píng)分(r’)的完全交叉模式(p x d x r’)。這種做法在很多概化研究中都被采用(如Lee[6];Sawaki[8])。
1.方差估算
多元概化理論在概化研究階段分別估算了模仿朗讀、角色扮演和故事復(fù)述三任務(wù)中考生、評(píng)分維度、評(píng)分、考生和評(píng)分維度交互、考生和評(píng)分交互、評(píng)分維度和評(píng)分交互以及考生、評(píng)分維度、評(píng)分三者交互和隨機(jī)誤差這七個(gè)方面的方差以及它們占各自方差總量的百分比。如表1所示,在聽(tīng)說(shuō)考試三個(gè)任務(wù)中,占方差比重最大的都是考生,分別解釋了各自方差總量的44.5%、49.1%和51.1%。這說(shuō)明聽(tīng)說(shuō)考試中,考生分?jǐn)?shù)之間的差異主要是由考生的能力造成,即聽(tīng)說(shuō)考試能很好地將考生能力區(qū)分開(kāi)來(lái),這也是聽(tīng)說(shuō)考試期望的結(jié)果。除了故事復(fù)述任務(wù)外,考生和評(píng)分維度之間的交互是第二大方差來(lái)源,分別占模仿朗讀和角色扮演方差總量的24.0%和35.7%,這說(shuō)明不同評(píng)分維度對(duì)考生排序存在較大差異。本研究將角色扮演任務(wù)總分分成問(wèn)題分和答題分兩部分,這兩部分分相當(dāng)于模仿朗讀和故事復(fù)述任務(wù)中的分項(xiàng)分??忌驮u(píng)分維度之間的交互方差較大說(shuō)明考生在問(wèn)題和答題部分的排序不同。在故事復(fù)述部分,考生和評(píng)分維度之間的交互雖然不是第二大方差來(lái)源,但它也占方差總量的12.5%,這表明考生在信息點(diǎn)得分和綜合得分上的排序也存在著一定的差異。需要注意的是,在故事復(fù)述部分,方差的第二大來(lái)源是評(píng)分維度,占方差總量的23.9%,這意味著故事復(fù)述兩個(gè)評(píng)分維度在難度上存在著較大差異,也就是說(shuō),考生在這兩個(gè)評(píng)分維度上得分的容易程度不同。在模仿朗讀和角色扮演中,第三大方差來(lái)源是考生、評(píng)分維度、評(píng)分的交互和隨機(jī)誤差,分別占方差總量的15.2%和10.3%,這說(shuō)明有相當(dāng)一部分考生在評(píng)分維度和評(píng)分交互上排序出現(xiàn)不一致,或者這說(shuō)明在模仿朗讀和角色扮演中有相當(dāng)一部分無(wú)法解釋的隨機(jī)誤差。相對(duì)而言,在故事復(fù)述中,考生、評(píng)分維度、評(píng)分的交互和隨機(jī)誤差占方差總量比重較少,只占6.9%。這說(shuō)明考生在評(píng)分維度和評(píng)分交互上排序基本一致,或者可能是故事復(fù)述任務(wù)隨機(jī)誤差較小。在模仿朗讀和角色扮演中,第四大方差來(lái)源都是評(píng)分維度,分別占8.4%和2.7%,不過(guò)它們占各自方差總量的比重差距較大。評(píng)分維度占模仿朗讀方差總量的8.4%說(shuō)明在模仿朗讀中,考生在語(yǔ)音語(yǔ)調(diào)和語(yǔ)速兩個(gè)分項(xiàng)分上得分的容易程度不同。但在語(yǔ)音語(yǔ)調(diào)和語(yǔ)速上得分的容易程度跟在故事復(fù)述中信息點(diǎn)得分和綜合得分的難易度比起來(lái),這種容易度要小很多。評(píng)分維度占角色扮演方差總量的2.7%說(shuō)明在問(wèn)題和答題在難度上存在差異,但這種差異非常的小。在聽(tīng)說(shuō)考試的三部分中,評(píng)分所占的方差都比較小,分別占5.2%、1.6%和0.6%,這說(shuō)明每一組評(píng)分員之間的嚴(yán)厲度基本接近。但需要指出的是,在模仿朗讀中,評(píng)分所占方差稍高,這說(shuō)明在這個(gè)部分評(píng)分時(shí),評(píng)分員之間還是存在一定的差異??忌驮u(píng)分之間的交互在模仿朗讀和角色扮演任務(wù)中所占的方差幾乎可以忽略,分別占0%和0.5%,這說(shuō)明在這兩個(gè)任務(wù)中,評(píng)分員對(duì)考生的排序基本完全一致。但考生和評(píng)分之間的交互在故事復(fù)述任務(wù)中,占方差總量的4.4%,這表明評(píng)分員在故事復(fù)述任務(wù)中對(duì)考生能力的排序存在著一定的差異,但這種差異不是很大。
表1 概化研究方差估算
2.信度指標(biāo)
在多元概化理論的決策研究階段,我們分別估算信度指標(biāo)在模仿朗讀、角色扮演、故事復(fù)述三個(gè)任務(wù)以及總分上的變化跟評(píng)分員數(shù)量與之間的關(guān)系。Brennan[3]以及Xi[10]指出,在多元概化理論中,概化系數(shù)、可靠指數(shù)以及表示考生側(cè)寫(xiě)差異性的g^值是表示信度的重要指標(biāo)。概化系數(shù)是對(duì)考生相對(duì)排序的信度指標(biāo),一般用作制定相對(duì)決策的常模參照測(cè)驗(yàn),而可靠指數(shù)是對(duì)考生絕對(duì)排序的信度指標(biāo),多用于制定絕對(duì)決策的尺度參照測(cè)驗(yàn)。在計(jì)算概化系數(shù)時(shí),使用測(cè)量對(duì)象的方差和測(cè)量對(duì)象和其他測(cè)量側(cè)面的交互作用所產(chǎn)生的誤差作為分母,而在計(jì)算可靠指數(shù)時(shí),使用測(cè)量對(duì)象的方差和其他所有的誤差作為分母,因此,概化系數(shù)總是大于可靠指數(shù)。g^值是對(duì)考生在側(cè)寫(xiě)上相對(duì)平整度(the relative flatness)的估算,它的值越大,說(shuō)明考生域分?jǐn)?shù)方差占考生觀察到的分?jǐn)?shù)方差的比重越大。也就是說(shuō),g^值越大,越說(shuō)明在考生的分?jǐn)?shù)中考生能力占的比重越大,分?jǐn)?shù)的誤差越小。這三個(gè)指標(biāo)的取值都在0和1之間。
表2 信度指標(biāo)估算
從表2可以看出,當(dāng)只有一個(gè)評(píng)分員時(shí),在模仿朗讀、角色扮演和故事復(fù)述三個(gè)任務(wù)中,概化系數(shù)分別為0.69、0.68和0.78,雖然在模仿朗讀、角色扮演概化系數(shù)未達(dá)到0.7,但都非常接近0.7(在語(yǔ)言測(cè)試界,通常信度指標(biāo)達(dá)到0.7才被認(rèn)為是可以接受的,見(jiàn)Green[17],2013)。這三個(gè)任務(wù)的可靠指數(shù)分別為0.59、0.65和0.66,均未達(dá)到0.7。雖然三個(gè)任務(wù)各自的概化系數(shù)和可靠指數(shù)相對(duì)比較低,但總分的概化系數(shù)、可靠指數(shù)和值卻相對(duì)比較高,分別為0.88、0.82和0.81。這說(shuō)明從總分上看,英語(yǔ)聽(tīng)說(shuō)考試的信度非常好。同等情況下,總分這樣的信度指標(biāo)甚至比新托??谡Z(yǔ)考試的指標(biāo)都高,托福總分的概化系數(shù)和可靠指數(shù)分別為0.78和0.78[6]。即使從單個(gè)任務(wù)來(lái)看,每個(gè)任務(wù)的信度還是相當(dāng)不錯(cuò)的,因?yàn)橛⒄Z(yǔ)聽(tīng)說(shuō)考試是常模參照性考試,我們只需要參考概化系數(shù)。
當(dāng)兩個(gè)評(píng)分員評(píng)分時(shí),每一個(gè)信度指標(biāo),不管是每一個(gè)任務(wù)的概化系數(shù)和可靠指數(shù),還是總分的概化系數(shù)、可靠指數(shù)和值都有了相對(duì)較大的提高,提高的幅度分布在0.02和0.07之間,提高幅度的均值為0.04。但當(dāng)把評(píng)分員人數(shù)從2個(gè)增加到3個(gè),從3個(gè)增加到4個(gè)的時(shí)候,信度指標(biāo)提高的幅度明顯降低,尤其是把評(píng)分員人數(shù)從3個(gè)增加到4個(gè)的時(shí)候,提高幅度的均值只有0.01。這樣的研究結(jié)果得到很多使用概化理論分析信度研究的支持(Lee[7];羅娟和肖云南[15];李航[11])。隨著評(píng)分員人數(shù)的增加,信度指標(biāo)提高的幅度會(huì)逐漸降低,提高幅度最大的是當(dāng)把評(píng)分員人數(shù)從1個(gè)增加到2個(gè)的時(shí)候。
任何測(cè)量都是有誤差的,如果使用有誤差的分?jǐn)?shù)進(jìn)行相關(guān)分析,無(wú)形中會(huì)增大或者減小事物間相關(guān)系數(shù),導(dǎo)致無(wú)法準(zhǔn)確地估計(jì)事物之間的相關(guān)性。多元概化理論可以剔除由測(cè)量帶來(lái)的誤差,估算考生的真分?jǐn)?shù),概化理論稱之為域分?jǐn)?shù)。如表3所示,在聽(tīng)說(shuō)考試中,模仿朗讀和角色扮演、模仿朗讀和故事復(fù)述、角色扮演和故事復(fù)述在域分?jǐn)?shù)上的相關(guān)系數(shù)分別為0.87、0.76和0.99。角色扮演和故事復(fù)述在域分?jǐn)?shù)上近乎完美的相關(guān)(0.99)說(shuō)明這兩個(gè)任務(wù)實(shí)際測(cè)量的構(gòu)念非常接近,盡管兩個(gè)任務(wù)考察的形式不同。雖然模仿朗讀和角色扮演在理論上測(cè)量的構(gòu)念不同,但它們之間較高的相關(guān)系數(shù)(0.87)說(shuō)明兩部分可能實(shí)際上測(cè)量的構(gòu)念比較接近,另一個(gè)可能的原因是語(yǔ)音語(yǔ)調(diào)好的考生在聽(tīng)力理解和口語(yǔ)表達(dá)能力方面也比較高。模仿朗讀和故事復(fù)述在域分?jǐn)?shù)上相關(guān)系數(shù)(0.76)相對(duì)較低,這可能是由于模仿朗讀所測(cè)的構(gòu)念只是故事復(fù)述任務(wù)所測(cè)構(gòu)念的一部分。
表3 域分?jǐn)?shù)相關(guān)性
Brennan[3]指出合成總分效應(yīng)權(quán)重受三個(gè)因素的影響:名義權(quán)重,域分?jǐn)?shù)方差以及域分?jǐn)?shù)協(xié)方差(covariance)。表4列出了聽(tīng)說(shuō)考試三個(gè)任務(wù)的名義權(quán)重和效應(yīng)權(quán)重,從表4中可以看出,故事復(fù)述任務(wù)占合成總分域分?jǐn)?shù)方差的50.88%,大于其名義權(quán)重。角色扮演任務(wù)占合成總分域分?jǐn)?shù)方差的比重為24.03%,比較接近其名義權(quán)重,而模仿朗讀占25.09%,低于其名義權(quán)重。這說(shuō)明,故事任務(wù)最能區(qū)分考生的能力,而且占總分域分?jǐn)?shù)方差的一半還多。在現(xiàn)有名義權(quán)重下,模仿朗讀和角色扮演兩個(gè)任務(wù)的對(duì)總分域分?jǐn)?shù)方差的貢獻(xiàn)率基本一致。如果考試開(kāi)發(fā)者期望強(qiáng)調(diào)某一任務(wù),可以改變其名義權(quán)重,但改變名義權(quán)重會(huì)改變總分的信度。Kane&Case[18]在研究不同名義權(quán)重對(duì)測(cè)試信度和效度影響時(shí)指出,如果給與信度較高部分較大的名義權(quán)重,總分的信度將會(huì)提高,到達(dá)某個(gè)點(diǎn)前,也會(huì)提高效度。但如果給與信度較高部分過(guò)大的名義權(quán)重,將會(huì)降低總分的效度。從表2可以看出,信度最高的是故事復(fù)述任務(wù),如果改變故事復(fù)述任務(wù)的名義權(quán)重,總分的概化系數(shù)是否跟Kane&Case預(yù)測(cè)的一樣呢?表5列出了三種名義權(quán)重下總分的概化系數(shù),從表中可以看出,現(xiàn)有名義權(quán)重下,總分的概化系數(shù)是最高的。從總分的信度來(lái)看,這說(shuō)明現(xiàn)有名義權(quán)重是最優(yōu)組合。這從一個(gè)側(cè)面說(shuō)明聽(tīng)說(shuō)考試設(shè)計(jì)的科學(xué)性。
表4 聽(tīng)說(shuō)考試名義權(quán)重和效應(yīng)權(quán)重
表5 不同名義權(quán)重下總分的概化系數(shù)變化
本研究運(yùn)用多元概化理論分析了6名評(píng)分員對(duì)455名學(xué)生在聽(tīng)說(shuō)考試上表現(xiàn)的評(píng)分結(jié)果??傮w來(lái)說(shuō),本研究發(fā)現(xiàn)英語(yǔ)聽(tīng)說(shuō)考試具有較高的信度,三個(gè)任務(wù)在域分?jǐn)?shù)上相關(guān)度較高說(shuō)明這三個(gè)任務(wù)測(cè)試的構(gòu)念比較接近,支持將三部分合成總分報(bào)告給考生,現(xiàn)有名義權(quán)重的組合研究也說(shuō)明聽(tīng)說(shuō)考試能最大限度地提高信度和效度。本研究也發(fā)現(xiàn)了一些值得今后深入分析的地方。在故事復(fù)述任務(wù)中,方差的第二大來(lái)源是評(píng)分維度,這說(shuō)明考生在這兩個(gè)評(píng)分維度上得分的容易程度不同。這可能需要對(duì)這兩個(gè)評(píng)分維度進(jìn)行進(jìn)一步的分析,發(fā)現(xiàn)存在差異的原因。在模仿朗讀中,評(píng)分所占方差稍高,這說(shuō)明在這個(gè)部分評(píng)分時(shí),評(píng)分員之間還是存在一定的差異,需要進(jìn)一步分析,這種差異是評(píng)分員自身的原因還是評(píng)分標(biāo)準(zhǔn)的問(wèn)題。