包 蕾
(湛江師范學(xué)院基礎(chǔ)教育學(xué)院,廣東湛江524300)
任何語言測試都必須考量其效度與信度。按照Henning的解釋,測試的有效程度依賴其在多大程度上測出了預(yù)期測量的東西[1]89。此外,Bachman提到,測試效度關(guān)心的問題是“測試的分?jǐn)?shù)在多大程度上反映被測試者的語言能力”[2]161。而且在眾多的測試效度中,Bachman認(rèn)為結(jié)構(gòu)效度最為核心,因為它回答了一個測試最基本的問題,即該測試所要測量的能力。而結(jié)構(gòu)效度的高低意味著測試結(jié)果能多大程度上揭示受試者的語言能力以及與語言能力相關(guān)的心理特征。這一點也體現(xiàn)了它在語言測試中相當(dāng)重要的地位[3]26。
但在國內(nèi)外語言測試效度研究中,絕大多數(shù)都采用了因子分析(factor analysis)、多特征多方法設(shè)計(multitrait-multimethod design)和差異組設(shè)計(group difference design),從統(tǒng)計學(xué)的角度收集相關(guān)證據(jù)和實驗證據(jù)。盡管這些研究方法各有其優(yōu)點,但卻存在著共同的問題。Bachman認(rèn)為這些研究方法只關(guān)注了測試的結(jié)果——分?jǐn)?shù),而忽略了驗證測試效度最為重要的部分,即受試者的思維過程,也就是無法直接證明測試結(jié)果與受試者在測試中認(rèn)知活動正確程度的關(guān)系[2]。僅僅通過對測試所得分?jǐn)?shù)的分析,是無法揭示受試者在答題過程中是通過什么途徑、以什么方式、經(jīng)過什么步驟獲取正確答案的。而最為直接的驗證測試結(jié)構(gòu)效度的研究方法是過程分析法(process approach)。
Bachman提出Cohen最先采用口陳報告(verbal report)來研究受試者在語言測試中所采用的策略[2]269[4]。該研究利用自我口陳報告的數(shù)據(jù)來揭示受試者在進(jìn)行完型填空和單項選擇的閱讀測試中所使用的各種閱讀和應(yīng)試策略。為了研究這一思維過程,國內(nèi)外許多研究[5-8]都采用了即時內(nèi)省法(immediate introspection)的方式來驗證閱讀測試的結(jié)構(gòu)效度。但這種即時作出口陳報告的方法會打斷閱讀時連續(xù)的思維過程,受試者需要同時兼顧測試和報告兩項任務(wù),使得數(shù)據(jù)的可靠性受到質(zhì)疑。Alavi提出回顧報告(retrospective report)可以彌補即時內(nèi)省法的不足[9]。同樣要求受試者報告其在測試中的思維過程,前者是與測試同時進(jìn)行,而后者則在測試完成后回顧答題時的思考過程再作報告?;诖?,本研究使用回顧報告的方式對完型填空的結(jié)構(gòu)效度進(jìn)行驗證。
完型填空一直是大學(xué)英語考試和專業(yè)英語考試中常見的題型,除了涉及語法和詞匯知識之外,還需對短文進(jìn)行閱讀理解。它要求受試者根據(jù)文章結(jié)構(gòu)和上下文意思推測所缺信息并選擇適當(dāng)?shù)膯卧~來填補,與單項選擇的閱讀理解題相比,完型填空考察了受試者對文章的綜合理解程度,包括詞義的理解、句子的理解和語篇的理解等。對于受試者來說,并不僅僅依靠閱讀理解能力就能完成試題,同時需要依靠邏輯推理、猜測等應(yīng)試技巧或策略。有些應(yīng)試策略的使用并不是試題設(shè)計者所希望考察的語言能力,但卻可以幫助受試者完成試題。為了了解受試者在完型填空測試中所使用的閱讀和應(yīng)試策略,在前人的研究基礎(chǔ)上,本文采用回顧報告的研究方法,通過對受試者真實答題過程與預(yù)期答題過程一致性的分析,來檢驗TEM-4完型填空測試的結(jié)構(gòu)效度。本研究將主要探討以下兩個問題:(1)受試者在TEM-4完型填空測試中采用了哪些閱讀和應(yīng)試策略?(2)受試者在測試中的實際答題過程與命題者設(shè)計的預(yù)期答題行為是否相符?
參加實驗的調(diào)查對象來自湛江師范學(xué)院基礎(chǔ)教育學(xué)院2010級英語專業(yè)二年級近200名學(xué)生中隨機抽取的30名學(xué)生。經(jīng)過預(yù)測,他們的英語水平總體上接近TEM-4的考試群體,可以反映備考學(xué)生的基本水平。實驗前,我們將此實驗的目的、程序及時間告訴了受試者,以期獲得他們最大限度的合作。
實驗材料為2011年TEM-4完型填空試題。該部分由一篇224個單詞的閱讀材料和20個單項選擇題(第31題至第50題)構(gòu)成。受試者須在15分鐘內(nèi)完成試題,并將答案填在答題卡上。
為了了解調(diào)查對象在閱讀測試中的行為和思維過程,我們采用了閱讀和應(yīng)試策略列表的方法,在受試者完成測試后立即根據(jù)答題時的思維過程給每一題選擇出所使用的閱讀策略和應(yīng)試技巧。閱讀和應(yīng)試策略列表的制訂以Weir和Khalifa提出的閱讀模式[10]為理論依據(jù),并以Weir等人在其研究中所用的閱讀策略列表[11]為藍(lán)本,根據(jù)中國學(xué)生的實際情況和語言習(xí)慣作了修改。該閱讀和應(yīng)試策略列表包括兩個主要部分:閱讀前的策略、閱讀和應(yīng)試策略。閱讀前的策略主要指閱讀技巧中的快速閱讀(expeditious reading)和仔細(xì)閱讀(careful reading)兩種模式。目的是查看受試者在處理一篇閱讀材料時,會用何種方式預(yù)覽文章大致的意思。而閱讀和應(yīng)試策略部分則根據(jù)Weir和Khalifa閱讀模式中的核心部分設(shè)計,包括四個主要方面:詞匯層面(第5至8項策略)、句子層面(第9至12項策略)、段落層面(第13至15項策略)和應(yīng)試技巧(第16至20項策略)。經(jīng)過篩選和修改,最終的閱讀和應(yīng)試策略列表包括4項閱讀前策略和16項閱讀和應(yīng)試策略,見表1。
表1 閱讀和應(yīng)試策略列表
實驗的所有數(shù)據(jù)都采用統(tǒng)計軟件SPSS10.0進(jìn)行分析。圖1中顯示了受試者在模擬測試中得分的分布情況??偡譃?0分,每小題1分,平均分為11.2分,平均得分率略高于50%。最高分為18.0分,而最低分為7.0分。
圖2顯示了每小題的正確率。根據(jù)該柱形圖可見第37小題正確率最高;第41小題正確率最低,不足20%;有50%的受試者可以答對12題或以上。
圖1 模擬測試得分分布圖
圖2 每小題正確率統(tǒng)計圖
在閱讀前策略運用部分,受試者需要在四個讀前策略選項中選擇一個。其選擇表明受試者在進(jìn)行完型填空每小題的選擇之前,是如何對完型填空閱讀材料預(yù)先進(jìn)行處理的,表2顯示了統(tǒng)計的結(jié)果。
表2 閱讀前部分?jǐn)?shù)據(jù)統(tǒng)計
21名受試者采用了第1項和第2項快速閱讀的技巧,其中30名受試者的50%選擇了第2項策略,這表明受試者更關(guān)注閱讀材料大意,認(rèn)為掌握文章主旨比細(xì)節(jié)的斟酌更為重要。
為了顯示讀前策略與分?jǐn)?shù)之間的關(guān)系,圖3顯示了各分?jǐn)?shù)層閱讀前策略運用的調(diào)查數(shù)據(jù)對比,圖中平均值為某一分?jǐn)?shù)層中選用某一策略的總次數(shù)與該分?jǐn)?shù)層的總數(shù)的比值,圖4和圖5也是如此。因為平均分為11.2分,所以分?jǐn)?shù)層次的劃分包括低分層(≤9),中分層(10—12)和高分層(≥13)。
圖3 各分?jǐn)?shù)層讀前策略運用情況對比
各個分?jǐn)?shù)層的受試者都傾向于使用第2項策略,快速閱讀并獲取文章大意。但高分層和低分層的受試者都完全沒有采用第3項策略,即仔細(xì)閱讀。為此,筆者特意對部分受試者進(jìn)行訪問。多數(shù)高分層的受試者認(rèn)為沒有必要花過多時間在細(xì)節(jié)上,閱讀材料并不是很難理解,答案也較容易確定。而且,他們對于第2項和第4項策略的使用率比較高,表明高分層的受試者并不需要花較多時間在預(yù)先閱讀材料上就能理解文章并選出正確的答案。而低分層的受試者則認(rèn)為要理解每一個單詞的意思很難,他們也沒有足夠的時間逐字逐句地看。因此,他們大部分選擇第2項策略,通過快速瀏覽獲取文章大意。而對于中層的受試者來說,他們竟然都沒有使用第4項策略,即不讀而直接看選項。他們認(rèn)為還是需要花時間對閱讀材料有基本的認(rèn)識,才能更好地理解文章,更肯定每小題的答案。
表3為第5項至第20項閱讀和應(yīng)試策略運用的統(tǒng)計,表中平均值為某一策略30名學(xué)生選用的總次數(shù)與總?cè)藬?shù)30的比值。根據(jù)表3的數(shù)據(jù),不難看出:就平均值來言,第5—20項閱讀和應(yīng)試策略中平均使用次數(shù)在2 次及以上的有第 5、7、8、9、11 項閱讀策略;不足 1 次的有第 6、13、14、15、16、17、18和20項閱讀和應(yīng)試策略。
表3 閱讀和應(yīng)試策略列表調(diào)查統(tǒng)計結(jié)果(N=30)
在閱讀和應(yīng)試策略的調(diào)查中,受試者對于每小題的策略選用可以多選,不局限在一種策略的使用上,而各個層次的策略與分?jǐn)?shù)之間的關(guān)系反映在圖4、圖5中。按照前一節(jié)所介紹,分?jǐn)?shù)層的劃分包括低分層(≤9),中分層(10—12)和高分層(≥13),而策略的分層則包括詞匯層面(第5至8項策略)、句子層面(第9至12項策略)、段落層面(第13至15項策略)和應(yīng)試技巧(第16至20項策略)。
圖4 各分?jǐn)?shù)層受試者閱讀和應(yīng)試策略使用情況(一)
圖5 各分?jǐn)?shù)層受試者閱讀和應(yīng)試策略使用情況(二)
如圖4顯示,與其他詞匯層面的策略相比,高分層受試者較多地使用第5項策略(運用詞匯知識),而第7和第8項策略的使用情況,各分?jǐn)?shù)層受試者運用情況相似,說明對于選項和閱讀材料的理解都需要運用詞匯和語法的基礎(chǔ)知識進(jìn)行分析。在句子層面策略的使用方面,分?jǐn)?shù)的提高與第9、10和11項策略使用的增加相一致,說明分?jǐn)?shù)越高的受試者越傾向采用這三項句子層面的策略,對于句子的分析所獲得的信息更容易幫助受試者確定正確的答案。
如圖5顯示,與其他段落層面的策略對比,使用頻率較高的策略為第13項(理解該段的大意),但是該項策略使用的多少與得分的高低卻是負(fù)相關(guān)。經(jīng)過事后的訪問得知,相對其他分?jǐn)?shù)層受試者來說,高分層的受試者相對少地使用該項策略的原因主要是他們在理解文章段落上沒有太大的困難,同時也印證了他們幾乎不需要使用第14項策略的原因,即他們沒有必要在已經(jīng)理解文章的基礎(chǔ)上再回顧整個段落來找答案。
第16至20項為應(yīng)試策略。猜測、推理和對選項的排除等方法都不是試題設(shè)計者設(shè)計完型填空時想要測試的技巧。而高分層的受試者對于這五項應(yīng)試策略相對于其他受試者運用得較少,平均不足一次。第18項策略,高分層和低分層的使用情況相似,結(jié)合訪問所得,受試者都認(rèn)為在閱讀和理解文章的過程中,都需要結(jié)合一定的常識,這是該策略在各分?jǐn)?shù)層運用情況差異不大的主要原因。而低分層的受試者運用第19項策略(用排除法來選出可能的選項)的平均次數(shù)則約為高分層的近3倍。這意味著他們在四個選項的辨析上存在較大的困難,無法直接準(zhǔn)確地選出正確的答案。
對閱讀和應(yīng)試策略的使用和測試分?jǐn)?shù)進(jìn)行相關(guān)性分析,可以顯示出策略與分?jǐn)?shù)之間的相關(guān)性。在表4中,只列出有顯著相關(guān)的策略,即第10、11、12、16和17項。其中第12、11和10項策略與測試分?jǐn)?shù)之間有著顯著正相關(guān),而第16和17項策略則與分?jǐn)?shù)呈現(xiàn)顯著負(fù)相關(guān),說明較多地使用猜測的應(yīng)試策略反而不容易選中正確的答案。
表4 策略與分?jǐn)?shù)的相關(guān)數(shù)據(jù)
策略與策略之間的相關(guān)性分析也同樣印證了前一節(jié)的分析結(jié)論。根據(jù)各分?jǐn)?shù)層和各層次策略的對比分析,第5項策略是高分層受試者使用率最高的閱讀策略,而第19和20項應(yīng)試策略被認(rèn)為是不能提高答題正確率的,同時也不是試題設(shè)計者期望受試者使用的應(yīng)試技巧。在表5中列出這三項策略與其他策略使用情況的相關(guān)數(shù)據(jù)。第5項策略與第11項策略之間呈顯著正相關(guān),與第20項策略之間呈負(fù)相關(guān)。這說明高分的受試者傾向于使用第5和11項策略組合,選擇答案的過程基于對詞匯意思的理解和句子之間的聯(lián)系,而不能通過猜測將正確的答案選出。對詞匯和句子層面策略的集中使用與TEM-4完型填空試題設(shè)計的預(yù)期答題思路相一致。在對第19和20項策略進(jìn)行分析時,同樣發(fā)現(xiàn)其與詞匯和句子層面的閱讀策略有較顯著的負(fù)相關(guān),說明該應(yīng)試技巧并不是試題測試者希望受試者采用的策略,而采用這些策略也反映了受試者在對某些考察的詞匯和句子的理解上有缺失。排除法和猜測法這些常用的應(yīng)試技巧并不能提高受試者的答題正確率,這也說明其題目的設(shè)計能夠考察受試者的語言和閱讀能力,具有一定的測試效度。
表5 策略之間的相關(guān)數(shù)據(jù)
但是要通過過程分析法來回答受試者在測試中的實際答題過程與命題者設(shè)計的預(yù)期答題行為是否相符這一問題,還需要對策略的正確使用率作統(tǒng)計和分析。基于之前的文獻(xiàn)綜述和研究方法的分析,對于結(jié)構(gòu)效度的驗證過程需要對受試者的分?jǐn)?shù)和策略的正確使用次數(shù)作對比。根據(jù)該試題提供的參考答案和分析,對比受試者測試后完成的閱讀與應(yīng)試策略調(diào)查表,將受試者使用策略的數(shù)據(jù)采用SPSS10.0進(jìn)行分析,受試者的分?jǐn)?shù)與策略的正確使用次數(shù)之間明顯正相關(guān),相關(guān)系數(shù)為0.682。可是這只是結(jié)論的一部分,而通過統(tǒng)計數(shù)據(jù)的整體情況來看,30名受試者的總得分為335,意味著一共答對的題目數(shù)量為335題,而其中完全正確地使用閱讀策略的題目只有137題,只是占了全部的41%,還有超過一半的題沒有完全使用正確的策略或還用了其他應(yīng)試策略來完成的。因此,受試者在接受2011年TEM-4的完型填空測試時,并沒有在很大程度上展現(xiàn)試題設(shè)計者期望受試者展現(xiàn)的語言和閱讀能力。綜合多方面的研究數(shù)據(jù),不能絕對地認(rèn)為該完型填空測試具有非常高的結(jié)構(gòu)效度。
本調(diào)查旨在從一個新的角度對英語專業(yè)四級(TEM-4)中的完型填空題目進(jìn)行結(jié)構(gòu)效度的檢驗。與之前的研究多采用的口陳報告或即時內(nèi)省等方法不同,本次研究采用回顧報告的方法,結(jié)合閱讀和應(yīng)試策略列表的使用,對30名備考TEM-4的學(xué)生作調(diào)查,調(diào)查結(jié)果主要有以下幾個方面:
(1)高分層的受試者較多地采用快速閱讀的策略對材料作初步了解,中分層在選擇答案前則需要仔細(xì)閱讀整篇文章,而低分層未掌握足量詞匯,無足夠時間仔細(xì)閱讀。這表明不同分?jǐn)?shù)層的受試者由于詞匯量和閱讀理解能力的差異,對閱讀前策略的應(yīng)用有所不同。
(2)在閱讀和應(yīng)試策略中,使用頻率最高的是第5和第9項,這兩項策略主要是對詞匯和句子層面知識的運用,并且他們的使用多少與分?jǐn)?shù)的高低有著明顯的正相關(guān)。而與分?jǐn)?shù)有著明顯負(fù)相關(guān)的則是第19和20項策略,也就是猜測和排除法等應(yīng)試技巧。這說明該完型填空的測試構(gòu)念在于考察受試者的詞匯和句子策略的運用和閱讀能力,而不是純粹應(yīng)試技巧的使用。
(3)相關(guān)分析顯示受試者較多地使用詞匯、句子、段落層面的閱讀策略,表明TEM-4完型填空試題確實達(dá)到預(yù)期測試目標(biāo):考察受試者的語言和閱讀能力。同時,考綱所要求的閱讀策略在數(shù)據(jù)檢驗中呈現(xiàn)顯著性。但是在對比答題正確數(shù)據(jù)和正確使用策略的數(shù)據(jù)時,發(fā)現(xiàn)閱讀策略的正確使用率卻不如預(yù)期中的高,說明試題的設(shè)計仍需要不斷完善和改進(jìn)以達(dá)到較高的結(jié)構(gòu)效度。
本調(diào)查是了解TEM-4備考學(xué)生在完型填空測試中的閱讀和思維過程的初步嘗試,同時也采用了不同的實驗方法驗證了前人所做的一些研究。由于樣本量的限制,結(jié)論并不能全面地體現(xiàn)其對TEM-4完型填空試題結(jié)構(gòu)效度的驗證,但本次調(diào)查還是對于保證測試的科學(xué)性和合理性有著一定的理論和實際意義的。
[1]Henning G.A Guide to Language Testing:Development,Evaluation and Research[M].Beijing:Foreign Language Teaching and Researching Press,2001.
[2]Bachman L F.Fundamental Considerations in Language Testing[M].上海:上海外語教育出版社,1999.
[3]Hughes A.Testing for Language Teachers[M].2nd Edition.Cambridge:Cambridge University Press,2003.
[4]Cohen A D.On taking language tests:What the students report[J].Language Testing,1984(1):70-81.
[5]Anderson N,Bachman L,Perkins K,etc.An exploratory study into the construct validity of a reading comprehension test:Triangulation of data sources[J].Language Testing,1991,8(1):41-66.
[6]金艷,吳江.以“內(nèi)省法”檢驗CET閱讀理解測試的效度[J].外語界,1998(2):47-52.
[7]張文霞,付瓊.試用口陳報告驗證CET-6閱讀理解測試結(jié)構(gòu)效度[J].中國英語教學(xué),2002(4):2-5.
[8]陳曉扣,李紹山.TEM-4完型填空測試結(jié)構(gòu)效度研究——答題過程分析法[J].現(xiàn)代外語,2006(1):71-77.
[9]Alavi S M.On the adequacy of verbal protocols in examining an underlying construct of a test[J].Studies in Educational E-valuation,2005(31):1-26.
[10]Weir C,Khalifa H.A cognitive processing approach towards defining reading comprehension[J].Cambridge ESOL:Research notes,2008(31):2-10.
[11]Weir C,Hawkey R,Green A,etc.The cognitive processes underlying the reading construct as measured by IELTS[J].IELTS Research Reports,2006(9):157-189.