李清平 中南大學(xué)
【提 要】國務(wù)院《關(guān)于深化考試招生制度改革的實(shí)施意見》指出,我國的外語考試應(yīng)改革考試形式和內(nèi)容。但綜觀我國各類外語考試,基本上還是以詞匯-語法能力和聽說讀寫譯的技能考試為主。本研究考察了過去10多年國際逐漸流行的語用能力測試形式,尤其是話語自我評(píng)估(DSAT)、聽說話語填充(ODCT)、書面話語填充(WDCT)和選擇性話語填充(MDCT)應(yīng)用于中國英語學(xué)習(xí)者語用能力測試時(shí)的信度、效度和相對(duì)難度等問題。測試工具的開發(fā)包括情境采樣、情境可能性調(diào)查、元語用調(diào)查、確定MDCT選項(xiàng)及答案等步驟。結(jié)果顯示,除MDCT外,其它三種工具都具有可接受的信度和較好的效度;學(xué)習(xí)者在不同測試中的表現(xiàn)呈現(xiàn)出顯著差別,但他們的英語水平與語用表現(xiàn)之間沒有顯著相關(guān)。這些結(jié)果表明,傳統(tǒng)的外語水平測試不能代替語用能力測試,后者需要專門的測試工具,但選用哪一種測試工具要視測試對(duì)象、目的和用途而定?;谶@些結(jié)果,文章討論了外語語用能力測試工具開發(fā)過程中應(yīng)注意的問題,并為構(gòu)建中國外語測評(píng)體系的戰(zhàn)略配套,尤其是測評(píng)工具開發(fā)和題庫建設(shè)提供了有益的啟示。
2014年9月,國務(wù)院頒發(fā)了《關(guān)于深化考試招生制度改革的實(shí)施意見》,其核心之一就是改革考試內(nèi)容和形式。但綜觀我國現(xiàn)行的外語考試,基本上測試的還是詞匯-語法知識(shí)和聽說讀寫譯等語言技能。不可否認(rèn),這種考試在我國的基礎(chǔ)教育和高等教育的人才培養(yǎng)中發(fā)揮過且仍在發(fā)揮巨大的作用。但新時(shí)代的人才培養(yǎng)目標(biāo)定位的變化,尤其是高等教育國際化人才培養(yǎng)的目標(biāo)要求我們的考試因時(shí)而變。2018年發(fā)布的“中國英語能力等級(jí)量表”就“不僅涵蓋了傳統(tǒng)的聽、說、讀、寫技能,還從語用能力和翻譯能力(包括口譯與筆譯)角度描述英語能力”(劉建達(dá)、彭川2017:6)。但這些新增加的能力目標(biāo)如何檢測是研究者和一線教師十分關(guān)心的問題。
實(shí)際上,上個(gè)世紀(jì)90年代以來,語用能力就被認(rèn)為是外語交際能力中不可或缺的一部分(Bachman 1990;Bachman&Palmer 1996),但到目前為止,測試語用能力的工具還很不成熟。有人主張語用能力的測試應(yīng)該評(píng)估交互中的語用能力(Youn 2015),或?qū)崟r(shí)的語言運(yùn)用(Roever 2011),但這樣的測試工具用于大規(guī)模的測量時(shí)可行性較低,因此大量的研究者仍然對(duì)基于言語行為理論和禮貌原則的話語填充任務(wù)(Discourse Completion Test/Task,DCT)感興趣。盡管有研究者(Hudson,Detmer&Brown 1992,1995)開發(fā)出原型的DCT測試工具,但隨后的信度和效度研究并沒有得出令人滿意的結(jié)果,尤其是有些工具在某種環(huán)境中得到了某種程度的驗(yàn)證,但換了測試對(duì)象,結(jié)果卻不一樣。用這些工具測得的語用能力與語言水平之間的關(guān)系也不明朗。這表明,現(xiàn)有DCT測試工具在特定環(huán)境中真正投入使用之前還需要大量的研究以確定其信度和效度(劉建達(dá)2013)。本文以中國英語學(xué)習(xí)者為對(duì)象,檢測DCT在語用測試中的相關(guān)問題,以期促進(jìn)我國外語語用教學(xué)并為中國外語測試中的語用測試及其題庫建設(shè)提供有益的啟示。
發(fā)展語用學(xué)的興起(Kasper&Schmidt 1996)引發(fā)了學(xué)界對(duì)語用能力測試的關(guān)注。最早的原型語用能力測試工具是 Hudson,Detmer&Brown(1992,1995)開發(fā)的,他們將同樣的24個(gè)情境分別制成六種形式的測試卷,分別是1)書面話語填充(Written Discourse Completion Task,WDCT),要求受試寫下在指定情境中要說的話;2)選擇性話語填充(Multiple-choice Discourse Completion Task,MDCT),要求受試從三個(gè)備選項(xiàng)中選出在指定情境下最合適的話語;3)聽說話語填充(Listening Oral Discourse Completion Task,ODCT),需要受試說出在指定情境中要說的話;4)話語角色扮演(Discourse Role-play Task,DRPT),要求受試與母語者進(jìn)行角色扮演,并在其引導(dǎo)下說出指定言語行為;5) 話語自我評(píng)價(jià)(Discourse Selfassessment Task,DSAT),需要受試對(duì)自己在特定情境中的可能表現(xiàn)進(jìn)行自我評(píng)價(jià);6)角色扮演自我評(píng)價(jià)(Role-play Self-assessment,RPSA),要求受試對(duì)自己在角色扮演中的表現(xiàn)進(jìn)行自我評(píng)價(jià)。這24個(gè)情境包含請(qǐng)求、拒絕和道歉三個(gè)言語行為,將權(quán)力、距離和強(qiáng)加度三個(gè)社交變量構(gòu)成八種不同的組合,測試英語作為二語的語用能力。雖然這六種原型測試工具及其變體在二語習(xí)得研究中經(jīng)常用作研究工具,但很少用作教育測量工具。隨著發(fā)展語用學(xué)的興起,人們愈發(fā)關(guān)注這些工具的信效度問題,并進(jìn)一步探索如何開發(fā)新工具以滿足大規(guī)??荚嚨男枰?。
Yamashita(1996)將Hudson等人的語用測試卷翻譯成日語,在母語為英語的日語學(xué)習(xí)者中進(jìn)行測試,結(jié)果表明除MDCT外,另外五種測試工具都有較高的信度和效度,且受試者的語言水平與WDCT、ODCT、DRPT產(chǎn)出型測試中的成績顯著相關(guān)。Yamashita(1996)還發(fā)現(xiàn),學(xué)習(xí)者與目標(biāo)文化接觸時(shí)間的長短明顯影響了他們?cè)贒RPT和ODCT中的表現(xiàn)。Yoshitake-Strain(1997)和 Enochs&Yoshitake-Strain(1999)用這些工具對(duì)日本的英語學(xué)習(xí)者進(jìn)行了測試,結(jié)果顯示MDCT與WDCT的信度和效度都不高,受試者的語言水平與他們的語用能力沒有顯著相關(guān),接觸目標(biāo)文化的程度影響了語用表現(xiàn)。這些結(jié)果似乎表明,同樣的語用測試工具在不同的測試對(duì)象中會(huì)產(chǎn)生不同的信度和效度,關(guān)于語言水平和語用能力相關(guān)性的結(jié)果也不一樣,但MDCT都顯示出較低的信度和效度。
二十一世紀(jì)以來,基于這些工具的信度效度研究進(jìn)一步深入。Hudson(2001)以25名來自日本的英語學(xué)習(xí)者為樣本進(jìn)行了研究,結(jié)果表明WDCT、ODCT與DRPT都有較高的信度,且受試在WDCT與DRPT中的表現(xiàn)好于在實(shí)驗(yàn)室中錄制的ODCT的表現(xiàn)。Brown(2001)對(duì)這六種工具在英語作為外語與日語作為二語兩種環(huán)境下的實(shí)際應(yīng)用進(jìn)行了比較,發(fā)現(xiàn)MDCT在兩種環(huán)境下信度都很低。Ahn(2005)將Hudson等人的試卷(MDCT除外)翻譯成韓語,對(duì)二語為韓語的大學(xué)生進(jìn)行了測試,結(jié)果表明這五種工具的信度都很高。這些研究是在不同環(huán)境和測試對(duì)象中進(jìn)行的,似乎表明MDCT都不太理想,而對(duì)于其它的測試工具則沒有達(dá)成一致的結(jié)果。
以上的研究都是基于Hudson等人提出的原型工具進(jìn)行的,但Hudson等人沒有詳細(xì)交待工具開發(fā)過程,因此不清楚試卷中的情境和MDCT中的選項(xiàng)是如何獲取的,也不清楚這些工具中的情境在多大程度上符合受試者的實(shí)際情況。鑒于此,劉建達(dá)(2006;2007)經(jīng)過嚴(yán)格的情境采樣、情境可能性篩選、元語用調(diào)查、試測和MDCT選項(xiàng)設(shè)計(jì)等步驟開發(fā)了自己的MDCT、WDCT和DSAT,并對(duì)中國的英語學(xué)習(xí)者進(jìn)行了測試,結(jié)果表明這三種工具都有較高的信度和效度,且MDCT的信度指數(shù)高達(dá).88,這與以往的研究結(jié)果不同,說明語用能力測試工具的開發(fā)如果遵循嚴(yán)格的程序,MDCT是可以達(dá)到理想的信度和效度的;但學(xué)生的語言水平與他們的語用表現(xiàn)沒有顯著相關(guān)。需要注意的是,劉建達(dá)的MDCT中的正確選項(xiàng)采用的是本族語者的話語,而干擾項(xiàng)采用的是學(xué)習(xí)者話語,受試有可能根據(jù)本族語者話語的地道性做出正確選擇,從而影響了試卷的信度。
綜上所述,筆者發(fā)現(xiàn),1)ODCT、DRPT、DSAT 和RPSA四種工具似乎具有良好的信度和效度,但MDCT和WDCT的信度還有待進(jìn)一步研究。2)外語水平與語用能力的相關(guān)性有待進(jìn)一步確定。3)母語文化有可能影響外語語用表現(xiàn)?,F(xiàn)有的研究涉及日語、英語、韓語、漢語等母語背景,但在二語環(huán)境下進(jìn)行的居多,需要有更多的研究考察外語環(huán)境下學(xué)習(xí)者的語用表現(xiàn)。4)除了Hudson(2001),目前還鮮有研究考察受試在不同的測試中是否有不同的表現(xiàn),而這類研究有利于確定不同測試工具的難度系數(shù),以便確定什么樣的工具用于什么樣的測試目的。
基于此,本研究聚焦以下問題:不同的語用測試工具在中國外語環(huán)境中的信度和效度如何?中國英語學(xué)習(xí)者在不同語用測試中的表現(xiàn)怎樣?他們?cè)诓煌Z用測試中的表現(xiàn)與外語水平是什么關(guān)系?
39名非英語專業(yè)大二的學(xué)生參加了測試,他們?cè)?月份參加了CET-4考試,同年10月參加此研究。所有受試都在2個(gè)小時(shí)內(nèi)完成了全部測試。在完成了DSAT,ODCT,WDCT和MDCT后,大部分人表示不再愿意參加后面的角色扮演,因此本研究沒有考察DRPT和RPSA。個(gè)人信息問卷結(jié)果顯示,39名受試均未去過英語國家,平時(shí)很少或幾乎沒有與英語本族語者交流的機(jī)會(huì)。
本研究中四套語用測試卷采用的情境是一樣的,涉及九種常見的言語行為,包括請(qǐng)求、道歉、拒絕、問候、批評(píng)、提醒、贊美、建議和安慰。試卷的開發(fā)按以下四個(gè)步驟進(jìn)行。
第一步,情境采樣。收集現(xiàn)有研究中使用過的言語行為情境(參見何自然、閻莊1986;洪崗 1991;甘文平2001;李悅娥、范宏雅2002;劉建達(dá)2006;姜占好2009),根據(jù)Hudson等人(1995)對(duì)語用測試情境選擇的原則(規(guī)定交談雙方的性別、規(guī)定交談雙方面對(duì)面交流、每個(gè)場景都與交談雙方的角色有關(guān)等),將這些情境進(jìn)行一定程度的修改,不合適的剔除,統(tǒng)一格式,共獲得56個(gè)情境。
第二步,情境可能性調(diào)查。將第一步收集到的56個(gè)情境制成問卷,每個(gè)情境后是一個(gè)李克特5級(jí)量表,1=不可能發(fā)生,5=很可能發(fā)生(例1),30名與受試同年級(jí)的學(xué)生據(jù)此對(duì)每個(gè)情境進(jìn)行判斷,每個(gè)情境的平均分大于3的得以保留,共獲得25個(gè)情境,將這25個(gè)情境通過回譯法(back-translation)確定問卷的中英兩個(gè)版本(限于篇幅,附錄省略)。
例1 昨天上課時(shí),老師有事出去了,同學(xué)們開始聊天,有的同學(xué)聲音很大,班長請(qǐng)大家安靜一點(diǎn)。
不可能發(fā)生 1 2 3 4 5很可能發(fā)生
第三步,元語用調(diào)查。每個(gè)情境的元語用信息十分豐富,但本研究只考察最能影響言語行為的三個(gè)社交語用變量,即地位(Power)、熟悉程度(Distance)和強(qiáng)加度(Imposition)。中英兩種問卷分別在30名中國大學(xué)生和15名本族語留學(xué)生中發(fā)放。首先向他們解釋每個(gè)變量的意義,當(dāng)他們表示明白無誤后要求他們就每個(gè)情境中的三個(gè)變量進(jìn)行判斷,具體方法如例2所示(參見Liu 2007)。若中國大學(xué)生就每個(gè)變量達(dá)成70%及以上相同意見,且跟本族語者達(dá)成70%及以上相同意見,則該情境保留,據(jù)此獲得21個(gè)情境。
例2 你與老師討論作業(yè)。老師語速很快,你沒聽清楚他講的話,你請(qǐng)老師再說一遍。
I.你認(rèn)為雙方的熟悉程度如何?
A.陌生 B.熟悉
II.你認(rèn)為該情境中誰的地位更高?
A.你 B.老師 C.平等
III.你認(rèn)為該請(qǐng)求的強(qiáng)加度如何?
A.低 B.高
You are discussing your assignment with your teacher.Your teacher speaks very fast.You cannot follow what he is saying,so you want to ask your teacher to say it again.
I.How familiar do you think you are with the teacher?
A.Stranger B.Familiar
II.Who do you think enjoys more power?
A.You B.Teacher C.Equal
III.How impositive do you think the request is?
A.Low B.High
第四步,確定MDCT選項(xiàng)及答案。15名母語為英語的本族語者參與了這一環(huán)節(jié)。從文獻(xiàn)中為每個(gè)MDCT情境配備三個(gè)備選答案,并請(qǐng)本族語者從中確定最合適的答案,如果就某一個(gè)選項(xiàng)的合適度達(dá)到70%及以上的相同意見,則該選項(xiàng)確定為標(biāo)準(zhǔn)答案;如果他們覺得備選答案都不適合用作標(biāo)準(zhǔn)答案,則要求他們用英語寫下自己認(rèn)為最合適的答案,經(jīng)集體商議確定最后標(biāo)準(zhǔn)答案。
至此,四種語用測試卷的開發(fā)全部完成,每套試卷的中英兩個(gè)版本合并為中英對(duì)照版。ODCT的情境描述采用漢語標(biāo)準(zhǔn)普通話錄制,以防止受試由于自身英語水平的限制對(duì)情境的理解出現(xiàn)偏差。ODCT的每個(gè)情境后留有20秒供受試口頭作答(筆者請(qǐng)了五名不同水平的同年級(jí)學(xué)生進(jìn)行試測,所有情境他們都能在15秒內(nèi)作答)。其他三種測試沒有時(shí)間限制。測試按照 DSAT、ODCT、WDCT、MDCT 的順序進(jìn)行,以減少各測試方法間的交叉影響。DSAT測試受試設(shè)想自己在特定情境下所說話語的恰當(dāng)性,按李克特6級(jí)量表選擇。ODCT在實(shí)驗(yàn)室中進(jìn)行,受試通過耳麥說出在設(shè)定情境下自己將會(huì)說的話,電腦自動(dòng)錄音。WDCT要求受試寫出在設(shè)定情境下要說的話。MDCT要求受試從三段備選話語中選出設(shè)定情境下最合適的話語。例(3)列出了一位受試對(duì)“情境一”在四種測試中的表現(xiàn)。
例3 You are discussing your assignment with your teacher.Your teacher speaks very fast.You cannot follow what he is saying,so you want to ask your teacher to say it again.
(1) DSAT:I think what I would say in this situation would be
very inappropriate 0----1-----2------3-----4-----5 completely appropriate
(2)ODCT:Pardon?
(3)WDCT:I’m sorry,I just can’t follow you.Please pardon me.
(4)MDCT:A.I think you are right.But if you explain it more clearly,I may understand it better.
B.Sorry,teacher,can you repeat it?
C.Excuse me,may I have your pardon?
評(píng)分標(biāo)準(zhǔn)的制定是語用能力測試中最具爭議的問題(劉建達(dá)2008),通行的做法是依據(jù)本族語者的文化準(zhǔn)則來制定(North 2000)。本研究聘請(qǐng)了兩名美國教師對(duì)ODCT和WDCT評(píng)分,規(guī)則參照Hudson等人的標(biāo)準(zhǔn),包括言語行為的正確性、話語表達(dá)的正確性、信息量的大小、話語的正式程度、言語策略的直接性及禮貌度。兩位評(píng)分員詳細(xì)研讀并討論了評(píng)分標(biāo)準(zhǔn),并進(jìn)行試評(píng),直到他們覺得完全掌握了評(píng)分標(biāo)準(zhǔn)之后再正式評(píng)閱全部試卷。每個(gè)情境中每位受試的得分為兩位評(píng)分員所給分?jǐn)?shù)的平均值。MDCT部分,每個(gè)正確的選擇得5分,錯(cuò)誤的得0分。DSAT中受試者的得分為他們自我評(píng)估的分?jǐn)?shù),評(píng)估采用李克特6級(jí)量表進(jìn)行,(非常不恰當(dāng))0—1—2—3—4—5(完全恰當(dāng))。
由于該研究涉及到大量的主觀題評(píng)分,因此除了傳統(tǒng)的試卷信度外,還必須考察評(píng)分員間的評(píng)分信度。
4.1.1 評(píng)分員間的信度
在語用測試中,信度和效度研究可以通過多層面Rasch模型分析進(jìn)行(Linacre 2000)。但Rasch模型分析主要用于每套試卷的信度或效度,而在多項(xiàng)選擇題型中(如本研究中的MDCT),如果考生靠猜測或練習(xí)效應(yīng)進(jìn)行選擇,則其表現(xiàn)有可能不符合Rasch模型的特征曲線。況且,本研究需要同時(shí)對(duì)比幾種工具的信度和效度,因此采用了傳統(tǒng)的定量對(duì)比方法。
從表1可以看出,兩位評(píng)分員對(duì)ODCT和WDCT的評(píng)分信度分別為.895和.865(Pearson r),這種信度指數(shù)在如此開放和主觀的測試中是可以接受的。這一結(jié)果與劉建達(dá)(2007)的結(jié)果一致。劉建達(dá)通過Rasch模型分析,發(fā)現(xiàn)評(píng)卷人在WDCT中的評(píng)分體現(xiàn)了較好的內(nèi)部一致性。這說明在語用測試中,利用本族語者的直覺,同時(shí)制定嚴(yán)格而又詳細(xì)的評(píng)分標(biāo)準(zhǔn),是可以對(duì)說話人的語用表現(xiàn)進(jìn)行評(píng)判的,即使是在DCT這樣開放的試題中也一樣。
表1 評(píng)分員間的評(píng)分信度
4.1.2 試卷信度
表2呈現(xiàn)了各試卷的內(nèi)部一致性信度(α)與折半信度(Guttman Split-Half Coefficient)。折半信度的分半依據(jù)是先算出受試在各題中所得分?jǐn)?shù)的平均分,然后根據(jù)平均分從高到低將試卷題目分為兩部分。結(jié)果表明,DSAT 的信度很高(α=.918),折半信度高達(dá).969。ODCT和WDCT的信度分別為.793和.773,折半信度分別達(dá)到.869和.883。但MDCT的信度很低,這盡管與國外的一些研究結(jié)果相似(Yamashita 1996;Enochs&Yoshitake-Strain 1999;Hudson 2001;Ahn 2005),但與劉建達(dá)(2006)的研究結(jié)果大不一樣。劉建達(dá)也是在中國外語環(huán)境中進(jìn)行的研究,其MDCT信度達(dá)到.88,如前所述,這種高信度有可能是正確選項(xiàng)的地道性所致。本研究MDCT的低信度有可能是因?yàn)闇y試中的情境不是從受試的真實(shí)生活場景中得來,雖然經(jīng)過了情境可能性調(diào)查,但這種可能性只是理論可能性,與受試的生活還是有一定差距。而且MDCT的備選項(xiàng)也不像劉建達(dá)那樣來自受試的語用表現(xiàn)。由此看來,要想開發(fā)出可靠的MDCT試題,必須經(jīng)過非常嚴(yán)格的開發(fā)過程,不僅要選擇適合受試的情境,還要嚴(yán)格篩選備選項(xiàng)。由于本研究中的MDCT試卷信度過低,接下來的分析均不考慮MDCT。
表2 四套語用測試卷的信度
4.2.1 內(nèi)容效度
本研究的試題包括了21種生活中常見的情境,涵蓋了九種常見的言語行為,符合全面性的要求(Roever 2011),也就是說,這些試題具有代表性,能充分體現(xiàn)所測試的目標(biāo)內(nèi)容。并且本研究還按照Hudson等人(1995)的模式選擇情境,每一個(gè)情境中都包含了地位、熟悉程度、強(qiáng)加度三種社交語用變量,受試需要正確判斷每個(gè)情境中的社交變量的值,然后調(diào)用合適的語用語言資源才能恰當(dāng)?shù)貓?zhí)行相關(guān)的言語行為,因此,受試在這些情境中的表現(xiàn)完全可以看成是他們的語用能力,符合可靠外推(extrapolation)的要求(Roever 2011)。
從表3可以看出,在21個(gè)情境中,14個(gè)情境中的聽者與說者地位平等,16個(gè)情境中兩者之間較熟悉,15個(gè)情境中的言語行為強(qiáng)加度較低。如果只考慮任何單一變量,這些情境中的言語行為策略不需要太多的內(nèi)部外部修飾,可以較直接,不能全面測試學(xué)習(xí)者的語用能力。但如果考慮三個(gè)語用變量的交互效應(yīng),則需要受試者充分調(diào)動(dòng)全部語用語言資源才能完成各個(gè)情境中的言語行為。如在情境12中,說者和聽者地位平等,雙方也很熟悉,但言語行為強(qiáng)加度較高,受試者需要調(diào)用相應(yīng)的禮貌和委婉策略,才能實(shí)現(xiàn)成功交際。在情境11中,雖然交談雙方地位平等,言語行為強(qiáng)加度也不高,但雙方不熟悉,說話人同樣需要調(diào)用相應(yīng)的語用策略來實(shí)現(xiàn)語用功能。照此類推,所有的21個(gè)情境呈現(xiàn)了豐富的社交變量組合,充分考察了受試的社交語用能力(將形式與情境匹配的能力)和語用語言能力(將形式與功能匹配的能力)(Kasper&Rose 2002),具有較好的內(nèi)容效度。
4.2.2 標(biāo)準(zhǔn)關(guān)聯(lián)效度
本研究通過相關(guān)分析考察了各測試工具的關(guān)聯(lián)程度,以此考察它們的標(biāo)準(zhǔn)關(guān)聯(lián)效度。表4顯示,三種測試工具都有顯著意義的相關(guān)。ODCT與WDCT屬于產(chǎn)出型測試,兩者在0.01顯著性水平上相關(guān)系數(shù)為.636,具有較高的相關(guān)性。在0.05顯著性水平上,DSAT與ODCT相關(guān)系數(shù)為.320,與WDCT的相關(guān)系數(shù)為.331,盡管屬于弱相關(guān),但達(dá)到了顯著水平。這在一定程度上說明這三種測試方法測試了學(xué)生相似的能力,即語用能力。上述研究結(jié)果與前人(Ahn 2005;劉建達(dá)2006)的研究基本一致。Ahn(2005)的研究中DSAT與WDCT的相關(guān)系數(shù)為.50,屬于弱相關(guān)。劉建達(dá)(2006)的研究中,DSAT與WDCT和MDCT之間的相關(guān)系數(shù)分別為.27和.47,都屬于弱相關(guān)。所有這些研究結(jié)果都表明DSAT與其它工具呈弱相關(guān)關(guān)系。導(dǎo)致這種弱相關(guān)的原因有可能是因?yàn)镈SAT是學(xué)習(xí)者對(duì)自己語用能力的主觀評(píng)價(jià),與真實(shí)表現(xiàn)有一定的差距。未來的研究需要開發(fā)出高信度的MDCT試卷,以便考察產(chǎn)出型測試與理解型測試之間、自我評(píng)估與其它測試工具之間的相關(guān)關(guān)系。
表4 三種測試工具的相關(guān)性
4.2.3 構(gòu)念效度
為了考察這些工具的構(gòu)念效度,首先對(duì)DSAT、WDCT和ODCT進(jìn)行主成份分析,結(jié)果顯示,這三套試卷的KMO值分別為.600、.517和.574,Bartlett球形度檢驗(yàn)顯著性分別為.000、.003和.005,解釋的總方差分別為76%、73%和75%,可以做主成份因子分析。成份矩陣提取的主成份DSAT 6個(gè)、WDCT 8個(gè)、ODCT 7個(gè),但每一個(gè)情境在這些主成份上的負(fù)荷量都不高。具體說來,在DSAT中,有14個(gè)情境負(fù)荷于同一個(gè) 主 成 份 (情 境 3,5,6,7,8,9,12,13,14,15,18 ,19,20,21);在WDCT中有12個(gè)情境負(fù)荷于同一個(gè)主成份(情境 2,6,7,9,11,13,15,16,17,19,20,21);在ODCT中有13個(gè)情境負(fù)荷于同一個(gè)主成份(情境2,4,6,7,8,9,11,14,15,16,17,20,21)(每個(gè)情境的詳細(xì)內(nèi)容見表3)。由此可以看出,有6個(gè)情境(6,7,9,15,20,21)在三個(gè)測試中都共同負(fù)荷于同一主成份。盡管由于數(shù)據(jù)分散,正交旋轉(zhuǎn)失敗,但絕大部分情境都指向了同一個(gè)主成份,尤其是在三套試卷中共同負(fù)荷值較高的6個(gè)情境,都屬于高強(qiáng)加度的情境,需要說話人調(diào)用大量的語用語言資源才能完成指定的言語行為。由于沒有受試在線加工數(shù)據(jù),我們不知道他們?cè)诓煌那榫持惺欠裾{(diào)用了不同的語用資源,從而展現(xiàn)出不同的語用表現(xiàn),未來需要加強(qiáng)這方面的研究,以便確定到底什么樣的變量組合最有利于測試語用能力。這給我們的啟示是,在基于DCT的語用測試中,不僅要進(jìn)行仔細(xì)的情境采樣,這些情境最好來自受試的親身體驗(yàn),而不是可能的情境,而且還要認(rèn)真操控情境中的變量組合,否則有可能沒法有效的測出語用能力。
接下來,通過因子分析提取了三套語用測試卷共同的特點(diǎn),考察語用測試和水平測試是否測試了不同的能力。經(jīng)過最大方差法旋轉(zhuǎn)后,提取出兩個(gè)特征值大于1的因子,結(jié)果(表5)顯示,三種語用測試工具在因子1上負(fù)荷值較高,而CET-4聽力和CET-4閱讀在因子2上負(fù)荷值較高。共性方差也表明CET-4聽力和CET-4閱讀已解釋的方差為0.662和0.696,DSAT、ODCT、WDCT 解釋的方差分別達(dá)到 0.408、0.761和0.827,全部已解釋的方差為63.084%。這說明DSAT、ODCT和WDCT三種測試方法測試了同一種能力(語用能力),而CET-4聽力和CET-4閱讀測試的是另一種能力(英語水平)。這一結(jié)果與前人的結(jié)果基本一致。劉建達(dá)(2006)對(duì)學(xué)生在WDCT、DSAT、MDCT三種語用測試中的成績和他們?cè)赥OEFL考試中的成績進(jìn)行因子分析,得到了類似的結(jié)果,說明DSAT、ODCT和WDCT可以用作語用能力的測試工具。但這一結(jié)果有可能是測試方法產(chǎn)生的效應(yīng),需要謹(jǐn)慎對(duì)待,因?yàn)镃ET-4的兩種測試格式相同,而DCT的三套試卷情境一樣,這種測試方法的共性形成了兩個(gè)不同的因子。未來需要進(jìn)一步研究語用測試和水平測試的不同測試形式是否確實(shí)測試了不同的構(gòu)念,以此確定語用測試的構(gòu)念效度。
表5 各測試工具的因子分析結(jié)果
表6 受試在不同測試中的表現(xiàn)
雖然不同的測試采用的是同樣的情境,但由于呈現(xiàn)模態(tài)不一樣,學(xué)生的表現(xiàn)有可能不一樣。描述性統(tǒng)計(jì)(表6)顯示,受試在DSAT的平均分最低,在WDCT的平均分最高,在ODCT的平均分居中。這可能是由于在WDCT測試中,沒有時(shí)間限制,受試者可以充分思考。而ODCT測試是在實(shí)驗(yàn)室中進(jìn)行的,有嚴(yán)格的時(shí)間限制,可能影響了受試的表現(xiàn)。這一結(jié)果與Hudson(2001)的實(shí)驗(yàn)結(jié)果相似,即受試在WDCT中的成績要高于ODCT。但出人意料的是受試自我評(píng)估的分?jǐn)?shù)最低,標(biāo)準(zhǔn)差也最大,這也許是因?yàn)檫@些學(xué)生沒有接受語用訓(xùn)練,學(xué)習(xí)過程中語用信息也不足,即使有語用信息,也沒有引起老師和學(xué)生的注意,因而接觸到這樣的測試感覺沒有把握。
方差分析(表7)顯示,三種測試中受試的表現(xiàn)有顯著差異。這一結(jié)果似乎表明,雖然不同試卷信度和效度都不錯(cuò),但并不是所有的測試工具都是最佳的選擇,最能測試語用能力的工具是WDCT,在外語環(huán)境中尤其如此。受試在ODCT中的表現(xiàn)比在WDCT中的表現(xiàn)差,這是因?yàn)镺DCT的時(shí)間限制,還是實(shí)驗(yàn)室錄音導(dǎo)致的心理壓力,抑或是在外語環(huán)境中學(xué)生的口語輸出本來就比筆頭輸出表現(xiàn)差,未來需要大量的實(shí)證研究才能回答這類問題。同時(shí),中國英語能力等級(jí)量表以運(yùn)用為導(dǎo)向,采用“能做”描述,關(guān)注語言在交流中的作用。但這些“能做”描述語主要是圍繞以言行事的內(nèi)容擬定,本研究結(jié)果表明,同樣的“能做”內(nèi)容,執(zhí)行模態(tài)不一樣,反映出來的能力是不一樣的。
表7 受試語用表現(xiàn)的方差分析結(jié)果
如前所述,在本研究中,英語水平指CET-4測試中的客觀題成績,語用能力指受試在不同語用測試中的表現(xiàn)。相關(guān)分析顯示,受試CET-4聽力、CET-4閱讀和CET-4總成績與DSAT和WDCT成績間沒有顯著意義的相關(guān)。雖然CET-4總成績和ODCT成績有顯著意義相關(guān)(p<0.05),但相關(guān)系數(shù)只有.268,這也許說明在外語環(huán)境中,受試在ODCT中的表現(xiàn)更多地依賴外語水平。以上這些結(jié)果與Enochs&Yashitake-Strain(1999)和劉建達(dá)(2006)的研究結(jié)果相似,但Yamashita(1996)發(fā)現(xiàn)受試的語言水平與其在ODCT、WDCT和DRPT中的表現(xiàn)顯著相關(guān),并且學(xué)習(xí)者與目標(biāo)文化接觸的時(shí)間越長,在ODCT和DRPT中表現(xiàn)越好。產(chǎn)生這種不同結(jié)果的主要原因有可能是本研究、劉建達(dá)(2006)和 Enochs&Yashitake-Strain(1999)中的受試都沒有直接接觸英語國家文化的經(jīng)歷(后者的部分受試有不同程度地接觸過目標(biāo)文化),但同時(shí)也似乎說明,在外語環(huán)境中,語用能力與語言能力確實(shí)是兩種不同的能力(Bardovi-Harlig&D?rnyei 1998),盡管口頭的語用表現(xiàn)(如ODCT、DRPT)有可能更多地受語言水平的影響,我們不能簡單地用語言能力代替語用能力,也不能用語言能力測試代替語用能力測試。隨著外語教學(xué)越來越重視語用能力和跨文化交際能力的培養(yǎng),外語測試也應(yīng)該與時(shí)俱進(jìn),開發(fā)出合適的工具以檢測學(xué)習(xí)者這些方面的能力。
本研究用定量的方法在中國英語學(xué)習(xí)者中考察了 DSAT、ODCT、WDCT、MDCT 四種語用能力測試工具的信度、效度及其它相關(guān)問題。結(jié)果表明,DSAT、ODCT和WDCT都具有可以接受的信度和效度,可以用于語用能力的測試,但MDCT的信度很低。實(shí)際上,在所考察的四種測試工具中,MDCT是最省時(shí)省力和可行的一種方法,而且最有可能實(shí)現(xiàn)測試的全面性,在大型考試中尤其如此,但這種測試工具的開發(fā)過程非常復(fù)雜,未來需要更多的研究考察如何開發(fā)出高信度的MDCT試卷。第二,雖然DSAT、ODCT和WDCT中并不是所有的情境都能較好地負(fù)荷于某一個(gè)主成分,但確實(shí)測試了語用能力;三者之間相關(guān)性較弱,表明在高風(fēng)險(xiǎn)考試中最好不要使用DSAT,因?yàn)樗u(píng)價(jià)的畢竟不是語用表現(xiàn),而是受試者對(duì)自己語用表現(xiàn)的一種可能性評(píng)估。第三,受試在不同的測試中的表現(xiàn)呈現(xiàn)出顯著差別,表明并不是任何測試工具都能最有效地測出學(xué)生的語用能力。學(xué)生在WDCT中的表現(xiàn)最好,但WDCT需要非常詳細(xì)的評(píng)分規(guī)則,且評(píng)分員需要非常嚴(yán)格的培訓(xùn),這增加了在大規(guī)??荚囍械膱?zhí)行難度。第四,受試的語言水平和語用能力沒有相關(guān)性,這說明語用能力和語言能力是兩種不同的能力,需要不同的工具去測量,但語言水平在口頭產(chǎn)出性語用測試中有可能發(fā)揮更大的作用。
本研究中MDCT選項(xiàng)不是來源于受試者的真實(shí)語用表現(xiàn),這可能是MDCT信度低的原因之一。其次,Brown(2008)發(fā)現(xiàn)增加試題數(shù)量能夠有效增加試卷的信度,本研究只包括了21種情境,如果將試題數(shù)增至30或40個(gè),有可能會(huì)有效提高ODCT、WDCT、MDCT的信度。最后,本研究是基于權(quán)力、距離和強(qiáng)加度設(shè)計(jì)的,指向的是個(gè)體的認(rèn)知和言語行為理論,有可能無法解釋交互中的語用能力(Youn 2015)。但這并不能否認(rèn)DCT作為語用測試工具的實(shí)用性,因?yàn)樗鼫y試了語用能力中很重要的一個(gè)方面:語用知識(shí)。另一方面,英語用作國際通用語,使用本族語者的規(guī)范作為語用能力的評(píng)判標(biāo)準(zhǔn)也會(huì)遭到質(zhì)疑,因?yàn)樵诳缥幕涣髡Z境中,交流雙方有可能不涉及本族語者,他們會(huì)在協(xié)商中建構(gòu)自認(rèn)為最合適的語用規(guī)范。鑒于此,未來的研究不僅需要考察其它語用測試工具和測試形式(如基于網(wǎng)絡(luò)的語用測試(Roever 2006)和基于話語分析的方法(Walters 2004))在外語環(huán)境中的信度和效度,而且需要拓展理論基礎(chǔ),尤其需要重新審視跨文化交流中的語用能力,以真正實(shí)現(xiàn)語用能力測試的可靠性和全面性,并構(gòu)建更加科學(xué)的外語能力測評(píng)體系。
最后需要說明的是,構(gòu)建中國外語測評(píng)體系,其戰(zhàn)略配套不僅需要建設(shè)科學(xué)的測評(píng)工具,還需要建設(shè)國家外語題庫(呂生祿2015)。從語用能力測試來說,題庫建設(shè)首先需要解決的是符合中國國情的情境庫,描述典型語言特征、語言活動(dòng)和語言策略(朱正才2015),并基于這些情景開發(fā)相應(yīng)的試題庫。從中國的學(xué)情來說,中國學(xué)生最熟悉的題型是多項(xiàng)選擇題,而且這種題型最適合大規(guī)??荚?,但開發(fā)這樣的試題面臨的挑戰(zhàn)也最大。