李夢(mèng)莉 范 琳
隨著網(wǎng)絡(luò)時(shí)代的到來,信息技術(shù)已經(jīng)越來越多地為口語測(cè)試服務(wù)。在過去幾年中,計(jì)算機(jī)在兩個(gè)領(lǐng)域的進(jìn)展使其能夠?qū)φZ言進(jìn)行評(píng)估。一是語音識(shí)別軟件。計(jì)算機(jī)可以以毫秒為單位分析聲譜,較為精確地重現(xiàn)錄制的言語,分析口語表達(dá)的數(shù)量并提供數(shù)據(jù)信息。該軟件能夠?qū)⑷斯ぴu(píng)分時(shí)的“印象分”科學(xué)地加以量化。二是技術(shù)的發(fā)展使神經(jīng)網(wǎng)絡(luò)的應(yīng)用成為可能,從而可以訓(xùn)練計(jì)算機(jī)在參考數(shù)據(jù)庫(kù)的基礎(chǔ)上形成獨(dú)立的判斷能力(Cleary,2003:5)。本文將對(duì)當(dāng)今頗具影響力的兩種機(jī)助口試—iBT TOEFL口試和PhonepassTMSET口試進(jìn)行對(duì)比,從而對(duì)機(jī)助口試?yán)碚撃P?、任?wù)特征、評(píng)分標(biāo)準(zhǔn)及過程進(jìn)行分析。
任何類型的口語測(cè)試,都需要考慮口語的本質(zhì)特征。Bygate(1987)把口語特征歸納為兩點(diǎn):加工性和互動(dòng)性。加工性是指說和聽常常交織在一起,隨著時(shí)間不斷變化,具有短暫性。解決這一問題的方法是互動(dòng)性?;?dòng)性指說話人和聽話人彼此應(yīng)答,進(jìn)行話輪轉(zhuǎn)換,共同完成言語交際任務(wù)。互動(dòng)性幫助說話者解決口語的加工性問題,也是口頭交際的社會(huì)性,所使用話語和話輪轉(zhuǎn)換模式創(chuàng)造并反映說者與聽者的社會(huì)關(guān)系。此外,Bygate還把口語看成是說話者內(nèi)部的過程,他把口語分為三個(gè)加工過程:計(jì)劃、選擇、產(chǎn)出,同時(shí)把每個(gè)過程需要的口語能力從口語知識(shí)和口語技能分開論述。在計(jì)劃階段,學(xué)習(xí)者應(yīng)該掌握的知識(shí)有信息知識(shí)、互動(dòng)知識(shí)、話語類型知識(shí),應(yīng)該具有的口語技能有信息計(jì)劃、口語管理技能;在選擇階段,學(xué)習(xí)者需要詞匯、短語和語法資源方面的知識(shí),需要的技能是意義協(xié)商技能;在產(chǎn)出階段,學(xué)習(xí)者需要的知識(shí)是語法規(guī)則和發(fā)音規(guī)則,需要的技能為輔助和補(bǔ)償技能、準(zhǔn)確技能。這一模型用來評(píng)估口語學(xué)習(xí)情況非常有效。把口語技能劃分為計(jì)劃、選擇和產(chǎn)出技能,為組織口語學(xué)習(xí)活動(dòng)和選擇培養(yǎng)這些技能的任務(wù)提供了明晰的依據(jù)。
理想的口語測(cè)試應(yīng)該能夠反映口語的本質(zhì)特征:加工型和互動(dòng)性。口語測(cè)試任務(wù)應(yīng)該體現(xiàn)口語活動(dòng)的特點(diǎn),具有交互性、目的性、準(zhǔn)語言性、非語言性以及聽說不可分割性。傳統(tǒng)的口語測(cè)試采取考官與考生直接對(duì)話的模式,優(yōu)勢(shì)在于交互性高,具有很高的表面效度。但大量研究表明,考官提問的方式、考官與考生的熟悉程度、組隊(duì)口試和分組口試中其他考生的個(gè)人特征都可能影響受試者口語水平的發(fā)揮,進(jìn)而影響評(píng)分員的評(píng)分。因此,諸多因素威脅著口語測(cè)試的信度。此外,傳統(tǒng)口語測(cè)試需要耗費(fèi)大量的人力、物力,如考官培訓(xùn)、考場(chǎng)設(shè)置等,這使得在同一時(shí)間進(jìn)行大規(guī)??谡Z測(cè)試變得不可行。那么,機(jī)助口試是否能彌補(bǔ)傳統(tǒng)口試的不足,同時(shí)又體現(xiàn)以上口語特征和口語活動(dòng)特點(diǎn)呢?
iBT TOEFL和PhonePassTMSET均屬于水平測(cè)試。水平考試有兩大特點(diǎn):第一,它是選拔性考試。第二,它的設(shè)計(jì)基礎(chǔ)是語言理論,即theory-based。水平考試根據(jù)語言理論所設(shè)計(jì)的標(biāo)準(zhǔn)來測(cè)試考生現(xiàn)有的語言能力。在設(shè)計(jì)口語測(cè)試時(shí),我們希望分?jǐn)?shù)與測(cè)試之外的某些東西相關(guān)。如果我們想測(cè)試受試者的口語交際能力,就需要一個(gè)參照框架來解釋什么是口語能力以及它與測(cè)試的關(guān)系。通常的做法是把測(cè)試與一種或幾種語言能力模型相聯(lián)系。理論模型有兩個(gè)用途:一是作為口語測(cè)試的理論支撐,二是為評(píng)分標(biāo)準(zhǔn)的結(jié)構(gòu)和措辭提供啟示。
iBT TOEFL口試的設(shè)計(jì)基于交際語言能力模型。Bachman&Palmer(1996:62-63)認(rèn)為,語言使用是語言使用者和他們的語境之間的交互。該模型假設(shè)語言使用涉及五個(gè)部分:語言知識(shí)、話題知識(shí)、個(gè)人特征、策略能力和情感因素。他們的語言能力概念包括兩個(gè)部分:語言知識(shí)和策略能力。語言知識(shí)涵蓋結(jié)構(gòu)知識(shí)、語法知識(shí)、語篇知識(shí)、語用知識(shí)、功能知識(shí)和社會(huì)語言知識(shí);策略能力涉及目標(biāo)設(shè)定、評(píng)估和計(jì)劃。Bachman&Palmer的“語言知識(shí)”概念明確了與所有語言使用相關(guān)的知識(shí)構(gòu)成,這并不意味著他們的語言能力概念不適用于分析口語評(píng)估,相反,該語言能力模型中分析的知識(shí)和策略與各種口語情景相關(guān)。
新托福網(wǎng)絡(luò)考試具有以下特點(diǎn):(1)采用了交際語言能力測(cè)試的模式,能對(duì)考生的語言交際能力進(jìn)行直接評(píng)估;(2)采用了較多的問答題和適度的寫作與會(huì)話試題;(3)能直接測(cè)試綜合語言能力(即讀寫能力和聽說能力);(4)還能提供更多的有關(guān)考生在學(xué)術(shù)氛圍中使用英語能力的信息(劉美華等,2007:56)。文秋芳(1999:43-44)將交際口試的特點(diǎn)歸納為真實(shí)性、功能性、交互性、情景性和綜合性。真實(shí)性指口試試題體現(xiàn)出交際的真實(shí)需要。功能性指口試試題突出使用語言的任務(wù)性,使用語言是為了完成某項(xiàng)功能。交互性指考生與考官、考生與考生之間不停交換聽說角色、進(jìn)行好幾個(gè)回合的交流。情景性指將口語試題置于一個(gè)真實(shí)的情景中。綜合性指評(píng)分按照考生完成任務(wù)的綜合效果來評(píng)定成績(jī)。根據(jù)以上描述,iBTTOEFL口試除了在交互性方面是人機(jī)交互,沒有話輪外,完全滿足交際口試的其他特征,能夠測(cè)試交際語言能力。
PhonePassTMSET的理論模型是根據(jù)Levelt(1989)的言語產(chǎn)出模型改編。PhonePassTMSET測(cè)試口語能力——理解日常英語口語的能力和用可理解的英語進(jìn)行恰當(dāng)回應(yīng)的能力。該口語能力構(gòu)念也可以表述為:及時(shí)容易地理解和產(chǎn)出得體英語口語。這種定義與口語交談的過程有關(guān)。要跟上會(huì)話進(jìn)度,會(huì)話者必須識(shí)別說話內(nèi)容,提取言語意義,然后構(gòu)思和產(chǎn)出相關(guān)的可理解的回應(yīng)。這個(gè)聽與說的過程可由圖1表示:
圖1 聽說過程中的會(huì)話加工成分(Pearson,2008:8)
PhonePassTMSET使用綜合型的聽說任務(wù),這些任務(wù)要求對(duì)口語語言形式進(jìn)行實(shí)時(shí)的接受性與產(chǎn)出性加工,同時(shí)不會(huì)涉及社會(huì)差異和高層次的認(rèn)知功能。一個(gè)人參與日常本族語英語口語會(huì)話的能力能夠使其很好的理解和回答測(cè)試中的聽說任務(wù)。PhonePassTMSET測(cè)量對(duì)口頭語言實(shí)時(shí)的編碼和解碼,探究口頭語言表現(xiàn)的心理語言學(xué)元素而非交際過程中的社會(huì)、修辭和認(rèn)知元素。編碼和解碼的意義線索包括陳述性信息、社會(huì)信息和話語標(biāo)記;此外,世界知識(shí)、社會(huì)關(guān)系和行為知識(shí)也需要參與理解口語話輪以及構(gòu)想話輪內(nèi)容。然而,這些口頭交際的社會(huì)認(rèn)知元素沒有被包括在PhonePassTMSET的理論模型中(Pearson,2008)。
考生的口語能力最終落實(shí)在口試任務(wù)的完成上。因此,設(shè)計(jì)合適的口試任務(wù)的是口語評(píng)估的核心之一??谡Z任務(wù)可以被看作說話人在特定語境中使用語言以達(dá)到特定目標(biāo)或者目的的活動(dòng)(Luoma,2004:31)。在實(shí)際交際活動(dòng)中,語境指除了特定時(shí)刻語言產(chǎn)出之外的言談情景中的一切因素,包括交談發(fā)生地點(diǎn)、語言使用經(jīng)驗(yàn)、交際意圖等(Luoma,2004:30)。在口語測(cè)試過程中,語境的設(shè)計(jì)直接影響語言使用的數(shù)量和質(zhì)量。此外,口語任務(wù)從不同的視角可以分為不同的類型。
事實(shí)性交談與評(píng)價(jià)性交談。Bygate(1987)將口語任務(wù)分為以下兩種類型:事實(shí)性交談,包括描述、敘述、講授、比較;評(píng)價(jià)性交談,包括解釋、說理、預(yù)測(cè)、決策。他指出說話者在這些類別中的語言使用能力不同,如果某人擅長(zhǎng)描述,并不意味著他自然也擅長(zhǎng)比較、講故事或論證某個(gè)觀點(diǎn)。事實(shí)性交談和評(píng)價(jià)性交談可以分開測(cè)量,從而獲得學(xué)習(xí)者的不同技能。
測(cè)試宏觀能力還是微觀能力。從交際功能來看,歐盟委員會(huì)(Council of Europe)(2001:125)制定的《歐洲語言通用參照框架》將語言能力根據(jù)功能分為兩類:一是宏觀能力;二是微觀能力。宏觀能力是使用語塊描述、敘述、評(píng)論、解釋和示范的能力;微觀能力指?jìng)€(gè)體言語行為,通常指在互動(dòng)中完成一個(gè)話輪,如實(shí)施請(qǐng)求、道歉、邀請(qǐng)等語言能力??谡Z測(cè)試設(shè)計(jì)應(yīng)該考查這兩方面的能力。語言功能也是設(shè)計(jì)口語測(cè)試的一個(gè)重要元素。
基于構(gòu)念的評(píng)估與基于任務(wù)的評(píng)估。如果評(píng)估考生的口語能力是根據(jù)口語能力的構(gòu)念進(jìn)行,這種評(píng)估就是基于構(gòu)念的評(píng)估。在這種口語評(píng)估中,確保分?jǐn)?shù)真正反映口語或口頭交際技能,而不是閱讀和聽力技能非常重要。另一種評(píng)估是把測(cè)試任務(wù)和語言使用的語境整合起來,這就是基于任務(wù)的評(píng)估(Luoma,2004:42)?;谌蝿?wù)的評(píng)估強(qiáng)調(diào)考生完成具體任務(wù)的程度。
單一型口語測(cè)試與綜合型口語測(cè)試。許多口語測(cè)試注重口頭交際或者口頭產(chǎn)出,避免在完成口語任務(wù)時(shí)涉及閱讀、寫作或者聽力活動(dòng),這就是單一型口語測(cè)試。在基于任務(wù)的評(píng)估活動(dòng)中,既有語言使用情境,又有把閱讀、聽力、寫作結(jié)合起來的口頭活動(dòng),這就是綜合型評(píng)估,目的是使測(cè)試中的語言使用更加真實(shí)(Luoma,2004:42)。Brown etal.(2001)研究了單一型測(cè)試任務(wù)與綜合型測(cè)試任務(wù)的錄音口試,發(fā)現(xiàn)綜合型任務(wù)使評(píng)分員關(guān)注考生對(duì)輸入材料的理解以及它對(duì)流利性、質(zhì)量和內(nèi)容結(jié)構(gòu)的影響。可能由于有更多的認(rèn)知負(fù)擔(dān),考生在綜合型任務(wù)的表現(xiàn)不如單一型任務(wù)的表現(xiàn)。更加根本的評(píng)估問題在于,評(píng)分員間的最后打分一致性更低。Brown etal.(2001)將此視為信度問題,建議用更詳細(xì)的、基于特定任務(wù)的評(píng)分量表和評(píng)分員培訓(xùn),以便明確輸入的內(nèi)容如何體現(xiàn)在口試輸出中。
開放型任務(wù)與控制性任務(wù)。根據(jù)測(cè)試任務(wù)提供給測(cè)試話語的不同結(jié)構(gòu),口試任務(wù)可分為開放型任務(wù)和控制型任務(wù)(Luoma,2004:48)。開放型任務(wù)引導(dǎo)討論但允許考生有用不同方式完成任務(wù)要求的自由??刂菩匀蝿?wù)清楚地規(guī)定考生應(yīng)該說什么,經(jīng)??梢粤谐鏊锌山邮艿拇鸢?。兩種機(jī)助口試任務(wù)特征的異同如表1所示。
表1 兩種機(jī)助口試任務(wù)特征對(duì)比
兩種口試都體現(xiàn)了機(jī)助口試的任務(wù)特點(diǎn):人機(jī)對(duì)話。iBT TOEFL的聽力為北美口音,正常語速。PhonePassTMSET自動(dòng)播放錄音也是自然語速和語調(diào)的清晰的北美口音。測(cè)試目標(biāo)、受試群體、評(píng)分方式不同導(dǎo)致測(cè)試任務(wù)不同。新托福想要測(cè)試的,是學(xué)生們?cè)谡鎸?shí)的校園和學(xué)術(shù)環(huán)境中進(jìn)行交流的能力。新托??谠嚹M了北美大學(xué)課堂的學(xué)術(shù)氣氛和學(xué)生在校生活的方方面面,要求考生能夠做課堂筆記、發(fā)表自己的意見和看法,有能夠處理校園生活中遇到的各種情況的能力。把聽說結(jié)合、讀說結(jié)合,考查學(xué)生綜合語言能力。除了考查日常會(huì)話能力,還考查學(xué)生學(xué)習(xí)專業(yè)知識(shí)的能力,如記筆記、復(fù)述等。
PhonePassTMSET測(cè)試非英語學(xué)習(xí)者理解英語口語和對(duì)所聽到的話語做出回應(yīng)的能力。它同時(shí)也測(cè)試聽力水平,把聽力與口語結(jié)合起來考試。PhonePassTMSET測(cè)量考生對(duì)句子的掌握、詞匯的掌握、口語流利性和語音。系統(tǒng)同時(shí)測(cè)試通過“聽”認(rèn)知語言的能力,重要的是測(cè)試實(shí)際聽說能力,試題模仿現(xiàn)實(shí)生活中聽與說的語言環(huán)境,進(jìn)行實(shí)時(shí)考核。系統(tǒng)不僅測(cè)試聽力水平、口語能力以及回答的合理性,還要在接近人際交往的時(shí)間限制內(nèi)聽懂、說清楚并且表達(dá)準(zhǔn)確。
iBTTOEFL的受試對(duì)象為申請(qǐng)去美國(guó)或加拿大等國(guó)家上大學(xué)或進(jìn)入研究生院學(xué)習(xí)的非英語國(guó)家的學(xué)生。PhonePassTMSET主要的需求者是公司、大學(xué)、政府和非政府等各種機(jī)構(gòu)。由于是機(jī)器自動(dòng)評(píng)分,PhonePassTMSET只能采用相對(duì)簡(jiǎn)單機(jī)械的任務(wù)。iBT TOEFL口試有兩個(gè)以上的專業(yè)評(píng)分員評(píng)分,所以任務(wù)更具有綜合性、復(fù)雜性。
在考慮口語評(píng)分方法時(shí)應(yīng)綜合考慮考試題目的類型、言語樣本的水平和評(píng)分誤差等因素。開放式題型產(chǎn)生的言語樣本不能預(yù)測(cè),適合采用主觀等級(jí)評(píng)分。限制性題型能夠預(yù)測(cè)考生將要產(chǎn)生的言語樣本,可以采用客觀評(píng)分。從二語學(xué)習(xí)者口語水平的發(fā)展過程來看,學(xué)習(xí)者的口語表達(dá)經(jīng)歷了三個(gè)階段,即從詞語或言語表達(dá)到句子表達(dá)再到語段表達(dá)。對(duì)于高水平學(xué)生的言語樣本,主要的評(píng)分途徑是主觀等級(jí)評(píng)分,而對(duì)于詞語或句子,則可以采用客觀化評(píng)分。在評(píng)分誤差方面,評(píng)分員之間評(píng)分的不一致及評(píng)分員自身評(píng)分的不穩(wěn)定導(dǎo)致傳統(tǒng)主觀評(píng)分的主要誤差。減少這類誤差的方法一是加強(qiáng)對(duì)評(píng)分員的培訓(xùn),二是即時(shí)監(jiān)控評(píng)分過程。客觀化評(píng)分通過減少評(píng)分的主觀成分來控制評(píng)分誤差,因此必須加強(qiáng)評(píng)分標(biāo)準(zhǔn)的確定性(王佶,2007:29)。
盡管同為機(jī)助口試,iBT TOEFL和PhonePassTMSET在評(píng)分標(biāo)準(zhǔn)及過程方面有很大不同。iBT TOEFL口試采用主觀評(píng)分,具體來說采用總體等級(jí)評(píng)分。根據(jù)ETS(2009)官方公布的評(píng)分細(xì)則,iBT TOEFL口試有0~4分5個(gè)檔次,考生對(duì)話題的展開程度、口語的流利程度和發(fā)音的清晰程度以及回答內(nèi)容與話題的切合程度是評(píng)分的重點(diǎn)。評(píng)分員根據(jù)下列要素對(duì)回答進(jìn)行評(píng)分:(1)表達(dá)能力。(2)語言運(yùn)用。(3)話題的展開??谡Z考試中的Response經(jīng)過數(shù)字錄音被發(fā)送到ETS在線評(píng)估網(wǎng)絡(luò)。每個(gè)考生的考試錄音都至少有兩個(gè)以上的專業(yè)評(píng)分人員進(jìn)行評(píng)估。考生在獲取分?jǐn)?shù)的同時(shí)將獲得分析性反饋。該反饋將用語言加以描述,會(huì)說明考生的語法怎么樣,程度怎么樣,口語有什么薄弱環(huán)節(jié),有什么強(qiáng)項(xiàng)等,這些都是對(duì)評(píng)分信度極大的保障。因此,新托??谠嚲哂休^高的信度。
PhonePassTMSET主要使用機(jī)器客觀評(píng)分。計(jì)算機(jī)通過聲譜對(duì)一段話的發(fā)音、措辭、語速及停頓進(jìn)行十分精確的量化評(píng)分。但系統(tǒng)不僅測(cè)試講話的方式,也測(cè)試應(yīng)試者對(duì)言談內(nèi)容的表達(dá)(Cleary,2003)。它可以將考試者的語音數(shù)字化,傳輸?shù)娇偛靠荚嚬芾韱T服務(wù)器上進(jìn)行記分。計(jì)分是根據(jù)考生在測(cè)試期間的電話交談中實(shí)際使用的詞匯以及從所運(yùn)用的短語和句子中體現(xiàn)出的語速、流利程度及發(fā)音情況來評(píng)估的。第一部分到第四部分的反饋由計(jì)算機(jī)錄音并評(píng)分,最后部分開放性問題的反饋被錄音但由專職評(píng)分員評(píng)分。PhonePassTMSET分?jǐn)?shù)報(bào)告單包括總體分?jǐn)?shù)和子項(xiàng)分?jǐn)?shù)??傮w分代表的是考生理解英語口語和就日常生活的話題以母語者的談話速度說英語的能力。分?jǐn)?shù)從20分到80分,由四個(gè)診斷性子分?jǐn)?shù)經(jīng)過相加權(quán)衡組合而成。子項(xiàng)分?jǐn)?shù)包括:句子的掌握、詞匯、流利性和語音。
盡管同為機(jī)助口試,iBTTOEFL口試和PhonepassTMSET在理論模型、任務(wù)特征、評(píng)分標(biāo)準(zhǔn)及過程方面具有很大不同。把兩種機(jī)助口試進(jìn)行對(duì)比研究,有利于我們對(duì)機(jī)助口試做出客觀的評(píng)價(jià)。Chapelle&Douglas(2006)對(duì)機(jī)助語言測(cè)試的優(yōu)勢(shì)和劣勢(shì)做了總結(jié),這些優(yōu)勢(shì)和劣勢(shì)的描述同樣適用于機(jī)助口試。歸納起來,機(jī)助口試的優(yōu)勢(shì)在于:(1)不受時(shí)空環(huán)境制約。機(jī)助口試可以隨時(shí)隨地為考生提供服務(wù),大幅度提高測(cè)試的便捷性。如PhonePassTMSET方便自由,可在短時(shí)間內(nèi)完成。對(duì)于需要大規(guī)模對(duì)員工進(jìn)行測(cè)試的公司很方便。對(duì)于受試者和管理者更大的優(yōu)勢(shì)在于,測(cè)試可以在任何時(shí)間,任何地點(diǎn)進(jìn)行,測(cè)試分?jǐn)?shù)可在測(cè)試完成后一小時(shí)內(nèi)獲得。因此,受試者可以在滿足他們的時(shí)間安排和需要的情況下進(jìn)行測(cè)試,并在合理的時(shí)間內(nèi)得到結(jié)果。這種優(yōu)勢(shì)降低了受試者的焦慮,降低成本和紙張的使用,減少雇主、大學(xué)在行政管理上的失誤。測(cè)試實(shí)施起來效率較高;在不同地域?qū)嵤┑臏y(cè)試也具有可比性。(2)統(tǒng)一的測(cè)試指令。機(jī)助口試可以克服考官和其他考生因素的影響,大大增加測(cè)試公正性。采用人機(jī)對(duì)話模式,排除了考官對(duì)考生的影響和考生之間的相互影響,這大大提高了口試的公平性,在很大程度上提高了口試信度。(3)自動(dòng)性評(píng)分。自然語言加工技術(shù)使計(jì)算機(jī)可以對(duì)復(fù)雜的答案自動(dòng)評(píng)分,大幅度提高測(cè)試評(píng)分的靈活性和準(zhǔn)確性。如PhonePassTMSET評(píng)分做到了自動(dòng)化。
我們?cè)趶?qiáng)調(diào)機(jī)助口試優(yōu)勢(shì)的同時(shí),機(jī)助口試的劣勢(shì)也不容忽略,比如說,人機(jī)對(duì)話不同于真實(shí)的面對(duì)面交流,有可能給考生造成心理壓力;一些技術(shù)要求的特殊細(xì)節(jié)會(huì)影響測(cè)試設(shè)計(jì)者對(duì)測(cè)試題的構(gòu)思,另外,機(jī)助口試不能測(cè)試聽說中的非語言因素;當(dāng)考生的回答比較復(fù)雜的時(shí)候,計(jì)算機(jī)評(píng)分系統(tǒng)也許不能評(píng)估這種回答的相關(guān)性及重要性,因而會(huì)給出過高或過低的分?jǐn)?shù)。完美的測(cè)試不可能存在,機(jī)助口試亦是如此。機(jī)助口試如何在信度、效度、可行性之間取得平衡,是一個(gè)永恒的話題。機(jī)助口試是否可以實(shí)現(xiàn)對(duì)受試者的口語交際或表達(dá)能力的客觀評(píng)價(jià),機(jī)助口試與面對(duì)面的口試是否具有等效性,有待進(jìn)一步研究。
[1]Bachman,L.F.&Palmer A.S.Language Testing Practice[M].Oxford:OUP,1996.
[2]Brown etal.Investigating Raters’Orientations in Specific-purpose Task-based Oral Assessment[R].TOEFL 2000 Research and Development project report.Submitted June2001.
[3]Bygate,M.Speaking[M].Oxford:OUP,1987.
[4]Chapelle,C,A.&D.Douglas.Assessing Language through Computer Technology[M].北京:外語教學(xué)與研究出版社.2006.
[5]Cleary,C.Complete Guide to the Phonepass Test[M].Beijing:Foreign Language Teachingand Research Press,2004.
[6]Council of Europe.Common European Framework of Reference for Languages:Learning,teaching,assessment[M].Cambridge:CUP,2001.
[7]ETS.The Official Guide to the TOEFL Test[M].北京:北京語言大學(xué)出版社.2009.
[8]Levelt,W,J,M.Speaking:From Intention to Articulation[M].Cambridge,MA:MITPress,1989.
[9]Luoma,S.Assessing Speaking[M].北京:外語教學(xué)與研究出版社.2010.
[10]PEARSON,VersantTMEnglish Test—Test Design and Validation Research[R].Pearson Education,Inc.or itsaffiliate(s),2008:1-26.
[11]劉美華,等.新托福網(wǎng)絡(luò)考試及其反饋?zhàn)饔肹J].國(guó)外外語教學(xué),2007(1).
[12]文秋芳.英語口語測(cè)試與教學(xué)[M].上海:上海外語教育出版社.1999.
[13]王佶.第二語言口語考試評(píng)分方法述評(píng)[J].暨南大學(xué)華文學(xué)院學(xué)報(bào),2007(1).