黃崢崢
(海南師范大學外國語學院,海南???571158)
隨著人們對外語水平和能力認識發(fā)展,交際能力在語言教學和測試中得到越來越廣泛關注。越來越多高校將測試學生口語能力作為考核學生英語水平必不可少一部分,口語測試必要性已毋庸置疑。面對數(shù)量龐大的非英語專業(yè)學生,如何進行有效、可信、實用的大規(guī)??谡Z測試是一個值得認真研究的課題??萍嫉陌l(fā)展給考試改革和實施方式改進提供了廣闊前景。2005年2月,4、6級考試委員會正式出臺了《全國大學英語4、6級考試改革方案(試行)》,明確提出:“將積極研究開發(fā)計算機口語測試,以進一步擴大口語考試規(guī)模,推動大學英語口語教學?!庇嬎銠C輔助大學英語口語測試(以下簡稱口語機考)的推出為語言測試注入了新活力,各大高校開始對這種考試模式進行嘗試。
對于這種新的口語測試形式,國內(nèi)諸多學者已展開過研究。較早探索英語口語機考的是復旦大學外文系邱東林[7],其對口語機考利弊進行了分析;蔡基剛[3]的研究更加深入,驗證了口語機考的信度和效度。然而,研究也發(fā)現(xiàn)口語機考中存在著問題。孫元春[9]的研究表明:在機考口語測試環(huán)境下學生焦慮度要高于面試環(huán)境;金力[5]認為機考缺乏互動性,試題類型缺乏雙向交流性。目前無論是國外還是國內(nèi),計算機口試正處于實驗和探索階段[3],還未成為一種成熟的大規(guī)??荚囆问?,因此有必要對其開展進一步研究。
為切實達到提高學生口語表達能力目標,海南師范大學(以下簡稱“海師”)自2005年起建立起由課堂教學和網(wǎng)絡自主學習兩大部分構(gòu)成的教學模式,除了課堂聽說教學外,學生每周有2個學時網(wǎng)絡測試和人機聽說練習。因此,學生對機考并不陌生。大學英語自主學習中心也為實施口語機考提供了必要硬件設施??谡Z測試是海師大學英語課程測試一個重要組成部分(占各學期總評成績的10%)。長期以來,海師非英語專業(yè)學生口語測試模式主要為面試,但隨著大學擴招,學生人數(shù)不斷增加,這種口語測試方式日益顯示出一些弊端,如:需要大量考場和考官,費時費力,效率低等。為適應新形勢發(fā)展,自2010年6月起,海師成為海南省第一所嘗試和推廣英語口語機考高校,利用桂林洋校區(qū)班級作為試點,采用“外教社大學英語口語考試系統(tǒng)”組織大學英語期末口語機考。2012年1月初,大學英語教研室根據(jù)大學英語口語教學及考試大綱、現(xiàn)用教材,基本完成了具有主題和等級級別的口語機考試題庫建設,內(nèi)容主要涵蓋朗讀、回答問題、看圖說話、評論四種題型,并利用試題庫中資源對2010級與2011級非英語專業(yè)普通本科學生分別進行了大學英語(三)和大學英語(一)期末口語機考。但對于這一新型口語測試方式,學生作為受試者的感覺不容忽略。為了解學生對口語機考和面試型口試態(tài)度,我們對2010級與2011級參加完期末口語機考后的485名學生進行了問卷調(diào)查。調(diào)查結(jié)果顯示,有37.53%的學生在“我喜歡在計算機上參加口語考試”這項上表示完全同意(30人)和同意(152人);有34.43%(167人)的學生表示不一定;而表示不同意(95人)和完全不同意(41人)的占28.04%;42.27%的學生贊同“面對計算機,說話表達感覺不太真實自然,難以開口。”然而學生也并沒有明顯青睞傳統(tǒng)的面試型口語考試,在“相對口語機考而言,我更習慣進行面試型口語考試”這項上40%(194人)的學生表示不一定;表示完全同意(36人)和同意(124人)的只占32.99%;在機考/面試型口語考試更能讓學生發(fā)揮真實水平這兩項上均有過半學生表示不一定(分別為52.37%和54.43%)。由此可見,學生對口語機考這種新的測試形式并未完全接受,對其信度和效度仍帶有懷疑態(tài)度??谡Z機考是否能真實反映海師學生的口語水平?筆者及研究成員對其進行了實驗研究。
本研究將通過實驗,對比面試型口語考試和口語機考的測試結(jié)果,論證口語機考的可替代性。
本次實驗時間為2012年6月底,研究對象為桂林洋校區(qū)已接受問卷調(diào)查的2011級涉外金融班及2011級公管班,共87名學生。
由于海師南校區(qū)大學英語網(wǎng)絡教學實驗中心于每年6月均被劃為海南省高考改卷專用點,因此全校性大規(guī)模口語機考測試只能于第一、三學期末進行,第二、四學期末仍需采用面試形式進行口語測試。受此周期性影響,口語題庫中題型也未能在機考中全部試用。此外,由于考試軟件局限性,口語機考暫時無法采用對話形式,題庫中使用頻率較高的題型為朗讀和回答問題。根據(jù)教學大綱對學生口語能力要求,本次研究口語機考題型采用回答問題,主要檢測學生基本表達能力,難度為二級,內(nèi)容出自試題庫。
國內(nèi)在研究口語測試校標效度中,有以下幾種選擇:面試、錄音、機考、筆試。金艷、郭杰克[6]在進行錄音口試可替代研究時,使用面試成績作為校標,62名受試者兩種測試分數(shù)相關度為0.674,做例外處理后達到 0.7000。文秋芳[10]在1994年進行錄音口試測試時,使用四級筆試成績作為校標,69名學生兩種成績相關系數(shù)達到0.66,P值為.000。蔡基剛[5]在進行口語機考替代性研究時,使用面試成績作為校標,182名學生在兩個考試中成績相關系數(shù)為0.7058。
鑒于海師在英語期末考試之前沒有筆試,本研究采用的校標為面試口試成績。面試是最傳統(tǒng)、直接的英語口語測試方式。在測試過程中,面試官與考生充分交流,可以較為全面地了解考生口語情況,故這種校標表面信度、效度優(yōu)勢最為明顯。但這種測試方式也存在缺點,如:面試成績受面試官主觀影響較大,不易得出客觀分數(shù)。為克服以上缺點,保證校標準確性,本實驗設置了兩位教師同時面試,取其平均分作為考生最終面試口語成績,以減小面試成績主觀性誤差。
對同一批學生在一定時間間隔內(nèi)進行面試型口試和口語機考,兩次考試均采用同樣測試題,參照同樣評分標準進行打分。以面試型口語考試成績?yōu)樾?,利用相關分析法檢驗口語機考成績與面試口語成績相關度。非面試型口語考試與面試型口語考試對比研究,即兩者可替代性研究,很大程度上依賴于兩者相關程度(Shohamy等)[2],也就是說,如果同一批考生在兩個考試中成績高相關,則證明兩個考試測的是同樣能力,而低相關則證明兩個考試測的是不同能力。
每位學生面對兩名教師回答問題,共10道考題供學生抽簽作答。學生抽題后有3分鐘準備時間,答題時間為3分鐘。兩位面試教師按四、六級口語考試評分模式和標準,從語言準確性和范圍、靈活性和適切性、話語的長短性和連貫性三方面進行打分,評分為百分制,取兩位教師平均分作為學生口語分數(shù),即本試驗中代表學生真實口語能力的校標。
為檢測成績有效性,本研究采用spss軟件兩變量相關分析對評分者進行信度分析,結(jié)果如下表所示:
表1 面試評分者相關系數(shù)Correlations
如表1所示,面試評分者相關系數(shù)為0.808,相關系數(shù) Sig.值為 0.000,小于 0.01,說明兩位評分者評分相關性是較為顯著的。由此可見,取面試評分者平均分作為校標是有說服力、可取的。
口語機考測試于面試型口語考試結(jié)束后第二天進行,測試對象為同一批學生??荚嚨攸c為海師桂林洋校區(qū)大學英語自主學習中心,兩個班87名學生分為兩場考試,每場考試時間為20分鐘,其中答題時間為6分鐘(3分鐘準備,3分鐘答題)??荚囁捎玫念}型、題量、內(nèi)容和難度與面試型口語考試完全一致,試題由計算機隨機抽取,每場考試試題有所不同??荚嚱Y(jié)束后,服務器自動生成不帶個人信息的錄音文件。每位學生成績?nèi)杂蓛擅處熢u定,取其平均數(shù)。兩名閱卷教師采用相同評分標準,此前均接受過閱卷培訓。
口語考試中,無論是面試型口試還是口語機考,都屬于主觀測試,閱卷為主觀閱卷。要想考察考生成績中摻雜多少評分者主觀因素,仍需要進行評分者信度分析。通過兩變量相關分析,兩位口語機考閱卷教師信度對比結(jié)果如下:
表2 口語機考評分者相關系數(shù)Correlations
從表2可看出,兩位機考閱卷教師評分相關系數(shù)為.883,相關系數(shù) Sig.值為 0.000,小于 0.01,說明兩位評分者評分具有顯著相關性。
通過對比表1和表2結(jié)果可發(fā)現(xiàn),機考測試中兩名評分者具有更高相關度。分析原因可能有如下兩點:
首先,本試驗中,參與機考閱卷的兩位評分者在閱卷之前都參加了評分標準培訓,而面試口試兩位評分者在評分前沒有共同分析評分標準。
其次,機考閱卷評分者只能聽到考生聲音,無其他信息干擾,評分較為客觀;在面試口試中,評分者除了聽到考生聲音外還可以從表情、肢體語言等方面觀察考生,而這些信息有可能使評分者產(chǎn)生不同主觀感受,影響成績評定。
由此可見,在機考閱卷之前,對閱卷教師進行培訓,統(tǒng)一評分標準是非常必要的。機考測試評分在無考生信息和個人印象情況下評定,更趨于客觀。
兩次口試評分結(jié)束后,利用spss軟件對測試結(jié)果進行相關性比對和描述性分析,結(jié)果如下:
表3 面試成績和機考成績相關系數(shù)
表4 面試成績和機考成績描述性表格Descriptive Statistics
當兩個不同測試進行同期效度研究,如果相關系數(shù)達到0.7,則是比較滿意的(金艷、郭杰克)[6]。表3表明,兩次口語測試結(jié)果相關系數(shù)為.746,達到中高相關;相關系數(shù)的 sig.值為.000,小于.001,說明兩者具有較顯著相關性。
表4結(jié)果顯示:面試口試平均成績稍高于機考口試成績,兩者最高分幾乎無差別,但最低分差異較大。通過查找機考生成的音頻文件,分析差異原因可能在于:面試口試中,評分者可以面對面與考生交流,看到考生豐富的表情和狀態(tài),并可適時給予一些提示,因此考生得分不至于太低。在機考中,評分者只能聽到聲音,比較單調(diào),無其他信息進行參照,因而打分較為保守;此外,考生在答題過程中,緊張或思路中斷時無法得到提示,導致發(fā)言簡短,空耗時間,甚至出現(xiàn)話不對題情況,因而得分偏低。
與面試型口試相比,口語機考雖缺乏交際真實性,但本實驗相關研究數(shù)據(jù)以及評分一致性數(shù)據(jù)表明,兩者相關性較高,具有較高效度和可替代性,測試結(jié)果不存在顯著差異。由于口語機考不帶有主觀印象,成績更具客觀性,因此很大程度上能有效反映考生真實口語表達能力。此外,機考中生成的錄音文件可以形成語料庫,有助于教師進一步分析語料,查找影響學生口語能力發(fā)揮因素。因此口語機考是解決考生人數(shù)多、師資不足、測試信度等問題有效途徑之一。但由于本次實驗參與人數(shù)樣本偏小、計算機口試場次偏少、題型尚缺乏多樣化,實驗結(jié)果普遍性有待進一步證實,對新形式測試信度、效度研究應該反復多次,采集大量數(shù)據(jù)進行分析,才具有穩(wěn)定性和說服力。
從本次實驗研究來看,口語機考施測信度和評分信度較高,內(nèi)容信度還需通過加長測試時間及豐富測試題型等方式得到進一步提高;增強口語機考真實交流情境仍有待技術(shù)層面支持。學生在兩種測試形式中表現(xiàn)及對口語機考態(tài)度表明,教師需引導學生利用網(wǎng)絡自主學習系統(tǒng)加強人機聽說練習,設計機考試題時可充分利用計算機圖文并茂的多媒體功能,為學生創(chuàng)造較為輕松語言環(huán)境,以緩解學生考試時可能產(chǎn)生的不自然或焦慮感,使其發(fā)揮出真實水平。海師口語機考探索研究尚需深化,口語機考對受試者和教學影響將是后續(xù)研究重點。口語機考實施的日臻完善,能為英語口語教學提供一個更具有現(xiàn)實可操作性口語能力測試手段,也為省內(nèi)其他高校開展口語機考測試提供一定經(jīng)驗和借鑒。
[1]Arthur Hughes.Testing for Language Teachers[M].北京:外語教學與研究出版社,2000.
[2]Shohamy E,Gordon C,Kenyon D,and Stansfield C.The Development and Validation of a Semi- direct Test for Assessing Oral Proficiency in Hebrew[J].Bulletin of Higher Hebrew Education,1989(4).
[3]蔡基剛.大學英語4、6級計算機測試效度、信度和可操作性研究[J].外語界,2005(4).
[4]高丙梁.計算機口試與面試的比較研究[J].外語電化教學,2007(4).
[5]金力.計算機輔助大學英語口語測試研究[J].外國語文,2011(4).
[6]金艷,郭杰克.大學英語4、6級考試非面試型口語考試效度研究[J].外語界,2002(5).
[7]邱東林,季佩英,萬江波等.大學英語聽說機考嘗試[J].外語界,2005(4).
[8]司耀龍.基于計算機的大規(guī)模商務英語口語診斷測試實踐研究[J].外語電化教學,2008(1).
[9]孫元春.機助與面試英語口語測試中學生焦慮度對比分析與研究[J].長春師范學院學報,2007(4).
[10]文秋芳.英語口語測試與教學[M].上海:上海外語教育出版社,1999.