大規(guī)模英語口語考試自動評卷可行性研究

2014-12-02 03:54:30范鵬

中國輕工教育 2014年6期

范鵬

（天津教育招生考試院,天津 300387）

多年來，英語一直是中國學生的主要課程。但由于語言習慣、傳統(tǒng)教學方式等原因，中國人的英語大多是“啞巴英語”——“聽、讀、寫”與“說”發(fā)展的極不均衡。但語言歸根結(jié)底是交流的工具，學習英語的目的是獲得以英語為工具的國際交際能力，只會讀不會說，語言交際也無從談起。針對這個問題，無論是教育主管部門還是教學單位都十分重視。針對以提高學生實際運用英語的能力，改變啞巴英語學習的現(xiàn)狀，英語口語考試被廣泛推廣。天津考試院作為考試主管部門，多年來大力推廣英語口語考試，每年組織多次全市范圍不同層次的英語口語考試，考生規(guī)模多在萬人以上。本文著重對此類大規(guī)模英語口語考試進行研究。

一、人機對話考試系統(tǒng)

傳統(tǒng)的英語口語考試多為面試，顧名思義是考官與考生進行面對面的交流，根據(jù)考生作答情況現(xiàn)場予以評分。這種形式對于考官的要求比較高，要在面試的時間內(nèi)給出考生合理、客觀的成績。隨著考官精力的下降，考生成績也會產(chǎn)生一定的波動，并且由于受到考官數(shù)量的限制，這種形式也不適合大規(guī)模的英語口語考試。

隨著計算機網(wǎng)絡技術的發(fā)展，出現(xiàn)了“人機對話”的英語口語考試系統(tǒng)，通過建立大型題庫和評價標準系統(tǒng)，實現(xiàn)計算機人機對話，出題、考試、判卷、結(jié)果反饋全部由計算機完成。與以往英語口語考試的“人人對話”形式不同，“人機對話”考試模式由電腦充當考官角色，所有問題和指令都由電腦發(fā)出，考生則根據(jù)從耳機中聽到的或在電腦屏幕上看到的指令和要求進行作答。系統(tǒng)自動將考生答案保存成語音文件，后期再由考試主管部門統(tǒng)一組織教師進行評卷?？荚嚨娜^程中排除了人為因素和外界干擾因素對考生的影響，“人機對話”所有試題從題庫中選題。因此，不同場次的考生題目都不同，有效防止隨機“漏題”，即便是同一場次，相鄰的考生所作答的題目也不同?！叭藱C對話”實現(xiàn)了考官和考生的分離，更適合大規(guī)模英語口語考試。

二、人機對話考試系統(tǒng)的弊端

雖然人機對話的考試系統(tǒng)解決了組織大規(guī)?？荚嚨碾y題，大大提高了考試的效率，但在一些方面尤其是評卷部分仍存在著許多弊端。主要表現(xiàn)在以下幾點。

1.人力投入大

英語口語考試的測試要求多為朗讀、復述、表達類題目，這類題目主觀性很強，考生的答案也沒有唯一性，因此需要大量教師進行評閱。一般來說，一次大規(guī)模英語口語考試的評卷，需要上百名教師評閱3至4天才能完成。

2.質(zhì)量難控制

不同于筆試評卷，所有考生的作答都是語段信息，評卷教師都是“聽閱”，每名評卷教師每天要聽大量的考生語音信息，還要努力排除由于口音、系統(tǒng)噪音等對作答造成的干擾，對于每個教師的體能都是不小的挑戰(zhàn)，且每個教師對于題目的主管判斷存在差別，評卷質(zhì)量很難良好的控制。

3.系統(tǒng)誤差多

由于話筒、電腦聲卡等硬件問題會對考生作答造成一定的干擾，評卷教師輕則部分作答語段聽不清楚，重則所有作答語段都聽不到聲音，對于這種情況，評卷教師難以判斷考生是沒有作答還是系統(tǒng)故障。針對這些問題，作為考試主管部門，我們一直在探索一種適合的替代辦法。

三、人機對話系統(tǒng)自動評卷技術

近年來，隨著語音識別技術的發(fā)展，許多針對人機對話系統(tǒng)開發(fā)的自動評卷產(chǎn)品面市。這類產(chǎn)品使用語音識別技術，采用專業(yè)模型對考生語音信息進行分析，進而對考生答案進行評卷。這在一定程度上解決了口語考試評卷一直困擾的幾個問題，也為進一步推進考試信息化提供了契機。這類產(chǎn)品有以下幾個特點。

1.省時省力

不再需要評卷教師，只需要一定的計算機設備，軟件系統(tǒng)就可以使用語音識別技術對考生作答自動進行評卷，自動甄別有誤作答和未作答，有效解決了傳統(tǒng)閱卷中由人工無法界定的問題。

2.安全穩(wěn)定

采用先進的語音識別和語音分析技術，以機器學習理論、數(shù)據(jù)挖掘理論和現(xiàn)代語言測量技術為基礎，科學、準確、高效地實現(xiàn)了英語口語的計算機自動評分，有效避免了人工評卷的主觀差錯和事故率。

3.客觀公平

克服了人工評卷中身體、精神等不利因素，極大提高閱卷和評估的客觀性和公正性。系統(tǒng)實現(xiàn)了短文朗讀、情景問答、看圖說話等題型的自動評分，對于每一個分數(shù)有一個置信度值，當給出評分后，如果超過置信度則自動反饋進行人工校對。同時系統(tǒng)還具備完善的質(zhì)量監(jiān)控功能，確保自動評分的質(zhì)量。

4.可拓展性

為考試評估和提供改進建議提供了數(shù)據(jù)參考，為教學提供了可信、可視化和可操作化的幫助。根據(jù)評卷數(shù)據(jù)可以自動生成參考個體之間、個體與總體之間的對比分析報告，能對學生英語口語水平進行客觀評價，有助于學生在今后英語學習中彌補不足，改進學習方法；同時也有利于教師了解英語教學情況，有助于教學更具有針對性，并通過改進教學方法來提高教學水平。

四、大規(guī)模英語口語考試自動評卷可行性分析

天津考試院目前使用的是由訊飛啟明公司開發(fā)的英語口語考試智能評分系統(tǒng)，主要由自動評分服務器、管理終端、抽查終端、數(shù)據(jù)存儲和答案成績匯總服務器組成，系統(tǒng)根據(jù)口語發(fā)音準確度、語音語調(diào)、流利程度和語言測量特征等各項考核標準，對考生的口語水平進行計算評分。天津考試院抽取了參加春季高考英語口語考試的1292名考生作答信息作為測試樣本，使用自動評卷系統(tǒng)評卷，并與人工評卷進行對比測試。

運營數(shù)據(jù)中心，全面采集供應鏈各環(huán)節(jié)數(shù)據(jù)，設置多種埋點方式，已建立完整的供應鏈數(shù)字倉庫。可實時查看訂單生產(chǎn)各環(huán)節(jié)數(shù)據(jù)、庫存數(shù)據(jù)、配送攬收數(shù)據(jù)、配送路由數(shù)據(jù)等針對大盤的實時數(shù)據(jù)。同時還可從細分的倉庫維度、品牌商維度、店鋪維度分別查看各環(huán)節(jié)的精細數(shù)據(jù)。讓數(shù)據(jù)產(chǎn)生運營的價值，確保每一個品牌的雙11訂單履行變得穩(wěn)定可控。

1.測試說明

天津考試院組織9位英語口語教學方面的專家，對全部1292份數(shù)據(jù)進行評分，作為比對參照。專家評分屬于精細評分，比較具有代表性，且總體水平一定高于大規(guī)模評卷中眾多評卷教師批量評分的總體水平。同時，使用自動評卷系統(tǒng)進行對1292份數(shù)據(jù)進行評分，結(jié)果與標準參照進行比對分析，測試自動評卷的可行性。

2.分析方法

對專家評分和自動評分之間的一致程度（相關度）及偏差，通過偏差進一步計算一致率：

（1）相關度：即相關系數(shù)，是衡量自動評分與專家評分對同一組數(shù)據(jù)評分排序合理程度的一種統(tǒng)計指標，反映了評分的公平性，也是對自動評分水平最主要的衡量指標。設有N個評卷數(shù)據(jù)，專家評分為x1，x2，…，xn，自動評分為y1，y2，…，yn，則自動評分和專家評分的相關度的計算公式為：

相關度的取值范圍介于0～1之間，越接近1表示自動評分的排序關系和專家評分越接近。

（2）一致率：即自動評分和專家評分的分差在20分以內(nèi)的比率。

3.分析結(jié)果

（1）相關性與一致率。

根據(jù)自動評分與專家評分的結(jié)果進行比對，如表1所示。

表1 自動評分與專家評分相關度和一致率

如表2所示，自動評分與專家評分分差超過20分的數(shù)據(jù)有134份。為了進一步確認這部分較明顯分差是由自動評分還是專家評分所導致，考試院又安排了另外一部分有經(jīng)驗的評卷人員進行復評，每份數(shù)據(jù)由兩人評分，并取復審的平均分作為基準，用以驗證這134份數(shù)據(jù)的真實情況。

表2 自動評分與專家評分差值

表3 復評結(jié)果

如表3所示，可以看出，多數(shù)復評結(jié)果更趨向于自動評分。根據(jù)復評的結(jié)果，重新計算了分差、相關性和一致率，如表4、表5所示。

表4 復評后自動評分和專家評分分差

表5 復評后自動評分與專家評分相關度和一致率

（2）評分趨勢

如圖1所示，自動評分與專家評分各分數(shù)段的整體分布相當，均符合正態(tài)分布，完全可以反映出考生的水平差異。

如圖2所示，自動評分與專家評分大多數(shù)一致性很高。

圖1 自動評分與專家評分分數(shù)分布

圖2 自動評分與專家評分散點圖

4.分析結(jié)論

本次測試自動評分與專家評分相關度達到0.732，一致率達到89.62%；僅對分差顯著數(shù)據(jù)進行多人復評后，相關度即提升至0.823，一致率提升至98.14%。且通過復評可以發(fā)現(xiàn)，自動評分的顯著差距要小于專家評分，可以認為自動評分在本次口語評卷中效果表現(xiàn)良好，可以滿足大規(guī)模評卷的需要。

英語口語考試評卷主觀性強，組織難度大，作為考試主管部門，最關心的是評卷的質(zhì)量。通過分析表明，計算機自動評卷的性能已經(jīng)與專家評卷較為接近，在實際操作中，肯定明顯超越眾多評卷教師批量評卷的評分信度，應該說已經(jīng)達到了實用水平，完全可以替代評卷教師的角色。而從組織管理的角度來說，不論是人員投入、所需時間和設備，計算機自動評卷都有明顯優(yōu)勢。綜上所述，計算機自動評卷由于其可信度和實用性，在大規(guī)模英語口語考試中有較強的可行性。

自動化評卷不僅是一次評卷形式的革新，也是計算機信息技術與英語教學的整合。它依托于“人機對話”的口語考試系統(tǒng)，不但促進了英語教學資源庫的建設，而且對英語教學提供最直觀的反饋，引領英語教學回歸語言學習的終極目標——交流與溝通，進一步發(fā)揮考試的導向和激勵作用，幫助學生克服英語學習中的障礙，樹立口語交流的自信，為他們進一步學習運用英語打下良好的基礎。

參考資料：

[1]李萌濤，楊曉果.大規(guī)模大學英語口語測試朗讀型機器閱卷研究與實踐[J].外語界，2008（4）：88-95.

[2]屈志杰.XML自動閱卷系統(tǒng)的設計與實現(xiàn)[J].計算機工程，2003，9（16）：189-191.

[3]丁衛(wèi)平，鄧偉.基于Web智能閱卷考試系統(tǒng)的設計與實現(xiàn)[J].電氣電子教學學報，2007（3）：102-104.

[4]楊惠中.大學英語口語考試設計原則[J].外語界，1999（3）：48-57.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看