呂鳴
智能測評技術(shù)在大規(guī)模英語口語考試評卷中的探索與實(shí)踐
呂鳴
本文探討在大規(guī)模英語口語考試中,機(jī)器智能評分部分取代人工評卷的可行性。通過對2015年上海市普通高中學(xué)業(yè)水平考試英語口語考試的考生答卷進(jìn)行人工和機(jī)器評分比較,得出機(jī)器評分在穩(wěn)定性和客觀性上的表現(xiàn)明顯優(yōu)于人工評分,可以部分取代人工評卷。本文還對如何進(jìn)一步提高智能評分的準(zhǔn)確度提出建議。
智能測評;機(jī)器評分;口語考試
英語是我國學(xué)生的主要課程之一。英語課程的總體目標(biāo)是培養(yǎng)學(xué)生的語言綜合運(yùn)用能力。聽、說、讀、寫既要作為學(xué)習(xí)的內(nèi)容又要作為學(xué)習(xí)的手段,在重要的終結(jié)性評價(jià)中應(yīng)該包括口試、聽力考試和筆試,以全面考察學(xué)生的語言綜合運(yùn)用能力。2014年9月,上海作為首批高考綜合改革的試點(diǎn)城市,對外公布了《上海市深化高等學(xué)??荚囌猩C合改革實(shí)施方案》,方案中提到深化外語考試的改革。從2017年開始,外語考試包括筆試和聽說測試,聽說測試部分采用人機(jī)對話的方式,一年舉行兩次,分別在每年1月和6月。高中生可最多參加兩次外語考試,選擇其中較好的一次成績計(jì)入高考總分。[1]
在新方案實(shí)施前,上海僅在每年1月舉行普通高中學(xué)業(yè)水平考試英語口語考試,近三年參加考試的人數(shù)均維持在每年5.5萬人左右。每次考試結(jié)束后,均需要組織近千名教師對考生語音答卷進(jìn)行集中網(wǎng)上評閱并采用人工雙評模式。
2017年高考改革后,由于推行一年兩考,因此每次考試的人數(shù)可能大大超過當(dāng)前。如果在這樣大規(guī)模的考試中,對所有考生的語音答卷進(jìn)行集中人工網(wǎng)上評閱,則會存在如下問題:(1)人工評卷工作量大。按照目前人工雙評模式,若雙評差值超過設(shè)定的誤差閾值,則需要評卷組長進(jìn)行仲裁打分以確定最終成績,因此,每次評卷的總工作量至少是考生數(shù)的2.1倍。以評閱完單個(gè)考生所有答題需要5~10分鐘計(jì)算,5萬考生的答卷需要千名教師花費(fèi)2~3天才能完成。(2)人工評卷組織管理困難。上海市英語口語考試共有12套試卷,分別在不同的考試批次中使用,評卷同時(shí)在4個(gè)評卷點(diǎn)集中進(jìn)行,因此在評卷前需要根據(jù)各批次的考生人數(shù)分布情況,劃分各評卷點(diǎn)的評閱工作量。若每套試卷按照題型劃分成多塊評閱,則更增加了管理的復(fù)雜度。(3)人工評卷存在較大主觀性。人工評卷工作量大且是重復(fù)性工作,特別是長時(shí)間用耳用眼去判別打分,難以保證評卷質(zhì)量不受影響。在人工評卷時(shí),不同的評卷教師會按照各自對評卷標(biāo)準(zhǔn)的理解,產(chǎn)生不同的標(biāo)準(zhǔn),即便是同一個(gè)評卷教師在不同時(shí)段也會產(chǎn)生標(biāo)準(zhǔn)偏差,這就帶來了很多主觀差異,考試的信度會受到一定的影響。
為解決上述問題,提高評卷效率和公平性,經(jīng)過對近三年上海市普通高中學(xué)業(yè)水平考試英語口語考試考生語音數(shù)據(jù)的分析研究,構(gòu)建了具有上海地域特色的智能語音評分模型。通過對比人評和機(jī)評的結(jié)果,驗(yàn)證智能評測技術(shù)在上海英語口語考試評卷中的實(shí)際應(yīng)用效果,穩(wěn)步推進(jìn)英語口語考試評卷由人工網(wǎng)上評卷向機(jī)器智能評分的轉(zhuǎn)變,為機(jī)器評分逐步取代人工評卷打下基礎(chǔ)。
2.1 智能評測的核心技術(shù)
智能評測的核心技術(shù)包含語音合成、語音識別和語音評測,其功能和核心技術(shù)如表1所示。
智能評分引擎的技術(shù)特征包含兩方面:(1)自由表述題的自動(dòng)評分。首先需要引入連續(xù)語音識別技術(shù),以使得計(jì)算機(jī)能夠“聽懂”考生的表述內(nèi)容。[2]然后,基于題目要點(diǎn)和專家提供的參考答案,通過語義擴(kuò)展生成本題定制化語言模型,并使用海量數(shù)據(jù)訓(xùn)練和通用語言模型插值算法,有效降低未登錄詞的比例,提升識別性能;同時(shí)通過機(jī)器翻譯對語義進(jìn)行相似度匹配,實(shí)現(xiàn)答案自動(dòng)擴(kuò)展,在機(jī)器評閱中對答題要點(diǎn)進(jìn)行準(zhǔn)確性比對,從而完成對表述完整度的評價(jià)。(2)基于人工輔助的模型自動(dòng)優(yōu)化。使用專家對每套試題的轉(zhuǎn)寫結(jié)果進(jìn)行語言模型的優(yōu)化。在通用評測模式下的語言模型如與真實(shí)的口語表述有部分不匹配,通過引入題目真實(shí)口語表述轉(zhuǎn)寫數(shù)據(jù)和自動(dòng)擴(kuò)展生成的訓(xùn)練語料混合進(jìn)行語言模型訓(xùn)練,以大幅改善語言模型的性能;同時(shí),基于專家打分和轉(zhuǎn)寫結(jié)果,通過數(shù)據(jù)驅(qū)動(dòng)的方式訓(xùn)練以自動(dòng)發(fā)現(xiàn)新特征(如某些表述不好,一旦出現(xiàn)則會打低分等),對比專家打分結(jié)果和機(jī)器預(yù)測結(jié)果,使機(jī)器能學(xué)習(xí)專家打分的尺度,以進(jìn)一步提高人機(jī)打分結(jié)果的一致性。
2.2 智能評測的實(shí)施
2.2.1 準(zhǔn)備工作
評卷題塊劃分。在正式評卷時(shí),為了讓機(jī)器與人工評分相結(jié)合,需將每套試卷按評卷模式分為全機(jī)評、人機(jī)互評和人兩評三個(gè)題塊,如表2所示。這樣劃分考慮到作答的主觀性與客觀性差異,使機(jī)器評分逐步取代人工雙評??陀^性最強(qiáng)的題塊一全部由機(jī)器評分,通過學(xué)習(xí)專家評分標(biāo)準(zhǔn),機(jī)器可以更穩(wěn)定、客觀地進(jìn)行評分;主觀性最強(qiáng)的題塊三則繼續(xù)維持人兩評的模式;處于兩者之間的題塊二則采用人機(jī)互評的模式,人一評可以彌補(bǔ)機(jī)器評分在某些方面靈活性不夠的缺點(diǎn)。
表1 智能口語評測核心技術(shù)
表2 2015年上海市普通高中學(xué)業(yè)水平考試英語口試評卷分塊方式
評卷系統(tǒng)改造。為滿足三種評卷模式相互共存,也為今后逐步取消人工雙評做好技術(shù)準(zhǔn)備,需要對原有評卷系統(tǒng)進(jìn)行技術(shù)改造,使各題塊可以選擇全機(jī)評、人機(jī)互評和人工雙評三種評卷模式中的任何一種,機(jī)評可以取代任意一個(gè)人工評次,且對已經(jīng)存在機(jī)評的評次不再進(jìn)行評卷任務(wù)分配。
執(zhí)行效率預(yù)估。智能評卷的完成時(shí)間在實(shí)施中會遇到硬件環(huán)境的制約。實(shí)施步驟中數(shù)據(jù)預(yù)處理、基礎(chǔ)運(yùn)算和評測運(yùn)算完成所需要的時(shí)間和計(jì)算機(jī)配置是密切相關(guān)的,即評卷效率與線程數(shù)、主頻性能、可用內(nèi)存數(shù)成正比關(guān)系;另外,如果對智能評測引擎進(jìn)行升級也會帶來評測效率的變化。因此,在正式實(shí)施前需要進(jìn)行模擬運(yùn)算以預(yù)估軟硬件執(zhí)行效率,確保整個(gè)流程能按計(jì)劃完成。
人機(jī)仲裁率預(yù)估。如采用人機(jī)互評,仲裁率是否能控制在正常水平將關(guān)系到重復(fù)勞動(dòng)的多少。在評卷中如有大量人評與機(jī)評結(jié)果相差超過誤差閾值,將會有相應(yīng)數(shù)量的試卷需要評卷組長仲裁打分,造成人力的浪費(fèi)。因此,需要在人工定標(biāo)后的驗(yàn)證環(huán)節(jié)對人機(jī)仲裁率進(jìn)行預(yù)估,確保在正式評卷中不會出現(xiàn)高仲裁率。
2.2.2 實(shí)施步驟
根據(jù)上海的實(shí)際情況,將整個(gè)評卷實(shí)施步驟劃分為五個(gè)階段:數(shù)據(jù)準(zhǔn)備、定標(biāo)運(yùn)算、效果論證、評卷和最終論證,每個(gè)階段包含的詳細(xì)步驟見表3。
2.3 人機(jī)評分對比結(jié)果
通過對2015年上海市普通高中學(xué)業(yè)水平考試英語口語考試的答卷進(jìn)行人工和機(jī)器評分,除去機(jī)器不評分的部分(如人工定標(biāo)部分和少部分由于錄音質(zhì)量不達(dá)標(biāo)導(dǎo)致機(jī)器無法評分),對最終人機(jī)評分結(jié)果按題塊對比如下。
2.3.1 題塊一對比結(jié)果
由于題塊一是純朗讀題,采用機(jī)器評分完全取代人工評卷的方式,因此人機(jī)評分結(jié)果對比是基于對1 200份驗(yàn)證集數(shù)據(jù)人工雙評和機(jī)器評分的對比,如表4所示。
2.3.2 題塊二對比結(jié)果
題塊二是人機(jī)互評題型,僅采用人一評,為驗(yàn)證機(jī)評的可信度,分別用機(jī)評結(jié)果、人一評結(jié)果與人機(jī)最終分進(jìn)行比較,統(tǒng)計(jì)每個(gè)分差間距內(nèi)的人數(shù),如表5所示。為明確仲裁是由哪一方偏差過大造成的,針對題塊二的4 377份評卷組長仲裁數(shù)據(jù),分別將機(jī)評結(jié)果和人一評結(jié)果對比仲裁分,從分差上可以看出仲裁的責(zé)任權(quán)重,最終得出“機(jī)器分更接近仲裁分”占58.08%,如表6所示。
2.3.3 題塊三對比結(jié)果
題塊三為全人評閱題型,答題的開放性最大,機(jī)器評分結(jié)果僅作參考,不計(jì)入最終成績??紤]到今后機(jī)器評分將逐步取代人一評,為驗(yàn)證機(jī)器對開放性較大題型的評分準(zhǔn)確度,分別用機(jī)評結(jié)果、人最終分、人一評結(jié)果和人二評結(jié)果進(jìn)行對比,統(tǒng)計(jì)每個(gè)分差間距內(nèi)的人數(shù),如表7所示。
2.4 結(jié)論
題塊一采用機(jī)器評分完全取代人工評卷的方式,因此人機(jī)評分結(jié)果對比是基于對1 200份驗(yàn)證集數(shù)據(jù)人工雙評和機(jī)器評分的對比。從分差上來看,機(jī)評結(jié)果更接近人評最終分,出現(xiàn)的大分差數(shù)據(jù)最少。
題塊二分別用機(jī)評結(jié)果、人一評結(jié)果與人機(jī)最終分進(jìn)行比較,可以看出機(jī)器評分在準(zhǔn)確率和穩(wěn)定性上略高于人評;在仲裁權(quán)重分析方面,抽取所有被仲裁的4 377份數(shù)據(jù),分別將機(jī)評結(jié)果、人一評結(jié)果分別與仲裁分對比,可以看出人評的被仲裁率較高,且在被仲裁數(shù)據(jù)中,人評偏差所造成的權(quán)重較大。
題塊三的機(jī)器評分雖然目前還停留在試驗(yàn)階段,但從整體效果上看,機(jī)評結(jié)果更接近人評最終分,同時(shí)比人工雙評降低了約2/3的仲裁量。今后在有完備參考答案擴(kuò)充的前提下,題塊三可采用人機(jī)互評,以進(jìn)一步提高效率。
表3 上海市普通高中學(xué)業(yè)水平考試英語口試評卷實(shí)施步驟
表4 題塊一人機(jī)分差統(tǒng)計(jì)
表5 題塊二人機(jī)分差統(tǒng)計(jì)
表6 題塊二人機(jī)與仲裁分對比統(tǒng)計(jì)
表7 題塊三人機(jī)分差統(tǒng)計(jì)
人機(jī)對比數(shù)據(jù)表明,在大規(guī)模英語口語考試評卷中,機(jī)器完全可以輔助或者部分替代專家進(jìn)行評卷,不僅可以大幅減少人工評卷的工作量,而且機(jī)評的穩(wěn)定性、客觀性等優(yōu)點(diǎn)也充分的展現(xiàn)出來,但在實(shí)際運(yùn)用中也難免有不足之處。通過對源于機(jī)評的誤差抽樣分析后發(fā)現(xiàn):(1)在朗讀題中,考生將一個(gè)單詞讀成另一個(gè)單詞,機(jī)器沒有對這類錯(cuò)誤扣分。(2)在情景對話環(huán)節(jié),考生的作答雖然部分內(nèi)容與評卷標(biāo)準(zhǔn)中所給的關(guān)鍵詞吻合,但整體的回答與情景不符,理應(yīng)不得分,但機(jī)器卻給了部分分?jǐn)?shù)。
這些問題說明機(jī)器對考生作答的評閱比較機(jī)械,不能靈活處理超出標(biāo)準(zhǔn)學(xué)習(xí)范圍的作答。為進(jìn)一步發(fā)揮機(jī)器評分的優(yōu)勢,提高評分精準(zhǔn)度,還需要完善以下四方面問題:(1)啟用口語標(biāo)準(zhǔn)化考場。目前不同口語考場中使用的耳麥質(zhì)量參差不齊,座位間距也各不相同,可能會因噪聲干擾太大導(dǎo)致部分考生答卷不符合機(jī)器評分的最低聲源要求。因此,需啟用標(biāo)準(zhǔn)化考場,以降低噪音干擾,提高機(jī)器智能評卷的可識別率。(2)細(xì)化評分標(biāo)準(zhǔn)。以往的評分標(biāo)準(zhǔn)較粗略,沒有對諸如讀錯(cuò)幾個(gè)單詞扣幾分等細(xì)節(jié)進(jìn)行量化。因此,要使機(jī)器進(jìn)行精準(zhǔn)的評分就必須對評分標(biāo)準(zhǔn)細(xì)化、量化。(3)重視人工定標(biāo)環(huán)節(jié)。人工定標(biāo)是機(jī)器通過學(xué)習(xí)評卷專家制定的標(biāo)準(zhǔn)來對其他試卷進(jìn)行評分的過程,如果標(biāo)準(zhǔn)制定有問題,那么之后的機(jī)器評分也必然有問題。因此,必須對參與人工定標(biāo)及評卷教師進(jìn)行資質(zhì)認(rèn)證,其中人工定標(biāo)的要求應(yīng)更為嚴(yán)格,認(rèn)證結(jié)果每年動(dòng)態(tài)更新,評卷教師優(yōu)勝劣汰,確保只有具有資質(zhì)的評卷教師才能參與評卷。(4)重視專家論證環(huán)節(jié)。如在高利害性考試中實(shí)施機(jī)器智能評卷,需要在機(jī)器校標(biāo)和人工評卷后分別進(jìn)行兩次專家論證。在機(jī)器校標(biāo)完成后,專家需要對驗(yàn)證數(shù)據(jù)的機(jī)評準(zhǔn)確度進(jìn)行抽樣判定,提早發(fā)現(xiàn)可能存在的問題,確保機(jī)器對剩余答卷評分的準(zhǔn)確性;在人工評卷完成后,專家再根據(jù)最終數(shù)據(jù)分析報(bào)告對全集數(shù)據(jù)進(jìn)行抽樣,驗(yàn)證機(jī)評的可靠性。另外,對于高水平考生的答卷,需要專家對機(jī)器評分再做修正。
[1]上海市教育委員會.上海市深化高等學(xué)??荚囌猩C合改革實(shí)施方案[EB/OL].(2014-09-18)[2015-08-10].http://www.shmec. gov.cn/html/xxgk/201409/420032014012.php.
[2]嚴(yán)可,胡國平,魏思,等.面向大規(guī)模英語口語機(jī)考的復(fù)述題自動(dòng)評分技術(shù)研究[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,49(S1).
The Exploration and Practice of Computerized Automatic Scoring in Large-scale English Oral Test
LU Ming
This paper discusses the feasibility of computerized automatic scoring replacing human scoring in largescale English oral test.The comparative analysis between computerized automatic scoring and human scoring in different question types of the oral examination for Shanghai Senior High School Achievement Test of 2015 shows that machine scoring is obviously better than human scoring in stability and objectivity.In some cases,machine scoring can take the place of human scoring.Suggestions on how to enhance the accuracy of machine scoring are put forward.
Intelligent Assessment;Computerized Automatic Scoring;Oral Test
G405
A
1005-8427(2015)10-0051-7
呂鳴,男,上海市教育考試院,工程師(上海 200235)