李焱偉 封偉
摘 要:自動作文評閱與人工評閱相比在文本識別速度、文本特征統(tǒng)計能力、評分標準執(zhí)行力度方面都有明顯的優(yōu)勢,但是在文本特征識別范圍方面有明顯的劣勢。這些基于自然語言處理技術(shù)的評閱系統(tǒng)還不能完全取代人工評閱。因此,我們在寫作教學中應(yīng)該有選擇地、靈活地把人工評閱機制和機器自動評閱系統(tǒng)有機的結(jié)合起來,讓兩種評閱機制發(fā)揮各自的優(yōu)勢。
關(guān)鍵詞:自動作文評閱;人工評閱;寫作教學
1 研究背景
近年來,隨著人工智能在社會各個領(lǐng)域的發(fā)展,自然語言識別技術(shù)也逐漸應(yīng)用在了外語教學領(lǐng)域。其中一個發(fā)展迅猛的細分領(lǐng)域就是機器自動評閱系統(tǒng)在外語測試中的研究和應(yīng)用。這個領(lǐng)域的技術(shù)在近20年里已經(jīng)逐漸成熟,國內(nèi)外機構(gòu)研發(fā)出了多個作文自動評閱系統(tǒng),并且這些系統(tǒng)已經(jīng)在一些大規(guī)模外語測試中成為一個輔助的測評工具,甚至在一些測試中已經(jīng)完全取代人工評閱。
針對這些作文自動評閱系統(tǒng),國內(nèi)外學者展開了一系列研究。其中國外學者主要關(guān)注自動評閱系統(tǒng)的設(shè)計原理、效度等問題,而多數(shù)國內(nèi)學者比較關(guān)注這些系統(tǒng)和人工評閱的效度對比研究。國內(nèi)學者普遍認為,作文自動評閱系統(tǒng)在評分效度上接近人工評分,但是并沒有在自動評分系統(tǒng)的應(yīng)用途徑做深入的分析。本文認為應(yīng)該全面評價一下作文自動評閱系統(tǒng)的優(yōu)劣,并以此為基礎(chǔ)探索這些系統(tǒng)在寫作教學中的應(yīng)用途徑。
2 自動作文評閱系統(tǒng)的優(yōu)勢
Williamson(1999)認為機器評閱有五個優(yōu)點:第一,準確性:自動評閱系統(tǒng)可以精準統(tǒng)計文本的細節(jié)特征。第二,客觀性:自動評閱系統(tǒng)不會受到情感或者觀念的干擾。第三,一致性:自動評閱系統(tǒng)可以保證采用同樣的評分標準評閱所有的作文。第四,復(fù)現(xiàn)性:自動評閱系統(tǒng)可以在一段時間之后仍然保證采用同樣的評分標準。第五,溯源性:由自動評閱系統(tǒng)給出的分數(shù)可以得到合理的解釋。
本文認為這五個優(yōu)勢并非都對外語測試有指導(dǎo)意義,所以我們對這些Willianson的看法做了一些修正。我們認為自動評閱系統(tǒng)的優(yōu)勢主要體現(xiàn)在以下三個方面:第一,從對文本特征的統(tǒng)計能力上看,機器更有優(yōu)勢。目前的自動評閱系統(tǒng)可以精確統(tǒng)計一篇作文里的單詞個數(shù)、句子長度、重復(fù)率、以及各種語言錯誤的數(shù)目,甚至有的系統(tǒng)還可以統(tǒng)計句子之間的銜接手段的使用情況。而人工只能從整體上大概估計以下一篇作文在語言各個層面上的大概情況,然后根據(jù)自己的直覺給出評價。第二,從對評分標準的執(zhí)行力度上看。機器不受其他因素干擾,能做到始終如一。這能確保系統(tǒng)對每篇作文采用的評分標準都是一致的。與之相反,人工評閱作文時,評分人員會受到情感影響,不同的評分人員對于評分標準的理解也有差異,或者在執(zhí)行這些評分標準時過于偏重于某些標準。第三,從對文本的識別速度上看,機器識別速度更快。這能確保學生及時得到反饋信息。目前的評閱系統(tǒng)不僅可以對一篇文章進行評分,還以從文章結(jié)構(gòu)、銜接連貫、詞匯搭配和語法等各個層面上對一篇文章提供評價,甚至標注出一些詞匯和語法錯誤并提出修改意見。這些任務(wù)的確也可以被教師完成,但是自動評分系統(tǒng)可以在幾秒之內(nèi)把這些反饋提供給學生,而指導(dǎo)學生數(shù)量較多的教師可能需要幾天時間才能完成這些批改任務(wù)。
3 自動作文評閱系統(tǒng)的劣勢
自動評閱系統(tǒng)一個最大的弊端是系統(tǒng)不能直接理解作文,只能通過一篇作文的表層的相關(guān)特征來間接的判斷一篇作文的質(zhì)量。因此,自動評閱系統(tǒng)在識別文本的范圍上就有很大的局限性。通常來說,一篇作文里的一些基礎(chǔ)特征,比如拼寫,標點符號、語法錯誤、某些詞匯搭配都可以被識別。但是,文章的內(nèi)容扣題程度、連貫和銜接、論點的擴展、修辭手段都不能被系統(tǒng)直接識別。盡管每個系統(tǒng)都通過各種手段來分析作文的篇章或者觀點方面的特征,也能針對這些問題為學生提供反饋信息。但是,這些手段都是間接的,并且也不夠成熟。比如,Powers(2001)就做了一次實驗來挑戰(zhàn)e-rater系統(tǒng)的有效性。他們發(fā)現(xiàn),考生如果故意使用一些比較復(fù)雜的詞匯或者較長的句子就可以取得比較高的分數(shù)。我們也做了一些相似的實驗測試國內(nèi)的批改網(wǎng)系統(tǒng)。如果在一篇文章中多加入幾個銜接詞,系統(tǒng)就會給這篇文章的銜接方面給以較好的評價。
此外,即便是在語法和詞匯這些基礎(chǔ)的文本體征識別方面,自動評閱系統(tǒng)也不能做出完全正確的判斷。我們測試了批改網(wǎng)、Iwrite 和Realskill這三個國內(nèi)自動評閱系統(tǒng),發(fā)現(xiàn)這些系統(tǒng)能較好地識別主謂一致、動詞形式等方面的語法錯誤,但是在比較復(fù)雜的語法錯誤查準率就偏低。在識別詞匯使用錯誤方面表現(xiàn)就更差一些,多數(shù)系統(tǒng)只能識別一些比較簡單的介詞搭配錯誤,而對于其他詞性的搭配錯誤或者語義錯誤的識別度很低。雖然說各個系統(tǒng)都聲稱基于一些大型英語語料庫,但是由于一些詞匯都是有多個含義,而系統(tǒng)無法識別語境,因此系統(tǒng)還是很難判斷大多數(shù)詞匯使用是否準確。這些劣勢都讓作文自動評閱系統(tǒng)的效度受到質(zhì)疑,并且給學生提供的反饋也不是完全可靠。
4 利用自動作文評閱系統(tǒng)的方式
既然自動作文評閱系統(tǒng)在評閱作文的效率更高、更加客觀、反饋更加及時,我們就有必要在寫作教學中利用起這個教學工具。但是,我們也要意識到這些系統(tǒng)盡管在不斷升級還是不能準確識別一些文本特征。這就意味著我們要充分利用自動作文評閱系統(tǒng)的優(yōu)勢,在一定范圍內(nèi)容使用這些系統(tǒng)代替人工評閱。在一些情況下,作文自動評閱系統(tǒng)只能成為人工評閱的輔助工具。
4.1 機器評閱為主
在我國大學英語教學中,一個教師通常需要指導(dǎo)上百名甚至數(shù)百名學生,在一個學期的寫作課程中又需要多次布置寫作練習。在這種情況下,教師就很難抽出足夠的時間評閱數(shù)千篇學生作文。因此,自動評閱系統(tǒng)的優(yōu)勢在這個情況下就可以得到充分的發(fā)揮。況且,平時練習的分數(shù)至多也就是平時成績的一部分,所以評分即便有所差錯也不會對學生的期末總評產(chǎn)生太大的影響。其次,系統(tǒng)還可以對學生每一次練習的作文提供及時的反饋,這些反饋雖然有一定局限性,但是對學生的語法、詞匯和連貫銜接等層面的學習也有一定的指導(dǎo)作用。
在這個模式中,教師的只需要抽查有異常的評分結(jié)果。畢竟,教師對自己的學生的寫作水平還是有大概的了解,當發(fā)現(xiàn)機器評分和自己預(yù)期結(jié)果有明顯差異時,教師可以通過人工評閱的方式進行檢驗核實。國內(nèi)一些作文自動評閱系統(tǒng)也會對一些有抄襲或者機譯嫌疑的作文做出標注,教師只需要對這些作文進行人工評閱。教師在這個過程中是一個監(jiān)督者和質(zhì)量控制者的角色。這個模式可以極大減輕教師的工作量,又能確保學生得到及時的反饋。
4.2 機器評閱占一定比例
在這個模式中,機器評分和人工評分可以各占一定的比重,比如,自動評閱系統(tǒng)和評卷人對一篇作文評分后,分別得出一個分數(shù)。這兩個分數(shù)的平均值就是考生的本次寫作考試的最終成績。這種模式是為了發(fā)揮自動評閱系統(tǒng)的客觀性和一致性的優(yōu)勢,避免人工由于受到情感因素出現(xiàn)的偏差。而加上人工評閱又能確保評分的效度。這個模式適合應(yīng)用到一些重要的寫作測試中,比如,目前的托福考試的寫作部分評分就引入了e-rater的評分。在這個評分模式中,人工評分和系統(tǒng)評分一定會有一定的差異。通常來說,都是預(yù)先設(shè)定一個差值的范圍。當人工評出的分數(shù)和機器評出的分數(shù)差異超出預(yù)設(shè)的范圍時,可以再找另外一個評卷人進行人工評閱。哪兩個分數(shù)最接近,就取哪兩個分數(shù)的平均值。目前,國內(nèi)各種考試都是紙質(zhì)考試,如果引入機器評分,必須有足夠的基于網(wǎng)絡(luò)考試的考位。因此,考位的匱乏決定了這個模式在目前還不能大規(guī)模開展。
4.3 機器評閱為輔
在第三種模式中,系統(tǒng)和評卷人都需要給每篇作文評分,但是系統(tǒng)評出的分數(shù)并不會出現(xiàn)在成績單里,只是用來確保驗證人工評分具有一致性。當系統(tǒng)評出的分數(shù)和人工評分的差異超過了預(yù)設(shè)的范圍時,就會找另外一名評閱人來做出裁決。這個模式注重人工評閱的結(jié)果,是因為有些寫作測試更加看重的是作文的觀點是否新穎或者有批判性思維。而這些文本特征是很難被機器識別的。比如,目前在GRE考試中,就采取了這個評分的模式。這個模式不太適用于國內(nèi)英語寫作考試,畢竟國內(nèi)英語考試主要考查多數(shù)英語學習者對英語基本知識的掌握情況,而并不關(guān)注觀點的新穎或者有獨到的見解。
5 總結(jié)
總之,基于自然語言處理技術(shù)的自動評閱系統(tǒng)雖然在不斷智能化,但是目前還不能完全取代人工評閱的方式。因此,在寫作測試和寫作教學中,這個自動評閱系統(tǒng)還是應(yīng)該和人工評閱結(jié)合起來。既要發(fā)揮系統(tǒng)的優(yōu)勢,又要避免他們的劣勢,確保評分結(jié)果的客觀性、一致性和準確性,也讓學習者得到更及時的反饋。
參考文獻:
[1]Williamson,D.M.,Bejar,I.I.,& Hone,A.S.(1999).Mental model comparison of automated and human scoring.Journal of Educational Measurement,36,158-184.
[2]Powers,D.,Burstein,J.,Chodorow,M.,F(xiàn)owles,M.,& Kulich,K.(2001).Stumping e-rater:Challenging the validity of automated essay scoring(RR-01-03).Princeton,NJ:Educational Testing Service.
[3]陳冰情,張荔.基于自動作文評閱系統(tǒng)反饋的修改過程研究——以批改網(wǎng)為例[J].當代外語研究,2017,(4):37-48.
資助項目:本文系石家莊學院校級教學改革研究與實踐項目“自動作文評閱系統(tǒng)在英語寫作教學中的反饋效果研究”的階段性成果(項目編號:JGXM-201507A)
作者簡介:李焱偉(1980-),男,碩士,講師,主要從事于外語教學研究。