劉衛(wèi)忠 余力
摘要:分析研究當前國內外英語作文自動評分系統(tǒng)的研究成果,提出了一種基于鏈語法(Link Grammar)的能為學生提供實時訓練的英語作文自動評分系統(tǒng)。系統(tǒng)首先通過依據Link Grammar對句子分析后的成本向量(cost vector)計算文章的語法權值,其次則利用文章核心詞、非核心詞熵值和有效句比例來對文章主題分檔,最后則是結合語法權值和主題分檔結果計算文章分數。測試結果表明,10~15分段作文達到了88.9%的準確率,說明該系統(tǒng)在10~15分段作文具有較好的適應性,同時系統(tǒng)的分析時間也能很好的滿足實時性的要求。
關鍵詞:自動作文評分;鏈語法;信息熵;主題分檔;英語教學
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2014)02-0284-04
作文自動評分 (Automated Essay Scoring,AES)就是利用計算機技術對作文的語言、內容等方面進行評估與打分[1]。由于作文自動評分具有諸如實用性、一致性等突出優(yōu)點,近年來該方向的研究在國內也逐漸得到外語教學界和自然語言處理界的重視,相關專家學者如梁茂成[2]和葛詩利、陳瀟瀟[3]等都做了大量的嘗試和研究。但與國外相比,國內的相關研究具有明顯的探索性和探討性,研究的針對性和實用性較弱。目前國外在教育考試領域處于實用中的一些AES系統(tǒng)有Project Essay Grader(PEG)、Intelligent Essay Assessor(IEA)、E-rater等。但是,這些系統(tǒng)對于英語作為外語的考生的作文寫作幫助和評分是否需要考慮不同的因素尚沒有透徹的研究[4]。
此外,盡管國外自動作文評分研究取得了較好的評分效果,但這些研究主要是針對英語母語或者較高水平的英語作為外語的學習者的大規(guī)??荚噯我活}目作文評分,對于我國英語寫作教學來說,更迫切需要的是一種能夠針對大多數學生英語寫作水平,提供多題目實時訓練的作文自動評估和反饋系統(tǒng),這不僅能增加學生英語作文訓練的機會,同時也能減輕老師的批改負擔。而這也是本文研究的意義和目標。
研究計算機自動作文評分,首先要面對的就是評分標準的形式化問題。當前主要有兩種外語作文評分形式:分項評分和整體評分[5]。前者主要是利用機器學習的方法,從大樣本中提取某些有效評分特征及其權重用于未評分作文的評分,如國外E-rater的開發(fā)人員提取文本特征建立回歸方程,進行線性回歸,得到了與人工評分較高的相關度[6]。國內的如梁茂成教授等[7]。而后者則是按照寫作理論細化評分標準,提取內容和語言使用方面能夠形式化的評分特征,同時分配各特征在作文評分中的權重,如曾用強的過程化作文評估[8]以及葛詩利面向大學英語教學的通用計算機作文評分和反饋方法研究[9]。由于前者依賴于大樣本的機器學習,因而不具有實時性和作文題目靈活多變的特點。因而本文采用后一種整體評分方法,從語法分析和主題內容這兩個大的方面來研究和設計實時性的作文自動評分系統(tǒng)。
1 語法分析
對外語寫作者,即便是較高水平的外語寫作者,如托福考生,自動作文評分與人工評分也會出現統(tǒng)計上的顯著性差異[10]。主要原因是傳統(tǒng)分析器的語言形式關注的往往是哪些符合語法,而不是哪些不合語法,因而在面對不合語法的輸入時,傳統(tǒng)分析器顯得非常呆板。然而關鍵是不合語法規(guī)范的文章是很多的,特別是對于低水平的英語寫作者,即作文中高頻率出現詞匯和句法方面錯誤的漢英中介語,傳統(tǒng)的語法分析器則會遇到更大的困難,并且其健壯性也面臨很大挑戰(zhàn)。用來解決健壯性問題的方法之一是制定反映不合語法規(guī)范的稱之為“不良規(guī)則”的編碼規(guī)則[11]。
在本次研究中,所選擇的分析器是由D.Sleator和D.Temperley開發(fā)的鏈語法分析器(Link Parser)[12]。鏈語法(Link Grammar)不是建立在樹結構的基礎上,而是將語言知識完全落實到詞匯基礎上,通過詞語的鏈接(Link)屬性,來對句子進行分析。在分析不合語法的輸入時,鏈語法分析器能夠跨越句子中不合語法的單詞,找到后面的詞匯,并連接構成有句法意義的詞對,比如:主語+動詞,動詞+賓語,介詞+賓語,形容詞+狀語修飾語,和助動詞+動詞等,因而鏈語法分析器具有很好的健壯性。
2 文章主題
主題打分主要從文章的單詞數量和文章切題程度兩方面來展開。仿照人工評分時歸檔的思想,主題評分也按照分檔的思路進行。針對文章詞數和文章內容,主題評分的分檔分兩步完成:第一步通過文章的單詞數目來歸檔;第二步則是在第一步基礎上,通過文章核心詞熵值、非核心詞熵值、有效詞的比例這三個參數來對文章進行降檔。
2.1 單詞數目歸檔
2.2 根據文章內容降檔
文章內容是否切題也是作文評分的重要方面。而作文主題作為作文自動評分的重要依據之一,也引起了學者專家們的廣泛關注和研究。文秋芳(2007)的研究[13]更是表明“作文內容能夠解釋作文總體質量56%的差異”。雖然她的研究對象是中國英語專業(yè)學生,但也明確說明了作文中主題的重要性。
經過2.1節(jié)的單詞分檔完成后,進一步需要通過能反映文章內容的特征量給文章降檔。這里借鑒了信息論里的信息熵的概念來考量文章是否切題。Shannon指出,任何信息都存在冗余,冗余大小與信息中每個符號(數字、字母或單詞)的出現概率或者說不確定性有關[14]。在信息世界,熵越高,則能體現越多的信息,熵越低,則意味著包含的信息越少。因而,信息熵能很好反映文本中所包含信息量的大小。人工閱卷時,閱卷老師往往依據核心詞的數量以及分布來評判一片作文是否切題,即文本中是否包含了反映主題的足夠信息。因而,使用信息熵來模擬人工閱卷時對主題的評判是一種可行的嘗試。
依據人工評分模式以及大量測試分析,選擇了核心詞熵值、非核心熵值以及有效句子比例這三個因素來作為文章降檔的特征量。其中核心詞熵值主要體現了文章主要內容是否圍繞題意展開,非核心詞熵值則反映了文章詞匯和內容的豐富性,有效句比例則是考慮到核心詞分布區(qū)間的問題。其中,非核心詞匯的熵值記為S1,核心詞匯的熵值記為S2,有效句子比例記為S3,這三個值各有一個閾值,如果S1小于對應的閾值,記S1=0,否則S1=1。S2,S3以同樣方法取值,單詞數目記為W,文章所屬檔位記為D。經過詞數分檔后,再經過S1,S2,S3降檔。
4 測試結果與分析
針對本文設計的英語作文自動評分系統(tǒng),該文做了相應的測試。測試樣本來源于學生英語聯(lián)考樣本,作文滿分為25分,從中隨機抽選了999份樣本進行本次測試。樣本分布如表格3所示。
測試結果如表格4所示,其中準確性測試計入相鄰分數,即上下相差4分的作文也計入準確評分。
根據表4可以看出,不同分數段的作文準確率存在較大的差異,其中,10~15分段的作文準確率最高,達到了88.9%,而20~25分段作文準確率最低(35.6%),表明目前的評分算法并不能適應各個分數段的作文樣本。由于20~25分段作文屬于優(yōu)秀作文,此時除了語法和主題這兩個基本因素需要考量外,詞匯的考量,特別是高級詞匯的使用則也成為重要的評分依據。因而對于詞匯的分類和考量是需要進一步完善的。
此外,從整體來看,作文評分的準確率還不是很高,只有71.3%。一方面,Link Parser在分析句子時會引起一些誤判,從而導致語法權值受到了影響;另一方面,作文評分算法只考慮語法和文章主題兩個顯然是不夠的,還需要在詞匯使用、文章連貫性等方面進行更多的研究和考量。
盡管上述算法整體準確率不高,但是本次試驗還是得到了比較有意義的結果。對于10~15分段作文達到了88.9%的準確率,表示本次的研究方法對于該分數段作文具有較好的適應性;此外從平均每篇作文樣本的運行時間來看,分析一篇作文需要2.3秒左右,這滿足現實情況下的實時評分的需求。
5 結束語
本文采用整體評分的形式,對我國學生英語作文自動評分進行了探索和研究,并得到了一些具有意義的結果,首先,對于10~15分段作文達到了88.9%的準確率,表示研究方法對于該分數段作文具有較好的適應性;此外從平均每篇作文樣本的運行時間來看,分析一篇作文需要2.3秒左右,這滿足現實情況下的實時評分的需求。當然也發(fā)現了需要進一步研究和解決的問題。首先,針對Link Parser的誤判,需要通過有效的方式去減少這種誤判,可以通過修改Link Parser內部的規(guī)則來適應我國英語學習者的寫作習慣,也可以通過對Link Parser結果的過濾來提高其評判的準確性;其次,在語法和主題方面還需進一步研究和發(fā)掘能反映中國學生英語寫作水平的特征,如詞匯的分類、句子連貫性等,使整個評分系統(tǒng)更加的全面和豐富。
參考文獻:
[1] Cheville J.Automated Scoring Technologies and the Rising Influence of Error[J].English Journal,2004,93(4):47-52.
[2][7] 梁茂成,文秋芳.國外作文自動評分系統(tǒng)評述及啟示[J].外語電化教學,2007(5):18-24.
[3]葛詩利,陳瀟瀟.中國EFL學習者自動作文評分探索[J].外語界,2007(5):43-57.
[4] 韓寧.幾個英語作文自動評分系統(tǒng)的原理與評述[J].教育部考試中心,2009(3):38-44.
[5] 李志雪.如何更加客觀合理地給學生作文評分[J].Sino-US English Teaching, 2004, 1(11):61 -63.
[6] Valenti S,Neri F,Cucchiarelli A.An Overview of Current Researchon Automated Essay Grading[J].Journal of information Technology Edueation,2003(2):319-330.
[8]曾用強.過程化的寫作評估模式[J].福建外語,2002(3):26-31.
[9] 葛詩利. 面向大學英語教學的通用計算機作文評分和反饋方法研究[D].北京:北京語言大學,2008.
[10] 刁琳琳.英語本科生詞塊能力調查[J].解放軍外國語學院學報,2004(4):35-38.
[11] Kathleen F McCoy, Christopher A Pennington,Linda Z.Suri.English error correction: A syntactic user model based on principled “mal-rule” scoring[C]//Proceedings of the Fifth International Conference on User Modeling,User Modeling, Inc,1996:59-66.
[12] Link Grammar [EB/OL].[2012-04-20].http://www.link.cs.cmu.edu/link/.
[13] 文秋芳.“作文內容”的構念效度研究[J].外語研究,2007(3):66-71.
[14] Shannon C E.A mathematical theory of communication[J].Bell System Technical Journal,1948(27):379-423,623-656.