劉明楊 秦兵 劉挺
摘 要:自動作文評分(Automated Essay Scoring,AES)就是讓計算機能夠?qū)ψ魑倪M行評估和打分。隨著自然語言處理技術(shù)的日益成熟,針對中文作文的自動評分成為可能。作文是各種漢語考試中必然要考的科目,國家的中考、高考考生數(shù)量巨大,而且近年來中國漢語水平考試(HSK)的考生數(shù)目也逐年增多。自動作文評分因其具有效率高、客觀性好等特點,因此中文作文自動評分技術(shù)的深入研究很有必要,本文對高考作文自動評分進行了深入研究。本文利用作文中的排比比喻修辭以及詩詞引用來表征作文的文采,對排比修辭進行了分類總結(jié)。提出了啟發(fā)式的方法來對排比以及比喻修辭手法進行自動識別。利用字典樹組織古詩詞資源,快速檢索作文中出現(xiàn)的古詩詞。將文采特征加入到基準(zhǔn)系統(tǒng)中,會對作文自動評分的性能有不錯的提高。
關(guān)鍵詞:高考作文自動評分;排比修辭;字典樹
中圖分類號:TP391.41 文獻標(biāo)識號:A 文章編號:2095-2163(2015)04-
Abstract: The automated essay scoring is that the computer can evaluate and score the essay .With the great progress of natural language processing ,it becomes possible to evaluate and score Chinese composition by computer .Composition must be tested in a variety of Chinese exams ,and there are so many Chinese student take part in college entrance examination and senior high school entrance examination ,and there are more and more foreign students take part in HSK in recent years .The automated essay scoring is highly effective and objective ,so it is necessary to research on automated Chinese composition scoring. The paper uses parallelism and metaphor to represent the feature of the composition literary ,and summarizes the types of parallelism using .After that, the paper proposes a heuristic method to identify parallelism and metaphor .Using Trie data structure to store ancient poetry resources ,it helps us to retrieve the ancient poetry that appeared in the composition .Adding these features to the baseline system ,the performance of the system has been improved.
Keywords: Automated Chinese Composition Scoring ;The Literary of The Composition ; Trie Data Structure
0 引言
自動作文評分是利用統(tǒng)計、自然語言處理、人工智能等技術(shù)對作文進行評估和打分。目前,作文自動評分已逐漸成為自然語言處理研究中的熱點問題。在國外已經(jīng)有多個成熟的作文自動評分系統(tǒng),而且自動作文評分技術(shù)也已經(jīng)在比如GMAT、托福等大規(guī)模國際性英語考試和學(xué)生自我評估中得到了廣泛的應(yīng)用。例如:美國ETS(Educational Testing Service)開發(fā)的E-rater[1-6]自動作文評分系統(tǒng)1999年用于GMAT作文批閱,于2005年開始用于托福考試的作文評分,另國外成熟的自動評分系統(tǒng)還有PEG(Project Essay Grader)[1-3]、IEA(Intelligent Essay Assessor) [7-9]、IntelliMetric[9,10-12]、BESTY(Bayesian Essay Test Scoring System)等。國內(nèi)針對中國語文作文的自動評分系統(tǒng)的研究要遲后于國外主流的AES研究。國內(nèi)最早涉足自動作文評分領(lǐng)域的是梁茂成[13],其研究方向為中國學(xué)生英語作文的自動評分。在相應(yīng)研究中采用了220篇已評分的作文樣本,其中120篇作為訓(xùn)練集,100篇作為驗證集。與人工評分的相關(guān)系數(shù)最高達到0.837。但是作文樣本來源范圍狹窄,數(shù)量較少,并且提取的特征主要是文本淺層特征,未能夠涉及文章的深層結(jié)構(gòu)。國內(nèi)另一位研究自動作文評分的是李亞男[14],其研究方向是漢語作為第二語言測試的作文自動評分。曹亦薇和楊晨[15]首先使用潛在語義分析技術(shù)對漢語作文進行自動評分研究。
本文提出了基于作文文采特征的方法對高考作文進行自動評分。
1 高考作文文采特征的自動識別
1.1 排比以及比喻修辭的自動識別
通過觀察語料可以發(fā)現(xiàn),有文采的文章一般都伴隨著排比和比喻修辭手法[16,17]。作文中如果巧妙恰當(dāng)?shù)剡\用排比,可以使整篇作文氣勢恢宏,給人一氣呵成的感覺,排比整齊的句式具有建筑美,鏗鏘有力的節(jié)奏具有音樂美,加上眾多統(tǒng)一的內(nèi)容,顯示出獨有的壯美風(fēng)格。用這種格式來論述則周密深刻、增強氣勢,能夠表達出作者強烈的思想感情。
排比的短句數(shù)量一般是三個,當(dāng)然也存在少量的只有兩個短句。
排比按照其在作文中的結(jié)構(gòu)位置可以分為以下幾種:
(1)普通排比,此類排比一般出現(xiàn)在高考作文的開篇或者結(jié)尾,能夠讓閱卷老師眼前一亮,體現(xiàn)應(yīng)試者扎實的作文功底。其中,排比內(nèi)分隔短句的標(biāo)點符號并不固定,有分號、逗號、句號三種。
分號分隔:愛是寂寞深夜飄蕩夜空的歌謠,給人慰藉;愛是行走在沙漠間偶然遇見的綠洲,給你希望;愛是茫茫大海上指明的燈塔,給人方向。
逗號分隔:善是長夜中不明的星火,善是路途中絢爛的花枝,善是呼吸時淡雅的香味。
句號分隔:學(xué)會感恩,用感恩驅(qū)散身邊的黑暗迎來希望的曙光。學(xué)會感恩,用感恩掩埋身邊的寒冷迎來內(nèi)心的溫暖。學(xué)會感恩,用感恩裝點世界讓世界充滿生命與活力。
(2)段落排比,即排比分句并不像普通排比一樣位于同一個段落,而是三個短句各自組成三個相鄰的段落,每個段落一個短句。這樣寫的好處是顯得文章結(jié)構(gòu)整齊、增強文章氣勢、引起閱卷人的注意。
比如下面這篇高考作文,分?jǐn)?shù)為51,以段落排比開篇,在顯示應(yīng)試者寫作文采的同時,也引起了閱卷老師的注意,使得閱卷老師眼前一亮。
(3)摘要排比,排比分句式位于不同的段落并且是相應(yīng)段落的摘要句,能夠表現(xiàn)出作者很強的邏輯思維能力,也使得文章的結(jié)構(gòu)嚴(yán)謹(jǐn)。
比如下面這篇文章中,分?jǐn)?shù)為50分。在第2、3、4段,每段以排比句開頭,在簡要地概括了本段的同時,也使得整篇文章的結(jié)構(gòu)編排清晰,使得閱卷人對應(yīng)試者的文章結(jié)構(gòu)一目了然。
通過觀察高考作文語料以及上述排比的例子可以看出,在排比短句中往往使用比喻修辭手法,因為高考作文絕大多數(shù)文體為議論文,議論文中往往以事實論據(jù)、理論論據(jù)的為主,在論據(jù)中并不能很好的利用比喻修辭,所以學(xué)生選擇在排比句中加入比喻修辭手法,排比與比喻聯(lián)姻,更能夠體現(xiàn)學(xué)生作文的文采。
針對以上三種排比,本文提出了啟發(fā)式的方法來自動識別出作文中使用的排比句,排比句的識別流程大致如圖3所示。
由圖3可知,作文經(jīng)過分句、分詞、詞性標(biāo)注等預(yù)處理之后,需首先從作文中抽取候選排比句,其具體實現(xiàn)過程如下:
(1) 工整性檢驗
工整性主要是從排比的長度以及三個排比短句的整齊程度來考慮,一般排比句的長度不宜過長,多數(shù)情況下不超過一行,本文中長度的閾值為maxLength,取值為40;三個排比短句的長度應(yīng)該基本相同,如果有兩個排比短句的長度差過長,則失去了排比句結(jié)構(gòu)整齊的效果,本文中長度差的最大值MaxDistance設(shè)置為7,而且三個排比短句的最長長度差與三個排比短句中的最小長度的比值不應(yīng)超過一個閾值ratio,最大值為0.5。
(2) 排比標(biāo)檢驗
排比標(biāo)是排比句的一個顯著特點,即三個排比句中有相同的連續(xù)字符串。例如下面這三個排比句,其中“感恩是一”以及“在人心中的”都是連續(xù)相同的字符串,構(gòu)成了排比標(biāo)。
三個排比短句都從字符串開始到結(jié)束以及從結(jié)束到開始,抽取其中的相同連續(xù)字符串,如果相同連續(xù)字符串的長度大于某個閾值,則認(rèn)為存在排比標(biāo),閾值設(shè)置為2。
(3) 比喻標(biāo)記
在議論文中,排比句中往往伴隨著比喻修辭手法的使用,比喻修辭的使用更能彰顯學(xué)生作文的文采。從上述的例子也可以看出,在排比句中使用的比喻詞主要有“是”、“像”、“如”、“如同”、“似”、“恰似”等,而且在比喻詞的右側(cè)往往更隨帶著“春風(fēng)”、“陽光”這樣的名詞。本文即主要利用比喻詞識別加上比喻詞右邊詞匯的詞性來對排比句中是否使用比喻進行標(biāo)記。
1.2 古詩詞的自動識別
在高考作文中如果恰當(dāng)引用古詩詞,能夠增加作文的文采,也能夠表現(xiàn)出作者的扎實寫作功底,有時候作文中出現(xiàn)一兩處非常好的引用,就有可能讓閱卷老師從內(nèi)心深處覺得應(yīng)試者的寫作水平是屬于一類卷水準(zhǔn)。比如在有關(guān)“感恩”主題下引用“春蠶到死絲方盡、蠟炬成灰淚始干”、“臣無祖母,無以至今日,祖母無臣,無以終于年?!钡裙旁娫~,不僅會豐富作文的內(nèi)容,也體現(xiàn)了學(xué)生廣泛的閱讀面以及靈活運用課本上所學(xué)知識的能力。
具體地,預(yù)處理步驟主要是將對作文進行分句處理,由于作文中引用古詩詞的地方并不一定由雙引號明確標(biāo)記處,所以要對作文正文中的每個句子都在Trie樹數(shù)據(jù)結(jié)構(gòu)中進行檢索。
Trie樹存儲步驟,是將現(xiàn)有的古詩詞資源以Trie樹數(shù)據(jù)結(jié)構(gòu)來組織,Trie樹又名字典樹,是一種樹形結(jié)構(gòu),屬于哈希樹的變種。該數(shù)據(jù)結(jié)構(gòu)經(jīng)常用于統(tǒng)計、查詢等,優(yōu)點是利用字符串的公共前綴來減少查詢時間,最大限度減少無謂的字符串比較。比如研究中有以下三句古詩詞“春風(fēng)暖玉屏”、“春風(fēng)又綠江南岸”、“春風(fēng)又淼茫”、“君不見黃河之水天上來”,最后建立的Trie樹如圖6所示。
從根節(jié)點開始,方框中的字符串表示從根節(jié)點沿著路徑到此得到的字符串,方框中右邊的數(shù)字表示頻率?!按骸弊钟疫叺臄?shù)字3表示在以春開頭的詩詞有3句。而在已有的古詩詞資源庫中,以“春”字開頭的詩句有4 353句,以“春風(fēng)”開頭的詩句有700句,所以采用Trie樹存儲古詩詞能夠很大程度上減少程序內(nèi)存的使用。
檢索步驟,在已經(jīng)建立了Trie樹的基礎(chǔ)上檢索作文中是否出現(xiàn)了古詩詞庫中的詩句速度也是很快的。其查找步驟如下:
(1) 從根節(jié)點開始搜索;
(2) 取得要查找關(guān)鍵詞的第一個字符,并根據(jù)該字母選擇對應(yīng)的子樹并轉(zhuǎn)到該子樹繼續(xù)進行檢索,如果該字符并無對應(yīng)的子樹則查找失?。?/p>
(3) 重復(fù)第2步驟;
(4) 在某個節(jié)點處,字符串的所有字符已經(jīng)被取出,則表示查找成功;
2 實驗結(jié)果與結(jié)論分析
2.1 實驗數(shù)據(jù)以及評價方法
實驗數(shù)據(jù)來源于人工轉(zhuǎn)寫的某省2014年高考作文,共1 016篇作文。選取其中508篇作為訓(xùn)練數(shù)據(jù)、508篇作為測試數(shù)據(jù)。作文在各個分?jǐn)?shù)點上的分布圖如圖7所示。
2.2 Baseline系統(tǒng)簡介
在實驗中,本文采用另一位同學(xué)所做的基礎(chǔ)實驗作為Baseline,Baseline系統(tǒng)采用支持向量回歸模型,將高考作文自動評分看作是一個回歸問題。Baseline系統(tǒng)從作文中抽取簡單的特征,包括作文的長度(以字為單位)、作文中所包含的高級詞匯的數(shù)目(漢語水平考試等級中的六級詞匯)、作文中所包含的成語的數(shù)目、作文的段落個數(shù)、作文中所包含的命名實體的數(shù)目等。
2.2 實驗對比與分析
本章將抽取文采特征加入到Baseline系統(tǒng)后,將其與baseline對比的實驗結(jié)果如表1所示。
實驗結(jié)果表明,Baseline+LG表示在Baseline系統(tǒng)的基礎(chǔ)之上,加入從文章中抽取出的文采特征,排比、詩詞引用等特征對系統(tǒng)的性能會有很大的提升。一類卷的F值從0提升到4.34%,增加了4個點,Baseline系統(tǒng)中的一類卷F值之所以為0是因為在測試集合上Baseline系統(tǒng)的預(yù)測分?jǐn)?shù)并沒有高于50分,也即預(yù)測集合中沒有出現(xiàn)一類卷,導(dǎo)致一類卷的召回率為0。二類卷的F值基本不變,三類卷、四類卷的F值不受影響。
3 結(jié)束語
本文主要對高考作文中使用的排比進行分類總結(jié),提出了啟發(fā)式的方法對高考作文中使用的排比比喻修辭手法進行識別,利用Trie樹存儲古詩詞資源來對高考作文中使用的古詩詞進行自動識別,減少了內(nèi)存使用空間增加了檢索效率。
為了評價文采特征對高考作文自動評分的幫助,在某省的實際高考作文語料上進行實驗,baseline系統(tǒng)提取作文的淺層特征,訓(xùn)練支持向量回歸模型,在baseline系統(tǒng)上加入本章抽取出的文采特征之后,對系統(tǒng)的性能有了提高,一類卷以及三類卷的F值均獲得了不錯的提升。
針對一類卷F值的提升,在加入文采特征的基礎(chǔ)上,采用Over Sampling方法,對訓(xùn)練集中一類卷進行增重采樣。結(jié)果顯示,在犧牲一些二類卷F值的前提下,對一類卷的F值有大幅的提升。
參考文獻:
[1] RAMINENI C, TRAPANI C S, WILLIAMSON D M, et al. Evaluation of the e-rater? Scoring Engine for the GRE? Issue and Argument Prompts[J]. Ets Research Report, 2012, 2012(1):i–106.
[2] DIKLI S. Automated essay scoring[J]. Turkish Online Journal of Distance Education, 2006, 7(1):735 - 738.
[3] DIKLI S. An overview of automated scoring of essays.[J]. Journal of Technology Learning & Assessment, 2006, 5(1):1-36.
[4] VALENTI S, NERI F, CUCCHIARELLI R. An overview of current research on automated essay grading[J]. Journal of Information Technology Education, 2003, 2:2003.
[5] POWERS D E, BURSTEIN J C, CHODOROW M, et al. Stumping e-rater :challenging the validity of automated essay scoring[J]. Computers in Human Behavior, 2002, 18(1):103–134.
[6] ATTALI Y, BURSTEIN J. Automated essay scoring with e-rater03 V.2[J]. Journal of Technology Learning & Assessment, 2004, 4(3):i–21.
[7] LANDAUER T K, LAHAM D, FOLTZ P W. The intelligent essay assessor[J]. Intelligent Systems IEEE, 2000, 15(5):27-31.
[8] LANDAUER T K, LAHAM D, FOLTZ P W. Automated scoring and annotation of essays with the Intelligent Essay Assessor[J]. M.d.shermis & J.burstein, 2003:87-112.
[9] RUDNER L M, GARCIA V, WELCH C. An evaluation of IntelliMetric64 essay scoring system[J]. Journal of Technology Learning & Assessment, 2006, 4(4).
[10] Burstein J. The E-rater? scoring engine: Automated essay scoring with natural language processing[J]. M.d.shermis & J.c.burstein, 2003:113-121.
[11] QUINLAN T, HIGGINS D, WOLFF S. Evaluating the construct-coverage of the E-rater? scoring engine[J]. Ets Research Report, 2009, 2009(1):i–35.
[12] ELLIOT S. Intellimetric: from here to validity[J]. Automated Essay Scoring: A Cross Disciplinary Perspective, 2003, 2003.
[13] 梁茂成, 文秋芳. 國外作文自動評分系統(tǒng)評述及啟示[J]. 外語電化教學(xué), 2007, (5):18-24.
[14] 李亞男. 漢語作為第二語言測試的作文自動評分研究[D]. 北京語言大學(xué), 2006.
[15] 楊晨, 曹亦薇. 作文自動評分的現(xiàn)狀與展望[J]. 中學(xué)語文教學(xué), 2012, (3):78-80.
[16] 朱躍生. 排比比喻聯(lián)姻:作文出彩的重要方法[J]. 中學(xué)語文:大語文論壇旬刊, 2012, (9):73-74.
[17] 李勝梅. 排比的篇章特點[J]. 南昌大學(xué)學(xué)報:人文社會科學(xué)版, 2005, 36(5):121-127.