寫作機(jī)評(píng)原理及應(yīng)用述評(píng)

2016-05-14 09:02:37黃萬武項(xiàng)頒

校園英語·上旬 2016年9期

黃萬武項(xiàng)頒

【摘要】本文依據(jù)語言測(cè)試領(lǐng)域的作文評(píng)分要素，對(duì)國(guó)外具有代表性的三種寫作機(jī)評(píng)系統(tǒng)原理和國(guó)內(nèi)主要的寫作機(jī)評(píng)應(yīng)用進(jìn)行評(píng)介和比較，指出這些評(píng)分系統(tǒng)和軟件在評(píng)分信度和效度等方面優(yōu)勢(shì)和劣勢(shì)，并分析這些作文自動(dòng)評(píng)分系統(tǒng)為我國(guó)自主開發(fā)作文自動(dòng)評(píng)分系統(tǒng)所提供的借鑒作用。

【關(guān)鍵詞】寫作機(jī)評(píng)系統(tǒng)原理寫作機(jī)評(píng)應(yīng)用評(píng)分要素

寫作自動(dòng)評(píng)分系統(tǒng)對(duì)能夠提高語言測(cè)試的效率和降低成本，本文著重介紹國(guó)外內(nèi)經(jīng)典的寫作機(jī)評(píng)原理，并簡(jiǎn)要分析他們的優(yōu)缺點(diǎn)。

一、經(jīng)典的寫作機(jī)評(píng)原理

1.基于語言形式的機(jī)評(píng)系統(tǒng)——PEG。PEG于1966年由美國(guó)杜克大學(xué)的Ellis Page等人開發(fā)。PEG的設(shè)計(jì)者認(rèn)為作文質(zhì)量有賴于作文的深層結(jié)構(gòu)，而機(jī)器無法直接衡量，因此，他們以文本表層特征項(xiàng)為切入點(diǎn)，間接評(píng)價(jià)作文質(zhì)量。

PEG寫作機(jī)評(píng)分三階段：變量提取、多元回歸分析和把多元回歸得到的beta值代入計(jì)算機(jī)程序換算出作文得分。PEG首先收集了一部分人工評(píng)分后的作文，再利用自然語言處理技術(shù)，從作文中提取若干個(gè)文本特征項(xiàng)，并在這些文本特征項(xiàng)與人工評(píng)分之間進(jìn)行相關(guān)性分析。然后，Page選擇與人工評(píng)分相關(guān)的文本特征項(xiàng)作為自變量，把人工評(píng)分作為因變量，進(jìn)行多元回歸分析，得到回歸方程。回歸方程為每一個(gè)變量確定了beta值，這樣，在對(duì)新的作文進(jìn)行評(píng)分時(shí)，PEG只需要提取這些變量，并把beta值代入回歸方程之中，就可以預(yù)測(cè)出這些作文的得分。PEG目前的程序中包含很多復(fù)雜的變量，但PEG的開發(fā)者們并沒有對(duì)這些 “復(fù)雜的變量”作出明確的界定。

2.基于內(nèi)容的機(jī)評(píng)系統(tǒng)——IEA。IEA（Intelligent Essay Assessor）是一種基于潛伏語義分析的作文自動(dòng)評(píng)分系統(tǒng)，由美國(guó)科羅拉多大學(xué)的Thomas Landauer等學(xué)者開發(fā)。不同于PEG，潛伏語義分析著重分析文本的內(nèi)容，而不是語言。

潛伏語義分析集理論與技術(shù)于一體。在理論層面上，它認(rèn)為任何文本都有一個(gè)潛在的語義結(jié)構(gòu)，這一潛在的語義結(jié)構(gòu)即全部詞匯的語義之和。然而，自然語言中存在大量的多詞同義和一詞多義現(xiàn)象，這對(duì)我們正確理解文本造成嚴(yán)重干擾。就技術(shù)而言，潛伏語義分析屬于一種矢量空間模型技術(shù)，它可通過降維的方法，有效排除干擾，析取數(shù)據(jù)中的潛在語義結(jié)構(gòu)。潛在語義結(jié)構(gòu)可由一個(gè)詞匯項(xiàng)文檔矩陣來代表，矩陣中的每行表示一個(gè)詞匯項(xiàng)，每列表示一個(gè)文檔，而矩陣的每個(gè)單元格中的元素為相應(yīng)詞匯項(xiàng)在相應(yīng)文檔中出現(xiàn)的頻數(shù)。

運(yùn)用矩陣代表潛在語義結(jié)構(gòu)，可進(jìn)行奇異值分解的矩陣運(yùn)算，通過該運(yùn)算，原來的矩陣可以被分解成為三個(gè)不同的矩陣。降維后，對(duì)這三個(gè)矩陣展開進(jìn)一步的運(yùn)算。該矩陣保持了原來矩陣中最重要的語義聯(lián)想關(guān)系，同時(shí)又屏蔽了大量的干擾信息。

將潛伏語義分析用于學(xué)生作文自動(dòng)評(píng)分時(shí)，待評(píng)分的作文與范文均被視作矢量，完成矢量間的比較后，可得到每篇待評(píng)分作文與范文在內(nèi)容上的相似度評(píng)分。根據(jù)Landauer等人的報(bào)告，該系統(tǒng)所評(píng)出的作文得分與人工評(píng)分之間的相關(guān)性達(dá)到r=0.85。

3.基于層次結(jié)構(gòu)的機(jī)評(píng)系統(tǒng)——E-rater。E-rater是由美國(guó)教育考試處于20世紀(jì)90年代開發(fā)，其目的是評(píng)估GMAT考試中的寫作水平。該系統(tǒng)利用了多項(xiàng)技術(shù)，其中包括統(tǒng)計(jì)技術(shù)、矢量空間模型技術(shù)和自然語言處理技術(shù)。因此，它不僅能像PEG那樣評(píng)判作文的語言質(zhì)量，還能像IEA那樣評(píng)判作文的內(nèi)容質(zhì)量。另外，E-rater還可分析語篇結(jié)構(gòu)。類似于PEG，E-rater的評(píng)分方法基于線性回歸模型。E-rater圍繞三個(gè)層面評(píng)析作文的質(zhì)量：第一層為話語結(jié)構(gòu)（亦即篇章結(jié)

構(gòu)），主要靠在文本中搜索“To begin with”、“In conclusion”等篇章銜接詞的方法得以實(shí)現(xiàn)；第二層為句法多樣化，根據(jù)作文中句子結(jié)構(gòu)的多樣化來評(píng)判作文的語言質(zhì)量；第三層為內(nèi)容。這里，E-rater通過矢量空間模型，檢測(cè)作文中是否包含了充足的與作文題目高度相關(guān)的主題詞。

研究表明，E-rater與人工評(píng)分之間的一致性一直高于97%。但E-rater的三個(gè)層次結(jié)構(gòu)中具體包括哪些變量，則是眾說紛紜。Kukich報(bào)告聲稱E-rater可析取100多個(gè)變量，Power et al.表示E-rater可析取50多個(gè)變量，而Attali和Burstein的報(bào)告則堅(jiān)持認(rèn)為最新版本的E-rater “依據(jù)有關(guān)理論對(duì)寫作能力的若干方面給予考慮”，只提取12個(gè)變量。

二、有代表性的寫作機(jī)評(píng)應(yīng)用

1.國(guó)外主要英語作文自動(dòng)評(píng)價(jià)工具軟件。國(guó)外最有代表性的寫作機(jī)評(píng)應(yīng)用當(dāng)Writing Roadmap 2.0（WRM 2.0）。著名學(xué)者吳一安和唐錦蘭考察了機(jī)評(píng)系統(tǒng)WRM 2.0對(duì)高校英語寫作教學(xué)的影響。學(xué)研究表明，學(xué)生寫作能力、自主學(xué)習(xí)能力及寫作教學(xué)過程在一定程度上與WRM 2.0的應(yīng)用正相關(guān)。另外，他們得出結(jié)論，寫作教學(xué)應(yīng)從關(guān)注語言形式和寫作結(jié)果向關(guān)注內(nèi)容深度和寫作過程靠攏。蔣學(xué)清等對(duì)寫作機(jī)評(píng)系統(tǒng)在大學(xué)英語寫作中的教學(xué)應(yīng)用研究發(fā)現(xiàn)，通過一學(xué)期的教學(xué)，實(shí)驗(yàn)組和對(duì)照組的英語寫作水平都有了明顯進(jìn)步，且實(shí)驗(yàn)組的進(jìn)步幅度更大。這表明形成性評(píng)價(jià)方式和具有自動(dòng)反饋功能的在線寫作工具可輔助學(xué)習(xí)者寫作。此外，王淑雯、楊玲結(jié)合教學(xué)實(shí)踐，介紹了在寫作教學(xué)中如何使用WRM 2.0為師生提供多元化反饋，最后闡述了該系統(tǒng)的長(zhǎng)處和不足。周穎剖析了WRM 2.0寫作機(jī)評(píng)系統(tǒng)的問題，原因和對(duì)策。

2.國(guó)內(nèi)主要英語作文自動(dòng)評(píng)價(jià)工具軟件。

（1）句酷批改網(wǎng)。批改網(wǎng)的核心算法是計(jì)算待評(píng)文本和標(biāo)準(zhǔn)語料庫之間的距離，再將對(duì)應(yīng)的距離映射為作文分?jǐn)?shù)和評(píng)語。技術(shù)要點(diǎn)是將每一篇輸入的作文分解成可測(cè)量的192個(gè)維度，分析過程充分利用了自然語言技術(shù)和機(jī)器學(xué)習(xí)的方法，每篇作文先被自動(dòng)切分成句子，然后對(duì)每個(gè)句子進(jìn)行深層語義分析，從中抽取詞、搭配、詞組等結(jié)構(gòu)化單元。主要功能包括分?jǐn)?shù)即刻顯現(xiàn)、圖文報(bào)表式作文分析結(jié)果抄襲檢測(cè)等。

（2）冰果英語智能作文評(píng)閱系統(tǒng)。它可以即時(shí)給出作文評(píng)分，并從詞匯、語法、文風(fēng)、內(nèi)容等方面給出反饋，但該系統(tǒng)目前無法做到對(duì)同一篇作文反復(fù)修改與評(píng)閱。

（3）TRP（ Teaching Resource Program）教學(xué)資源平臺(tái)。它根據(jù)寫作教學(xué)需求，將數(shù)字化、網(wǎng)絡(luò)化與區(qū)域化教學(xué)平臺(tái)進(jìn)行了有機(jī)的整合，并涵蓋了資源建設(shè)、平臺(tái)構(gòu)建、寫作學(xué)習(xí)、句型練習(xí)、語法測(cè)驗(yàn)、作文評(píng)分、寫作研究與評(píng)語生成作為考試等功能。

（4）易改機(jī)評(píng)軟件。其主要功能包括：1）一鍵檢查：檢查英語文本拼寫、語法糾錯(cuò)和文章風(fēng)格等；2）錯(cuò)誤解釋：對(duì)錯(cuò)誤類型和錯(cuò)誤原因給予詳盡的解釋；3）寫作潤(rùn)色：在維持原意的情況下為文本潤(rùn)色。它采用了基于自然語言處理與機(jī)器學(xué)習(xí)相結(jié)合的糾錯(cuò)方法，讓機(jī)器學(xué)習(xí)模型大量閱讀（一萬億詞級(jí)別）正確的英語，構(gòu)建一個(gè)極為精確的模型。每遇到一個(gè)輸入的句子，易改的后端模型會(huì)首先分析每個(gè)句子結(jié)構(gòu)，然后通過實(shí)例語料模型中的上下文來判斷寫作是否有誤。

（5）大規(guī)?？荚囉⒄Z作文自動(dòng)評(píng)分系統(tǒng) EFL Assay Evaluator 1.0。它結(jié)合第二語言習(xí)得理論、語料庫語言學(xué)理論、測(cè)試學(xué)、統(tǒng)計(jì)學(xué)，利用自然語言處理技術(shù)，挖掘出穩(wěn)定的文本特征變量，構(gòu)建評(píng)分模型。但該軟件在研制過程中僅使用了1000多篇學(xué)生作文作為實(shí)驗(yàn)樣本，與大規(guī)?？荚囍械淖魑目傮w樣本量差距較大，評(píng)分信度較低。另外，它難以判斷極具創(chuàng)新性的寫作文本的質(zhì)量，僅適用于對(duì)議論文和說明文體的作文進(jìn)行評(píng)價(jià)。

三、結(jié)論

作文自動(dòng)評(píng)分是利用多學(xué)科技術(shù)來模擬人工評(píng)分，從而高效評(píng)定作文質(zhì)量。一個(gè)合理的作文自動(dòng)評(píng)分系統(tǒng)應(yīng)該充分利用統(tǒng)計(jì)技術(shù)、自然語言處理技術(shù)、信息檢索技術(shù)及其它可能利用的技術(shù)，從作文文本中挖掘能夠直接反映作文質(zhì)量的文本特征項(xiàng)作為變量，有效地提高評(píng)分模型對(duì)作文質(zhì)量的預(yù)測(cè)能力。

參考文獻(xiàn)：

[1]Chung G.，& ONeil H.Jr.Methodological Approaches to Online Scoring of Essays[R]（Report No.CSE-TR-461）.Los Angeles.CA：University of California.Los Angeles Center for the Study of Evaluation 1997.

[2]Foltz，P.W.，Kintsch，W.& Landauer，T.K.The Measurement of Textual Coherence with Latent Semantic Analysis[J].Discourse Process.1998.25，285-308.

[3]Valenti，S.，Neri，F(xiàn).and Cucchiarelli，A.An Overview of Current Research on Automated Essay Grading[J].Journal of Information Technology Education.2003.2，112-130.

[4]桂詩春.潛伏語義分析的理論及其應(yīng)用[J].現(xiàn)代外語，2003，（1）.

[5]蔣學(xué)清.探析自動(dòng)作文評(píng)價(jià)系統(tǒng)對(duì)大學(xué)生英語寫作能力發(fā)展的影響[J].山東外語教學(xué)，2011（6）.

[6]雷曉東.英語作文自動(dòng)評(píng)價(jià)系統(tǒng)技術(shù)的國(guó)內(nèi)研究與應(yīng)用[J].科技視界，2015（35）.

[7]梁茂成，文秋芳.國(guó)外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示[J].外語電化教學(xué)，2007（5）.

[8]梁茂成.大規(guī)?？荚囉⒄Z作文自動(dòng)評(píng)分系統(tǒng)的研制[M].北京：外語教學(xué)與研究出版社，2012.

[9]王淑雯.如何利用Writing Roadmap 2.0進(jìn)行在線英語寫作反饋[J].現(xiàn)代教育科技，2011（3）.

[10]吳一安，唐錦蘭.融入自動(dòng)評(píng)價(jià)系統(tǒng)的英語寫作實(shí)驗(yàn)教學(xué)對(duì)高校英語教師的影響研究[J].外語電化教學(xué)，2012（4）.

[11]楊玲.作文自動(dòng)評(píng)價(jià)系統(tǒng)在高水平學(xué)生英語寫作學(xué)習(xí)中的應(yīng)用[J].現(xiàn)代教育技術(shù)，2013（5）.

[12]周穎.在線形成性評(píng)價(jià)工具在英語寫作中的應(yīng)用——困難及對(duì)策探究[J].現(xiàn)代教育技術(shù)，2011（9）.

作者簡(jiǎn)介：

黃萬武（1972.9-），男，副教授，碩士生導(dǎo)師，研究方向：外國(guó)語言學(xué)及應(yīng)用語言學(xué)。

項(xiàng)頒（1989.7-），女，湖北工業(yè)大學(xué)外國(guó)語學(xué)院研究生在讀，研究方向：外國(guó)語言學(xué)及應(yīng)用語言學(xué)。

校園英語·上旬2016年9期

校園英語·上旬的其它文章: Vegetation and climate changes in Central Asia during the last 28，000 yrs： A high—resolution pollen record from Valikhanovsection， Kazakhstan; 論國(guó)際商務(wù)英語翻譯的多元化標(biāo)準(zhǔn); Work Ethics and General Morality; Research on Application of Edible Landscape in Rural Tourism： A Case of Dendrobium Landscape in Pu’er City; 創(chuàng)傷理論視角下的《藻海無邊》; 從格萊斯的會(huì)話含義理論的角度分析《當(dāng)幸福來敲門》中的人物對(duì)白