• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      自動(dòng)寫作評(píng)閱反饋系統(tǒng)研究述評(píng)與展望

      2017-01-17 05:22:13MarkWarschauer
      當(dāng)代外語(yǔ)研究 2016年6期
      關(guān)鍵詞:寫作能力特征作文

      張 荔 Mark Warschauer 盛 越

      (上海交通大學(xué),上海,200240;University of California,Irvine,CA 92697;上海工程技術(shù)大學(xué),上海,201620)

      自動(dòng)寫作評(píng)閱反饋系統(tǒng)研究述評(píng)與展望

      張 荔 Mark Warschauer 盛 越

      (上海交通大學(xué),上海,200240;University of California,Irvine,CA 92697;上海工程技術(shù)大學(xué),上海,201620)

      文章論述了PEG、IEA、IntelliMetric、e-rater、BETSY這五種具有代表性的自動(dòng)作文評(píng)閱(AES)系統(tǒng)的原理、特征、功能、優(yōu)缺點(diǎn),分析比較其共性和差異,論證其發(fā)展過程,總結(jié)和展望未來發(fā)展的若干特點(diǎn):設(shè)計(jì)有助于提高學(xué)習(xí)者認(rèn)知能力和辯證性思維能力的AES系統(tǒng);評(píng)判重點(diǎn)從語(yǔ)言和結(jié)構(gòu)轉(zhuǎn)向論點(diǎn)思辨和修辭效果;能夠?qū)Ω鞣N文體類型的作文進(jìn)行評(píng)定;開發(fā)對(duì)寫作過程提供形成性評(píng)估的AES系統(tǒng);利用機(jī)器學(xué)習(xí)技術(shù),設(shè)計(jì)開放式AES系統(tǒng)平臺(tái);開發(fā)和利用可進(jìn)行人機(jī)對(duì)話的反饋模式;交叉學(xué)科的合作在系統(tǒng)發(fā)展中的作用將更為突出;逐步建立對(duì)多種語(yǔ)言的評(píng)分反饋功能。

      自動(dòng)作文評(píng)分,評(píng)分原理要素,自然語(yǔ)言處理,認(rèn)知思維能力

      1.引言

      計(jì)算機(jī)技術(shù)的不斷進(jìn)步使科技在測(cè)試和教學(xué)領(lǐng)域中的應(yīng)用越發(fā)深入與廣泛,其中一個(gè)重要的應(yīng)用是自動(dòng)作文評(píng)分系統(tǒng)(AES-Automated Essay Scoring)或自動(dòng)作文評(píng)閱系統(tǒng)(AWE-Automated Writing Evaluation)①的開發(fā)和應(yīng)用。這不僅有利于高風(fēng)險(xiǎn)、大規(guī)模測(cè)試中增加評(píng)分的信效度,還有助于寫作教學(xué)中給予即時(shí)反饋和減輕教師作文評(píng)閱負(fù)擔(dān)。比較有代表性的AES系統(tǒng)有PEG(Project Essay Grader)、IEA(Intelligent Essay Assessor)、e-rater(及Criterion②)、IntelliMetric(及MY Access!③)和BETSY (Bayesian Essay Test Scoring sYstem)。人們對(duì)系統(tǒng)開發(fā)和應(yīng)用展開了大量研究(如 Attali 2015; Chapelleet al.2015;Warschauer 2006,2008,2014),隨著人工智能和自然語(yǔ)言處理技術(shù)的不斷推進(jìn),AES必將產(chǎn)生新的發(fā)展。然而,通過分析系統(tǒng)及寫作模式的變化發(fā)展來推測(cè)AES未來發(fā)展趨勢(shì)的研究還沒有。因此,本研究將分別論述各系統(tǒng)的原理、特征、功能、優(yōu)缺點(diǎn)等,揭示系統(tǒng)的共同特征,比較其差異,論證其發(fā)展過程,總結(jié)和展望該領(lǐng)域未來發(fā)展的方向。

      2.不同時(shí)期典型AES系統(tǒng)的特征與優(yōu)缺點(diǎn)

      上述AES系統(tǒng)在整個(gè)AES系統(tǒng)發(fā)展過程中比較具有代表性,每種系統(tǒng)有其特征與優(yōu)缺點(diǎn),也有其共性和個(gè)性。這些系統(tǒng)的發(fā)展并不是一個(gè)靜態(tài)的過程,多數(shù)系統(tǒng)經(jīng)過逐步發(fā)展不斷完善,至今仍然在測(cè)試和教學(xué)領(lǐng)域中得到廣泛應(yīng)用。

      2.1 PEG

      最早的AES系統(tǒng)PEG是由Page等人于1966年開發(fā)的。其基本原理是使用相關(guān)分析推測(cè)作文的內(nèi)在質(zhì)量(Chung&O'Neil 1997),即通過從作文文本中提取間接反映其質(zhì)量的表層文本特征項(xiàng)(稱作proxes,如詞性、詞長(zhǎng)、詞義等)來衡量作文質(zhì)量的內(nèi)在要素(稱作trins,如流利度、用詞、語(yǔ)法等)(Page 1966)。

      PEG的評(píng)分主要分為三個(gè)步驟:(1)選取訓(xùn)練集作文進(jìn)行人工打分,并利用自然語(yǔ)言處理技術(shù)(NLP-Natural Language Processing)提取若干文本特征項(xiàng)以確定評(píng)價(jià)作文質(zhì)量的特征值。(2)將文本特征項(xiàng)作為自變量,人工評(píng)分分?jǐn)?shù)作為因變量,輸入預(yù)測(cè)方程,進(jìn)行多元回歸分析,得出各變量的beta值,即各項(xiàng)特征在作文評(píng)分中的權(quán)重。(3)將beta值代入計(jì)算程序換算出作文最終得分(Chung&O'Neil 1997)。圖1為PEG系統(tǒng)評(píng)分過程,虛線部分表示系統(tǒng)與人工評(píng)閱的信效度檢驗(yàn)過程。

      Page和Peterson(1995)對(duì)PEG的信度加以分析后發(fā)現(xiàn),人機(jī)評(píng)閱相關(guān)性為0.72~0.78,高于人工評(píng)閱者間的相關(guān)性。系統(tǒng)還具有評(píng)分方法直接、技術(shù)支持充分和性能不斷提升等優(yōu)點(diǎn)。但PEG只測(cè)量了作文的表層特征,未涉及作文內(nèi)容的評(píng)判;每次評(píng)分需要對(duì)變量重新校正;只能提供與其他作文相比較而言的分?jǐn)?shù);而且PEG的開發(fā)者們沒有提供詳細(xì)的研究報(bào)告,對(duì)其實(shí)質(zhì)內(nèi)容很難進(jìn)一步了解(Kaplanet al.1998)。

      圖1 PEG評(píng)分方框圖(引自Chung&O'Neil 1997)

      2.2 IEA

      IEA是20世紀(jì)90年代末由Landauer基于潛在語(yǔ)義分析(LSA-Latent Semantic Analysis)技術(shù)開發(fā)的AES系統(tǒng)。LSA是“比較詞匯使用意義相似性的統(tǒng)計(jì)模型”(Foltz 1996),也是“提煉和推導(dǎo)文本段落語(yǔ)境中詞的使用情況的自動(dòng)統(tǒng)計(jì)方法”(Landaueret al.1998)。其基本思想是:段落的意義,在很大程度上取決于該段落所包含詞匯的意義。

      Landauer和Dumais(1997)認(rèn)為,LSA既是理論也是技術(shù)。從理論上來說,任何文本中都隱藏著潛在的語(yǔ)義結(jié)構(gòu),該結(jié)構(gòu)是所有詞匯的語(yǔ)義之和,體現(xiàn)了不同文本中詞匯使用的潛在模式,并可通過統(tǒng)計(jì)方法加以計(jì)算(Foltz 1996)。從技術(shù)層面看,LSA是一種矢量空間模型(VSM-Vector Space Model)技術(shù),通過減少維數(shù)的方法提取文本數(shù)據(jù)中的潛在語(yǔ)義結(jié)構(gòu),使詞匯的意義通過詞匯所在的語(yǔ)境加以表征(Lemaire&Dessus 2001)。具體就是通過詞匯項(xiàng)-文檔矩陣(term-by-document matrix)來表示,矩陣中每一行代表一個(gè)詞匯項(xiàng),每一列代表一個(gè)段落,因而矩陣的每一個(gè)單元格為對(duì)應(yīng)詞匯項(xiàng)在段落中的頻數(shù)(梁茂成、文秋芳2007)。該頻數(shù)代表了詞在文章中的重要性和詞所傳遞的信息,由大型文本語(yǔ)料庫(kù)中詞的共現(xiàn)(co-occurrence)情況所決定(Lemaire&Dessus 2001)。

      用IEA評(píng)分時(shí),由人工評(píng)閱者對(duì)所有訓(xùn)練集作文打分,然后將訓(xùn)練集作文與待評(píng)作文視作矢量,用LSA技術(shù)加以分析,確定十篇與待評(píng)作文相似的作文,進(jìn)行cosine加權(quán)平均,得到待評(píng)作文與訓(xùn)練集作文在內(nèi)容上的相似度分?jǐn)?shù),經(jīng)轉(zhuǎn)換后成為機(jī)閱分?jǐn)?shù)(Landaueret al.2003)。具體步驟如圖 2所示。

      IEA與人工評(píng)分間的相關(guān)性達(dá)到0.85(Landaueret al.2000),與人工評(píng)分在詞匯和文本的意義方面有較高的相似性。IEA將三個(gè)主要成分即內(nèi)容、風(fēng)格和語(yǔ)言加以結(jié)合,可模仿人進(jìn)行詞匯選擇和類別判斷,提供與內(nèi)容相關(guān)的反饋信息(如作文的連貫性),對(duì)寫作教學(xué)有積極意義。而且IEA還可用作閱讀理解檢測(cè)(如比較文章摘要與原文的匹配度)。另外 IEA還增加效度和置信度的測(cè)量(validity confidence measures),可測(cè)定作文是否有抄襲現(xiàn)象(Landaueret al.2003)。其缺點(diǎn)是只能對(duì)詞義加以分析卻沒有考慮詞的順序、句法關(guān)系、邏輯等因素,因此缺乏完整性(Landaueret al.2004)。

      2.3 e-rater和Criterion

      e-rater是20世紀(jì)90年代末由ETS(Educational Testing Service)開發(fā)的一項(xiàng)基于NLP技術(shù),矢量空間模型技術(shù)和線性回歸模型(Valentiet al.2003),通過從作文中提取特征項(xiàng)來預(yù)測(cè)人工評(píng)閱作文得分的AES系統(tǒng)(Enright&Quinlan 2010)。

      圖2 基于三個(gè)部分個(gè)性化結(jié)合及輔助措施的IEA評(píng)分示意圖(引自Landauer et al.2003)

      e-rater圍繞篇章、句法和內(nèi)容/話題三個(gè)模塊評(píng)判作文(Burstein&Marcu 2000)。篇章模塊使用在文本中搜索“In summary”、“In conclusion”等提示詞的方法;句法模塊使用NLP技術(shù)中的句法分析程序(parser)對(duì)句子進(jìn)行解析;內(nèi)容/話題模塊則通過檢測(cè)文本所含與題目高度相關(guān)的主題詞來確定與內(nèi)容相關(guān)的特征項(xiàng)的分?jǐn)?shù)檔。圖3展示了e-rater評(píng)分要素的基本構(gòu)成。

      e-rater的評(píng)分過程是:(1)使用線性回歸模型分析人工評(píng)分的作文,確立可預(yù)測(cè)人工評(píng)閱分?jǐn)?shù)的最優(yōu)化加權(quán)模型。(2)對(duì)作文的各個(gè)特征項(xiàng)進(jìn)行測(cè)量和匯總,形成各特征項(xiàng)分?jǐn)?shù)。(3)通過加權(quán)模型將特征項(xiàng)分?jǐn)?shù)加權(quán)平均后形成最終分?jǐn)?shù)(Burstein 2003)。

      e-rater與人工評(píng)分之間的完全一致性為87%~97%,相關(guān)性為 0.73~0.93(Bursteinet al.2004; Valentiet al.2003)。e-rater能評(píng)判作文的語(yǔ)言、內(nèi)容和篇章結(jié)構(gòu),因此是較為全面的自動(dòng)評(píng)分系統(tǒng)。然而,e-rater著重語(yǔ)言的準(zhǔn)確度和作文的結(jié)構(gòu),不能對(duì)觀點(diǎn)的論述和內(nèi)容的邏輯性、連貫性加以評(píng)估,且e-rater給出的是作文的分?jǐn)?shù),沒有具體的反饋內(nèi)容。

      Criterion利用e-rater對(duì)作文進(jìn)行評(píng)分,又利用Critique分析工具對(duì)語(yǔ)法錯(cuò)誤、語(yǔ)言使用、語(yǔ)篇結(jié)構(gòu)、文體特征等提供反饋信息(Bursteinet al.2003)。Criterion利用語(yǔ)料庫(kù)和統(tǒng)計(jì)的方法檢測(cè)語(yǔ)言使用中的違規(guī)現(xiàn)象,方法是從語(yǔ)料庫(kù)中提取和計(jì)算雙連詞(bigrams),包括相鄰詞(sequence of adjacent words)和詞性組對(duì)(part-of-speech pairs),并與學(xué)生作文中雙連詞出現(xiàn)的頻率進(jìn)行比較,如有差異則說明作文中可能出現(xiàn)錯(cuò)誤(Bursteinet al.2004)。Criterion對(duì)語(yǔ)篇和內(nèi)容的反饋是通過人工標(biāo)記語(yǔ)篇單元項(xiàng)(discourse unit),如介紹、中間段(主題句和細(xì)節(jié)展開)、結(jié)尾等要素。系統(tǒng)利用概率分析方法(probabilistic methods)和基于決策的方法(decisionbased approach)分析語(yǔ)篇,將句子歸入語(yǔ)篇各要素中,對(duì)不符合語(yǔ)篇要素的作文給予修改建議(Bursteinet al.2003)。Criterion能幫助學(xué)生減少錯(cuò)誤的發(fā)生,其內(nèi)置在線參考資料能幫助學(xué)生進(jìn)行自主學(xué)習(xí)。但是系統(tǒng)并不能準(zhǔn)確查出所有的錯(cuò)誤,只能指出表面性的語(yǔ)言錯(cuò)誤,對(duì)于內(nèi)容方面的反饋比較欠缺(Cheville 2004)。

      2.4 IntelliMetric和MY Access!

      IntelliMetric是由Vantage Learning于1998年開發(fā)的能對(duì)開放式問題進(jìn)行評(píng)分和反饋的作文評(píng)價(jià)系統(tǒng)。該系統(tǒng)基于人腦的信息處理的認(rèn)知模式,融合了人工智能和計(jì)算語(yǔ)言學(xué)原理,利用NLP技術(shù)和機(jī)器學(xué)習(xí)方法,開發(fā)了認(rèn)知搜索(CogniSearch)和量子推理(Quantum Reasoning)技術(shù)(Elliot 2003)。IntelliMetric基于人腦,使用神經(jīng)合成法重現(xiàn)人工評(píng)分過程。它利用自主學(xué)習(xí)引擎,基于人工評(píng)分獲得系統(tǒng)評(píng)分所需信息,再使用數(shù)學(xué)工具形成多種信息,利用系統(tǒng)的復(fù)雜功能將各部分合成、歸納,形成得分(Vantage Learning 2005)。

      IntelliMetric從內(nèi)容和結(jié)構(gòu)兩方面對(duì)作文的語(yǔ)義、句法和語(yǔ)篇層面的多個(gè)要素進(jìn)行評(píng)價(jià)(Vantage Learning 2005)。評(píng)分步驟為:(1)將已知分?jǐn)?shù)的訓(xùn)練集作文輸入系統(tǒng),由系統(tǒng)歸納出評(píng)分標(biāo)準(zhǔn)并建模,然后不斷矯正模型直至最終確定后運(yùn)用于待評(píng)作文。(2)使用NLP技術(shù)中的句法分析程序理解句型和語(yǔ)法結(jié)構(gòu),從文本中提取信息,轉(zhuǎn)化成數(shù)字形式以支持?jǐn)?shù)學(xué)模型的運(yùn)算。(3)確定一個(gè)或多個(gè)數(shù)學(xué)模型、整合模型的信息獲得最終分?jǐn)?shù)(Rudneret al.2005)。這一評(píng)分步驟可通過圖4加以說明。

      IntelliMetric與人工評(píng)分一致性達(dá) 94%到98%,相關(guān)達(dá)0.83,高于人工評(píng)分者間的一致性和相關(guān)性(Elliot 2002)。IntelliMetric的優(yōu)點(diǎn)是針對(duì)不同學(xué)業(yè)水平和學(xué)科內(nèi)容進(jìn)行評(píng)閱,與其他反映寫作水平的測(cè)量方法有很強(qiáng)的關(guān)聯(lián),不同樣本測(cè)試結(jié)果穩(wěn)定(Elliot 2002)。另外,它能夠通過機(jī)器學(xué)習(xí)技術(shù),模仿人工評(píng)分過程建立模型并不斷加以改進(jìn)。它還能支持其他多種語(yǔ)言的作文評(píng)分。不過系統(tǒng)未涉及寫作過程中的思維和認(rèn)知能力方面的評(píng)定。

      圖3 e-rater評(píng)分要素分解圖(引自Quinlan et al.2009:9)

      圖4 IntelliM etric評(píng)分過程圖(Vantage Learning 2005:12)

      體現(xiàn)IntelliMetric在網(wǎng)絡(luò)環(huán)境中實(shí)際應(yīng)用的MY Access!是基于互聯(lián)網(wǎng)、針對(duì)美國(guó)教育環(huán)境的自動(dòng)寫作評(píng)估系統(tǒng),與IntelliMetric在評(píng)分的核心理論上是一致的。MY Access!為學(xué)生提供了一個(gè)寫作環(huán)境,使學(xué)生得到迅速的結(jié)構(gòu)化的反饋,有利于學(xué)生根據(jù)反饋結(jié)果修改作文,提高寫作能力。MY Access!還為教師提供了一個(gè)基于網(wǎng)絡(luò)的教學(xué)環(huán)境,教師可以瀏覽歷史記錄,分析作文錯(cuò)誤。但是MY Access!只能評(píng)定系統(tǒng)自帶的寫作任務(wù),對(duì)教師布置的新任務(wù)卻無法評(píng)定(Dikli 2006)。

      2.5 BETSY

      BETSY是由Runder等人于2002年開發(fā)的以概率論為導(dǎo)向、基于貝葉斯文本分類技術(shù)方法的AES系統(tǒng)(Valentiet al.2003)。BETSY使用了貝葉斯方法的多元貝努利模型(Multivariate Bernoulli Model)和多項(xiàng)式模型(Multinomial Model)。這兩種模型分別把作文看作是校正特征(calibrated features)的特例和范例(Dikli 2006)。在貝努利模型中,某一特征出現(xiàn)的概率通過計(jì)算作文中所包含的該特征的比例加以實(shí)現(xiàn)。在多項(xiàng)式模型中,作文獲得某個(gè)分?jǐn)?shù)的概率則是計(jì)算該作文所有特征的條件概率的乘積(Rudner&Liang 2002)。換句話說,貝努利模型關(guān)注某一特征在文中是否存在,而多項(xiàng)式模型關(guān)注所有特征在文章中出現(xiàn)的概率(Rudner& Liang 2002)。

      BETSY的評(píng)分主要通過將作文分類的方法。首先,BETSY使用約1000篇訓(xùn)練集作文對(duì)系統(tǒng)進(jìn)行訓(xùn)練,形成優(yōu)、良、中、差四個(gè)級(jí)別;然后系統(tǒng)利用上述模型對(duì)待評(píng)作文的特征項(xiàng)加以分析,包括特定的詞和詞組、詞頻、詞數(shù)、句長(zhǎng)、動(dòng)詞數(shù)、概念呈現(xiàn)順序、名詞性詞組的共現(xiàn)情況等;最后系統(tǒng)對(duì)待評(píng)作文進(jìn)行分類,確定作文所屬級(jí)別(Dikli 2006)。

      Rudner和Liang(2002)用462篇作文作為訓(xùn)練集,使用BETSY對(duì)80篇測(cè)試作文評(píng)分,得到了80%的準(zhǔn)確率。其研究人員聲稱BETSY不但包含了其他系統(tǒng)的優(yōu)點(diǎn),且具有自身特點(diǎn),可應(yīng)用于不同專業(yè)學(xué)科,能產(chǎn)生診斷性結(jié)果且易于解釋,還可免費(fèi)下載使用(Valentiet al.2003)。但是,BETSY的應(yīng)用不多,相關(guān)研究非常有限,訓(xùn)練集作文數(shù)量要求大,否則準(zhǔn)確率較低,使用效果未得到論證(Valentiet al.2003)。

      3.AES系統(tǒng)的共性和個(gè)性

      從以上分析來看,五大AES系統(tǒng)的最重要的共性是系統(tǒng)都基于而非脫離人工評(píng)分,是對(duì)人工評(píng)分的模擬,需用基于人工評(píng)閱的作文對(duì)系統(tǒng)進(jìn)行訓(xùn)練。雖然有的系統(tǒng)(如e-rater)也開發(fā)了適用于不同寫作題目的通用(generic)模型,但由于通用性無法涉及作文內(nèi)容的評(píng)分而影響了準(zhǔn)確度。此外,多數(shù)系統(tǒng)都使用了NLP技術(shù)。NLP技術(shù)是指計(jì)算機(jī)對(duì)自然語(yǔ)言的各級(jí)語(yǔ)言單位進(jìn)行的自動(dòng)處理,包括對(duì)字、詞、句、篇章等進(jìn)行轉(zhuǎn)換、分析與理解,對(duì)未來AES的發(fā)展有著十分積極的意義。最后,研究者對(duì)各自所開發(fā)的模型都給出了信效度的驗(yàn)證,說明其準(zhǔn)確性,但是在實(shí)際使用中,尤其是在作文反饋方面仍存在問題。表1更為清晰地展示了各系統(tǒng)的共性和個(gè)性,便于分析和比較。

      表1 五種AES系統(tǒng)的個(gè)性和共性比較

      續(xù)表

      4.存在問題和發(fā)展方向

      AES的一個(gè)共同問題是目前多數(shù)系統(tǒng)只能對(duì)語(yǔ)言的表層現(xiàn)象加以評(píng)定,對(duì)深層次的語(yǔ)言現(xiàn)象的評(píng)判不足,更是忽視了寫作過程中的修辭、認(rèn)知、思維發(fā)展過程等方面的因素。Weigle(2013)闡述了寫作能力的結(jié)構(gòu)模式,該模式包含了修辭知識(shí)、思辨能力、閱讀能力、寫作能力、寫作過程、寫作慣例、網(wǎng)絡(luò)環(huán)境下的寫作能力等因素。而AES的評(píng)分標(biāo)準(zhǔn)需符合寫作能力的結(jié)構(gòu)模式(Weigle 2013),因此,使用AES對(duì)作文進(jìn)行評(píng)分不能僅限于對(duì)傳統(tǒng)的寫作慣例的評(píng)判,更要從寫作能力的各方面,尤其是針對(duì)寫作的修辭、認(rèn)知、思辨能力、過程等因素對(duì)作文加以評(píng)判,這是未來AES系統(tǒng)發(fā)展的趨勢(shì)。

      Kukich(2000)認(rèn)為,未來AES所提供的反饋將使人們更好地理解寫作中所包含的各種認(rèn)知和思想交流過程。因此未來AES將基于認(rèn)知,更加注重寫作過程中思維的發(fā)展。Deane等(2011)在對(duì)新型AES的開發(fā)設(shè)想中提出了基于認(rèn)知的寫作能力測(cè)試模型。該模型體現(xiàn)了任務(wù)特征所反映的基本寫作能力和文本特征所反映的有效論證能力,其主要作用是建立學(xué)生外在的寫作表現(xiàn)和內(nèi)在的寫作能力之間的聯(lián)系。Deane等認(rèn)為寫作能力、思辨能力、閱讀能力和整體文化素養(yǎng)之間沒有明顯的界限,至少?gòu)男纬尚越嵌葋砜?,閱讀、寫作和思辨能力是緊密聯(lián)系的。

      目前,美國(guó)加州大學(xué)Warschauer(2014)教授已經(jīng)開始著手新型AES系統(tǒng)的研究計(jì)劃,旨在能夠?qū)Ω鞣N寫作形式提供形成性反饋,并強(qiáng)調(diào)寫作的高級(jí)思維能力。該研究將使用具有機(jī)器學(xué)習(xí)功能的開放性AES系統(tǒng)LightSIDE,利用系統(tǒng)的修改助手工具對(duì)寫作過程提供實(shí)質(zhì)性反饋,并試圖對(duì)文、理科的各類作文分別提供適合學(xué)科內(nèi)容的有效反饋。系統(tǒng)還將設(shè)計(jì)人機(jī)對(duì)話和智能指導(dǎo)系統(tǒng)加強(qiáng)反饋效果,幫助學(xué)生更好地提高寫作能力。

      AES系統(tǒng)的發(fā)展,離不開交叉學(xué)科間的相互滲透和共同合作,包括寫作教師、語(yǔ)言測(cè)試研究開發(fā)人員、認(rèn)知心理學(xué)家、心理測(cè)量專家、計(jì)算機(jī)科學(xué)家等(Shermis&Burstein 2003)。寫作教師和語(yǔ)言測(cè)試人員可以使我們了解AES系統(tǒng)如何在最大程度上幫助學(xué)生提高寫作能力。認(rèn)知心理學(xué)家?guī)椭⒏觾?yōu)化的模型,以反映學(xué)生寫作的思維過程。心理測(cè)量專家對(duì)系統(tǒng)的評(píng)估工作有利于人們更好地了解系統(tǒng)的信度和效度。計(jì)算機(jī)科學(xué)家的重要作用在于系統(tǒng)的實(shí)施和功能的優(yōu)化。

      AES也將不再局限于對(duì)英語(yǔ)作文的自動(dòng)評(píng)分,而是逐步建立對(duì)多種語(yǔ)言的評(píng)分功能。我國(guó)研究人員除了研發(fā)針對(duì)我國(guó)英語(yǔ)學(xué)習(xí)者的AES評(píng)閱反饋系統(tǒng)外,也開始研發(fā)針對(duì)漢語(yǔ)作文考試的AES系統(tǒng)。例如黃志娥等(2014)研究了漢語(yǔ)水平考試的自動(dòng)作文評(píng)分的特征選取方法。劉明楊等(2016)研究了將文采特征加入到基準(zhǔn)系統(tǒng)中對(duì)高考作文進(jìn)行自動(dòng)評(píng)分的可能性。這些研究對(duì)整體AES的發(fā)展都將產(chǎn)生一定的影響。

      隨著NLP技術(shù)的發(fā)展,越來越多的AES系統(tǒng)得以開發(fā)和利用,諸如 MaxEnt(Sukkarieh& Bolge 2010)、Writing Roadmap (Richet al.2013)、LightSIDE(Mayfield&Rose 2013),Crase(Lottridgeet al.2013)等。進(jìn)入21世紀(jì),NLP延續(xù)20世紀(jì)末的語(yǔ)料庫(kù)和概率統(tǒng)計(jì)的方法,更多地利用語(yǔ)料庫(kù)中的“大數(shù)據(jù)”對(duì)自然語(yǔ)言加以分析處理(Agerriet al.2015)。此外,人們基于交互理論,研究NLP中的人機(jī)交互,利用自然語(yǔ)言處理方法創(chuàng)建自然語(yǔ)言界面,使人機(jī)交互更加有效(Valencia-García& García-Sánchez 2013)。概率統(tǒng)計(jì)模型促成了當(dāng)今概率建模的繁榮與發(fā)展。概率統(tǒng)計(jì)建模采用從數(shù)據(jù)中學(xué)習(xí)的方法,成為NLP中占統(tǒng)治地位的建模方法,形成了基于語(yǔ)料庫(kù)的數(shù)據(jù)驅(qū)動(dòng)法。隨著NLP的智能互聯(lián)網(wǎng)的建立,對(duì)語(yǔ)言高級(jí)層面的處理成為可能。Wang等(2014)分析了NLP的結(jié)構(gòu)和功能,提出了基于語(yǔ)義網(wǎng)絡(luò)本體論(Semantic Web Ontology)的NLP系統(tǒng),將本體論運(yùn)用于人工智能、語(yǔ)義網(wǎng)等的自然語(yǔ)言處理可以降低其復(fù)雜性,有利于解決實(shí)際問題。NLP的發(fā)展歷程似乎正遵循著莫里斯和卡爾納普的理論,在經(jīng)歷了前一階段的語(yǔ)形網(wǎng)之后,正逐步邁向語(yǔ)義網(wǎng)這一新的階段,最終很有可能邁向語(yǔ)用網(wǎng)這一更高層次(殷杰、董佳蓉2008)。這些對(duì)AES的進(jìn)一步發(fā)展將起到關(guān)鍵性作用。

      5.結(jié)論

      以上我們對(duì)五種最有代表性的AES系統(tǒng)的原理、特征、功能、優(yōu)缺點(diǎn)等進(jìn)行了分析,比較了其共性和個(gè)性。未來AES系統(tǒng)的發(fā)展將在更高層面上依賴NLP技術(shù)的發(fā)展并呈現(xiàn)以下八個(gè)特點(diǎn):(1)以基于認(rèn)知的寫作模型為基礎(chǔ),設(shè)計(jì)有助于提高學(xué)習(xí)者認(rèn)知能力和批判性思維能力的AES系統(tǒng)。(2)評(píng)判重點(diǎn)從作文的語(yǔ)言和結(jié)構(gòu)轉(zhuǎn)向作文的論點(diǎn)思辨和修辭效果。(3)對(duì)各種文體類型的作文進(jìn)行評(píng)定,包括語(yǔ)言類和學(xué)術(shù)科技類。(4)開發(fā)能夠?qū)W(xué)生寫作過程提供有效形成性評(píng)估的新型系統(tǒng)軟件。(5)利用機(jī)器學(xué)習(xí)技術(shù),設(shè)計(jì)能夠解決新問題的開放式AES系統(tǒng)平臺(tái)。(6)開發(fā)和利用可進(jìn)行人機(jī)對(duì)話的反饋模式,增強(qiáng)反饋效果,提升系統(tǒng)功能。(7)各學(xué)科領(lǐng)域的合作在系統(tǒng)發(fā)展中的作用將更為突出。(8)逐步建立對(duì)多種語(yǔ)言的評(píng)分反饋功能。

      附注

      ①AWE指除了有對(duì)作文評(píng)分外還提供反饋。由于文中多數(shù)系統(tǒng)為評(píng)分系統(tǒng),故統(tǒng)稱AES系統(tǒng)。

      ②將Criterion與e-rater合并討論是由于Criterion是e-rater評(píng)分系統(tǒng)在教學(xué)環(huán)境中的應(yīng)用,可提供寫作反饋。

      ③同樣MY Access!是IntelliMetric在教學(xué)環(huán)境中的應(yīng)用。

      ④同一種AES系統(tǒng)中,訓(xùn)練集作文數(shù)與系統(tǒng)評(píng)分準(zhǔn)確度成正比。

      Agerri,R.,X.Artola,Z.Beloki,G.Rigau&A.Soroa.2015.Big data for natural language processing:A streaming approach[J].Knowledge-Based Systems79:36-42.

      Attali,Y.2015.Reliability-based feature weighting for automated essay scoring[J].Applied Psychological Measurement39 (4):303-313.

      Burstein,J.2003.The E-rater? scoring engine:Automated essay scoring with natural language processing[A].In M.D.Shermis& J.C.Burstein(eds.).Automated Essay Scoring:A Cross-Disciplinary Perspective[C].Mahwah: Lawrence Erlbaum Associates.113-121.

      Burstein,J.,M.Chodorow&C.Leacock.2004.Automated essay evaluation:The criterion online writing service[J].AI Magazine25:27-35.

      Burstein,J.&D.Marcu.2000.Benefits of modularity in an automated essay scoring system[A].Proceedings of the COLING-2000 Workshop on Using Toolsets and Architectures to Build NLP Systems[C].Luxembourg:Association for Computational Linguistics.44-50.

      Burstein J.,D.Marcu&K.Knight.2003.Finding the WRITE stuff:Automatic identification of discourse structure in student essays[J].IEEE Intelligent Systems18:32-39.

      Chapelle,C.A.,E.Cotos&J.Lee.2015.Validity arguments for diagnostic assessment using automated writing evaluation[J].Language Testing32(3):385-405.

      Cheville,J.2004.Automated scoring technologies and the rising influence of error[J].English Journal93:47-52.

      Chung,K.W.K.& H.F.O'Neil.1997.Methodological approaches to online scoring of essays[OL].[2016-07-06].http://www.cse.ucla.edu/products/reports/tech461. pdf.

      Deane,P.,T.Quinlan&I.Kostin.2011.Automated scoring within a developmental, cognitive model of writing proficiency[R].Princeton:Educational Testing Service.

      Dikli,S.2006.An overview of automated scoring of essays[J].Journal of Technology,Learning,and Assessment(5):1-35.

      Elliot,S.2002.A study of expert scoring,standard human scoring and IntelliMetric scoring accuracy for statewide eighth grade writing responses[R].Newtown:Vantage Learning.

      Elliot,S.2003.IntelliMetric:From here to validity[A].In M.D.Shermis&J.Burstein(eds.).Automated Essay Scoring:A Cross-Disciplinary Perspective[C].Mahwah:Lawrence Erlbaum.71-86.

      Enright,M.& M.Quinlan.2010.Complementing human judgment of essays written by English language learners with e-rater scoring[J].Language Testing27:317-334.

      Foltz,P.W.1996.Latent Semantic Analysis for text-based research[J].Behavior Research Methods,Instruments and Computers28:197-202.

      Kaplan,R.M.,S.E.Wolff,J.Burstein,C.Lu,D.A.Rock&B.A.Kaplan.1998.Scoring essays automatically using surface features[R].Princeton:Educational Testing Service.

      Kukich,K.2000.Beyond automated essay scoring[J].IEEE Intelligent Systems15:22-27.

      Landauer,T.,K.&S.Dumais.1997.A solution to Plato's problem: The latent semantic analysis theory of the acquisition,induction,and representation of knowledge[J].Psychological Review104:211-140.

      Landauer,T.K.,P.W.Foltz&D.Laham.1998.Introduction to latent semantic analysis[J].Discourse Processes25:259-284.

      Landauer,T.K.,D.Laham&P.W.Foltz.2000.The intelligent essay assessor[J].IEEE Intelligent Systems15:27-31.

      Landauer,T.K.,P.W.Foltz&D.Laham.2004.What is LSA?[OL].[2016-07-06].http://lsa.colorado.edu/whatis.html.

      Landauer,T.K.,D.Laham&P.W.Foltz.2003.Automatic essay assessment[J].Assessment in Education10(3):295-308.

      Lemaire,B.&P.Dessus.2001.A system to assess the semantic content of student essays[J].Educational Computing Research24:305-306.

      Lottridge,S.M.,E.M.Schulz& H.C.Mitzel.2013.Using automated scoring to monitor reader performance and detect reader drift in essay scoring[A].In M.D.Shermis&J.Burstein(eds.).Handbook of Automated Essay Evaluation:Current Applications and New Directions[C].New York: Routledge.233-250.

      Mayfield,E.& C.P.Rose.2013.LightSIDE:Open source machine learning for text[A].In M.D.Shermis&J.Burstein(eds.).Handbook of Automated Essay Evaluation:Current Applications and New Directions[C].New York: Routledge.124-135.

      Page,E.B.1966.The imminence of grading essays by computer[J].Phi Delta Kappan47:238-243.

      Page,E.&N.S.Peterson.1995.The computer moves into essay grading:Updating the ancient test[J].Phi Delta Kappan76:561-565.

      Quinlan,T.,D.Higgins& S.Wolff.2009.Evaluating the construct-coverage of e-rater Scoring Engine [R].Princeton:ETS.

      Rich,C.S.,M.C.Schneider&J.M D'Brot.2013.Applications of automated essay evaluation in west Virginia[A].In M.D.Shermis& J.Burstein(eds.).Handbook of Automated Essay Evaluation:Current Applications and New Directions[C].New York:Routledge.99-123.

      Rudner,L.M.&T.Liang.2002.Automated essay scoring using Bayes'theorem[J].The Journal of Technology,Learning,and Assessment1(2):3-21.

      Rudner,L.,V.Garcia& C.Welch.2005.An evaluation of IntellimetricTMessay scoring system using responses to GMAT AWA prompts[R].McLean:Graduate Management Admission Council.

      Shermis,M.D.&J.Burstein.2003.Introduction[A].In M.D.Shermis&J.Burstein(eds.).Automated Essay Scoring:A Cross-disciplinaryPerspective[C].Mahwah: Lawrence Erlbaum.xiii-xvi.

      Sukkarieh,J.Z.&E.Bolge.2010.Building a textual entailment suite for the evaluation of automatic content scoring technologies[OL].[2016-07-06].http://www.lrec-conf.org/proceedings/lrec2010/pdf/310_Paper.pdf

      Valencia-García,R.& F.García-Sánchez.2013.Natural language processing and human-computer interaction[J].Computer Standards&Interfaces35:415-416.

      Valenti,S.,F(xiàn).Neri.&A.Cucchiarelli.2003.An overview of current research on automated essay grading[J].Journal of Information Technology Education2:319-330.

      Vantage Learning.2005.How IntelliMetricTMWorks[OL].[2016-07-06].http://www.cengagesites.com/academic/ assets/sites/4994/WE_2_IM_How_IntelliMetric_Works.pdf.

      Wang,Y.,J.Zhang&Y.Xu.2014.Research on construction of natural language processing system based on semantic web ontology[J].Journal of Chemical and Pharmaceutical Research6(12):291-296.

      Weigle,S.C.2013.English language learners and automated scoring of essays:Critical considerations[J].Assessing Writing18:85-99.

      Warschauer,M.2014.Next-generation automated feedback in support of iterative writing and scientific argumentation[R].Irvine:University of California.

      Warschauer,M.&D.Grimes.2008.Automated essay scoring in the classroom[J].Pedagogies3(1):22-36.

      Warschauer, M.& P.Ware.2006.Automated writing evaluation:Defining the classroom research agenda[J].Language Teaching Research10(2):1-24.

      黃志娥、謝佳莉、荀恩東.2014.HSK自動(dòng)作文評(píng)分的特征選取研究[J].計(jì)算機(jī)工程與應(yīng)用(6):118-126.

      劉明楊、秦兵、劉挺.2016.基于文采特征的高考作文自動(dòng)評(píng)分智能[J].計(jì)算機(jī)與應(yīng)用(1):1-8.

      梁茂成、文秋芳.2007.國(guó)外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示[J].外語(yǔ)電化教學(xué)(5):18-24.

      殷杰、董佳蓉.2008.論自然語(yǔ)言處理的發(fā)展趨勢(shì)[J].自然辯證法研究(3):31-37.

      (責(zé)任編輯 管新潮)

      H319

      A

      1674-8921-(2016)06-0054-08

      10.3969/j.issn.1674-8921.2016.06.009

      張荔,博士,上海交通大學(xué)外國(guó)語(yǔ)學(xué)院副教授。主要研究方向?yàn)橛?jì)算機(jī)輔助語(yǔ)言教學(xué)、學(xué)術(shù)英語(yǔ)寫作。電子郵箱:zhangli@sjtu.edu.cn

      Mark Warschauer,加利福尼亞大學(xué)歐文分校教育學(xué)院教授。主要研究方向?yàn)镃ALL、Cloud-Based Writing、Virtual Learning。電子郵箱:markw@uci.edu

      盛越,上海工程技術(shù)大學(xué)外國(guó)語(yǔ)學(xué)院副教授。主要研究方向?yàn)橛?jì)算機(jī)輔助語(yǔ)言教學(xué)。電子郵箱:sheng.yue@163.com

      *本研究受國(guó)家社科基金項(xiàng)目“基于語(yǔ)料庫(kù)和云技術(shù)的網(wǎng)絡(luò)自動(dòng)作文評(píng)閱系統(tǒng)信效度及其輔助教學(xué)研究”(編號(hào)13BYY081)資助,特此感謝!

      猜你喜歡
      寫作能力特征作文
      挖掘創(chuàng)造潛能,提高寫作能力
      加強(qiáng)互動(dòng)交流,提升寫作能力
      如何有效提高中小學(xué)生的寫作能力
      甘肅教育(2020年12期)2020-04-13 06:24:54
      培養(yǎng)學(xué)生寫作能力的理論思考
      甘肅教育(2020年12期)2020-04-13 06:24:52
      如何表達(dá)“特征”
      不忠誠(chéng)的四個(gè)特征
      抓住特征巧觀察
      紅批有聲作文
      紅批有聲作文
      紅批作文
      水富县| 绥芬河市| 平顶山市| 明光市| 仙游县| 奉节县| 北安市| 兴隆县| 乐至县| 临西县| 镇赉县| 海安县| 平凉市| 井冈山市| 宁国市| 长海县| 南平市| 大英县| 南漳县| 巍山| 浦县| 泽州县| 千阳县| 清丰县| 闵行区| 铜陵市| 泰顺县| 县级市| 酒泉市| 穆棱市| 阳原县| 渭源县| 广州市| 维西| 石林| 通许县| 屏东县| 海伦市| 馆陶县| 赤壁市| 五河县|