牟曉青,于志濤
(山東理工大學(xué) 外國語學(xué)院,山東 淄博 255000)
自動寫作評分與評價(Automated Essay Scoring and Evaluation,AESE)技術(shù),在教學(xué)與考試中逐漸得到應(yīng)用。該技術(shù)可識別和評價寫作中的語言屬性和存在的問題,為學(xué)生寫作提供及時反饋,亦使教師可以籍助計算機(jī)網(wǎng)絡(luò)的高效功能,布置寫作任務(wù),進(jìn)行跟蹤、監(jiān)督,提供個性化指導(dǎo)。國際上,AESE已成為一個重要研究領(lǐng)域[1]27。
與國際相比,國內(nèi)相關(guān)研究文獻(xiàn)相對較少。在中國知網(wǎng)期刊庫中,根據(jù)主題進(jìn)行檢索,共獲得1349條文獻(xiàn)記錄。根據(jù)論文標(biāo)題和摘要,逐一進(jìn)行人工判別,最終獲得研究文獻(xiàn)280條,其中核心期刊、CSSCI期刊論文僅有69條。運(yùn)用CiteSpace 2.2.R9[2]359[3]5303進(jìn)行主題知識圖譜分析,結(jié)果見圖1。
根據(jù)圖1,結(jié)合文獻(xiàn)主題判別,可將國內(nèi)AESE領(lǐng)域的研究熱點分為英語寫作與教學(xué)、自動評分、反饋、批改網(wǎng)、效度、語料庫6個亞類。國內(nèi)AESE研究主要聚焦英語這一語種的寫作與教學(xué),自動評分、反饋(即自動寫作評價)、效度、語料庫皆為AESE的核心技術(shù),自然成為研究學(xué)者的關(guān)注點。而在實踐中,批改網(wǎng)已成為應(yīng)用較為廣泛的英語寫作與教學(xué)載體,遂成研究熱點。根據(jù)中國知網(wǎng)檢索,對批改網(wǎng)的研究主要集中在實踐教學(xué)模式、對寫作能力的影響、評分信度與效度等方面,研究方法主要為實驗法、問卷調(diào)查法、數(shù)理統(tǒng)計法。
本研究擬采集BBS語料,對批改網(wǎng)應(yīng)用進(jìn)行可視化分析。網(wǎng)絡(luò)BBS具有匿名性,意見表達(dá)相對自由真實[4]41。基于BBS語料,可更客觀地對批改網(wǎng)應(yīng)用進(jìn)行分析和反思。
百度為全球最大中文搜索引擎,以互聯(lián)網(wǎng)用戶的百度搜索量為基礎(chǔ)加權(quán)計算的搜索指數(shù),可作為用戶群體的關(guān)注熱度衡量指標(biāo),對搜索詞人群屬性的聚類分析,亦可獲得地域分布相關(guān)特征。以“批改網(wǎng)”為關(guān)鍵詞,使用百度指數(shù)統(tǒng)計分析平臺(http://index.baidu.com),采集計算每月的日均搜索指數(shù)作為每月搜索指數(shù),以○與□分別標(biāo)示年度最高點與最低點,結(jié)果見圖2,地域分布見圖3。
圖1 國內(nèi)自動寫作評分與評估領(lǐng)域主題知識圖譜分析
圖2 “批改網(wǎng)”百度搜索指數(shù)統(tǒng)計圖
圖3 “批改網(wǎng)”關(guān)注人群地域分布統(tǒng)計圖
1.網(wǎng)絡(luò)關(guān)注熱度分析
借助搜索引擎優(yōu)化分析技術(shù)(Search Engine Optimization,SEO),對批改網(wǎng)進(jìn)行綜合分析可知,該域名創(chuàng)建于2010年5月18日。批改網(wǎng)百度搜索指數(shù),自2011年1月起開始有統(tǒng)計數(shù)據(jù),9月指數(shù)達(dá)到788,開始具有穩(wěn)定的關(guān)注群體。根據(jù)趨勢預(yù)測計算,搜索指數(shù)總體呈現(xiàn)明顯增長趨勢, 2016年5月達(dá)到21774,月平均搜索指數(shù)達(dá)到4220.7867(2011年1月至2017年3月16日),這說明愈來愈多的用戶關(guān)注使用批改網(wǎng)。但在圖2中可看到搜索指數(shù)具有明顯的起伏周期,高峰與低谷恰與學(xué)校的學(xué)期和寒暑假設(shè)置相吻合。這說明,學(xué)生對批改網(wǎng)的使用,還主要依賴于教師的主導(dǎo)式教學(xué)安排,自主學(xué)習(xí)的主動性尚待提高。
2.網(wǎng)絡(luò)關(guān)注地域分布分析
根據(jù)圖3可知,“批改網(wǎng)”搜索詞關(guān)注人群中,數(shù)量最多的省份為廣東、北京、四川、江蘇、山東。關(guān)注度主要集中在華東、華北、華南。從我國東部、中部與西部的地區(qū)劃分來看,批改網(wǎng)的網(wǎng)絡(luò)關(guān)注主要來自東部地區(qū),中西部明顯偏少。這間接反映出中西部對批改網(wǎng)的應(yīng)用,尚不廣泛。在一定程度上說明,中西部地區(qū)信息化教學(xué)支持體系建設(shè)相對薄弱,其英語寫作教學(xué)的信息化發(fā)展相對緩慢。這可能與我國地區(qū)間存在數(shù)字鴻溝有關(guān)。東部地區(qū)網(wǎng)絡(luò)社會發(fā)展水平與數(shù)字生活發(fā)展水平明顯居于優(yōu)勢,東西部絕對差距仍然較大[5]。
本研究采用網(wǎng)頁數(shù)據(jù)采集程序,對百度貼吧“批改網(wǎng)吧”(http://tieba.baidu.com/f?kw=%C5%FA%B8%C4%CD%F8&fr=ala0&tpl=5),以及批改網(wǎng)論壇(http://bbs.pigai.org/forum.php)“批改網(wǎng)師生報錯專區(qū)”“批改網(wǎng)使用幫助”“用戶意見反饋”三大板塊發(fā)帖內(nèi)容進(jìn)行采集。采集時間自2017年2月25日至2月28日,歷時4天。去重處理后,共獲得“批改網(wǎng)吧”發(fā)帖數(shù)據(jù)256條(時間長度:2013-05-02至2017-02-05;數(shù)據(jù)總長度67038字符),“批改網(wǎng)師生報錯專區(qū)”發(fā)帖數(shù)據(jù)29802條(時間長度:2013-12-30至2017-02-28;數(shù)據(jù)總長度7142227字符),“批改網(wǎng)使用幫助”1284(時間長度:2011-12-21至2017-02-26;數(shù)據(jù)總長度401981字符),“用戶意見反饋”268條(時間長度:2012-10-11至2017-02-27;數(shù)據(jù)總長度63780字符)。所有樣本數(shù)據(jù),均做預(yù)處理:進(jìn)行分詞,去除停用詞,提取行特征。
在“批改網(wǎng)師生報錯專區(qū)”,用戶主要依據(jù)批改網(wǎng)給出的報錯提示進(jìn)行發(fā)帖,反映了用戶群體關(guān)注的報錯類型,也反映了用戶群體寫作過程中存在的主要錯誤類型。發(fā)帖主要涉及提示類(學(xué)習(xí)提示、搭配統(tǒng)計、批改提示等)、錯誤類、警示類(低頻、中式英語等),也有少數(shù)發(fā)帖對批改網(wǎng)提示提出了疑問。通過主題判別,刪除灌水帖19條,獲得有效發(fā)帖29783條,抽取批改網(wǎng)報錯提示的表述語句,用于主題命名,獲得88類主題。提取報錯主題,對頻次屬性進(jìn)行可視化分析,結(jié)果見表1。
在表1中可以看到,批改網(wǎng)中有的報錯提示表述進(jìn)行了程度區(qū)分。其中,語法類提示,區(qū)分為語法檢查、語法不規(guī)范、語法錯誤。批改網(wǎng)在語料庫中沒有發(fā)現(xiàn)相同表述,尋找不到相近表述提供修改建議時,會給出“語法檢查”建議;無相同表述,但尋找到相近表述能夠提供修改建議時,給出“語法不規(guī)范”提示;根據(jù)詞語搭配,確認(rèn)存在錯誤時,會給出“語法錯誤”提示。但有的錯誤類型,例如,主謂不一致、主語錯誤、句子不完整、句首字母小寫等,則皆以“句子錯誤”給出提示,可進(jìn)一步細(xì)化,提供有針對性的修改建議。
根據(jù)表1,用戶群體中占最大比例的錯誤類型是疑似中式英語。有的中式英語比較生硬,錯誤比較明顯;更多的則在語法上完全正確,但不合乎英語國家使用習(xí)慣,仍屬漢語思維范疇。在寫作教學(xué)中,對學(xué)生加強(qiáng)引導(dǎo),除中國特色表述難以避免中式英語之外,應(yīng)以標(biāo)準(zhǔn)英語為規(guī)范。
其他比例超過2%的錯誤類型有語法不規(guī)范、動詞錯誤、拼寫錯誤、名詞錯誤、搭配錯誤、語法檢查、標(biāo)點符號錯誤、詞性錯誤(批改提示是對寫作中常出現(xiàn)詞匯、短語的總結(jié)和歸類,不屬錯誤類型)。由此可以看出,詞匯與語法基礎(chǔ)知識的掌握,依然是英語寫作教學(xué)中的一個重要關(guān)鍵點。
表1“批改網(wǎng)師生報錯專區(qū)”發(fā)帖主題統(tǒng)計列表
在發(fā)帖主題中,存在改錯和作文精批求助。批改網(wǎng)的智能批改,更多是一種建議提示,有時無修改指示,使一部分基礎(chǔ)薄弱的學(xué)生無所適從。在智能批改的基礎(chǔ)上,仍需人工評閱的有機(jī)配合,方可實現(xiàn)寫作教學(xué)的最終目的。
在發(fā)帖中,有用戶提出批改網(wǎng)存在提示矛盾、按照提示越改越差的問題;還有用戶以BBC原文進(jìn)行評分測試,批改網(wǎng)給出了76.5的較低分?jǐn)?shù),并指出兩個語法錯誤與許多中式英語用法;也有用戶指出,將六級滿分作文的一段話摻入自己的作文,可迅速拉高評分。評分技術(shù)、語料庫建設(shè)、改錯提示技術(shù)等,是批改網(wǎng)未來建設(shè)的重要方向。
1.主題分析
百度貼吧“批改網(wǎng)吧”、批改網(wǎng)論壇 “批改網(wǎng)使用幫助”與“用戶意見反饋”發(fā)帖內(nèi)容主要是就批改網(wǎng)使用的相關(guān)問題進(jìn)行提問,反饋使用意見。對三部分內(nèi)容進(jìn)行合并,可視作批改網(wǎng)使用反饋意見。對反饋意見,轉(zhuǎn)化為ANSI編碼格式,抽取行特征詞,進(jìn)行一級主題命名。對一級主題,根據(jù)共詞關(guān)系,進(jìn)行二級主題命名,作為主題分類。最終去除69條無關(guān)發(fā)帖,獲得主題分類61個,有效發(fā)帖1739條,結(jié)果見表2。
根據(jù)表2可知,求助類發(fā)帖最多,占61.2421%,其中修改求助發(fā)帖達(dá)到1048條,占60.2645%。用戶在獲得批改網(wǎng)提示后,由于英語能力受限,卻不知如何修改,這就需要人工幫助加以配合,才能達(dá)到作文批改的最終目的;另一方面,在一定程度上也反映了批改網(wǎng)的修改提示需要作進(jìn)一步的明確和細(xì)化;這與人工批改主題發(fā)帖、存疑類發(fā)帖、修改建議機(jī)械/不明確主題發(fā)帖相一致。其他求助發(fā)帖主要涉及有關(guān)詞匯、方法、知識的提問。
數(shù)量位居第二的為操作類發(fā)帖,共108條,占6.2105%,主要涉及批改網(wǎng)各菜單、功能的使用方法、相關(guān)故障。目前批改網(wǎng)已提供了使用指南,有簡明的快速入門文檔,也配有視頻教程。但指南放置的位置并不醒目,不易引起用戶的關(guān)注,導(dǎo)致部分用戶不知如何具體操作,故發(fā)帖詢問。
許多用戶對批改網(wǎng)的評分標(biāo)準(zhǔn)、計算方式提出了疑問(占3.6228%),認(rèn)為根據(jù)提示越改越差,詢問為何0分、不及格、同作文不同分?jǐn)?shù)、難以獲得滿分,建議修改為15分制等多種形式以對接各類不同考試形式,存在亂寫得分、再次打開時會出現(xiàn)分?jǐn)?shù)下降現(xiàn)象,求教高分方法。測試類發(fā)帖(0.1725%)中,用戶使用考研作文、英語國家原文進(jìn)行評分測試,亦反映了這一問題。
修改類發(fā)帖,主要涉及各類信息和操作的修改提問。關(guān)于教師一次修改與多次修改的預(yù)設(shè)置存在爭議,從學(xué)生自主學(xué)習(xí)的角度,應(yīng)允許教師批改后學(xué)生仍可修改,但從成績評定的公平性來看,則應(yīng)采取雙界面的形式,使教師能夠看到自己當(dāng)時的評定信息,便于成績認(rèn)定;使教師同時能夠看到學(xué)生的再修改界面,有利于學(xué)生的再學(xué)習(xí)和提高。寫作修改軌跡,有用戶以涉及個人隱私為由,提出不應(yīng)呈現(xiàn),反映出學(xué)生的法律意識和自尊。從尊重和保護(hù)學(xué)生的角度,批改網(wǎng)可呈現(xiàn)修改次數(shù),將修改軌跡是否呈現(xiàn)交由用戶自行決定。
內(nèi)容相關(guān)性與相似度檢測,亦是用戶的重要關(guān)注點。內(nèi)容相關(guān)性涉及語義分析,亦是作文智能批改的難點。在實際操作中,批改網(wǎng)將其分為內(nèi)相關(guān)與外相關(guān)。前者指“作文用到的關(guān)鍵詞內(nèi)部之間的相關(guān)性”,后者指“本篇作文和相同題目作文之間的相關(guān)性”。相似度檢測,其比對對象則局限于批改網(wǎng)內(nèi)部所有作文,對于抄襲網(wǎng)絡(luò)資源等無法檢測。這與通常意義上的內(nèi)容相關(guān)性、相似度檢測,仍有一段距離。
在發(fā)帖中,也有用戶提出了正確使用批改網(wǎng)的態(tài)度,認(rèn)為“盡信書則不如無書”,以批改網(wǎng)智能批改為基礎(chǔ),與教師批改有機(jī)結(jié)合,方是正確方法,可以有效改善“學(xué)生苦老師累”的狀況。
2.情感分析
本研究將大連理工大學(xué)情感詞匯本體庫(徐琳宏等, 2008)[6] 180和中國知網(wǎng)情感分析用詞語集(beta版)合并,作為情感極性詞匯庫,對1739條發(fā)帖進(jìn)行分句、分詞處理,確定詞匯極性,計算情感評分發(fā)現(xiàn),批改網(wǎng)反饋意見發(fā)帖中,以中性情緒與積極情緒為主,分別為39.44%、39.22%,消極情緒僅占21.34%。總體來看,發(fā)帖內(nèi)容敘述客觀,對批改網(wǎng)應(yīng)用持贊成態(tài)度。
從1966年E. Page提出第一個自動評分系統(tǒng)PEG(Project Essay Grade)[7]238至今,已經(jīng)有五十余年。目前應(yīng)用成熟的系統(tǒng)有PEG、E-rater[8]55、Intelligent Essay Assessor (IEA)[9]68(P.W. Foltz等, 2013)、IntelliMetric[10]89(M.T. Schultz, 2013)。時至今日,囿限于技術(shù)的發(fā)展水平,自動寫作評分/評價的弱點十分明顯:主要側(cè)重于詞匯和文本的語法,以及有限地考慮文本語義[11]118。但在手工評閱費時費力這一事實面前,自動寫作評分/評價成為實際可行的解決方案。
表2批改網(wǎng)反饋意見發(fā)帖主題分類統(tǒng)計列表
根據(jù)Blood I.(2011)[12]40的研究,識別偽劣作文、增強(qiáng)反饋的豐富性亦是自動寫作評分/評價領(lǐng)域的難題。機(jī)器評分會導(dǎo)致學(xué)生過多地考慮評分維度,使用所謂高分詞匯、句型等技巧,從而獲得高分。但這卻并非寫作能力的真正提高。如何識別惡意獲取高分的行為,培養(yǎng)真正的語言產(chǎn)出性行為,是自動寫作評分/評價領(lǐng)域的一個重任。再者,從自主學(xué)習(xí)的角度來看,僅僅獲得一個評分,顯然不能成為最終目的。能夠提供有意義的、有建設(shè)性的反饋,以供學(xué)生修改提高,這才是寫作教學(xué)的期望。
通過網(wǎng)絡(luò)關(guān)注度和地域分布分析,可以看出批改網(wǎng)在國內(nèi)的應(yīng)用非常廣泛,已成為寫作教學(xué)實施的重要方式之一。作為國內(nèi)唯一基于語料庫的自動批改系統(tǒng),批改網(wǎng)已逐漸得到認(rèn)可,在降低測試成本、快速提供成績報告、減輕教師工作量、實現(xiàn)大量學(xué)生的大數(shù)量寫作方面,具有明顯優(yōu)勢。其自動反饋的匿名性、即時性和改進(jìn)的可重復(fù)性,已成為學(xué)生多寫多練的有效激勵方式。
根據(jù)用戶學(xué)習(xí)關(guān)注點和批改網(wǎng)反饋意見的分析,批改網(wǎng)可進(jìn)一步完善各項功能,加強(qiáng)語義分析研究,進(jìn)一步提高評分的可靠性,建設(shè)細(xì)化具體的反饋系統(tǒng)等,以更好地滿足用戶寫作練習(xí)的需求。同時,進(jìn)一步加強(qiáng)機(jī)改系統(tǒng)對各種終端的兼容性,尤其是平板電腦、手機(jī)系統(tǒng),以利于真正實現(xiàn)寫作的泛在學(xué)習(xí)。
從本研究的分析來看,眾多用戶對批改網(wǎng)提出的意見建議,許多屬于功能進(jìn)一步完善的范疇,需要批改網(wǎng)服務(wù)的進(jìn)一步細(xì)化;但有一些則屬于自動寫作評分/評價領(lǐng)域共同面臨的難題,期待未來眾多研究學(xué)者的共同攻關(guān)克難。我們對待包括批改網(wǎng)在內(nèi)的自動寫作評分/評價系統(tǒng),均應(yīng)該具有正確的使用態(tài)度,正確認(rèn)識其角色作用,對其求大求全,至少在目前,皆不現(xiàn)實。自動寫作評分/評價系統(tǒng)可以提供幫助,而不是替代教師的作用。