常偉
【摘要】句酷批改網對提高學生的寫作能力有著不可低估的作用。然而,句酷批改網在對英語作文評判中依然存在著相當嚴重的信度和效度不足問題。文章試圖從詞意、結構、邏輯性方面對句酷批改網評分失真因素進行探析。
【關鍵詞】英語作文;信度;效度;句酷批改網
一、引言
句酷批改網是北京詞網科技有限公司開發(fā)的一款基于語料庫和云計算技術的英語作文自動在線批改服務系統(tǒng)。該系統(tǒng)將學生作文與語料庫文本從192個子維度進行對比測量,將其差距通過一定的權重進行計算,在生成詞匯、句子、篇章和內容四個維度的得分的同時給予最后總分、評語和點評。同時,對拼寫錯誤、語法錯誤、中式英語、高分句型和易混詞匯等信息提供反饋,提示學生進行作文修改,從而達到提高學生寫作水平的目的。該系統(tǒng)與傳統(tǒng)作文批改方式相比優(yōu)勢明顯,能有效提高教師的工作效率,提升學生的英語寫作能力。
然而,在實際的寫作實踐過程中,筆者發(fā)現(xiàn)句酷批改網在信度和效度方面都存在一定的問題,有些問題甚至較為嚴重。基于此,本文將從詞意、結構、邏輯性方面研究影響句酷批改網信度和效度失真的因素,以及以上三個方面在多大程度上會影響信度和效度的偏移。
二、研究現(xiàn)狀
隨著句酷批改網在全國各高校英語教學中的實踐應用的興起,國內眾多研究者對句酷批改網在寫作實際運用中的作用、效果、運用策略等方面做了實證調查研究,并得出了相應結論。例如:這種方式為學生在詞匯和語法上提供了很多幫助,但是在思想內容、篇章結構和邏輯性方面還需要教師的輔導(馬衛(wèi)華,甄強,2017);句酷批改網比較機械化,不夠智能化,不能判斷作文題目與文章內容的相關性,不能判斷寫作者寫的作文是否跑題,作文題目根本不影響作文的得分(羅保山,2016);批改網評分尚不能反映學生英語作文的真實水平。在詞匯和語法層面給予學生的反饋較多,但在寫作內容、篇章結構、語體修辭、內容邏輯性及連貫性方面尚不能給學生足夠的反饋(何旭良,2013);對常見拼寫錯誤和搭配問題能做出正確的批改,但就批改效度而言,還需要在語篇結構、修辭手法、語言的得體性等方面進行改進,提高句酷批改的靈活度(何小翠,2015)。眾多研究都明確指出了一個不可回避的尷尬現(xiàn)狀,即句酷批改系統(tǒng)在信度和效度方面存在失真現(xiàn)象。本研究將從詞意、結構、邏輯性三個方面展開研究,力圖探究這三個方面在評分上如何影響最終結果。
三、關于信度與效度
(一)信度
信度(Reliability)即可靠性,指的是采取同樣的方法對同一對象重復進行測量時,其所得結果相一致的程度。信度分析的常用具體方法有重測信度(test-retest reliability)、復本信度(parallel-forms reliability)、分半信度(split-half reliability)。對于句酷批改網打分評判的信度而言,其主要目的在于確定文本在什么程度上會導致其評分信度的失真。也就是說,當寫作者提交一篇作品之后,句酷批改網給出的評分是否能有效測量作者的實際語言水平。
(二)效度
效度(Validity)即有效性,是指測量工具或手段能夠準確測出所需測量的事物的程度。效度是指所測量的結果反映所想要考察內容的程度,測量結果與要考察的內容越吻合,效度越高;反之,則效度越低。效度分為三種類型:內容效度(content-related validity)、準則效度(criterion-related validity)和結構效度(construct-related validity)。就句酷批改網效度而言,主要看是否檢測了應該檢測的內容或者說所檢測的內容是否反映了檢測的要求,即測試的代表性和覆蓋面的程度。
四、研究方法
鑒于該研究只針對大學英語四級寫作文本的檢測信度和效度研究,因此本研究材料均取自大學英語四級標準寫作文本。筆者選取2013-2017年四級真題寫作標準范文10篇,通過對文本的分析和檢測來回答句酷批改網對文本如何在詞意、結構、邏輯性方面的失真導致檢測的信度和效度失真。
(一)用詞對評分信度和效度的影響
對于英語寫作能力評判的要素之一就是文本用詞的準確性和復雜性。對于寫作水平評判,必然需要考察的是這個層次應該具備的用詞難度。因此,用詞的準確性是影響文本質量的重要因素。筆者先將10篇四級寫作標準范文用句酷批改網進行評分,得出對照組分數;然后將每一篇范文中涉及話題的名詞一律用X符號代替,再進行評分,得出實驗組分數。其結果如表1。
從表1可以看出,雖然實驗組成績都有所下降,但句酷網給出的關于詞匯部分的評分卻沒有降低,而是對篇章結構的評分降低了,這一點反映了句酷批改網存在信度失真。實驗組的作文雖然句型結構未變,但實際表達意義消失,雖然評分有所下降,但整體分數依然偏高,與實際應該的得分相差較大,這說明句酷批改網在對作文的評分中對文章核心詞的關聯(lián)度極低。同時,對照組平均成績?yōu)?5分,在對名詞替換后,實驗組平均成績?yōu)?7.05分,平均成績下降了7.95分。從效度角度來看,句酷批改網評測效度較為理想。
筆者隨后將10篇標準范文中的動詞進行語法錯誤性替換,再進行評分,得出10個實驗分。其結果如表2。
從表2可以看出,實驗組文章錯誤數量劇增。雖然實驗組文本的分值出現(xiàn)了下降(實驗組平均成績?yōu)?8.5分,比對照組的平均成績下降了6.5分,說明評測具有一定效度),然而從整體上來看,分數依然還是偏高,與實際應該的得分相差較大,說明信度問題依然嚴峻。句酷批改網在詞匯和句子方面的分值都有所下降,這說明雖然句酷批改網在對作文的評分中對動詞檢測敏感度較高,但與分值關聯(lián)度較低,這是導致評分信度和效度失真的重要因素之一。
(二)文章段落結構對評分信度和效度的影響
對于英語寫作水平評判的另一個要素就是文本篇章結構是否合理。對于四級層次的寫作,合理、必要的分段是評價寫作水平的重要因素。endprint
筆者將10篇標準范文原有段落結構順序徹底打亂,再進行評分,得出10個實驗分。其結果如表3。
由表3可以看出,句酷批改網對打亂了段落結構順序的文章評分與標準范文原文的評分一致。對于英語四級寫作來說,段落結構就是作者論證話題的思路結構,對段落結構的改變在一定程度降低了思路邏輯的合理性。然而,從句酷批改網的評分來看,段落結構的變換沒能帶來相應的評分變換,這說明句酷批改網對段落結構邏輯布局沒有納入評分范圍。這對評分信度和效度有著極大的影響。
(三)句子結構對評分信度和效度的影響
對于四級層次的寫作而言,在要求做到語言表達準確,段落邏輯結構合理之外,句子結構的難易程度也是衡量一篇文章是否優(yōu)秀的重要標準。長、短句的混合存在是優(yōu)秀文章的必要條件之一。
筆者將10篇范文中的長句進行縮句替換,保持信息量不變,然后再進行評分。其結果如表4。
從表4可以看出,在不改變表達意義的前提下,對句子進行縮句替換后,評分都出現(xiàn)下降,且符合實際應得分數,這說明句酷批改網在對句子結構給分判斷上信度和效度較高。以最后一篇范例來看,在進行縮句處理后,文本句型變單一,句子復雜度降低,整體文章質量下降,評分由87分下降為82.5分,實驗組平均成績?yōu)?6.65分,比對照組平均成績下降了8.35分。且評分下降主要體現(xiàn)在句子層面的得分下降,這說明句酷批改網在對句型結構的判斷上具有一定的信度和效度。
五、結論
通過以上實驗性的檢測分析,我們可以看出,句酷批改網在對文章檢測過程中對句型復雜度的賦值大于對用詞準確度的賦值,對文章的段落邏輯結構的檢測信度和效度為零。其中在用詞方面,對名詞的檢測度賦值大于對動詞的檢測賦值,動詞使用錯誤檢測準確率高,但賦值度較低。
在學生使用句酷批改網進行寫作訓練應時,首先,無論是想根據分數來判斷文章存在問題,還是想盡量提升句酷批改網評分,在具體操作上,都應將重點放在句子層面,增加句子長度,多用從句、并列句、復雜句等。句子結構層面的提升既是提升文章質量,也是提升句酷網評分的首要選擇。其次,應該增強用詞方面的準確性和正確性,雖然這在句酷批改網評分提示中較為容易發(fā)現(xiàn)錯誤,賦值也較低,但對文章質量影響較大。再次,句酷批改網只是人工智能在寫作方面的初步應用,要實現(xiàn)人類大腦具有的邏輯性思維還有漫長的路要走。
【參考文獻】
[1]馬衛(wèi)華,甄強.大學生對在線英語寫作自動批改系統(tǒng)的評價——以句酷批改網為例[J].山東廣播電視大學學報,2016(01):31-33.
[2]羅保山.基于句酷批改網的英語作文題目對作文總體評分的影響[J].軟件導刊(教育技術),2016,15(05):91-93.
[3]何旭良.句酷批改網英語作文評分的信度和效度研究[J].現(xiàn)代教育技術,2013,23(05):64-67.endprint