高健民
(浙江大學 外國語言文化與國際交流學院,浙江 杭州 310058)
寫作評估是外語教育中的重要一環(huán)。隨著計算機科學技術(shù)的發(fā)展,英語作文評分的方式也發(fā)生了巨大改變。系統(tǒng)自動評分的方式不僅彌補了人工評分成本高、效率低的局限,還提高了作文評分的信度,減輕了由于人工閱卷員評分標準不一致造成的偏頗。一些自動評分系統(tǒng)不僅可以給作文提供一個整體性的分數(shù),還能同時呈現(xiàn)關(guān)于作文語言質(zhì)量的反饋,這些優(yōu)點使得作文自動評分系統(tǒng)不僅被廣泛應(yīng)用于各種英語考試中,許多英語教師也將其應(yīng)用在課堂測試的評分上。然而,即使作文自動評分系統(tǒng)在評估學生的寫作能力方面有著很多優(yōu)勢,對其評分可靠性和有效性的爭論卻從未停止過。此外,由于這些評分系統(tǒng)往往缺乏評分過程上的透明性,直觀感受其評分效果十分困難。因此,對于作文自動評分系統(tǒng)評分質(zhì)量的定量分析是十分重要的。
從理論的角度,一些研究者提出了對于作文自動評分系統(tǒng)評分質(zhì)量進行評估的必要性以及需要考慮的因素。例如,Xi系統(tǒng)性地提出了作文自動評分系統(tǒng)評分過程有效性的問題,主要對使用作文自動評分系統(tǒng)是否會引起構(gòu)念無關(guān)因素或造成構(gòu)念代表性不足的問題進行了討論,還指出研究系統(tǒng)自動評分結(jié)果與其他非測試得分類指標的一致性至關(guān)重要。[1]Deane也討論了采用系統(tǒng)自動評分方式對構(gòu)念效度的影響,指出作文自動評分系統(tǒng)所能測量到的寫作技能是有限的。[2]
在實證研究方面,Weigle將考生在托福考試(TOFEL)寫作任務(wù)中由e-rater這一自動評分系統(tǒng)給出的得分與考生對于自我寫作能力的自評分以及考生在非測試環(huán)境下完成的作文的得分進行了比較,最后發(fā)現(xiàn)這些得分之間存在中等強度的相關(guān)性。[3]Ramineni等人將GRE測試(美國研究生入學考試)中的考生作文作為語料,對人工評分和系統(tǒng)自動評分的預(yù)測效度進行了比較,結(jié)果發(fā)現(xiàn)兩者都能很好地預(yù)測考生在口語測試任務(wù)上的得分。[4]除了研究系統(tǒng)自動評分與其他測量寫作水平或整體語言水平指標的相關(guān)性之外,一些研究者還研究了系統(tǒng)自動評分與人工評分的一致性,這類研究的共同發(fā)現(xiàn)是自動評分與人工評分之間具有較高的一致性,并且這兩者的一致性接近不同閱卷員之間評分的一致性。[5-6]除此之外,還有許多針對不同自動評分系統(tǒng)的個案研究。[7]
通過對以往文獻的系統(tǒng)性梳理,本研究發(fā)現(xiàn)了在這一領(lǐng)域研究上的不足。首先,雖然很多研究都表明系統(tǒng)自動評分與人工評分有著高度的相關(guān)性,在Liu和Kunnan的研究中卻顯現(xiàn)了不同的結(jié)果。[8]而且這種一致性不應(yīng)該被當作是衡量評分有效性的唯一指標,因為其僅能反映出系統(tǒng)自動評分的穩(wěn)定程度,并不能反映其全面評估考生寫作水平的能力;[9](P142-173)且以往研究往往割裂了分數(shù)與文本之間的聯(lián)系,沒能從作文本身語言特征的角度為系統(tǒng)自動評分質(zhì)量的高低提供證據(jù)。其次,以往大多數(shù)研究都是國外研究者針對國外考試機構(gòu)開發(fā)的自動評分系統(tǒng)所作的效度驗證,而國內(nèi)這方面的研究比較少,且多為綜述性研究,[10-13]僅Qian等學者和何旭良針對國內(nèi)的兩款主流自動評分系統(tǒng),即iWrite和批改網(wǎng)的評分質(zhì)量進行了實證研究。[14-15]由于國外大多數(shù)的自動評分系統(tǒng)在國內(nèi)是無法使用的,而中國擁有龐大的英語學習群體,因此對國內(nèi)主流作文自動評分系統(tǒng)評分質(zhì)量的研究意義重大。
本研究選取了批改網(wǎng)作為研究對象,原因在于其較早得到了推廣,且可以被免費使用,有著龐大的受眾群體。對于批改網(wǎng)評分質(zhì)量的研究不僅可以填補國內(nèi)對于作文自動評分系統(tǒng)評分質(zhì)量實證研究的空白,還能為廣大英語教師及學習者提供啟示?;诖?,本研究主要關(guān)注以下兩個問題:(1)批改網(wǎng)系統(tǒng)自動評分與人工評分的一致性如何?(2)批改網(wǎng)系統(tǒng)自動評分與文本語言特征(復(fù)雜度、準確性和流利度)的相關(guān)性如何?
1.材料與被試
本研究所用的語料為國內(nèi)某大學104名一年級學生的英語期末考試作文。這些學生都是非英語專業(yè),并且來自兩個不同的大學英語平行班。該英語測試在課程結(jié)束時舉行,其中包含一項獨立寫作任務(wù),寫作題目是分析一項社會問題。作文成績與學生的課程成績直接相關(guān),因此可以確保所有學生都認真進行了作答。
2.評分過程
所有作文都是由一名任課教師和一名研究者共同批閱的,均具有豐富的閱卷經(jīng)驗。評分依據(jù)是全國大學生英語四級考試作文整體性評分量表(滿分15分)。在正式評分之前,兩位評分員就評分標準進行了討論,然后隨機抽取了25份作文進行了試評,在兩位評分員的評分達到高度一致后(r=0.86,p<0.01),每位評分員分別對其余的作文進行了獨立評分。每篇作文最終的人工得分為兩個評分員評分的均值。由于批改網(wǎng)評分制為百分制,因此在系統(tǒng)批閱所有作文后,研究者將百分制分數(shù)轉(zhuǎn)化為了15分制的分數(shù)。
3.文本語言特征量化指標
在本研究中,研究者對文本語言特征進行了量化。復(fù)雜度方面由Coh-Metrix文本分析軟件進行量化。對于句法復(fù)雜度,本文從句子和短語層面選取了4個指標,即平均句長、從句數(shù)量、名詞短語密度及動詞短語密度。詞匯復(fù)雜度由篇章詞匯多樣性指標量化,因該指標對于文章長度最不敏感,即其不易受到不同文章長度的影響。[16]
準確性由文章錯誤率量化。錯誤類型的識別依據(jù)Bardovi-Harling和Bofman提出的標準。[17]兩位評分員首先對于隨機抽取的25篇作文進行了試編碼,即識別出作文中所有的語言錯誤。在評分員所識別出的錯誤數(shù)量達到高度一致后(r=0.89,p<0.05),兩位評分員分別對剩余的作文進行編碼。文章錯誤率即語言錯誤總數(shù)占作文總詞數(shù)的比率,這種做法有利于使準確率的統(tǒng)計免受文章長度的影響。
作文的流利度由總詞數(shù)衡量。由于在測試環(huán)境下,考生答題時間上限是固定的,且根據(jù)以往觀察,考生在寫作任務(wù)上的用時不會有過大的差異,因此總詞數(shù)能夠在一定程度上衡量考生的寫作速率。
4.數(shù)據(jù)分析
對于第一個研究問題,研究者首先對批改網(wǎng)自動評分和人工評分進行了配對樣本t檢驗,以比較兩者在分數(shù)高低上的差異。然后,研究者對兩組分數(shù)做了一致性檢驗,具體指標包括精確一致性(分值完全相等)、臨近一致性(分值差異小于等于2分)和皮爾遜相關(guān)系數(shù)。對于第二個研究問題,研究者將批改網(wǎng)自動評分與作文文本語言特征的各項指標做了相關(guān)分析。
1.批改網(wǎng)自動評分與人工評分的一致性
據(jù)表1所示,批改網(wǎng)評分的平均值,最大值及最小值均高于人工評分,且配對樣本t檢驗的結(jié)果表明批改網(wǎng)評分與人工評分具有顯著差異(p<0.05)。這表明批改網(wǎng)評分要比人工評分更高。根據(jù)表2所示,批改網(wǎng)評分與人工評分的精確一致性和臨近一致性較低,且相關(guān)系數(shù)為0.41(p<0.01),說明兩者僅存在著弱相關(guān)關(guān)系。
表1 批改網(wǎng)評分與人工評分的描述性統(tǒng)計
表2 批改網(wǎng)評分與人工評分的一致性統(tǒng)計
2.批改網(wǎng)評分與作文文本語言特征指標的相關(guān)性
表3列出了批改網(wǎng)評分與文本復(fù)雜度、準確度和流利度指標的相關(guān)系數(shù)。可見,批改網(wǎng)評分僅與句法復(fù)雜度中的名詞短語密度、詞匯復(fù)雜度指標以及流利度指標相關(guān)。其中,批改網(wǎng)評分僅與表示詞匯復(fù)雜度的篇章詞匯多樣性有強相關(guān)關(guān)系,相關(guān)系數(shù)為0.764,其余均為中等相關(guān)。
表3 批改網(wǎng)評分與文本語言特征指標的相關(guān)系數(shù)
3.討論
首先,批改網(wǎng)評分顯著高于人工評分,這一點與何旭良的研究結(jié)論完全一致。結(jié)合批改網(wǎng)評分與文本語言特征的相關(guān)性結(jié)果可知,批改網(wǎng)關(guān)注到的語言特征是有限的。而人工閱卷往往會從更多方面考慮作文質(zhì)量,如寫作邏輯、內(nèi)容質(zhì)量、語言的地道性等,因此人工評分可能會比系統(tǒng)自動評分更加“苛刻”。其次,批改網(wǎng)評分與人工評分為弱相關(guān)關(guān)系,這一點與何旭良的研究結(jié)果相違背,推測其原因在于本研究中的作文樣本量更大。精確一致性和臨近一致性指標表明,兩者的評分并不總是完全一致的,這一發(fā)現(xiàn)與國外學者對于e-rater和My Access評分質(zhì)量的研究結(jié)果不同,原因可能在于不同的自動評分系統(tǒng)在評分單位上有所差異。評分量表的全距越高,可能會導致作文之間分數(shù)差異更大,從而影響到精確一致性和臨近一致性的數(shù)值。但是從另一個角度看,這也在一定程度上表明批改網(wǎng)的評分質(zhì)量仍有待提高。
批改網(wǎng)評分與文本語言特征的相關(guān)性說明,批改網(wǎng)系統(tǒng)評分可能更加關(guān)注作文在詞匯層面的表現(xiàn),詞匯的多樣性以及名詞短語的使用都與批改網(wǎng)評分呈正相關(guān)關(guān)系。批改網(wǎng)評分沒能反映考生在句子組構(gòu)層面的能力,原因可能是大一的非英語專業(yè)學生經(jīng)受的語言訓練比較少,沒有經(jīng)歷長期的浸入式英語學習,所以普遍在句法方面表現(xiàn)較差,不能與彼此之間拉開顯著的差距,而他們在相對容易學習的詞匯表達方面則能體現(xiàn)出更大的差距。此外,批改網(wǎng)評分也不能反映出作文的準確率,這可能是因為自動評分系統(tǒng)只能識別出句法和詞匯形態(tài)層面的錯誤,在識別如詞匯使用合理性及詞匯搭配方面的錯誤上不夠精確,這類錯誤的識別往往需要專業(yè)教師的判斷,因而其評分與人工進行統(tǒng)計的準確率沒能呈現(xiàn)統(tǒng)計學上的相關(guān)性。從另一方面來看,批改網(wǎng)系統(tǒng)在評分有效性上需要進一步優(yōu)化,提高其對句法特征和語言準確度方面的識別能力。最后,批改網(wǎng)評分與作文總詞數(shù)呈正相關(guān),而總詞數(shù)往往與詞匯多樣性相關(guān),尤其是對于那些詞匯量積累較大的考生來說,寫的詞數(shù)越多,越能體現(xiàn)他們的語言能力,因而會在批改網(wǎng)中得到更高的分數(shù)。同時,本研究中考生作文的體裁為議論文,文章的長度或許也與論證的充分性程度相關(guān),關(guān)于批改網(wǎng)是否能夠識別這種高階的語言能力還需要更多的研究進行驗證。
本研究中發(fā)現(xiàn)批改網(wǎng)評分與富有經(jīng)驗的評分員給出的評分之間的一致性較低,其主要與名詞短語密度、詞匯復(fù)雜度和總詞數(shù)相關(guān),不能全面反映文本語言特征。這表明批改網(wǎng)作文自動評分系統(tǒng)作為一種教學輔助工具,僅可在有限的程度上幫助教師區(qū)別不同水平的作文。因此,僅依靠批改網(wǎng)評分對學生的作文質(zhì)量進行評估是不正確的,仍然要對學生的作文進行多元反饋。學習者可以將其評分作為參考,并主要關(guān)注其在詞匯層面給出的建議。
本研究也存在幾點局限:首先,與大多數(shù)研究一樣,本研究中收集到的作文都屬于議論文體裁,這可能與測試中多使用議論文寫作任務(wù)的情況有關(guān)。但學生平時的寫作練習不僅局限于議論文體裁,所以未來研究可以用不同體裁的作文作為語料驗證本研究中的結(jié)論。其次,本研究中沒有考慮英語專業(yè)學生的作文。英語專業(yè)學生英語水平通常較高,其作文可能在句法復(fù)雜度方面的差異更加明顯,因而以英語專業(yè)學生的作文作為語料進行系統(tǒng)自動評分可能會產(chǎn)生與本研究不同的結(jié)果。