“句酷網(wǎng)”和“冰果”自動(dòng)評(píng)分效度的對(duì)比實(shí)證研究

2017-04-08 06:32:53殷小娟賈永華林慶英

河北北方學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版) 2017年1期

關(guān)鍵詞：酷網(wǎng)人工自動(dòng)

殷小娟,賈永華，林慶英

(閩江學(xué)院外語(yǔ)系，福建福州 350121)

“句酷網(wǎng)”和“冰果”自動(dòng)評(píng)分效度的對(duì)比實(shí)證研究

殷小娟,賈永華，林慶英

(閩江學(xué)院外語(yǔ)系，福建福州 350121)

國(guó)內(nèi)研究者還未對(duì)“句酷網(wǎng)”和“冰果”這兩個(gè)平臺(tái)的評(píng)分效度差異進(jìn)行實(shí)證研究。對(duì)大學(xué)非英語(yǔ)專業(yè)3種題型作文文本的分析結(jié)果表明：“句酷網(wǎng)”和“冰果”的自動(dòng)評(píng)定成績(jī)和人工評(píng)定成績(jī)之間存在顯著的正相關(guān)關(guān)系，相關(guān)程度存在差異，兩個(gè)平臺(tái)對(duì)不同類型作文的評(píng)定成績(jī)效度之間也有差異。

句酷網(wǎng)；冰果；自動(dòng)評(píng)分；效度；作文題型

網(wǎng)絡(luò)出版時(shí)間：2017-02-28 14:50

大數(shù)據(jù)時(shí)代為英語(yǔ)寫(xiě)作的教學(xué)提供了大量輔助系統(tǒng)與工具，其中最受關(guān)注的是英語(yǔ)作文的在線自動(dòng)評(píng)分系統(tǒng)。在國(guó)外，美國(guó)Noodletools公司開(kāi)發(fā)的在線寫(xiě)作輔助系統(tǒng)可以提供記筆記、寫(xiě)大綱、生成參考文獻(xiàn)清單以及獨(dú)立或與同伴合作寫(xiě)作等功能。在中國(guó)，北京詞網(wǎng)科技公司開(kāi)發(fā)的批改網(wǎng)以及浙江大學(xué)外語(yǔ)學(xué)院和外研社與浙江增慧網(wǎng)絡(luò)有限公司合作開(kāi)發(fā)的“冰果”軟件，是目前英語(yǔ)寫(xiě)作教學(xué)中使用最多的兩個(gè)平臺(tái)，都可以為學(xué)生的作文及時(shí)評(píng)分并提供詞匯、語(yǔ)法和篇章等方面的實(shí)時(shí)在線反饋信息。這兩個(gè)平臺(tái)在幫助學(xué)生通過(guò)“多寫(xiě)多練”提高英語(yǔ)寫(xiě)作能力和減輕教師批改作文等工作量的同時(shí)，也儲(chǔ)存了大量和英語(yǔ)寫(xiě)作教學(xué)相關(guān)的數(shù)據(jù)。

“大數(shù)據(jù)”分析是最近幾年的新興事物，將它應(yīng)用在外語(yǔ)教育研究中更是鮮見(jiàn)。中國(guó)學(xué)者的探索性研究在這個(gè)領(lǐng)域起到了前驅(qū)作用。王海嘯率先指出，“大數(shù)據(jù)時(shí)代，大學(xué)英語(yǔ)寫(xiě)作應(yīng)以語(yǔ)言應(yīng)用為教學(xué)目的，多角度認(rèn)識(shí)作者﹑文本與讀者之間的關(guān)系，多維度地設(shè)計(jì)教學(xué)方案”[1]。錢(qián)文娟以“句酷網(wǎng)”為例探討了大數(shù)據(jù)時(shí)代高職英語(yǔ)寫(xiě)作自動(dòng)評(píng)分的新模式[2]。從研究成果看，將大數(shù)據(jù)時(shí)代和外語(yǔ)教學(xué)結(jié)合的研究成果屈指可數(shù)，更不用說(shuō)大數(shù)據(jù)時(shí)代下對(duì)英語(yǔ)寫(xiě)作教學(xué)改革的研究。正因?yàn)槿绱?，大?shù)據(jù)時(shí)代英語(yǔ)寫(xiě)作在線自動(dòng)評(píng)分系統(tǒng)的應(yīng)用和評(píng)價(jià)亟待深入研究且意義深遠(yuǎn)。

一、作文自動(dòng)評(píng)分研究綜述

日常教學(xué)中的作文批改任務(wù)對(duì)老師來(lái)說(shuō)是非常繁重的，反饋不及時(shí)也是英語(yǔ)寫(xiě)作教學(xué)中的常見(jiàn)問(wèn)題。如何借助最新的科技成果提高英語(yǔ)作文的閱卷效率，從而減輕教師的工作負(fù)擔(dān)，同時(shí)提高學(xué)生的寫(xiě)作熱情成為國(guó)內(nèi)外研究者的重要課題。

相比而言，國(guó)外的作文自動(dòng)評(píng)分系統(tǒng)開(kāi)發(fā)和研究比中國(guó)起步較早。美國(guó)杜克大學(xué)1966年開(kāi)發(fā)出第一套作文自動(dòng)評(píng)分系統(tǒng)PEG(project essay grader)，Valenti發(fā)現(xiàn)“PEG最新實(shí)驗(yàn)結(jié)果與評(píng)卷人的評(píng)分在多元回歸相關(guān)性上達(dá)到0．87”[3]，但Kukich指出，“由于PEG采用對(duì)寫(xiě)作質(zhì)量的間接測(cè)量而很容易被寫(xiě)作者欺騙，比如寫(xiě)出更長(zhǎng)的文章”[4]。除此之外，國(guó)外較為成熟的自動(dòng)評(píng)分系統(tǒng)還有IEA(intelligent essay assessor)、E-rater(electronic essay rater)以及Intelli Metric TM等。中國(guó)的相關(guān)研究相對(duì)滯后，雖然梁茂成主持開(kāi)發(fā)的“大規(guī)?？荚囉⒄Z(yǔ)作文自動(dòng)評(píng)分系統(tǒng)”已于2005年申請(qǐng)了國(guó)家專利，但葛詩(shī)利和陳瀟瀟等卻認(rèn)為“由于該系統(tǒng)以淺層特征的統(tǒng)計(jì)分析為主，以及樣本數(shù)量、范圍的局限性，其評(píng)分模型與實(shí)用系統(tǒng)尚有一定的距離”[5]。最近幾年，中國(guó)一些企業(yè)和高校也合作開(kāi)發(fā)了一些英語(yǔ)作文自動(dòng)批改系統(tǒng)，其中影響較大的要屬“冰果”和“句酷網(wǎng)”。據(jù)有關(guān)統(tǒng)計(jì)，中國(guó)有超過(guò)1 000所大學(xué)和中學(xué)正在試用“句酷”作文批改系統(tǒng)，典型的學(xué)校有清華大學(xué)﹑復(fù)旦大學(xué)和南京大學(xué)等名校；“冰果”系統(tǒng)的用戶稍少，也達(dá)到450多所院校[6]104。

雖然這兩個(gè)系統(tǒng)的試用范圍較廣，相關(guān)的實(shí)證研究卻很有限。筆者通過(guò)“中國(guó)知網(wǎng)”數(shù)據(jù)庫(kù)反復(fù)檢索了1990-2014年“句酷網(wǎng)”相關(guān)文獻(xiàn)，梳理后發(fā)現(xiàn)共有19篇期刊論文，其中12篇是2012年以后的最新研究成果。相關(guān)研究成果分為兩類：一類是純粹對(duì)句酷網(wǎng)功能的簡(jiǎn)單介紹和優(yōu)缺點(diǎn)探討，如毛世花和陳曉麗對(duì)比了中美兩國(guó)的英語(yǔ)教學(xué)及大規(guī)?？荚囍凶顬榱餍信c常用的作文自動(dòng)評(píng)分系統(tǒng)E-rater和句酷的基本工作原理，并探討了其優(yōu)缺點(diǎn)，為中國(guó)大學(xué)生英語(yǔ)寫(xiě)作水平的提高提供參考[7]。另一類是實(shí)證研究，又分為3類：一是研究者試圖用實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證“句酷網(wǎng)”自動(dòng)評(píng)分和人工評(píng)分的相關(guān)性和差異性，從而證明“句酷網(wǎng)”評(píng)分的效度和信度，但發(fā)現(xiàn)的結(jié)果并不太一致。何旭良從中國(guó)學(xué)習(xí)者語(yǔ)料庫(kù)里抽出樣本，對(duì)比“句酷網(wǎng)”作文評(píng)分語(yǔ)料庫(kù)里的原始分?jǐn)?shù)后發(fā)現(xiàn)，兩者的克隆巴赫系數(shù)在0.6以上，但“句酷網(wǎng)”的評(píng)分和人工評(píng)分之間有顯著差異，批改網(wǎng)的分?jǐn)?shù)顯著高于人工評(píng)分[8]66。第二類實(shí)證研究主要探討“句酷網(wǎng)”的使用對(duì)受試英語(yǔ)寫(xiě)作水平提高的作用。研究者證明，實(shí)驗(yàn)組在使用“句酷網(wǎng)”1學(xué)年后寫(xiě)作成績(jī)明顯好于沒(méi)使用“句酷網(wǎng)”的控制組[9]。最后一類實(shí)證研究主要是以問(wèn)卷或問(wèn)卷結(jié)合訪談的方式調(diào)查學(xué)生和教師對(duì)句酷網(wǎng)的滿意度或具體使用意見(jiàn)。譬如，石曉玲的問(wèn)卷調(diào)查結(jié)果表明，“雖然只有近一半(48%)的學(xué)生對(duì)使用‘句酷網(wǎng)’持特別喜歡和比較喜歡的態(tài)度，但大多數(shù)學(xué)生(86.8%)很希望并有信心(78.3%)能通過(guò)‘句酷網(wǎng)’提高自己的英語(yǔ)寫(xiě)作水平”[10]。此外，也有研究發(fā)現(xiàn)，“句酷網(wǎng)”在對(duì)學(xué)生作文是否離題的判斷上有一些偏差[11]。

相比之下，針對(duì)“冰果”系統(tǒng)的實(shí)證研究似乎更少，筆者同樣在“中國(guó)知網(wǎng)”中檢索了1990-2014年的有關(guān)研究記錄，整理后發(fā)現(xiàn)僅有12篇期刊論文。研究者從不同角度探討“冰果”系統(tǒng)的評(píng)分信度及對(duì)受試英語(yǔ)寫(xiě)作能力的作用。一方面，有關(guān)“冰果”系統(tǒng)評(píng)分效度的研究結(jié)果不太一致。曾劍基于1學(xué)期的實(shí)驗(yàn)，對(duì)255份學(xué)生作文樣本進(jìn)行等方差檢驗(yàn)方法和皮爾森相關(guān)性檢驗(yàn)后發(fā)現(xiàn)，“在設(shè)定同樣得分均值的情況下，冰果系統(tǒng)的評(píng)分和人工評(píng)分有很強(qiáng)的正相關(guān)，但冰果系統(tǒng)的評(píng)分更加集中，而人工評(píng)分更能準(zhǔn)確反映學(xué)生的個(gè)體差異”[9]108。但也有研究者發(fā)現(xiàn)“冰果”自動(dòng)評(píng)分系統(tǒng)的內(nèi)在不一致性，如楊婷婷對(duì)比了同一批作文在“冰果”系統(tǒng)的“新評(píng)”成績(jī)(作文提交后立即生成的評(píng)分)和“冰評(píng)”成績(jī)(作文提交后48小時(shí)內(nèi)的再次評(píng)分)，發(fā)現(xiàn)“兩者有統(tǒng)計(jì)意義上的顯著差異”[12]；另一方面，有關(guān)“冰果”系統(tǒng)的使用對(duì)受試英語(yǔ)寫(xiě)作學(xué)習(xí)的作用研究結(jié)果比較一致，如魯艷輝研究還發(fā)現(xiàn)，“‘冰果’作文智能評(píng)分系統(tǒng)的使用除能提高學(xué)生的寫(xiě)作文本質(zhì)量外，對(duì)改變學(xué)習(xí)者的學(xué)習(xí)策略有一定的促進(jìn)作用”[13]。

雖然分別針對(duì)“句酷網(wǎng)”和“冰果”系統(tǒng)的研究呈增多和加深之勢(shì)，卻鮮有研究者同時(shí)研究這兩個(gè)系統(tǒng)。有關(guān)“冰果”和“句酷”的對(duì)比研究，筆者在“中國(guó)知網(wǎng)”中迄今只查到1篇期刊論文，陳長(zhǎng)進(jìn)只是簡(jiǎn)單地對(duì)比了兩種系統(tǒng)的功能差異和各自的優(yōu)勢(shì)，卻沒(méi)有任何的實(shí)證數(shù)據(jù)[14]。所以，研究將用數(shù)據(jù)統(tǒng)計(jì)方法對(duì)比兩個(gè)系統(tǒng)的評(píng)分效度，從而豐富中國(guó)有關(guān)“句酷”和“冰果”自動(dòng)評(píng)分系統(tǒng)的實(shí)證研究。

二、研究設(shè)計(jì)

整個(gè)研究過(guò)程，從研究問(wèn)題的設(shè)計(jì)、研究方法的采用以及數(shù)據(jù)的收集與分析3個(gè)層次進(jìn)行。

(一)研究問(wèn)題

為了對(duì)“句酷網(wǎng)”和“冰果”兩個(gè)系統(tǒng)以及兩個(gè)系統(tǒng)與人工評(píng)定之間的關(guān)系分別考察，設(shè)計(jì)如下3個(gè)問(wèn)題。

1.在對(duì)同一批受試完成的同一篇命題作文進(jìn)行系統(tǒng)自動(dòng)評(píng)分前提下，“句酷網(wǎng)”﹑“冰果”和人工評(píng)定成績(jī)3者中兩兩之間有沒(méi)有呈正相關(guān)關(guān)系？

2.對(duì)同一批受試完成的同一篇命題作文的評(píng)分，“句酷網(wǎng)”﹑“冰果”和人工評(píng)定成績(jī)3者中兩兩之間有沒(méi)有顯著差異？

3.“句酷網(wǎng)”和“冰果”系統(tǒng)對(duì)不同類型的命題作文的評(píng)分信度有何差異？

(二)研究方法

本實(shí)驗(yàn)的52名受試均來(lái)自研究者授課的同一自然班——閩江學(xué)院2013級(jí)財(cái)務(wù)管理班，他們一周上兩次大學(xué)英語(yǔ)課，但是沒(méi)有單獨(dú)的寫(xiě)作課。

1.研究對(duì)象

受試的年齡介于18～20周歲之間，他們?cè)谌雽W(xué)時(shí)經(jīng)過(guò)統(tǒng)一的英語(yǔ)水平考試，英語(yǔ)處于同一水平線上。所有受試的母語(yǔ)為漢語(yǔ)，英語(yǔ)為外語(yǔ)。參加本實(shí)驗(yàn)時(shí)受試是剛?cè)胄５拇笠恍律?/p>

2.寫(xiě)作任務(wù)

研究者在分析歷年大學(xué)英語(yǔ)四﹑六級(jí)考試作文真題的同時(shí)，結(jié)合受試大一期間所用英語(yǔ)課本的話題內(nèi)容和類型特點(diǎn)，選擇了觀點(diǎn)論證型﹑問(wèn)題解決型和對(duì)比型3種作文類型作為大學(xué)一年級(jí)的寫(xiě)作訓(xùn)練重點(diǎn)。但由于學(xué)生在一學(xué)年完成作文次數(shù)較多，本實(shí)驗(yàn)只選擇了其中3次作文任務(wù)的成績(jī)作為分析數(shù)據(jù)。這3次寫(xiě)作任務(wù)描述和受試具體完成情況見(jiàn)表1。

表1 寫(xiě)作任務(wù)描述及完成情況

3.實(shí)驗(yàn)過(guò)程

研究者(即筆者)在受試大一第一節(jié)英語(yǔ)課上介紹了“句酷網(wǎng)”的功能和使用方法，沒(méi)有告知受試本次實(shí)驗(yàn)?zāi)康模珵榱艘饘W(xué)生的注意和測(cè)出學(xué)生的真實(shí)水平，筆者告知受試每次寫(xiě)作任務(wù)都會(huì)計(jì)入平時(shí)成績(jī)，而且特別強(qiáng)調(diào)“句酷網(wǎng)”有檢測(cè)抄襲功能。第一學(xué)期，筆者按每?jī)芍芤淮巫魑牡念l率①布置作文任務(wù)，將作文題目和要求輸入到“句酷網(wǎng)”后得到一個(gè)作文序列號(hào)，再將作文序號(hào)告知受試。然后，受試按要求在規(guī)定時(shí)間(7～10天不等)寫(xiě)好作文并提交至“句酷網(wǎng)”，受試可及時(shí)查到自己提交的作文成績(jī)和評(píng)語(yǔ)，也可以在規(guī)定寫(xiě)作時(shí)間內(nèi)根據(jù)系統(tǒng)提示的錯(cuò)誤修改作文后再次提交。作文提交截止時(shí)間結(jié)束后，研究者通過(guò)“句酷網(wǎng)”下載受試的作文成績(jī)和文本。隨后，為本實(shí)驗(yàn)數(shù)據(jù)分析需要，筆者選取了受試第一學(xué)年完成的比較有代表性的3次目標(biāo)作文任務(wù)(見(jiàn)表1)，通過(guò)教師端口在“冰果”系統(tǒng)布置同一命題作文任務(wù)，再注冊(cè)學(xué)生用戶在“冰果”系統(tǒng)里分別提交受試的4次作文文本，從而得到系統(tǒng)的評(píng)分成績(jī)和評(píng)語(yǔ)等。之后，筆者下載了受試的同一命題作文在“冰果”的評(píng)定成績(jī)。最后，筆者將受試的兩次作文文本分別打印兩份，由筆者(教師1)和另外一位教齡相當(dāng)?shù)耐?教師2)分別對(duì)所有受試的3次作文文本進(jìn)行人工評(píng)分。為保證數(shù)據(jù)的科學(xué)性，人工評(píng)分期間，兩位老師都不能查看作文的系統(tǒng)自動(dòng)評(píng)定成績(jī)。

(三)數(shù)據(jù)收集與分析

研究者先后收集了受試3次作文的“句酷網(wǎng)”自動(dòng)評(píng)分成績(jī)﹑“冰果”的自動(dòng)評(píng)分成績(jī)以及教師1的人工評(píng)定成績(jī)和教師2的人工評(píng)定成績(jī)。研究員使用SPSS 19.0軟件對(duì)收集的數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)分析。但因?yàn)槭茉囋?次作文任務(wù)中的完成情況不完全一樣，經(jīng)筆者篩查后每組樣本的數(shù)量分別為：作文1組46人，作文2組51人，作文3組48人。為了檢驗(yàn)“句酷網(wǎng)”和“冰果”的在線自動(dòng)評(píng)分的效度，先對(duì)每次作文任務(wù)中兩種在線評(píng)閱成績(jī)和兩次人工成績(jī)兩兩之間分別進(jìn)行斯皮爾曼(Spearman)相關(guān)性檢驗(yàn)，然后，對(duì)每次作文的4種成績(jī)進(jìn)行了單因素方差分析(One-way Anova Analysis)。

三、研究結(jié)果

為了最直接地描述4組成績(jī)的差異和效度，研究者從多個(gè)角度對(duì)4組成績(jī)進(jìn)行研究。

(一)4組成績(jī)的描述性統(tǒng)計(jì)結(jié)果

研究者用SPSS 19.0對(duì)每次作文的4組成績(jī)的均值﹑標(biāo)準(zhǔn)差﹑最小值和最大值進(jìn)行了統(tǒng)計(jì)，結(jié)果如表2所示。

從表2看出，3次作文的兩次任務(wù)中(作文3除外)，兩次人工評(píng)分結(jié)果平均都高于兩次機(jī)器評(píng)分結(jié)果，這說(shuō)明“句酷網(wǎng)”和“冰果”采用的計(jì)算機(jī)評(píng)分標(biāo)準(zhǔn)比人工評(píng)分標(biāo)準(zhǔn)更加嚴(yán)格。值得注意的是，每次任務(wù)中“冰果”成績(jī)都是最低的，這說(shuō)明“冰果”系統(tǒng)比“句酷網(wǎng)”的評(píng)分標(biāo)準(zhǔn)更加嚴(yán)格。而且“冰果”成績(jī)的標(biāo)準(zhǔn)方差也最大，說(shuō)明“冰果”評(píng)定成績(jī)分布范圍更大，個(gè)體差別最大。從每組任務(wù)的最高分來(lái)看，人工成績(jī)和機(jī)器評(píng)定成績(jī)差別不是很大，但每組的最低分差別很大。這種結(jié)果其實(shí)也不難解釋：機(jī)器評(píng)分是“不留顏面”的，系統(tǒng)設(shè)置的最低分只要大于0，它就可以打出1分的最低分；但是人工評(píng)分是“講情面”的，只要不是空白卷或者完全脫題，老師很難給學(xué)生打出很低分。所以，本實(shí)驗(yàn)中機(jī)器評(píng)分的最低分都在60分的及格線以下，而人工評(píng)分的最低分都在及格分以上。

表2 四組成績(jī)的描述性數(shù)據(jù)

(二)4組成績(jī)的皮爾曼相關(guān)性檢驗(yàn)結(jié)果

為檢測(cè)每次作文中的4組成績(jī)的效度，研究者對(duì)兩兩之間進(jìn)行了斯皮爾曼(Spearman)相關(guān)性檢驗(yàn)。結(jié)果如表3所示：

表3 3次作文的4種成績(jī)兩兩之間的相關(guān)性檢驗(yàn)結(jié)果

注：**在0.01水平(雙側(cè))上顯著相關(guān)。

檢驗(yàn)結(jié)果顯示：3次作文中4組成績(jī)兩兩之間都呈正相關(guān)關(guān)系(P在0.01水平雙側(cè)上顯著相關(guān))。作文1中，“句酷網(wǎng)”和“冰果”兩者評(píng)定成績(jī)之間的斯皮爾曼相關(guān)系數(shù)為0.689**(P=0.000<0.010，“句酷網(wǎng)”與人工1和人工2成績(jī)之間的相關(guān)系數(shù)分別為0.345*(P=0.019>0.010)和0.559**(P=0.000<0.010；而“冰果”成績(jī)與人工1和人工2成績(jī)之間的斯皮爾曼相關(guān)系數(shù)則分別為0.416**(P=0.004<0.010和0.455**(P=0.001<0.010。有意思的是，人工1和人工2的兩次成績(jī)之間的相關(guān)系數(shù)最高，達(dá)到0.781**(P=0.000<0.010。這一結(jié)果已經(jīng)很接近Kroll[15]認(rèn)定的“語(yǔ)言寫(xiě)作測(cè)試中滿意的標(biāo)準(zhǔn)，即相關(guān)系數(shù)達(dá)到0.8”。在作文2任務(wù)中，“句酷網(wǎng)”和“冰果”成績(jī)之間的斯皮爾曼相關(guān)系數(shù)為0.580**(P=0.000<0.010)，“句酷網(wǎng)”與人工1和人工2成績(jī)之間的相關(guān)系數(shù)分別為0.554**(P=0.000<0.010)和0.391**(P=0.005<0.010)；而“冰果”成績(jī)與人工1與人工2成績(jī)之間的斯皮爾曼相關(guān)系數(shù)則分別為0.506**(P=0.000<0.010)和0.356*(P=0.010)，兩次人工評(píng)定成績(jī)之間的相關(guān)系數(shù)是0.519**(P=0.000<0.010)。作文3中，“句酷網(wǎng)”和“冰果”成績(jī)之間的斯皮爾曼相關(guān)系數(shù)為0.667**(P=0.000<0.010)；

“句酷網(wǎng)”與人工1和人工2成績(jī)之間的相關(guān)系數(shù)分別為0.351*(P=0.014>0.010)和0.443**(P=0.002<0.010)。“冰果”成績(jī)與人工1和人工2成績(jī)之間的斯皮爾曼相關(guān)系數(shù)則分別為0.401**(P=0.000<0.010)和0.510**(P=0.000<0.010)，而兩次人工評(píng)定成績(jī)之間的相關(guān)系數(shù)是0.685**(P=0.000<0.010)。

(三)結(jié)果討論

研究主要有4個(gè)發(fā)現(xiàn)：1. 3次作文任務(wù)中，兩次(作文3除外)人工評(píng)定成績(jī)?cè)谄骄稚隙济黠@高于“句酷網(wǎng)”和“冰果”的自動(dòng)評(píng)定成績(jī)，而且“冰果”的評(píng)定成績(jī)標(biāo)準(zhǔn)方差最大。2.同一任務(wù)中，兩種系統(tǒng)自動(dòng)評(píng)分間的相關(guān)系數(shù)以及兩次人工評(píng)定成績(jī)之間的相關(guān)系數(shù)都明顯高于機(jī)器評(píng)分和人工評(píng)分的組間相關(guān)系數(shù)。3. 3種作文題型任務(wù)中，“句酷網(wǎng)”和“冰果”的在線自動(dòng)評(píng)分和兩次人工評(píng)定分別都呈正相關(guān)關(guān)系，“句酷網(wǎng)”和“冰果”的自動(dòng)評(píng)分結(jié)果在一定程度上是有效的和可信的。4.同一任務(wù)中，雖然“句酷網(wǎng)”和人工評(píng)定成績(jī)之間的相關(guān)系數(shù)與“冰果”的自動(dòng)評(píng)定成績(jī)和人工評(píng)定成績(jī)之間的相關(guān)系數(shù)相差很小，但3次作文任務(wù)中有兩次(任務(wù)1和任務(wù)3)“冰果”的自動(dòng)評(píng)定成績(jī)和人工評(píng)定成績(jī)相關(guān)系數(shù)更高。

上述的前兩個(gè)結(jié)果表明，“句酷網(wǎng)”和“冰果”系統(tǒng)對(duì)同一作文的評(píng)分標(biāo)準(zhǔn)比人工評(píng)分更為嚴(yán)格，因?yàn)閮蓚€(gè)系統(tǒng)都采用的是計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)，對(duì)作文中的詞匯、句長(zhǎng)和結(jié)構(gòu)等維度判斷更加靈敏，分值精確度較高，“句酷網(wǎng)”精確到了0.5，而“冰果”甚至精確到了0.1。所以，“句酷網(wǎng)”和“冰果”系統(tǒng)自動(dòng)評(píng)分得出的分值范圍比較大，最高分和最低分相差較大。相比而言，人工評(píng)分更顯得主觀化一些。因?yàn)槿斯ぴu(píng)分一般習(xí)慣精確到1分(滿分100分的情況下)，少數(shù)情況下最多精確到0.5分，根本不可能精確到0.1分；人工評(píng)分時(shí)更多的是對(duì)作文的內(nèi)容和結(jié)構(gòu)好壞的整體印象分，對(duì)其中的詞匯、句長(zhǎng)和結(jié)構(gòu)等具體維度判斷就不如機(jī)器靈敏。值得注意的是，3次作文中人工評(píng)分的最低分都明顯高于機(jī)器的評(píng)分，這正是人工評(píng)分多會(huì)因?yàn)椤懊孀訂?wèn)題”或者出于“鼓勵(lì)學(xué)生寫(xiě)作”的原因，不會(huì)將沒(méi)有跑題的作文評(píng)分太低。所以，該實(shí)驗(yàn)中，兩個(gè)教師對(duì)3次作文中的最低評(píng)分都在及格分以上。也許還有一個(gè)重要原因：人工評(píng)分時(shí)教師更多地關(guān)注學(xué)生作文的內(nèi)容和思想等，而機(jī)器只能關(guān)注到作文中詞匯使用難度、句長(zhǎng)和句式結(jié)構(gòu)等硬件，卻不能像教師一樣“欣賞”作文，機(jī)器評(píng)分可能對(duì)思想內(nèi)容較好而詞匯使用一般的學(xué)生作文評(píng)分偏低，評(píng)分成績(jī)大多情況下平均分低于人工評(píng)分結(jié)果。該研究在一定程度上證明了“句酷網(wǎng)”和“冰果”系統(tǒng)在線評(píng)分系統(tǒng)的科學(xué)性和有效性，它們比人工評(píng)分精確度和穩(wěn)定性都更高，這對(duì)把這兩個(gè)平臺(tái)應(yīng)用到英語(yǔ)寫(xiě)作教學(xué)中具有積極的啟示意義。

更重要的是，該研究結(jié)果還揭示了同一任務(wù)中，“句酷網(wǎng)”和“冰果”成績(jī)之間、人工1和人工2成績(jī)之間的相關(guān)系數(shù)都比較高。這意味著，“句酷網(wǎng)”和“冰果”的機(jī)器自動(dòng)評(píng)分標(biāo)準(zhǔn)比較一致，結(jié)果相似度較高。但相比而言，“冰果”的評(píng)分更為嚴(yán)格，平均分明顯比“句酷網(wǎng)”的評(píng)定結(jié)果低。同時(shí)，兩次人工評(píng)分的相關(guān)性顯著較高，這也說(shuō)明人對(duì)美好事物的評(píng)判標(biāo)準(zhǔn)基本也是一樣的，實(shí)驗(yàn)中兩位教師在教齡相仿和教學(xué)經(jīng)驗(yàn)相似的情況下對(duì)同一批學(xué)生作文質(zhì)量的好壞判斷，結(jié)果整體上也是一致的。然而，3次作文中，人工評(píng)分都平均明顯高于“冰果”評(píng)分，3次中有兩次(作文1和作文2)人工評(píng)定成績(jī)高于“句酷網(wǎng)”評(píng)分，這與之前有些研究結(jié)果不一樣，因?yàn)楹涡窳及l(fā)現(xiàn)“句酷”批改網(wǎng)的分?jǐn)?shù)顯著高于人工評(píng)分[8]67。這也許能部分解釋之前的研究發(fā)現(xiàn)大部分學(xué)生仍然比較信任老師的人工評(píng)分，并不太歡迎智能作文評(píng)分系統(tǒng)。嚴(yán)格的機(jī)器評(píng)分結(jié)果也許更能真實(shí)地體現(xiàn)學(xué)生的寫(xiě)作水平，但在日常寫(xiě)作訓(xùn)練中卻不能像人工評(píng)分一樣起到很好的鼓勵(lì)作用。認(rèn)識(shí)到這一點(diǎn)對(duì)今后的英語(yǔ)寫(xiě)作教學(xué)是非常有幫助的。

該研究的后兩個(gè)發(fā)現(xiàn)表明：“句酷網(wǎng)”和“冰果”的自動(dòng)評(píng)分結(jié)果和人工評(píng)定成績(jī)都顯著相關(guān)，這說(shuō)明兩個(gè)在線作文評(píng)分系統(tǒng)的自動(dòng)評(píng)分結(jié)果是有效的和可信的。這種結(jié)果也正好印證了前人的研究結(jié)果——“句酷網(wǎng)”或“冰果”的評(píng)定成績(jī)和人工評(píng)定成績(jī)相關(guān)[6]108。該研究也首次實(shí)證發(fā)現(xiàn)了“句酷網(wǎng)”和“冰果”對(duì)同一批作文的自動(dòng)評(píng)分結(jié)果的差異：3次作文中有兩次(作文2除外)，“冰果”的自動(dòng)評(píng)分成績(jī)和兩個(gè)人工“評(píng)定”成績(jī)相關(guān)系數(shù)稍高于“句酷網(wǎng)”與人工評(píng)定成績(jī)的相關(guān)系數(shù)。3種作文題材中，“句酷網(wǎng)”對(duì)作文1和作文2(觀點(diǎn)論證型和對(duì)比型)的自動(dòng)評(píng)分成績(jī)和兩次人工評(píng)定成績(jī)之間的相關(guān)系數(shù)比“冰果”與人工的相關(guān)系數(shù)平均較高(0.452>0.436；0.473>0.431)；“冰果”對(duì)作文3(問(wèn)題解決型)的自動(dòng)評(píng)分和兩次人工評(píng)定成績(jī)之間的相關(guān)系數(shù)比“句酷網(wǎng)”與兩者的相關(guān)系數(shù)值平均較高(0.543>0.397)。這種結(jié)果揭示了兩個(gè)在線作文寫(xiě)作系統(tǒng)對(duì)不同題型的英語(yǔ)作文的評(píng)分信度是有一些差異的，在日常教學(xué)中可以有效結(jié)合各自的優(yōu)勢(shì)使用這兩個(gè)寫(xiě)作平臺(tái)。

實(shí)驗(yàn)結(jié)果表明：“句酷網(wǎng)”和“冰果”在線作文寫(xiě)作系統(tǒng)評(píng)定成績(jī)和人工評(píng)定成績(jī)之間相關(guān)程度有一些差異，對(duì)不同類型作文的評(píng)定成績(jī)信度之間也有差異。同時(shí)研究還發(fā)現(xiàn)，“句酷網(wǎng)”結(jié)果并不一定高于人工評(píng)定成績(jī)，而且還首次發(fā)現(xiàn)“冰果”自動(dòng)評(píng)定的平均成績(jī)每次都顯著低于“句酷網(wǎng)”和人工評(píng)定成績(jī)。這種結(jié)果恰恰說(shuō)明將兩個(gè)平臺(tái)應(yīng)用于英語(yǔ)寫(xiě)作教學(xué)中應(yīng)該要注意的地方，在結(jié)合“句酷網(wǎng)”和“冰果”系統(tǒng)各自優(yōu)勢(shì)的前提下，重點(diǎn)突出學(xué)生通過(guò)兩個(gè)平臺(tái)“多寫(xiě)、多練和多修改”的重要性和緊迫性。

注釋：

① 該頻率的設(shè)置是為了和本校英語(yǔ)寫(xiě)作教學(xué)要求保持一致，但由于研究者精力有限和本實(shí)驗(yàn)數(shù)據(jù)分析所需，本實(shí)驗(yàn)只選取了受試一學(xué)年中完成的15次作文中的3次作文成績(jī)作為分析數(shù)據(jù)。

[1] 王海嘯.大數(shù)據(jù)時(shí)代的大學(xué)英語(yǔ)寫(xiě)作教學(xué)改革[J].現(xiàn)代遠(yuǎn)程教育研究，2014,(3)：66-72.

[2] 錢(qián)文娟.大數(shù)據(jù)時(shí)代高職英語(yǔ)寫(xiě)作自動(dòng)評(píng)分新模式實(shí)踐[J].開(kāi)封教育學(xué)院學(xué)報(bào)，2014,(10)：175-177.

[3] Valenti S,Neff F,Cucchilarelli A.An overview of current research on automated essay grading[J]．Journal of Information Technology Education，2003，(2):321-323.

[4] Kukich K.The Debate on automated essay grading[J].IEEE Intelligent systems,2000,(5):22-27.

[5] 葛詩(shī)利，陳瀟瀟.國(guó)外自動(dòng)作文評(píng)分技術(shù)研究[J].外語(yǔ)電化教學(xué)，2007,(5)：25-29.

[6] 曾劍.冰果英語(yǔ)智能作文評(píng)閱系統(tǒng)在大學(xué)英語(yǔ)寫(xiě)作教學(xué)中的應(yīng)用探討[J].梧州學(xué)院學(xué)報(bào)，2014,(1)：104-108.

[7] 毛世花，陳曉麗.E-rater和句酷的對(duì)比研究及對(duì)提高大學(xué)生英語(yǔ)作文水平的啟示[J].高等函授學(xué)報(bào)：哲學(xué)社會(huì)科學(xué)版，2012，(5):20-21.

[8] 何旭良.句酷批改網(wǎng)英語(yǔ)作文評(píng)分的信度和效度研究[J].現(xiàn)代教育技術(shù)，2013,(5):64-67.

[9] 顧成華，王麗.基于句酷批改網(wǎng)的大學(xué)英語(yǔ)寫(xiě)作教學(xué)實(shí)證研究[J].揚(yáng)州大學(xué)學(xué)報(bào)：高教研究版，2012，(4)：92-96.

[10] 石曉玲.在線寫(xiě)作自動(dòng)評(píng)改系統(tǒng)在大學(xué)英語(yǔ)寫(xiě)作教學(xué)中的應(yīng)用研究——以句酷批改網(wǎng)為例[J].現(xiàn)代技術(shù)教育，2012，(10)：67-71.

[11] 殷小娟，賈永華.國(guó)內(nèi)在線作文自動(dòng)評(píng)分系統(tǒng)的效度研究——以句酷作文網(wǎng)為例[J].閩江學(xué)院學(xué)報(bào)，2015，(6)：72-78.

[12] 楊婷婷.英語(yǔ)寫(xiě)作自動(dòng)評(píng)分系統(tǒng)的不一致性研究[J].社科縱橫，2012，(9):297-298.

[13] 魯艷輝，譚福民，彭舜.智能寫(xiě)作評(píng)分系統(tǒng)在大學(xué)英語(yǔ)寫(xiě)作中的實(shí)證研究[J].現(xiàn)代教育技術(shù)，2012,(6)：56-58.

[14] 陳長(zhǎng)進(jìn).作文自動(dòng)批改系統(tǒng)比較研究[J].科技視界,2013,(28):144-186.

[15] Kroll B.Second Language Writing[M].Cambridge:Cambridge University Press，1994.

(責(zé)任編輯薛志清)

A Comparative Empirical Study on the Reliability of“Juku”and“Bingo”O(jiān)nline Autonomous Grading Systems

YIN Xiao-juan，JIA Yong-hua，LIN Qing-ying

(Department of Foreign Languages,Minjiang University,Fuzhou,Fujian 350121,China)

No empirical studies have been found to compare the reliability of“Juku”and“Bingo”online autonomous grading systems.To explore the effectiveness of the two systems,an empirical study has been conducted and three different types of English writing of non-English majors have been analyzed.The result shows that the autonomous grading results of both“Juku”and“Bingo”and the teachers’grading are significantly positively correlated.However,the positive correlation is slightly different between the two systems.Moreover,there are also differences in the reliability of grading different types of writing between the two autonomous grading systems.

“Juku”;“Bingo”;autonomous grading;reliability;type of English writing

2016-05-16

福建省中青年教師教育科研項(xiàng)目(JAS151317)；福建省中青年教師教育科研A類項(xiàng)目(JAS14254)；閩江學(xué)院教學(xué)實(shí)踐改革項(xiàng)目(MJUB2013026)

殷小娟(1981-)，女，湖南省新寧縣人，閩江學(xué)院外語(yǔ)系講師，文學(xué)碩士，主要研究方向?yàn)榈诙Z(yǔ)言習(xí)得和英語(yǔ)教學(xué)。

H 315

2095-462X(2017)01-0091-06

http://kns.cnki.net/kcms/detail/13.1415.C.20170228.1450.052.html

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

“句酷網(wǎng)”和“冰果”自動(dòng)評(píng)分效度的對(duì)比實(shí)證研究

一、作文自動(dòng)評(píng)分研究綜述

二、研究設(shè)計(jì)

三、研究結(jié)果

一、作文自動(dòng)評(píng)分研究綜述

二、研究設(shè)計(jì)

三、研究結(jié)果