自動測評系統(tǒng)在高職英語寫作評分中應(yīng)用的信度和效度分析

2015-12-17 01:56:43查靜，寧毅

濰坊工程職業(yè)學院學報 2015年2期

關(guān)鍵詞：英語寫作效度信度

查　靜，寧　毅

(武漢職業(yè)技術(shù)學院，外語學院，武漢　430074)

自動測評系統(tǒng)在高職英語寫作評分中應(yīng)用的信度和效度分析

查靜，寧毅

(武漢職業(yè)技術(shù)學院，外語學院，武漢430074)

摘要：文章首先回顧了信度和效度的概念以及檢測信度和效度的方法，以此為依據(jù)，將收集到的電腦評分和專家人工評分的數(shù)據(jù)進行了相關(guān)性分析、信度檢驗、重復(fù)性方差分析、獨立樣本t檢驗以及定性分析等各項分析，多方位地多元評分系統(tǒng)的信度和效度進行了驗證。結(jié)果表明，本系統(tǒng)具有良好的內(nèi)部一致性，信度較好，但是初評分比例較高時，信度較低；與專家評分的結(jié)果對比研究表明，自動評分系統(tǒng)結(jié)果對說明文和應(yīng)用文體兩種文體寫作能力解釋力較差。

關(guān)鍵詞：多元作文評分系統(tǒng)；英語寫作；信度；效度

引言

自動作文評分系統(tǒng)是一種基于計算機和網(wǎng)絡(luò)技術(shù)的語言教學評價平臺。它為語言提供了更加經(jīng)濟、便捷和客觀的評價方式，使得大規(guī)模語言測評成為現(xiàn)實，被認為是一種更加公平和客觀的語言測試和評價方式。基于統(tǒng)計學原理和自然語言處理及人工智能技術(shù)的自動評分系統(tǒng)在國外起步較早。近年來，國內(nèi)也出現(xiàn)了一批較為優(yōu)秀的計算機輔助英語作文評改系統(tǒng)。盡管計算機語言測試(CBLT)在大規(guī)模英語測試中有著較大的優(yōu)勢，但是計算機自動評分系統(tǒng)的評分模式的構(gòu)建、參數(shù)設(shè)置是否能有效地反映學習者的英語寫作水平和能力，其是否與人工評分具有同等效度和信度等，一直是研究者和系統(tǒng)開發(fā)者關(guān)注的問題。

鑒于自動作文評分系統(tǒng)開發(fā)的主要目的是減輕教師的負擔，提高大規(guī)模考試中作文評分的客觀性和效率，從而推動我國大規(guī)模英語考試作文評分自動化的進程。自動作文評分系統(tǒng)的開發(fā)主要以服務(wù)大型英語考試如四六級考試為主，目前其研究的樣本大多為論述文以及少量說明文體。評分信度的報告多用吻合率和相關(guān)性系數(shù)，大多沒有將信度和效度兩個概念進行區(qū)分，而是將其看作一個統(tǒng)一的概念整體或?qū)⑿哦鹊韧谛Ф?，未對效度進行深入的定性分析，這樣得出的驗證結(jié)果顯然也是不充分的。

綜上所述，我們認為對自動評分系統(tǒng)信度和效度的驗證應(yīng)該建立在對其內(nèi)涵的解讀上，不應(yīng)該把應(yīng)用文體、說明文體等常見文體類型排除在外，應(yīng)該多角度考查人工評分和系統(tǒng)自動評分的等效性，從定性和定量兩個方面全面考查自動評分系統(tǒng)的信度和效度。

一、信度和效度的內(nèi)涵及驗證方法

1. 信度的內(nèi)涵及其驗證方法

衡量語言測試兩項基本的指標就是信度和效度。國內(nèi)外大多數(shù)的研究都將信度定義為：測試分數(shù)的穩(wěn)定性和一致性的程度 (Colin Phelan&Julie,2005)。在本研究中，我們認為自動寫作測評系統(tǒng)的信度與語言測試的信度應(yīng)具有相同的內(nèi)涵，即系統(tǒng)評分的結(jié)果具有一定的穩(wěn)定性，排除一些偶然因素對結(jié)果的干擾作用。根據(jù)胡春洞(1996)等人提出的觀點，信度可以從測試的穩(wěn)定性、等值性以及內(nèi)部一致性三個方面來衡量。 Bachman，L.F(1990) 分別列舉了再測信度、對等信度、內(nèi)部一致性信度這三種具體的測試信度的方法。再測信度是指讓被試在不同的時間對同一份試卷進行測試，比較前后兩次測試的相關(guān)性程度；對等信度是采用平行試卷的測試方式，比較測試結(jié)果的穩(wěn)定性；內(nèi)部一致性信度則是比較一份試卷中的不同題型的分數(shù)之間的差異性(王俊菊、修旭東，2003)。由于再測信度和對等信度存在諸多的局限性，在本研究中我們采用內(nèi)部一致性信度檢測的方式來考查計算機評分的信度。同時為了考查不同的評分參數(shù)的設(shè)定是否會造成測試結(jié)果的差異性，我們分別對同一份試卷設(shè)置三種不同的參數(shù)值，每份試卷得到三個不同的測試分數(shù)，我們試圖通過比較三個分數(shù)之間是否存在統(tǒng)計意義上的顯著差異性來排除因參數(shù)設(shè)置的不同而導致的分數(shù)的不一致或不穩(wěn)定。

2. 效度的內(nèi)涵及其驗證方法

信度與效度是兩個相輔相成的概念，信度體現(xiàn)的是測試的一致性，而效度則是體現(xiàn)語言測試的真實性(Davies et al,2005)。Messick (1989)認為“理論依據(jù)和經(jīng)驗證據(jù)在某種程度上對建立在測試分數(shù)進行或其他評估形式所采取的行動或做出的判斷是否適當、充分地對這一問題進行綜合性的評判便是效度”。也就是說，效度是指測試的結(jié)果能在多大程度上反映出被試的語言能力水平。與一般的語言測試一樣，基于計算機的語言測試評分系統(tǒng)也要經(jīng)過信度的檢驗才能證明其有效性和準確性。在本次測試中，我們分別進行專家評分和電腦自動評分，比較兩種評分方式的等效性。我們借鑒了1985年美國心理學協(xié)會頒布的《教育與心理測試的標準》中提供的關(guān)于基于計算機語言測試(CBLT)和基于紙筆的語言測試 (PBLT)等效研究的原則以及李清華(2006)研究紙筆和計算機兩種介質(zhì)下的測試等效研究方法：考查均分、離散程度和分數(shù)的分布形態(tài)對比；比較兩種方式得到的被試分數(shù)是否具有統(tǒng)計意義上的差異性；進行定性分析，分析自動評分系統(tǒng)的參數(shù)標準對這應(yīng)用文和說明文寫作能力檢驗的有效性。

二、信度和效度實證研究

1. 研究基本概況

本研究中，寫作測試分為兩部分：第一部分是根據(jù)所給的信息寫一封備忘錄，內(nèi)容提示為：假設(shè)你是Fomark Company行政部門的秘書，試寫一封關(guān)于試用新的辦公系統(tǒng)的郵件給公司所有的員工, 字數(shù)需要超過100字。第二部分，被試要根據(jù)所給的圖表信息寫一篇200字以上的報告，該圖表上顯示的是北京擁有信用卡和沒有信用卡大學生的消費情況對比圖。整個測試都在電腦上完成，學生提交了作文后，教師將接收到的文章導入E-scorer 寫作多元評分系統(tǒng)(version 6.0 Beta)。該系統(tǒng)由高等教育出版社研發(fā)，可用于海量批閱學生作文。每篇文章的評分由初始評分、結(jié)構(gòu)評分、主題評分和綜合評分組成，教師可以根據(jù)文章的內(nèi)型、測試的目的和寫作要求調(diào)整結(jié)構(gòu)評分和主題評分的參數(shù)，結(jié)構(gòu)評分項下有“單詞總數(shù)”、“詞重復(fù)率”、“單詞類型”、“平均詞長”、“平均句長”五項參數(shù)在結(jié)構(gòu)評分中所占的比例，主題評分項下可以設(shè)定關(guān)鍵詞簇類以及其權(quán)重以判斷文章是否跑題，在綜合評分項下，教師可以設(shè)定“初始評分”、“結(jié)構(gòu)評分”、“主題評分”在“綜合評分”中的比例。我們分別對收集到的60篇文章進行了三次測試，在主題評分項下選擇的第一部分的關(guān)鍵詞為office system, 第二部分的關(guān)鍵詞設(shè)為credit card、expenditure等,三次機評參數(shù)設(shè)置如表1。

表1　三次機評參數(shù)設(shè)置表

同時，我們邀請了來自不同高校的八位專家評委對這兩題進行評分。每一題的評分都分五個檔次，圓滿完成答題任務(wù)(90-100分)，較好完成答題任務(wù)(80-90分)，基本完成答題任務(wù)(70-80分)，未能按要求完成答題任務(wù)(60-70分)，未能完成答題任務(wù)(30-60分)以及無法評價或辨認(0-30分)。每個檔次下包含若干評分要素，主要考察是否包含所要求的內(nèi)容要點，詞匯語法結(jié)構(gòu)的豐富和難易程度，語言使用的正確恰當與否，語用銜接和語篇組織是否有條理和符合邏輯等方面。為保證評分標準的一致性，在開始評分之前，八位專家試評了五篇文章，比較了各位專家的評分及其排序，在確定了評分的基準后才開始對剩余的文章進行手工評分。最后的得分由八位專家給出的評分中去掉最高分和最低分后,取平均分。

2. 信度分析

(1) 相關(guān)性分析

我們將經(jīng)過處理的八位專家的平均評分和電腦的評分輸入電腦后，借助SPSS13.0分別進行獨立樣本t檢驗，分析同一學生的兩道作文題目電腦給出的評分之間是否存在相關(guān)性，以判斷電腦評分系統(tǒng)的內(nèi)部一致性。數(shù)據(jù)結(jié)果表明，三次評分中第一題的成績和第二題的成績之間在0.01的水平上具有顯著性相關(guān)關(guān)系。同時，對三次電腦評分的信度分析(reliability statistics)，第一部分測試分數(shù)的Cronbach's Alpha系數(shù)為0.985，第二部分為0.985，高于人工評分的0.857和0.741，這也證明該測試系統(tǒng)的內(nèi)部一致性較高，信度較好。

(2) 重復(fù)性方差分析

為了檢測三次不同參數(shù)是否會對評分成績造成顯著性影響，剔除參數(shù)設(shè)定因素造成的不穩(wěn)定因素。我們對三次計算機評測的結(jié)果進行了重復(fù)性方差分析，比較每個題目的三次計算機評測之間是否存在差異，兩兩之間是否存在差異，判斷差異造成的主要因素。

表2Mauchly 的球形度檢驗b

度量:MEASURE_1

主體內(nèi)效應(yīng)Mauchly的近似卡方dfSig.EpsilonaGreenhouse-GeisserHuynh-Feldt下限因子10.118124.17220.0000.5310.5330.500

檢驗零假設(shè)，即標準正交轉(zhuǎn)換因變量的誤差協(xié)方差矩陣與一個單位矩陣成比例。

表3主體內(nèi)效應(yīng)的檢驗

度量:MEASURE_1

源III型平方和df均方FSig.因子1采用的球形度52.211226.1067.5170.001Greenhouse-Geisser52.2111.06249.1427.5170.007Huynh-Feldt52.2111.06648.9907.5170.007下限52.2111.00052.2117.5170.008誤差(因子1)采用的球形度409.7891183.473Greenhouse-Geisser409.78962.6846.537Huynh-Feldt409.78962.8796.517下限409.78959.0006.946

由表2和表3可以看出,Mauchly 的球形度檢驗b顯著水平小于0.05(Sig.=0.000)拒絕了球形檢驗, Greenhouse-Geisser和Huynh-Feldt 校正后的P值均為0.007,兩項的均值小于0.05,說明因素變量的效應(yīng)明顯。也就是說，不同的機評參數(shù)設(shè)定對第一題作文成績評定的影響顯著。成對比較也顯示，第一次和第二次評分以及第一次和第三次評分成績相互之間均值差值在0.05級別上具有差異性(F值分別為0.003和0.035)，但是第二次和第三次評分成績之間不具有顯著性差異(F值為1)。

第二題機器評分成績的重復(fù)性方差分析中，Mauchly 的球形度檢驗b中F值小于0.000，而Greenhouse-Geisser和Huynh-Feldt 校正后的P值均為0.012，均值仍然是小于0.05，成對比較也顯示，第一次和第二次評分以及第一次和第三次評分成績相互之間均值差值在0.05級別上具有差異性(F值分別為0.022和0.039)，但是第二次和第三次評分成績之間不具有顯著性差異(F值為0.136)。

以上對兩個作文題目的計算機測評結(jié)果的重復(fù)性方差分析結(jié)果都表明,第一次評分和第二、第三次評分之間有顯著性差異,而第二和第三次評分之間的差異不顯著。究其原因,我們可以看到,第二次和第三次評分的參數(shù)設(shè)置和第一次參數(shù)設(shè)置最大的區(qū)別在于初評在整個評分中所占的權(quán)重不同,第一次評分中初評占50%,而第二次和第三次初評分別占到了30%和20%(見表1)。由此可見，初評的比例高于50%可能會影響到系統(tǒng)評分的連貫性。

3. 效度分析

效度分析的目的是判定電腦評分的結(jié)果與人工專家評分是否存在等效性。為此，我們將分別比較每道題目的均值、離散程度以及通過獨立樣本t檢驗來檢測電腦評分和專家評分之間是否存在顯著性差異。

表4　組統(tǒng)計量

表4顯示的是兩種評分方式下,第一題和第二題分數(shù)的均分、離散程度和分數(shù)的分布形態(tài),由此可以看出,兩個題目的電腦給出的分數(shù)均值(75.9444和75.7056)以及專家給出的分數(shù)均值(67.8125和65.2500)差異不大, 但是電腦評分的均值都高于專家評分。第一題的電腦評分標準差明顯小于專家評分,表明電腦評分數(shù)相對比較集中,而專家給出的分數(shù)較為分散,分數(shù)差異較大。第二題的專家評分與電腦給出的分數(shù)標準差差距不大。究其原因，我們認為，這可能是由于第一題作文與第二題作文的長度以及類型存在差異。第一題的作文為應(yīng)用文體，字數(shù)在100字左右，而第二篇文體為說明性，字數(shù)一般達到300字以上。通過評分后專家的座談我們了解到，專家們認為參加測試的高職學生的語用能力和語言流暢性這兩個方面存在較大的差異，因而造成第一部分應(yīng)用文體的成績離散程度較大，而電腦評分標準中對于語用，特別是語言是否符合語境以及語氣是否符合題中寫作人的身份等方面的考查缺失。

(1) 方差齊性檢驗

Levine齊性方差檢驗表明兩變量顯著性概率(Sig.)分別為0.012和0.130, 一個小于0.05,一個大于0.05, 這說明在第一題分數(shù)上,兩個變量(電腦評分和專家評分)方差是不相等的,而這兩個變量在第二題的方差是相等的，這與表4的組統(tǒng)計描述性分析結(jié)果是一致的。但是無論假設(shè)方差是相等還是不相等,Sig(雙側(cè))欄值都小于0.05,也就是說電腦評分系統(tǒng)和專家評出分均值都具有顯著性差異,而且第一題兩個評分方式所獲得的方差還不相等,從t值上看, 電腦的評分要高于專家的評分,這一結(jié)果與表4的結(jié)果是吻合的。

(2) 定性分析

從語言的角度分析，我們發(fā)現(xiàn)電腦評出的第一名文章在使用的詞匯范圍較廣，詞匯豐富，大量使用了如spirits, efficiency，combined, previous, artificial intelligence, unprecedented等較為復(fù)雜的詞匯，詞匯和句型的使用也很豐富且恰當，但在句法表達上中文思維痕跡較為明顯，所表述的內(nèi)容有一些偏離主題，而專家評出的第一名文章所使用的單詞雖然很簡單，語言表達也比較單一，但是條理思路清晰，無啰唆廢話，意思表達清楚，雖然有一些小的語法和拼寫的錯誤但是不影響對文章的理解，內(nèi)容也符合題目要求，沒有明顯的中式英文的表達，可以實現(xiàn)溝通的目標。

傳統(tǒng)的四六級考試作文主要考查文章是否切題，論點是否明確，文字是否連貫以及闡述是否透徹，語言是否準確和多樣。整個評分系統(tǒng)偏重語言形式，語用得體性指標缺失。就本次對高職學生的英語作文測試的兩個題目要求，一篇是應(yīng)用文體，一篇是報告說明文體，主要目的是考查學生是否能清晰有條理地敘述事實，同時也考查學生是否能得體地用英語溝通交際，能否用英語實現(xiàn)交際目的。由此來看，專家的評分更加符合對高職學生英語作文考查的目的和要求，其評分的效度要高于電腦評分。

結(jié)論

對多元寫作系統(tǒng)的信度和效度的分析表明，電腦評分系統(tǒng)的優(yōu)勢在于具有較好的內(nèi)部一致性，評分標準執(zhí)行較好，內(nèi)部信度較高；當初評值在整個分數(shù)體系中的權(quán)重控制在50%以下時，重復(fù)性測試結(jié)果仍然具有較好的一致性，說明該系統(tǒng)的整體信度較好。等效分析表明，當本系統(tǒng)用于應(yīng)用文體或說明性文體文章的測評時，其結(jié)果與人工測評存在很大的差異性。雖然我們未用本系統(tǒng)對議論文體或其他類型作文進行評分和對比研究，無法斷定其是否適用于議論文或其他文體的作文測評，但從上述研究至少可以說明由于語用指標缺失，系統(tǒng)測試結(jié)果對測試者用英語進行溝通和交際的能力的解釋力低，其應(yīng)用范圍有限。我們寄希望于系統(tǒng)的開發(fā)和研究者能研制出適合高職學校英語教學要求和需要的作文評分系統(tǒng)。另一方面，計算機評分的模式刻板公式化，很容易讓參加測試者發(fā)現(xiàn)“高分規(guī)律”，從而可能會有意識地通過訓練提高應(yīng)試的能力和技巧，從而影響到電腦系統(tǒng)評分的有效性，這也是系統(tǒng)開發(fā)者和研究者需要深入探討和解決的難題。

參考文獻：

[1] 梁茂成，文秋芳. 國外作文自動評分系統(tǒng)評述及啟示[J].外語電化教學, 2007, 117(5):18-24.

[2] 梁茂成.大規(guī)?？荚囉⒄Z作文自動評分系統(tǒng)的研制[M].北京：高等教育出版社, 2012.

[3] Colin Phelan,Julie Wren.Exploring Reliability in Academic Assessmenx[EB/OL].http://www.uni.edu/chfasoa/reliability and validity.htm,2005.

[4] 胡春洞.英語測試論[M]. 南寧：廣西教育出版社, 1996.

[5] Bacheman,L.F. Fundamental Considerations in Language Testing[M]. Oxford: Oxford University Press,1990.

[6] 王俊菊，修旭東.語言測試中信度計算的三種理論模式探討[J].外語與外語教學, 2009, 174(9):51-55.

[7] Davies,A.& Elder,C. Validity and validation in language testing[A]. Hinkel E．(Ed.) Handbook of Research in Second Language Teaching and Learning[C]．London： Lawrence Erlbaum Associates，Inc．，2005：796-811.

[8] Messick,S.Validity. In R.L.Linn(ed). Educational Measurement (3rd Edition)[C].New York: Macmillan,1989:13.

[9] 李清華.基于紙筆的語言測試與基于計算機的語言測試的等效研究綜述[J].外語界, 2006, 114(4):73-77.

(責任編輯：潘敏)

Statistical Analysis of the Reliability and Validity of Automated Essay Scoring with E-scorer in English Writing in Higher Vocational Colleges

ZHA Jing，NING Yi

(Foreign Language School, Wuhan Polytechnic College, Wuhan430074)

Abstract:The paper sets out to analyze the reliability and validity of automated essay scoring with E-scorer. It begins with a review on previous empirical researches on the reliability and validity of automated essay scoring systems. The evidence based approach is used in this study to examine the reliability of automated scoring and compare the automated and human scores. The relevance test, reliability statistics, repeated measures and independent samples T-test show that the automated scoring system is highly reliable when the proportion of preliminary scores is below 50%. However, the statistical and quality analyses show that the scoring results from automated scoring system are not able to provide good interpretation for practical and informative writing ability.

Key words:automated scoring; reliability; validity

作者簡介：查靜(1980-)，女，湖南武漢人，武漢職業(yè)技術(shù)學院外語學院教研室主任，講師，碩士研究生；寧毅(1964-)，男，武漢職業(yè)技術(shù)學院外語學院院長，副教授。

收稿日期：2015-02-29

中圖分類號：H315

文獻標志碼：A

文章編號：1009-2080(2015)02-0097-05

doi：10.3969/j.issn.1009-2080.2015.02.026

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

自動測評系統(tǒng)在高職英語寫作評分中應(yīng)用的信度和效度分析