單句漢譯英評分量表探索

2012-01-22 09:55:14馬漪云

山西農(nóng)業(yè)大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版） 2012年4期

馬漪云

（山西農(nóng)業(yè)大學(xué)文理學(xué)院，山西太谷030801）

翻譯的評分當(dāng)屬主觀性評分，因此設(shè)計(jì)一個(gè)可靠的翻譯評分量表是一項(xiàng)相當(dāng)艱巨但又非常重要的任務(wù)。翻譯的任務(wù)類型可以分為：文本翻譯和句子翻譯兩種。文本翻譯的評分量表在TEM8和NAETL（全國口、筆譯考試）中都有權(quán)威的表述。在研究生入學(xué)考試中，也很早就出現(xiàn)了單句英譯漢極其評分標(biāo)準(zhǔn)。2006年，大學(xué)英語CET4進(jìn)行改革后，一個(gè)新型的翻譯任務(wù)類型出現(xiàn)了——半句英文已經(jīng)給出，考生只需譯出半句英文。CET4考試委員會(huì)也相應(yīng)給出了這一新任務(wù)的評分量表。然而，單句漢譯英在平時(shí)的大學(xué)英語測試中經(jīng)常使用，卻從未在大規(guī)模的考試中出現(xiàn)，因而也沒有相應(yīng)的較為權(quán)威的評分量表，給單句漢譯英的研究帶來了很多困難。在翻譯評估中，一個(gè)可執(zhí)行的、合理的評分量表會(huì)降低翻譯評分過程中的評分員效應(yīng)，因?yàn)長inacre［1］認(rèn)為2／3的分?jǐn)?shù)差異是由評分員效應(yīng)引起的。因此，本文欲對單句漢譯英翻譯評分過程中的重要因素進(jìn)行研究，從而制定出一個(gè)較為合理的單句漢譯英評分量表，并對其有效性進(jìn)行測試。

一、翻譯評分的方法

劉潤清［2］指出由于翻譯測試的主觀性較強(qiáng)，因此翻譯的評分相當(dāng)困難，然而其評分方法可借鑒寫作的評分方法，他認(rèn)為以下寫作的評分方法亦可用于翻譯評分。

1）機(jī)械式評分方法，即數(shù)錯(cuò)法。數(shù)出文章中的錯(cuò)誤個(gè)數(shù)，按錯(cuò)誤數(shù)目扣分。但這種方法的致命弱點(diǎn)是，只注重文章缺點(diǎn)，忽視了最根本的東西——思想表達(dá)。

2）印象法。憑閱卷者的個(gè)人印象給等級分。

3）分析法。把一篇作文分成若干項(xiàng)目，按照事先集體規(guī)定的評分標(biāo)準(zhǔn)，對每項(xiàng)分別評分，最后統(tǒng)計(jì)總分，給等級分或百分。

Waddington［3］總結(jié)了兩種翻譯的評分方法。

1）按照譯文錯(cuò)誤的嚴(yán)重性扣分，如果錯(cuò)誤嚴(yán)重扣2分，如果不嚴(yán)重扣1分；同時(shí)，按照譯文質(zhì)量加分，如果譯文較好加1分，如果譯文優(yōu)異加2分。

2）按照譯文錯(cuò)誤的性質(zhì)扣分，如果錯(cuò)誤屬于翻譯錯(cuò)誤影響信息傳遞，扣2分，如果錯(cuò)誤屬于語言錯(cuò)誤，不影響信息傳遞，扣1分。

顯而易見，他們的評分方法都側(cè)重于文本翻譯。劉潤清［4］認(rèn)為單句測試和文本測試的功能并不一致，單句測試僅在與測試翻譯能力的基礎(chǔ)層次——即語言運(yùn)用能力。那么，文本翻譯的評分方法顯然不適合應(yīng)用于單句翻譯。

二、翻譯評分的信度及效度

既然翻譯評分主觀性較強(qiáng)，翻譯評分在翻譯測試中遇到的麻煩最多，特別是在評分過程中想保持評分的客觀性和一致性。穆雷［5］提出翻譯測試的信度問題是一個(gè)亟待解決的問題，因?yàn)閲鴥?nèi)學(xué)術(shù)界對翻譯測試缺少系統(tǒng)的研究。雖然翻譯測試的評分方法可以部分借鑒作文評分，但二者在測試目的和標(biāo)準(zhǔn)上存在不少差異。文慧［6］用有聲思維研究了單句英譯漢的評分差異，其研究結(jié)果表明翻譯評估是一個(gè)復(fù)雜的心理過程，即使有經(jīng)驗(yàn)的評分員也會(huì)存在評分差異。

評分員的評分行為對語言能力評估的效驗(yàn)的影響越來越被人們重視。Weir和Bachman認(rèn)為評分員的主觀行為會(huì)威脅到翻譯測試的效度。［7，8］江進(jìn)林，文秋芳［9］用多面Rasch模型從考生、評分員、評分項(xiàng)目三個(gè)角度研究了文本翻譯的測試效度，發(fā)現(xiàn)盡管評分員的寬、嚴(yán)度存在顯著差異，但評分存在較好內(nèi)部自我一致。他們同時(shí)認(rèn)為多面Rasch模型提出“擬合效度”的概念，可以考察考生的答題行為、評分員的評分行為、試題的難度、評分量表的合理性等多種因素對測試效度的影響。

隨著語言測試的發(fā)展，主觀測試的信度和效度得到了很大的完善，分項(xiàng)式評分在寫作測試中得到了廣泛的使用，但卻極少應(yīng)用于翻譯測試中。雖然TEM 8也分別考慮了文本翻譯中的信、達(dá)、雅，但都按整體給出五個(gè)檔次進(jìn)行評分。文秋芳等［10］在TEM 8的口譯中采用了分項(xiàng)式評分。該量表分別給出英譯漢和漢譯英的25個(gè)語義點(diǎn)，譯文如果正確得4分，部分正確得2分，錯(cuò)誤得0分，然后對每個(gè)語義點(diǎn)的得分進(jìn)行相加。王金銓，文秋芳［11］設(shè)計(jì)了一個(gè)漢譯英的分項(xiàng)式評分量表，該量表分別從語言形式、語義內(nèi)容方面給出了評分點(diǎn)，并用三個(gè)有經(jīng)驗(yàn)的評分員進(jìn)行了評分，研究結(jié)果表明三位評分員的內(nèi)部一致性較高，語言形式、語義內(nèi)容的內(nèi)部一致性相關(guān)系數(shù)均超過了0.95。

但是與整體評分相比較，一個(gè)分項(xiàng)式評分量表僅適合于一個(gè)特定的文本譯文，這也是分項(xiàng)式評分在翻譯中很難得到廣泛應(yīng)用的原因。因此，國內(nèi)研究者王雷等人［12，13］開始致力于機(jī)助評分模型的研究，但其研究主要是針對文本翻譯進(jìn)行的，而劉潤清［4］指出單句翻譯也是翻譯的題型之一，像CET4翻譯題型一樣，它可以測試學(xué)生基本的翻譯能力，即語言運(yùn)用能力，這一題型在平時(shí)的翻譯教學(xué)中經(jīng)常運(yùn)用。因此，為之設(shè)計(jì)一個(gè)合理、可執(zhí)行的評分量表也就迫在眉睫。

三、評分量表設(shè)計(jì)

（一）實(shí)驗(yàn)過程

本實(shí)驗(yàn)將2009年12月CET4的5道翻譯題，由兩位翻譯老師共同改編為5道單句漢譯英題，于2010年4月在山西農(nóng)業(yè)大學(xué)經(jīng)貿(mào)院2008級隨機(jī)抽取了40名學(xué)生進(jìn)行了測試，收回有效試卷37份，并邀請6位有經(jīng)驗(yàn)的評分員（6位評分員的背景見表1）用有聲思維的方法對其進(jìn)行評分。

本實(shí)驗(yàn)借鑒了Ling Shi［14］有聲思維的方法，在整個(gè)評分過程中按要求記錄6位評分員的思維。由于有聲思維比較復(fù)雜，在評分前抽取5份試卷讓評分員熟悉有聲思維的評分過程。因?yàn)?位評分員有非常豐富的教學(xué)經(jīng)驗(yàn)，在評分前，并沒有給具體的評分量表，只提供了一些具體的評分點(diǎn)，比如語言表達(dá)中詞匯的錯(cuò)譯、漏譯，詞匯搭配、詞匯選擇，句子結(jié)構(gòu)等；信息傳遞中的忠實(shí)、通順等。其目的是發(fā)現(xiàn)這些教師在單句漢譯英評分中的標(biāo)準(zhǔn)及側(cè)重點(diǎn)。此外，要求這些教師給每個(gè)句子評分時(shí)，要在句子翻譯不合適的地方劃線，并按照評分依據(jù)，給出三個(gè)評分的理由，并按重要程度排序。由于預(yù)先沒有評分量表，每個(gè)教師必須根據(jù)自己的評分經(jīng)驗(yàn)去權(quán)衡哪個(gè)標(biāo)準(zhǔn)在漢譯英評分中更為重要，因此可以避免評分量表設(shè)計(jì)中的個(gè)人偏見。然后，收集有聲思維的數(shù)據(jù)，另外邀請2位教師對有聲思維數(shù)據(jù)進(jìn)行整理、歸類。在此過程中當(dāng)2位教師歸類有異議時(shí)，通過商議取得一致結(jié)果。

表1 6位評分員的背景

最終根據(jù)有聲思維的數(shù)據(jù)將翻譯評分的標(biāo)準(zhǔn)分為4類：詞匯和短語、語法、句子結(jié)構(gòu)、信息表述，這些類別與TEM 8和NAETI評分量表的標(biāo)準(zhǔn)一致。經(jīng)過數(shù)據(jù)分析后，整理每個(gè)評分員的評分規(guī)律，并設(shè)計(jì)評分量表。

（二）實(shí)驗(yàn)結(jié)果與分析

為了保證評分量表的有效性，用克倫巴赫系數(shù)計(jì)算了6位評分員的評分信度系數(shù)，如表2。從表2可以看出，6位評分員的評分信度都在可接受范圍，他們的評分信度系數(shù)為0.941。他們的評分一致性較高，可以用來設(shè)計(jì)評分量表。

表2 6位評分員的評分信度

6位評分員分別為37位考生的5個(gè)句子評分，每個(gè)評分員分別應(yīng)對185個(gè)句子進(jìn)行評分，并對每個(gè)句子給出三個(gè)評分理由。為了設(shè)計(jì)評分標(biāo)準(zhǔn)，在編碼后，筆者統(tǒng)計(jì)了所有滿分的句子和所有三個(gè)評價(jià)都是正面評價(jià)的句子。6位評分員有聲思維收集的數(shù)據(jù)如表3。

表3 6位評分員影響評分因素的排序表

評分員1有50個(gè)句子都給出了正面評價(jià)，在這50個(gè)句子的評分中，她認(rèn)為最重要的評分因素中有32個(gè)是信息表述、17個(gè)是句子結(jié)構(gòu)、只有1個(gè)是詞匯；排第二位的評分因素中有29個(gè)是句子結(jié)構(gòu)、9個(gè)是信息表述、8個(gè)是詞匯、4個(gè)是語法；排第三位的評分因素中有27個(gè)是語法、16個(gè)是詞匯、5個(gè)是信息表述、2個(gè)是結(jié)構(gòu)。評分員2有44個(gè)句子都給出了正面評價(jià)，在這44個(gè)句子的評分中，她認(rèn)為最重要的評分因素有33個(gè)是結(jié)構(gòu)、6個(gè)是信息表達(dá)的忠實(shí)、5個(gè)是信息表述的通順；排第二位的評分因素中有18個(gè)是信息表達(dá)的通順、11個(gè)是詞匯、8個(gè)是信息表達(dá)的忠實(shí)、7個(gè)是結(jié)構(gòu)；排第三位的評分因素中有20個(gè)是信息表達(dá)的忠實(shí)、14個(gè)是詞匯、5個(gè)是結(jié)構(gòu)、3個(gè)是語法、2個(gè)是信息表達(dá)的忠實(shí)。評分員3有46個(gè)句子都給出了正面評價(jià)，在這46個(gè)句子的評分中，她認(rèn)為最重要的評分因素有38個(gè)是結(jié)構(gòu)、8個(gè)是語法；排第二位的評分因素中有40個(gè)是信息表述的忠實(shí)、6個(gè)是語法；排第三位的評分因素中有17個(gè)是信息表達(dá)的通順、12個(gè)是詞匯、8個(gè)是信息表達(dá)的忠實(shí)、7個(gè)是結(jié)構(gòu)、2個(gè)是語法。評分員4有50個(gè)句子都給出了正面評價(jià)，在這50個(gè)句子的評分中，她認(rèn)為最重要的評分因素有45個(gè)是句子結(jié)構(gòu)、5個(gè)是信息表述；排第二位的評分因素中有43是信息表述、5個(gè)是結(jié)構(gòu)、2個(gè)是語法；排第三位的評分因素中有29個(gè)是詞匯、11個(gè)是信息表述、7個(gè)是結(jié)構(gòu)、3個(gè)是語法。評分員5有 54個(gè)句子都給出了正面評價(jià)，在這54個(gè)句子的評分中，她認(rèn)為最重要的評分因素有34個(gè)是信息表述、14個(gè)是句子結(jié)構(gòu)、5個(gè)是語法、只有1個(gè)是詞匯；排第二位的評分因素中有35個(gè)是句子結(jié)構(gòu)、10個(gè)是信息表述、6個(gè)是語法、3個(gè)是詞匯；排第三位的評分因素中有39個(gè)是詞匯、7個(gè)是信息表述、7個(gè)是語法、只有1個(gè)是結(jié)構(gòu)。評分員6有37個(gè)句子都給出了正面評價(jià)，在這37個(gè)句子的評分中，她認(rèn)為最重要的評分因素有18個(gè)是句子結(jié)構(gòu)、8個(gè)是語法、8個(gè)是詞匯、3個(gè)是信息表述；排第二位的評分因素中有15個(gè)是信息表達(dá)的忠實(shí)、11個(gè)是語法、8個(gè)是詞匯、3個(gè)是結(jié)構(gòu)；排第三位的評分因素中有17個(gè)是信息表達(dá)的通順、11個(gè)是詞匯、8個(gè)是語法、只有1個(gè)是結(jié)構(gòu)。

按照有聲思維報(bào)導(dǎo)的數(shù)據(jù)，每位評分員的評分規(guī)律（見表4）如下：評分員1認(rèn)為信息表述是最重要的因素、其次是句子結(jié)構(gòu)、第三是語法；評分員2認(rèn)為句子結(jié)構(gòu)是最重要的因素、其次是信息表述的通順、第三是信息表述的忠實(shí)；評分員3認(rèn)為句子結(jié)構(gòu)是最重要的因素、其次是信息表述的忠實(shí)、第三是信息表述的通順；評分員4認(rèn)為句子結(jié)構(gòu)是最重要的因素、其次是信息表述的忠實(shí)、第三是詞匯和短語使用；評分員5認(rèn)為信息表述是最重要的因素、其次是句子結(jié)構(gòu)、第三是詞匯和短語使用；評分員6認(rèn)為句子結(jié)構(gòu)是最重要的因素、其次是語法和信息表述的忠實(shí)、第三是信息表述的通順。

總結(jié)以上規(guī)律，其中有4位評分員認(rèn)為句子結(jié)構(gòu)是影響評分最重要的因素、信息表述位居第二，有3位評分員認(rèn)為第三個(gè)影響評分因素的仍然是信息表述，而另三位評分員認(rèn)為是詞匯、短語使用和語法。

（三）對教師、學(xué)生的訪談

在測試和評分后，分別對學(xué)生和教師進(jìn)行了訪談。大部分被采訪的學(xué)生認(rèn)為句子結(jié)構(gòu)、語法、短語和詞匯的使用是漢譯英的重點(diǎn)和難點(diǎn)。由于大學(xué)英語教學(xué)不再講授語法，以及他們自己沒有記住大學(xué)應(yīng)掌握的大量的詞匯、短語的用法，使得他們在英語測試的表現(xiàn)中有所下降。大部分評分員認(rèn)為在評分過程中，有些語法內(nèi)容他們歸入了句子結(jié)構(gòu)、有些語法認(rèn)為錯(cuò)誤太小可以忽略，除非遇到虛擬語氣、特殊時(shí)態(tài)表述、被動(dòng)語態(tài)、比較級等語法，他們才會(huì)有所警覺。而這些語法測試點(diǎn)，在句子翻譯，尤其是CET4翻譯中，只會(huì)出現(xiàn)一個(gè)或兩個(gè)，但在評分中，他們確實(shí)應(yīng)列入被考慮因素之列。另外非謂語動(dòng)詞在漢譯英中，學(xué)生可以用從句進(jìn)行代替，因此，很少作為考點(diǎn)進(jìn)行測試。

綜合評分員的評分規(guī)律和訪談結(jié)果發(fā)現(xiàn)，在單句漢譯英評分過程中，句子結(jié)構(gòu)、信息表述、詞匯語法都是應(yīng)該考慮的重要因素，這一點(diǎn)和TEM8、NAETI III提供的評分標(biāo)準(zhǔn)近似，因此，制定了單句漢譯英的評分量表，見表5。

表5 單句漢譯英評分量表

四、評分量表有效性測試

為了測量該評分量表的有效性，本實(shí)驗(yàn)又從汪開虎編的CET4預(yù)測題［15］中抽取20道翻譯題，由那兩位翻譯老師共同改編為20道單句漢譯英題，于2010年6月在山西農(nóng)業(yè)大學(xué)經(jīng)貿(mào)院2008級隨機(jī)抽取了100名學(xué)生進(jìn)行了測試，收回有效試卷60份，并另邀請3位評分員進(jìn)行評分，測試他們的評分一致性系數(shù)，評分結(jié)果詳見表6。

結(jié)果表明評分員單句漢譯英得分間的相關(guān)系數(shù)及評分員間的Alpha系數(shù)，評分員間的相關(guān)系數(shù)在統(tǒng)計(jì)學(xué)上具有顯著性意義，且評分員20個(gè)句子的Alpha系數(shù)均大于0.7，說明了評分結(jié)果的內(nèi)部一致性較為滿意。將20個(gè)句子的總分相加為每一位受試的總分，統(tǒng)計(jì)結(jié)果顯示，三位評分員的相關(guān)系數(shù)最小值為0.776，相關(guān)性較好，且他們評分的Alpha系數(shù)為0.920，內(nèi)部一致性非常好。

表7顯示了三位評分員對60位受試評分的均分和標(biāo)準(zhǔn)差，評分員間的均值和標(biāo)準(zhǔn)差都比較接近，也反映了評分員之間的評分一致性良好。

表7 總分的均值和標(biāo)準(zhǔn)差

五、結(jié)論

通過對評分員評分過程中有聲思維的研究，發(fā)現(xiàn)在單句漢譯英的評分標(biāo)準(zhǔn)中，評分員關(guān)注譯文的句子結(jié)構(gòu)、信息表述、語法及詞匯、短語使用，因而制定了相應(yīng)評分量表。接著，對100位受試進(jìn)行了單句漢譯英測試，并利用該評分量表，另外邀請三位評分員，對其進(jìn)行評分。從三位評分員20個(gè)單句評分及總分的相關(guān)系數(shù)和Alpha系數(shù)，發(fā)現(xiàn)用該評分量表進(jìn)行評分，三位評分員的內(nèi)部一致性較好，而他們評分的均值和標(biāo)準(zhǔn)差也證明了這一點(diǎn)。從而，證明了該評分量表是有效的。當(dāng)然，翻譯的評分是非常復(fù)雜的，三位評分員每個(gè)句子的評分相關(guān)性和一致性并不是特別高，只是較為滿意。因此量表的研究還有待提高，量表的使用還有待在日常的教學(xué)測試中進(jìn)行驗(yàn)證。

［1］Linacre J M.Many-faceted Rasch Measurement［M］.Chicage：MESA Press，1989：17-20.

［2］劉潤清.語言測試和它的方法［M］.北京：外語教學(xué)與研究出版社，1991：86-87.

［3］Waddington Christopher.Different Methods of Evaluating Student Translations：The Question of Validity［J］.Coden Metacl，2001，46（2）：311-325.

［4］劉潤清，韓寶成.語言測試和它的方法（修訂版）［M］.北京：外語教學(xué)與研究出版社，2000：197-199.

［5］穆雷.翻譯測試及其評分問題［J］.外語教學(xué)與研究，2006，38（6）：466-471.

［6］文慧.單句英譯漢測試評估中的評分員差異研究［J］.太原科技大學(xué)學(xué)報(bào)2009，30（2）：143-145.

［7］Weir C J.Language Testing and Validation：An Evidence-based Approach［M］.Houndmills：Palgrave Macmillan，2004：226-229.｀

［8］Bachman L F.Statistical Analyses for Language Assessment［M］.Cambridge：Cambridge University Press，2004：309-312.

［9］江進(jìn)林，文秋芳.基于Rasch模型的翻譯測試效度研究［J］.外語電化教學(xué)，2010，131（1）：14-18.

［10］文秋芳，王文宇，周丹丹，等.全國英語專業(yè)八級口試體系的研究與實(shí)施［J］.外語界，2005，109（5）：53-58.

［11］王金銓，文秋芳.學(xué)習(xí)者漢英翻譯分析性評分細(xì)則的制定［J］.外語教學(xué)，2009，30（4）：96-112.

［12］王雷，常寶寶.大學(xué)英語翻譯考試人工輔助計(jì)算機(jī)評分初探［J］外語電化教學(xué)，2009，128（4）：17-21.

［13］王金銓，文秋芳.中國學(xué)生大規(guī)模漢譯英測試機(jī)助評分模型的研究與構(gòu)建［J］現(xiàn)代外語，2009，32（4）：415-420.

［14］Ling Shi.Native-and nonnative-speaking EFL teacher＇s evaluation of Chinese students＇English writing［J］.Language Testing，2001，303（18）：303-325.

［15］汪開虎.全真試題與命題預(yù)測［Z］.吉林：外語教育出版社，2010.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

單句漢譯英評分量表探索

一、翻譯評分的方法

二、翻譯評分的信度及效度

三、評分量表設(shè)計(jì)