馬漪云
(山西農(nóng)業(yè)大學(xué)文理學(xué)院,山西太谷030801)
翻譯的評分當(dāng)屬主觀性評分,因此設(shè)計(jì)一個(gè)可靠的翻譯評分量表是一項(xiàng)相當(dāng)艱巨但又非常重要的任務(wù)。翻譯的任務(wù)類型可以分為:文本翻譯和句子翻譯兩種。文本翻譯的評分量表在TEM8和NAETL(全國口、筆譯考試)中都有權(quán)威的表述。在研究生入學(xué)考試中,也很早就出現(xiàn)了單句英譯漢極其評分標(biāo)準(zhǔn)。2006年,大學(xué)英語CET4進(jìn)行改革后,一個(gè)新型的翻譯任務(wù)類型出現(xiàn)了——半句英文已經(jīng)給出,考生只需譯出半句英文。CET4考試委員會(huì)也相應(yīng)給出了這一新任務(wù)的評分量表。然而,單句漢譯英在平時(shí)的大學(xué)英語測試中經(jīng)常使用,卻從未在大規(guī)模的考試中出現(xiàn),因而也沒有相應(yīng)的較為權(quán)威的評分量表,給單句漢譯英的研究帶來了很多困難。在翻譯評估中,一個(gè)可執(zhí)行的、合理的評分量表會(huì)降低翻譯評分過程中的評分員效應(yīng),因?yàn)長inacre[1]認(rèn)為2/3的分?jǐn)?shù)差異是由評分員效應(yīng)引起的。因此,本文欲對單句漢譯英翻譯評分過程中的重要因素進(jìn)行研究,從而制定出一個(gè)較為合理的單句漢譯英評分量表,并對其有效性進(jìn)行測試。
劉潤清[2]指出由于翻譯測試的主觀性較強(qiáng),因此翻譯的評分相當(dāng)困難,然而其評分方法可借鑒寫作的評分方法,他認(rèn)為以下寫作的評分方法亦可用于翻譯評分。
1)機(jī)械式評分方法,即數(shù)錯(cuò)法。數(shù)出文章中的錯(cuò)誤個(gè)數(shù),按錯(cuò)誤數(shù)目扣分。但這種方法的致命弱點(diǎn)是,只注重文章缺點(diǎn),忽視了最根本的東西——思想表達(dá)。
2)印象法。憑閱卷者的個(gè)人印象給等級分。
3)分析法。把一篇作文分成若干項(xiàng)目,按照事先集體規(guī)定的評分標(biāo)準(zhǔn),對每項(xiàng)分別評分,最后統(tǒng)計(jì)總分,給等級分或百分。
Waddington[3]總結(jié)了兩種翻譯的評分方法。
1)按照譯文錯(cuò)誤的嚴(yán)重性扣分,如果錯(cuò)誤嚴(yán)重扣2分,如果不嚴(yán)重扣1分;同時(shí),按照譯文質(zhì)量加分,如果譯文較好加1分,如果譯文優(yōu)異加2分。
2)按照譯文錯(cuò)誤的性質(zhì)扣分,如果錯(cuò)誤屬于翻譯錯(cuò)誤影響信息傳遞,扣2分,如果錯(cuò)誤屬于語言錯(cuò)誤,不影響信息傳遞,扣1分。
顯而易見,他們的評分方法都側(cè)重于文本翻譯。劉潤清[4]認(rèn)為單句測試和文本測試的功能并不一致,單句測試僅在與測試翻譯能力的基礎(chǔ)層次——即語言運(yùn)用能力。那么,文本翻譯的評分方法顯然不適合應(yīng)用于單句翻譯。
既然翻譯評分主觀性較強(qiáng),翻譯評分在翻譯測試中遇到的麻煩最多,特別是在評分過程中想保持評分的客觀性和一致性。穆雷[5]提出翻譯測試的信度問題是一個(gè)亟待解決的問題,因?yàn)閲鴥?nèi)學(xué)術(shù)界對翻譯測試缺少系統(tǒng)的研究。雖然翻譯測試的評分方法可以部分借鑒作文評分,但二者在測試目的和標(biāo)準(zhǔn)上存在不少差異。文慧[6]用有聲思維研究了單句英譯漢的評分差異,其研究結(jié)果表明翻譯評估是一個(gè)復(fù)雜的心理過程,即使有經(jīng)驗(yàn)的評分員也會(huì)存在評分差異。
評分員的評分行為對語言能力評估的效驗(yàn)的影響越來越被人們重視。Weir和Bachman認(rèn)為評分員的主觀行為會(huì)威脅到翻譯測試的效度。[7,8]江進(jìn)林,文秋芳[9]用多面Rasch模型從考生、評分員、評分項(xiàng)目三個(gè)角度研究了文本翻譯的測試效度,發(fā)現(xiàn)盡管評分員的寬、嚴(yán)度存在顯著差異,但評分存在較好內(nèi)部自我一致。他們同時(shí)認(rèn)為多面Rasch模型提出“擬合效度”的概念,可以考察考生的答題行為、評分員的評分行為、試題的難度、評分量表的合理性等多種因素對測試效度的影響。
隨著語言測試的發(fā)展,主觀測試的信度和效度得到了很大的完善,分項(xiàng)式評分在寫作測試中得到了廣泛的使用,但卻極少應(yīng)用于翻譯測試中。雖然TEM 8也分別考慮了文本翻譯中的信、達(dá)、雅,但都按整體給出五個(gè)檔次進(jìn)行評分。文秋芳等[10]在TEM 8的口譯中采用了分項(xiàng)式評分。該量表分別給出英譯漢和漢譯英的25個(gè)語義點(diǎn),譯文如果正確得4分,部分正確得2分,錯(cuò)誤得0分,然后對每個(gè)語義點(diǎn)的得分進(jìn)行相加。王金銓,文秋芳[11]設(shè)計(jì)了一個(gè)漢譯英的分項(xiàng)式評分量表,該量表分別從語言形式、語義內(nèi)容方面給出了評分點(diǎn),并用三個(gè)有經(jīng)驗(yàn)的評分員進(jìn)行了評分,研究結(jié)果表明三位評分員的內(nèi)部一致性較高,語言形式、語義內(nèi)容的內(nèi)部一致性相關(guān)系數(shù)均超過了0.95。
但是與整體評分相比較,一個(gè)分項(xiàng)式評分量表僅適合于一個(gè)特定的文本譯文,這也是分項(xiàng)式評分在翻譯中很難得到廣泛應(yīng)用的原因。因此,國內(nèi)研究者王雷等人[12,13]開始致力于機(jī)助評分模型的研究,但其研究主要是針對文本翻譯進(jìn)行的,而劉潤清[4]指出單句翻譯也是翻譯的題型之一,像CET4翻譯題型一樣,它可以測試學(xué)生基本的翻譯能力,即語言運(yùn)用能力,這一題型在平時(shí)的翻譯教學(xué)中經(jīng)常運(yùn)用。因此,為之設(shè)計(jì)一個(gè)合理、可執(zhí)行的評分量表也就迫在眉睫。
本實(shí)驗(yàn)將2009年12月CET4的5道翻譯題,由兩位翻譯老師共同改編為5道單句漢譯英題,于2010年4月在山西農(nóng)業(yè)大學(xué)經(jīng)貿(mào)院2008級隨機(jī)抽取了40名學(xué)生進(jìn)行了測試,收回有效試卷37份,并邀請6位有經(jīng)驗(yàn)的評分員 (6位評分員的背景見表1)用有聲思維的方法對其進(jìn)行評分。
本實(shí)驗(yàn)借鑒了Ling Shi[14]有聲思維的方法,在整個(gè)評分過程中按要求記錄6位評分員的思維。由于有聲思維比較復(fù)雜,在評分前抽取5份試卷讓評分員熟悉有聲思維的評分過程。因?yàn)?位評分員有非常豐富的教學(xué)經(jīng)驗(yàn),在評分前,并沒有給具體的評分量表,只提供了一些具體的評分點(diǎn),比如語言表達(dá)中詞匯的錯(cuò)譯、漏譯,詞匯搭配、詞匯選擇,句子結(jié)構(gòu)等;信息傳遞中的忠實(shí)、通順等。其目的是發(fā)現(xiàn)這些教師在單句漢譯英評分中的標(biāo)準(zhǔn)及側(cè)重點(diǎn)。此外,要求這些教師給每個(gè)句子評分時(shí),要在句子翻譯不合適的地方劃線,并按照評分依據(jù),給出三個(gè)評分的理由,并按重要程度排序。由于預(yù)先沒有評分量表,每個(gè)教師必須根據(jù)自己的評分經(jīng)驗(yàn)去權(quán)衡哪個(gè)標(biāo)準(zhǔn)在漢譯英評分中更為重要,因此可以避免評分量表設(shè)計(jì)中的個(gè)人偏見。然后,收集有聲思維的數(shù)據(jù),另外邀請2位教師對有聲思維數(shù)據(jù)進(jìn)行整理、歸類。在此過程中當(dāng)2位教師歸類有異議時(shí),通過商議取得一致結(jié)果。
表1 6位評分員的背景
最終根據(jù)有聲思維的數(shù)據(jù)將翻譯評分的標(biāo)準(zhǔn)分為4類:詞匯和短語、語法、句子結(jié)構(gòu)、信息表述,這些類別與TEM 8和NAETI評分量表的標(biāo)準(zhǔn)一致。經(jīng)過數(shù)據(jù)分析后,整理每個(gè)評分員的評分規(guī)律,并設(shè)計(jì)評分量表。
為了保證評分量表的有效性,用克倫巴赫系數(shù)計(jì)算了6位評分員的評分信度系數(shù),如表2。從表2可以看出,6位評分員的評分信度都在可接受范圍,他們的評分信度系數(shù)為0.941。他們的評分一致性較高,可以用來設(shè)計(jì)評分量表。
表2 6位評分員的評分信度
6位評分員分別為37位考生的5個(gè)句子評分,每個(gè)評分員分別應(yīng)對185個(gè)句子進(jìn)行評分,并對每個(gè)句子給出三個(gè)評分理由。為了設(shè)計(jì)評分標(biāo)準(zhǔn),在編碼后,筆者統(tǒng)計(jì)了所有滿分的句子和所有三個(gè)評價(jià)都是正面評價(jià)的句子。6位評分員有聲思維收集的數(shù)據(jù)如表3。
表3 6位評分員影響評分因素的排序表
評分員1有50個(gè)句子都給出了正面評價(jià),在這50個(gè)句子的評分中,她認(rèn)為最重要的評分因素中有32個(gè)是信息表述、17個(gè)是句子結(jié)構(gòu)、只有1個(gè)是詞匯;排第二位的評分因素中有29個(gè)是句子結(jié)構(gòu)、9個(gè)是信息表述、8個(gè)是詞匯、4個(gè)是語法;排第三位的評分因素中有27個(gè)是語法、16個(gè)是詞匯、5個(gè)是信息表述、2個(gè)是結(jié)構(gòu)。評分員2有44個(gè)句子都給出了正面評價(jià),在這44個(gè)句子的評分中,她認(rèn)為最重要的評分因素有33個(gè)是結(jié)構(gòu)、6個(gè)是信息表達(dá)的忠實(shí)、5個(gè)是信息表述的通順;排第二位的評分因素中有18個(gè)是信息表達(dá)的通順、11個(gè)是詞匯、8個(gè)是信息表達(dá)的忠實(shí)、7個(gè)是結(jié)構(gòu);排第三位的評分因素中有20個(gè)是信息表達(dá)的忠實(shí)、14個(gè)是詞匯、5個(gè)是結(jié)構(gòu)、3個(gè)是語法、2個(gè)是信息表達(dá)的忠實(shí)。評分員3有46個(gè)句子都給出了正面評價(jià),在這46個(gè)句子的評分中,她認(rèn)為最重要的評分因素有38個(gè)是結(jié)構(gòu)、8個(gè)是語法;排第二位的評分因素中有40個(gè)是信息表述的忠實(shí)、6個(gè)是語法;排第三位的評分因素中有17個(gè)是信息表達(dá)的通順、12個(gè)是詞匯、8個(gè)是信息表達(dá)的忠實(shí)、7個(gè)是結(jié)構(gòu)、2個(gè)是語法。評分員4有50個(gè)句子都給出了正面評價(jià),在這50個(gè)句子的評分中,她認(rèn)為最重要的評分因素有45個(gè)是句子結(jié)構(gòu)、5個(gè)是信息表述;排第二位的評分因素中有43是信息表述、5個(gè)是結(jié)構(gòu)、2個(gè)是語法;排第三位的評分因素中有29個(gè)是詞匯、11個(gè)是信息表述、7個(gè)是結(jié)構(gòu)、3個(gè)是語法。評分員5有 54個(gè)句子都給出了正面評價(jià),在這54個(gè)句子的評分中,她認(rèn)為最重要的評分因素有34個(gè)是信息表述、14個(gè)是句子結(jié)構(gòu)、5個(gè)是語法、只有1個(gè)是詞匯;排第二位的評分因素中有35個(gè)是句子結(jié)構(gòu)、10個(gè)是信息表述、6個(gè)是語法、3個(gè)是詞匯;排第三位的評分因素中有39個(gè)是詞匯、7個(gè)是信息表述、7個(gè)是語法、只有1個(gè)是結(jié)構(gòu)。評分員6有37個(gè)句子都給出了正面評價(jià),在這37個(gè)句子的評分中,她認(rèn)為最重要的評分因素有18個(gè)是句子結(jié)構(gòu)、8個(gè)是語法、8個(gè)是詞匯、3個(gè)是信息表述;排第二位的評分因素中有15個(gè)是信息表達(dá)的忠實(shí)、11個(gè)是語法、8個(gè)是詞匯、3個(gè)是結(jié)構(gòu);排第三位的評分因素中有17個(gè)是信息表達(dá)的通順、11個(gè)是詞匯、8個(gè)是語法、只有1個(gè)是結(jié)構(gòu)。
按照有聲思維報(bào)導(dǎo)的數(shù)據(jù),每位評分員的評分規(guī)律 (見表4)如下:評分員1認(rèn)為信息表述是最重要的因素、其次是句子結(jié)構(gòu)、第三是語法;評分員2認(rèn)為句子結(jié)構(gòu)是最重要的因素、其次是信息表述的通順、第三是信息表述的忠實(shí);評分員3認(rèn)為句子結(jié)構(gòu)是最重要的因素、其次是信息表述的忠實(shí)、第三是信息表述的通順;評分員4認(rèn)為句子結(jié)構(gòu)是最重要的因素、其次是信息表述的忠實(shí)、第三是詞匯和短語使用;評分員5認(rèn)為信息表述是最重要的因素、其次是句子結(jié)構(gòu)、第三是詞匯和短語使用;評分員6認(rèn)為句子結(jié)構(gòu)是最重要的因素、其次是語法和信息表述的忠實(shí)、第三是信息表述的通順。
總結(jié)以上規(guī)律,其中有4位評分員認(rèn)為句子結(jié)構(gòu)是影響評分最重要的因素、信息表述位居第二,有3位評分員認(rèn)為第三個(gè)影響評分因素的仍然是信息表述,而另三位評分員認(rèn)為是詞匯、短語使用和語法。
在測試和評分后,分別對學(xué)生和教師進(jìn)行了訪談。大部分被采訪的學(xué)生認(rèn)為句子結(jié)構(gòu)、語法、短語和詞匯的使用是漢譯英的重點(diǎn)和難點(diǎn)。由于大學(xué)英語教學(xué)不再講授語法,以及他們自己沒有記住大學(xué)應(yīng)掌握的大量的詞匯、短語的用法,使得他們在英語測試的表現(xiàn)中有所下降。大部分評分員認(rèn)為在評分過程中,有些語法內(nèi)容他們歸入了句子結(jié)構(gòu)、有些語法認(rèn)為錯(cuò)誤太小可以忽略,除非遇到虛擬語氣、特殊時(shí)態(tài)表述、被動(dòng)語態(tài)、比較級等語法,他們才會(huì)有所警覺。而這些語法測試點(diǎn),在句子翻譯,尤其是CET4翻譯中,只會(huì)出現(xiàn)一個(gè)或兩個(gè),但在評分中,他們確實(shí)應(yīng)列入被考慮因素之列。另外非謂語動(dòng)詞在漢譯英中,學(xué)生可以用從句進(jìn)行代替,因此,很少作為考點(diǎn)進(jìn)行測試。
綜合評分員的評分規(guī)律和訪談結(jié)果發(fā)現(xiàn),在單句漢譯英評分過程中,句子結(jié)構(gòu)、信息表述、詞匯語法都是應(yīng)該考慮的重要因素,這一點(diǎn)和TEM8、NAETI III提供的評分標(biāo)準(zhǔn)近似,因此,制定了單句漢譯英的評分量表,見表5。
表5 單句漢譯英評分量表
為了測量該評分量表的有效性,本實(shí)驗(yàn)又從汪開虎編的CET4預(yù)測題[15]中抽取20道翻譯題,由那兩位翻譯老師共同改編為20道單句漢譯英題,于2010年6月在山西農(nóng)業(yè)大學(xué)經(jīng)貿(mào)院2008級隨機(jī)抽取了100名學(xué)生進(jìn)行了測試,收回有效試卷60份,并另邀請3位評分員進(jìn)行評分,測試他們的評分一致性系數(shù),評分結(jié)果詳見表6。
結(jié)果表明評分員單句漢譯英得分間的相關(guān)系數(shù)及評分員間的Alpha系數(shù),評分員間的相關(guān)系數(shù)在統(tǒng)計(jì)學(xué)上具有顯著性意義,且評分員20個(gè)句子的Alpha系數(shù)均大于0.7,說明了評分結(jié)果的內(nèi)部一致性較為滿意。將20個(gè)句子的總分相加為每一位受試的總分,統(tǒng)計(jì)結(jié)果顯示,三位評分員的相關(guān)系數(shù)最小值為0.776,相關(guān)性較好,且他們評分的Alpha系數(shù)為0.920,內(nèi)部一致性非常好。
表7顯示了三位評分員對60位受試評分的均分和標(biāo)準(zhǔn)差,評分員間的均值和標(biāo)準(zhǔn)差都比較接近,也反映了評分員之間的評分一致性良好。
表7 總分的均值和標(biāo)準(zhǔn)差
通過對評分員評分過程中有聲思維的研究,發(fā)現(xiàn)在單句漢譯英的評分標(biāo)準(zhǔn)中,評分員關(guān)注譯文的句子結(jié)構(gòu)、信息表述、語法及詞匯、短語使用,因而制定了相應(yīng)評分量表。接著,對100位受試進(jìn)行了單句漢譯英測試,并利用該評分量表,另外邀請三位評分員,對其進(jìn)行評分。從三位評分員20個(gè)單句評分及總分的相關(guān)系數(shù)和Alpha系數(shù),發(fā)現(xiàn)用該評分量表進(jìn)行評分,三位評分員的內(nèi)部一致性較好,而他們評分的均值和標(biāo)準(zhǔn)差也證明了這一點(diǎn)。從而,證明了該評分量表是有效的。當(dāng)然,翻譯的評分是非常復(fù)雜的,三位評分員每個(gè)句子的評分相關(guān)性和一致性并不是特別高,只是較為滿意。因此量表的研究還有待提高,量表的使用還有待在日常的教學(xué)測試中進(jìn)行驗(yàn)證。
[1]Linacre J M.Many-faceted Rasch Measurement[M].Chicage:MESA Press,1989:17-20.
[2]劉潤清.語言測試和它的方法 [M].北京:外語教學(xué)與研究出版社,1991:86-87.
[3]Waddington Christopher.Different Methods of Evaluating Student Translations:The Question of Validity[J].Coden Metacl,2001,46(2):311-325.
[4]劉潤清,韓寶成.語言測試和它的方法 (修訂版)[M].北京:外語教學(xué)與研究出版社,2000:197-199.
[5]穆雷.翻譯測試及其評分問題[J].外語教學(xué)與研究,2006,38(6):466-471.
[6]文慧.單句英譯漢測試評估中的評分員差異研究[J].太原科技大學(xué)學(xué)報(bào)2009,30(2):143-145.
[7]Weir C J.Language Testing and Validation:An Evidence-based Approach[M].Houndmills:Palgrave Macmillan,2004:226-229.`
[8]Bachman L F.Statistical Analyses for Language Assessment[M].Cambridge:Cambridge University Press,2004:309-312.
[9]江進(jìn)林,文秋芳.基于Rasch模型的翻譯測試效度研究[J].外語電化教學(xué),2010,131(1):14-18.
[10]文秋芳,王文宇,周丹丹,等.全國英語專業(yè)八級口試體系的研究與實(shí)施[J].外語界,2005,109(5):53-58.
[11]王金銓,文秋芳.學(xué)習(xí)者漢英翻譯分析性評分細(xì)則的制定[J].外語教學(xué),2009,30(4):96-112.
[12]王雷,常寶寶.大學(xué)英語翻譯考試人工輔助計(jì)算機(jī)評分初探[J]外語電化教學(xué),2009,128(4):17-21.
[13]王金銓,文秋芳.中國學(xué)生大規(guī)模漢譯英測試機(jī)助評分模型的研究與構(gòu)建[J]現(xiàn)代外語,2009,32(4):415-420.
[14]Ling Shi.Native-and nonnative-speaking EFL teacher's evaluation of Chinese students'English writing[J].Language Testing,2001,303(18):303-325.
[15]汪開虎.全真試題與命題預(yù)測 [Z].吉林:外語教育出版社,2010.
山西農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2012年4期