• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      概化理論在大學英語翻譯評分中的應用研究

      2021-12-03 15:12閻莉張瑋向國華

      閻莉 張瑋 向國華

      摘 要:本研究以概化(G)理論作為分析框架,請12位評分者對11名大學生的漢譯英翻譯測試進行評分,通過一系列的概化研究和決策研究,以檢驗翻譯測試中的評分信度和構建效度問題。實驗結果表明:以漢譯英段落翻譯進行的測試能較好區(qū)分考生的翻譯能力;評分人效應明顯,而題材效應不明顯。同時決策研究的結果表明,適當增加翻譯任務和評估者人數能提高翻譯測試的信度。

      關鍵詞:概化理論;翻譯評分;評分信度;構建效度

      一、前言

      隨著中國推進“一帶一路”建設和中國文化“走出去”戰(zhàn)略,中國承擔了更多的國際責任,也對翻譯人才提出了更多要求。為順應國家的需求和英語教育改革趨勢,翻譯測試研究迫在眉睫。

      翻譯測試屬于測量范疇。但凡測量都有誤差,產生測量誤差的原因是多種多樣的。根據不同的測量誤差,測量一般分為以下三大理論,分別是經典測量理論(CTT)、概化理論(GT)和項目反應理論(IRT)。經典理論把測試的得分看成是真分數和誤差分數的線性組合,但經典理論中的真分數不能指明哪種誤差或在總誤差中各種誤差的相對大小如何,只能根據主試自己的理解去控制一些因素,針對性不強。項目反應理論將被試特質水平與被試在項目上的行為關聯(lián)起來并且將其參數化和模型化,是通過統(tǒng)計調整控制誤差的方法。若模型成立并且項目參數均已知,則模型在測驗中為項目性質調整數據,可生成獨立于測驗項目性質的特質水平測量。但項目反應理論對被試數、項目數和模型有限制,適合較大規(guī)模和大樣本的測試。概化理論則是通過改進經典測驗理論的數學模型、引進方差分析技術等方法,把分數變異細分為多種來源,為測驗決策提供了系統(tǒng)的理論和方法。因此,概化理論是經典測量理論與方差分析技術形成一種現代測量評價的理論[1]。該理論已構成了現代人才測評的理論基石,應用范圍涉及心理測試、語言測試、績效評估、醫(yī)學測量等多個領域[2-5]。

      目前,我國概化理論主要用于高考標準、參照性測驗、心理測試、普通話測試、教學評價評分一致性等研究中。學者們也嘗試將概化理論用于外語語言測試研究,如概化理論分析寫作測試和口語測試[6-8]。研究發(fā)現,通過概化理論可以為研究標準化和標準程度化不高的測試提出有效控制和改善測量精度的措施和方法。但以概化理論深入挖掘翻譯測試的可靠性和有效性的研究鮮有涉及。

      二、概化理論:翻譯評估研究的框架

      在國外教育與心理評價中,概化理論受到高度重視。美國教育研究會、心理學協(xié)會以及國家教育評價委員會聯(lián)合頒布的《教育和心理評價標準》明確提出,構建觀察和教育評價程序的可靠度與效度時,必須參照概化理論[9]。

      概化理論(Generalizability Theory)是一種把測量誤差作為模型參數來處理的測量理論,也是一種統(tǒng)計方法。該方法可以識別得分方差和錯誤的來源,并估計這些方差成分對評分一致性和準確性的影響[10]。它將影響測試結果的多側面(Facet)及其交互影響納入測試全域(Universe),分析側面間結構關系與作用模式,如在按考生和任務(p×t)的交叉設計中,某個考生(p)在某道題(t)上的得分受考生全域均分、個人效應、題項效應和殘差效應(殘差包括學生與試題的交互作用,以及其他不確定誤差源)影響。

      概化理論分析問題的基本過程主要包括兩部分,即概化研究和決策研究。概化研究按照總差異百分比檢查設計中的每個差異成分。決策研究是對概化研究所得數據的轉換和解釋環(huán)節(jié),為實驗目的提供不同的信度和效度指標。具體來說,決策研究表明需要多少項任務和評估者數量才能達到特定的評分可靠性[11]。概化理論的概化研究和決策研究可以幫助人們針對具體誤差來源,提出有效控制和改善測量精度的措施和方法。因此,本文以概化理論為分析框架,開展?jié)h英翻譯測試有效性的研究,不僅檢驗翻譯測試評閱的信度和效度問題,而且運用決策研究結果構建提高翻譯測試的有效性策略。

      三、研究問題和研究過程

      (一)翻譯樣本的選擇

      翻譯能力是譯者的語際轉換能力,即忠實通順地傳達原作意義的能力。Hatim & M ason(1990)對翻譯能力所下的定義——“成功翻譯的必要知識”[12]。本研究英語翻譯能力測試是依據2017教育部最新版大學英語教學指南對翻譯的基本要求,如果考生能借助詞典對題材熟悉、結構清晰、語言難度較低的文章進行英漢互譯,譯文基本準確,無重大的理解和語言表達錯誤,能有限地運用翻譯技巧,那么考生具備一定的翻譯能力。于是,筆者選用大學英語四級真題作為翻譯測試題,因為英語四級考試的目的就是以中國英語學習者為對象,為大學英語教學提供測評服務一項全國性的英語考試。

      參加翻譯測試的對象來自湖北省屬高校非英語專業(yè)大二的學生。11名學生都參加過2019年6月的CET-4考試,其中,有10位學生通過了四級考試,有1位學生未通過四級考試。筆者本人為他們的大學英語任課教師,并確認測試的翻譯任務均為學生未接觸過的試題,征得學生同意后,分配學生30分鐘時間,完成140-160個漢譯英段落翻譯,第一次為文化類翻譯,第二次為經濟類翻譯。然后,這11名學生的22篇翻譯由12名評閱者按照CET-4翻譯考試評分標準進行評分,即評閱人從準確、連貫和語言三個方面對翻譯進行綜合型評判。參加測試研究的12位評分員為有15年及以上教齡的高校專任英語教師,大部分教師曾多次參加過大學英語翻譯測試和校級翻譯選拔賽的評閱工作。

      (二)研究設計

      1. 翻譯測試中的準確性和有效性依據

      當前的翻譯測試大都以文本測試為主,評分者依照評分標準作出主觀性評估。主觀性評估的準確性對其有效性有很大影響,Messick(1989)將有效性描述為“綜合評價判斷經驗證據和根據考試成績理論基礎的程度,支持推理和行動的充分性和適當性”。從這個意義上說,翻譯任務的評估通常涉及一個或多個評估者,評估者依據個人經驗對任務進行綜合評價,判斷考生對翻譯理論基礎的掌握程度。在這種主觀性評估背景下,分數會因許多因素而波動,任務和評估者將是影響準確性的兩個潛在測量誤差源[13-14]。因此,本研究重點考察翻譯測試評估的兩個因素:任務和評分者。研究采用兩面交叉設計p×t×r,其中p是指學生的翻譯能力(測量目標),t指翻譯不同題材翻譯,有2個水平;r指評估者,有12個水平,即12位評分員對11名學生每人二種不同題材的段落翻譯進行評定,翻譯題材面和評估者面都為隨機。然后GENOVA軟件測量翻譯評分中的評分員效應和題材效應,并對誤差構成進行分析研究。

      作為評估測量精度的概化理論還提供了一種檢驗測試結構有效性的方法評估[14],即研究行為表現評估的結構效度(聚合效度和區(qū)別效度)。通過分析測試中得出的每個方差成分的相對大小,來檢驗構造的有效性[15]。在任務和評分者隨機交叉設計中,學生翻譯分數的變化即可分為以下七個方差分量:考生(p),任務(t),評分者(r),考生*任務(pxt),考生*評分者(pxr),任務*評分者(txr),考生*任務*評分者(pxtxr)。為了檢驗考生測量的有效性,每個方差分量都需要單獨考慮。由考生引起的變化不構成誤差變化,因為考生是衡量的對象,他們的表現會有所不同。因此,考生的方差分量大,測量對象表明聚合效度足夠大[16];評估者方差成分以及評估者與其他方差成分(即,任務和評分者)之間的交互作用應較小,以表示區(qū)別有效性,因為所有這些方差成分均會導致測量誤差[16]。所以任務和評分者之間的交互作用方差成分組成部分可以判斷區(qū)分度。如果認為翻譯能力是一維結構,任務和評分者之間的交互作用方差成分較小,則表明區(qū)分度好;但如果測試的能力為多維結構,那么其他變異來源例如考生*評分者(pxr),任務*評分者(txr),考生*任務*評分者(pxtxr)等的組成部分應該很小以支持判別有效性,因為它們可能導致錯誤,因此無法測量學生的翻譯能力[16]。

      2. 研究問題

      使用概化理論作為框架,以下三個研究問題指導了這項研究:

      (1)大學英語漢英翻譯任務的分數的得分變異性的來源是什么?

      (2)大學英語漢英翻譯測試的構造效度(及聚合效度和區(qū)別效度)如何?

      (3)大學英語漢英翻譯任務的成績可靠性是什么?

      3. 數據分析

      首先,進行描述性靜態(tài)分析和配對樣本t檢驗。其次,一個隨機效應任務、評估人和考生(pxtxr)的概化研究和兩個評估人交叉考生(pxr)的概化研究(一個用于第一篇翻譯任務,另一個用于第二篇翻譯任務)。從這些概化研究獲得的信息用于檢查評分變異貢獻來源和考生翻譯分數的結構效度。最后,產生一個影響評估人、任務和考生(pxtxr)決策研究。決策研究獲得的結果用于檢驗翻譯測試成績的可靠性。概化和決策研究均使用計算機程序GENOVA[15]。

      四、研究結果和分析

      (一)翻譯的得分的差異

      表1匯總了由11位中國大學生翻譯的22篇翻譯的得分的統(tǒng)計結果(即均值和標準差)。結果顯示,11名學生翻譯能力差異較大。文化類翻譯任務中的得分明顯高于經濟類翻譯任務。

      (二)配對樣本t檢驗結果

      此外,配對樣本t檢驗結果(見表2)顯示,除學生6在翻譯任務1和任務2得分一致外,文化類型的翻譯的得分明顯高于經濟類翻譯得分。此外,如表2顯示,三名考生(即考生2、4和6)在文化類翻譯任務中的得分明顯高于第一篇(p<0.05)。其他學生的翻譯分數沒有顯著差異。這兩個翻譯任務滿分為15分,學生分數覆蓋5-12分,說明11名學生的翻譯能力有很大差異。

      (三)概化研究(Generalizability Studies)

      本研究采用了兩面交叉設計p×t×r,這種設計可以得到學生翻譯能力、篇章類型、評估者三種主效應(p,t,r),四種交互效應(pt,pr,tr,ptr)。各效應的方差成分如表3。

      表3結果可以看到,作為測量對象的考生(p)產生了最大的方差分量(2.972),占據總方差的50.24%,表明11個選定的考生,翻譯能力差異很大。與評分者相關的(r)和(pr)約占總方差的30%,說明由評估者因素給分數變異帶來的誤差相當大。而題材類型(t)屬于同一題型,只有題目內容的變化,其方差成分(0.244)很小,它僅占分數總變異的4.12%,說明不同題材類型對學生能力測試不會造成很大差別。

      表4顯示兩種不同翻譯任務的考生*評分人pxr隨機效應概化研究結果。不同題材的翻譯段落看作單面交叉設計p×r,本研究所用的兩篇不同內容的翻譯分別代表了兩個單面設計??忌?評分者(pxr)隨機效應產生以下方差分量:考生(p),評估者(r)和考生交叉評估者效應(pr)。如表4所示,文化類翻譯的結果表明,測量對象人(p)解釋了最大的得分差異(占總差異的58.87%),表明這11名大學生差異很大,翻譯任務很好的衡量的學生的翻譯能力。殘差是由于評估者和考生之間相互作用引起的可變性以及其他無法解釋的系統(tǒng)性和非系統(tǒng)性的來源錯誤占第二大得分方差(占總方差的29.57%)。評分者(r)產生了第三大方差成分(占總方差的17.63%),表明評分者在評估翻譯任務方面存在很大差異。

      經濟類翻譯的結果表明,測量對象人(p)解釋了最大的得分差異(占總差異50.60%),表明這11名大學生翻譯能力差異很大,翻譯任務很好的衡量的學生的翻譯能力。殘差是由于評估者和考生之間相互作用引起的可變性以及其他無法解釋的系統(tǒng)性和非系統(tǒng)性的來源錯誤占第二大得分方差(占總方差的29.57%)。評分者(r)產生了第三大方差成分(占總方差的17.31%),這表明評分者在評估翻譯任務方面存在很大差異。

      (四)翻譯測試的構造效度結果

      為了檢驗翻譯測試的構造效度(及聚合效度和區(qū)別效度),對隨機效應評估人、任務和考生(pxtxr)的方差分析概化研究(參見表3)和兩個考生*評分者(p x r)隨機效應的概化研究(一個用于第一篇翻譯任務,另一個用于第二篇翻譯任務)來檢查結構的有效性(參見表4)。

      如表3所示,作為測試對象的翻譯能力解釋了總變異的50.24%,這說明用漢譯英段落翻譯測試考生的翻譯能力,聚合效度可以接受。另外,本研究在翻譯任務中使用了兩個題材的翻譯任務,因此學生的翻譯能力可以被視為多維結構。較大的值表示足夠的區(qū)別效度。但是任務、考生*任務和任務*考生*任務的差異占總分差的4.12%、1.21%和11.59%說明區(qū)分效度不明顯。

      如表4所示,文化類翻譯比經濟類翻譯任務的測試對象p分別占總方差的58.87%和50.60%,表明文化類的翻譯比經濟類的翻譯聚合效度高,考生和評分者(pr)的方差分別占占總方差的23.20%和29.57%,這表明第二項經濟類的翻譯任務更具有區(qū)別效度。

      (五)決策研究(Decision Studies)

      根據概化研究所估計出來的各種方差成分,我們可以考察不同決策研究下概化系數(Generalizability Coefficient,簡稱G系數)的變化。固定一個面的決策研究不僅增加面的水平能提高測量精度,固定一個面也能改進測量的可靠性。

      概化系數大于0.80說明信度優(yōu)秀。如圖5所示,固定一個翻譯測試題,如果這一道翻譯測試題由一名評估者來評分,概化系數為0.636,兩名評估者可靠性為0.762,三名評估者可靠性為0.816,達到0.80的優(yōu)秀水平;而如果有兩道翻譯測試題一名評估者來評分,概化系數為0.699,兩名評估者可靠性為0.814,達到優(yōu)秀水平。

      五、討論和結論

      基于以上檢驗、分析。本研究得到以下結論:

      首先,考生*評分人*任務的概化研究結果表明,與評分者相關的(r)和(pr)約占總方差的30%,題材類型(t)其方差成分占分數總變異的4.12%,在影響翻譯評分的各種因素中,評分者因素產生的誤差最大,這一結果跟Huang[17]的發(fā)現一致。而題材類型對學生能力測試不會造成很大影響。但相同條件下,經濟類翻譯測試誤差最大,而文化類翻譯測試誤差較小。

      其次,翻譯測試的構造效度(聚合效度和區(qū)別效度),作為測試對象的翻譯能力解釋了總變異的50.24%,這說明用漢譯英段落翻譯測試考生的翻譯能力,聚合效度可以接受。但是任務、考生*任務和任務*考生*任務的差異占總分差的4.12%、1.21%和11.59%說明區(qū)分效度不明顯。本研究在翻譯任務中使用了兩個不同題材的段落,但都屬于同一題型的文本翻譯,說明測試中使用同一題型不同題材的文本對翻譯測試產生的誤差沒有影響。相對而言,文化類翻譯比經濟類翻譯任務的測試對象p分別占總方差的58.87%和50.60%,表明文化類的翻譯比經濟類的翻譯聚合效度高,考生和評分者(pr)的方差分別占占總方差的23.20%和29.57%,經濟類的翻譯任務更具有區(qū)別效度。這個結果可能與大學英語強調英語文化重要性有關,在大學英語通識教材中學生接觸經濟類型的文本比文化類型的文本要少。所以,學生發(fā)現文化類翻譯比經濟類翻譯更難。與文化類翻譯相比,評估者在經濟類的評分一致性也稍差。

      最后,翻譯測試分數的可靠性決策研究結果表明,增加翻譯任務和評估者人數能提高翻譯測試的信度。

      因此,為了提高翻譯測試的有效性,測試機構的主管部門一是要穩(wěn)定測試評分者隊伍,減少評分人員變更;特別是大型測試中,如果條件允許情況下,增加評分員人數,雙人評閱;二是在翻譯能力測試中,試卷分卷或多卷測試時,翻譯篇章類型盡可能統(tǒng)一,盡可能用采用多篇翻譯進行測量,才能更好保證測試的公正性。

      當然,實驗中考生和評分者的行為可能與實際測試條件下的行為有所不同。而且參與者和寫作樣本的樣本量相對較小,可能會限制調查結果對整個翻譯評估的概括。在后期研究中,我們將通過定性方法對翻譯評估者及評分過程采取進一步研究,來明確影響翻譯評分中的隱藏性因素。

      參考文獻:

      [1] 陳社育,余嘉元.經典真分數理論與概化理論信度觀評析 [J].心理學動態(tài),2001,(3):258-263.

      [2] Brennan,R.L.Generalizability Theory[M].New York: Springer,2001.

      [3] Gebril,A.Score generalizability of academic writing tasks: Does one test method fit it all?[J].Language Testing,2009,29(4):507-531.

      [4] Sawaki,Y.Construct validation of analytic rating scales in speaking assessment: Reporting a score profile and a composite[J].Language Testing,2007,24(3):355-390.

      [5] Huang, J. (2012). Using generalizability theory to examine the accuracy and validity of large-scale ESL writing[J].Assessing Writing, 17(3), 123-139.

      [6] 趙琪鳳.HSK寫作測試評分信度考查——基于對新老評分員的個案調查[J].課程與教學論,2010-10:13-19.

      [7] 基于概化理論和多層面Rasch模型的計算機化英語聽說考試評分研究[J].徐鷹,曾用強.電化教育研究,2015,(3):89-95.

      [8] 孫海洋,韓寶成.概化理論在口語考試設計中的應用研究[J].外語教學,2011,(6):61-65.

      [9] AERA,APA & NCME.Standards for Educational and Psychological Testing[Z].Washington,DC: American Educational Research Association,1999,2014.

      [10] Huang, J. (2011). Generalizability theory as evidence of concerns about fairness in large-scale ESL writing assessments[J]. TESOL Journal, 2(4), 423-443.

      [11] 趙必華.概化理論及其在標準參照測驗信度中的應用[J];內蒙古師范大學學報(教育科學版) 2002(5):21-23.

      [12] Hatim,B. & Mason, I Discourse and the Translator [M]. London: Longman, 1990.

      [13] Messick S.Validity .In:R. L.inn ?(Ed.).Educational Measurement (3rd Edition)[C].New York: Mac-millan,1989.13-104.

      [14] Shavelson, R. J., & Webb, N. M. (1991). Generalizability theory: A premier[M].Newbury Park, CA: Sage.

      [15] Brennan, R. L. (2001). Statistics for social science and public policy: Generalizability theory[M].New York: Springer-Verlag.

      [16] Kraiger, K., & Teachout, M. S. (1990). Generalizability theory as construct-related evidence of the validity of performance ratings[J].Human Performance, 3, 19-35.

      [17] Huang, J. (2011). Generalizability theory as evidence of concerns about fairness in large-scale ESL writing assessments[J]. TESOL Journal, 2(4), 423-443.

      赤城县| 固原市| 康马县| 定边县| 南康市| 景洪市| 西贡区| 通海县| 永吉县| 鹤峰县| 巧家县| 台东县| 乐陵市| 全州县| 岳池县| 精河县| 洛宁县| 陕西省| 家居| 房山区| 九台市| 满洲里市| 大石桥市| 嫩江县| 杨浦区| 绍兴市| 封丘县| 屯昌县| 广昌县| 徐州市| 建湖县| 卫辉市| 文山县| 阿城市| 朔州市| 六枝特区| 远安县| 奉新县| 容城县| 广水市| 武川县|