張?zhí)m峰
(淮北職業(yè)技術(shù)學院 基礎(chǔ)部,安徽 淮北 235000)
外語口語測試的評分方法可以分為主觀評分和客觀或半客觀評分兩種。前者主要有總體等級評分 (Holistic Rating)和分項等級評分 (Analytic Rating)[1],后者主要有機器評分、分項客觀指標評分和0/1制評分等。無論是從目前的技術(shù)水平和測試理念來看,盡管受人為因素影響比較大,標準不易確定和把握,主觀評分還是被認為比較有效的評分方法,所以,在諸如雅思、托福、中國的大學英語口語測試 (CET-SET)等各種大規(guī)模高權(quán)重的外語口語測試中,主觀性評分是主要的方法。因為外語口語測試主觀評分方法具有標準難以制定和把握、評分主觀性比較強、評分信度比較難以達到理想的水平等缺陷,國內(nèi)外對主觀性評分方法的研究非常多,其中,對評分主體(評分員)的研究是外語口語測試中重要組成部分。所以,有不少的外語口語測試研究是以評分員為對象的。從國外對評分員的研究來看,主要集中在:評分員就受試口語水平看法的一致性[2]、評分員在口試中對語言功能和話題的選擇[3]、評分員在口試中的提問及提問的方式[4]、評分員在口試中根據(jù)受試的水平調(diào)整自己語言的程度和方式[5]、評分員在口試中推進話題的方式[6]、評分員的性別對口試結(jié)果的影響[7]以及評分員間的信度研究[8]等。國內(nèi)學者對口試評分員因素也做了一些研究,但是遠不如國外的研究廣泛和深入,主要集中于口試評分的信度研究[9-11]。
從這些研究我們可以看出,現(xiàn)有的研究大部分集中于評分員的外顯特征,對于評分員的評分心理,如:在評分員的內(nèi)心對口語評分的不同方法是怎樣看待的,這些看法會不會影響評分標準的執(zhí)行,會不會對不同的評分方法有影響,是否對外語口語測試結(jié)果的科學性和真實性產(chǎn)生比較大的影響等問題,還缺乏關(guān)注。我們認為,對評分員的評分心理進行研究很有意義,因為任何好的評分方法、評分標準、評分程序,如果得不到評分員的準確理解和執(zhí)行,也會形同虛設(shè),不能發(fā)揮設(shè)計者所期望的價值,造成外語口語測試的低效和失真。鑒于此,本文將對外語口語測試中的評分員心理進行初步的實證性研究,以期為有效地組織和培訓(xùn)評分員隊伍,從而提高外語口語測試效度、信度,提供切實的參考和借鑒。
外語口語評分員的評分心理表現(xiàn)可謂多種多樣,從評分方法來說,有評分員對評分方法的偏好心理,從評分關(guān)注的維度來說,有評分員對評分因素關(guān)注側(cè)重的心理,從評分員本身的背景來說,評分員可能受到性別、年齡、種族、國籍、專業(yè)、評分經(jīng)驗和教齡等因素的影響,對口語評分有著不同的心理表現(xiàn),從而形成評分的性別心理、年齡心理、種族心理、國籍心理、評分經(jīng)歷心理、教齡心理等等。限于研究的條件和論文的篇幅,本研究不能對評分心理面面俱到地進行研究,且這樣做也無必要,只選擇兩個主要的評分心理事實和規(guī)律進行研究:
(1)評分方法偏好心理。即對于整體評分法和分項評分法,評分員比較偏好的是哪種方法?為什么?
(2)評分維度側(cè)重心理。即對于分析評分法的五種主要因素——語法、語音、詞匯、流利性和可理解性,評分員是同等重視,或者是有所側(cè)重。為什么?
研究工具包括:1)電子錄音設(shè)備,用來對樣本學生進行口語測試錄音;2)評分量表和評分記錄表,評分量表包括整體性評分量表和分析性評分量表,評分記錄表包括整體性評分記錄表和分析性評分記錄表;3)評分員調(diào)查問卷。評分員調(diào)查問卷的主要內(nèi)容有:調(diào)查評分員對評分方法的偏好,評分員對于分項評分法中語法、語音、詞匯、流利性和可理解性等五個因素的關(guān)注程度。4)SPSS統(tǒng)計軟件,用來統(tǒng)計分析實驗中收集的數(shù)據(jù)。
研究的方法為定性和定量相結(jié)合的實證性研究,通過調(diào)查問卷和樣本口語的評分結(jié)果,對兩個口語評分心理事實進行質(zhì)和量的描述,運用比較分析、方差分析等手段,揭示這些心理事實的規(guī)律,進而根據(jù)問卷中樣本評分員填寫的解釋性說明內(nèi)容,對這些評分心理規(guī)律的心理機制盡可能做進一步的解釋。
研究樣本的抽取方法為隨機抽取,首先抽取大學二年級學生6名,用來對其進行口語錄音;接著抽取評分員教師100名,為安徽省內(nèi)高校的英語教師,抽取的方法是通過上網(wǎng)查詢各個大學的外語學院或者外語系的教師名單,然后抽取有明確聯(lián)系方式的教師100名。
研究的過程如下:
(1)對樣本學生進行口語測試錄音,錄音格式為MP3的格式。用作樣本評分員進行口語評分,評分的結(jié)果用來驗證調(diào)查問卷的結(jié)論,并把評分結(jié)果用來分析不同群體評分員對外語口語評分的寬嚴程度。
(2)制作分析性評分量表和整體性評分量表。制定兩種評分量表時主要參照了CET-SET對口語能力等級的描述及Heaton(1988)等提出的評分標準,并結(jié)合大學英語口試的實際情況修改而成。其中分析性評分的維度主要為語法、語音、詞匯、流利性和可理解性等。 評分量表主要供樣本評分員對樣本口語進行評分時進行參照。
(3)制作調(diào)查問卷,調(diào)查問卷中主要的內(nèi)容為:評分員的性別、年齡、專業(yè)、教齡、是否接受過評分培訓(xùn)等個人背景信息,評分員對于評分方法的偏好,對于分項評分法中語法、語音、詞匯、流利性和可理解性等五個項目的重視程度。對評分方法偏好和對分項評分方法中5個因素的重視程度的調(diào)查都采用五點量表形式,即每個問題設(shè)置5個答案:非常贊成,贊成,無意見,不贊成,很不贊成。與5個答案相對應(yīng)的分數(shù)分別為5、4、3、2、1。調(diào)查問卷主要用來了解評分員對評分方法、評分因素等的心理偏好。
(4)與樣本教師聯(lián)系,向樣本教師寄送電子郵件,郵件的內(nèi)容為:5個樣本學生的口語錄音;評分量表和評分記錄表,包括整體性評分量表和分析性評分量表以及相應(yīng)的的評分記錄表;對口語錄音進行評分的說明和請求:請求每位受試教師對照量表,分別用兩種評分方法對5份口語測試錄音進行評分,請求評分員填寫調(diào)查問卷,為了保證調(diào)查問卷的真實性,問卷采取無記名的方式,并且請求樣本評分員在填寫調(diào)查問卷時,能夠盡量附上對評分方法的選擇、對評分維度的側(cè)重的簡要解釋性說明。
(5)回收口試評分結(jié)果和調(diào)查問卷,并利用SPSS軟件進行分析。
評分員樣本基本情況:在本研究中,共發(fā)放問卷100份,回收83份,其中有效問卷62份。在有效問卷中,男性占22.6%(14人),女性占77.4%(48人)。21-30歲者占 19.4%(12人),31-40歲者占56.5(35人),41-50歲者占14.5%(9人),50歲以上者占9.6%(6人)。評分員的專業(yè)差別很大。為了方便研究,本文把樣本評分員的專業(yè)分為三個大類:語言學和語言文學(9人),外語教學專業(yè)(38人),其他專業(yè)(5人)。通過對回收問卷和評分結(jié)果的統(tǒng)計分析,我們有如下的發(fā)現(xiàn):
表1顯示,整體評分法的均分為4.04,分項評分法的均分為1.45,兩者均分相差近2.6,這說明,在外語口語測試中,整體評分法受到大多數(shù)評分員的喜愛。從兩者的標準差來看,雖然兩者的標準差有所差異,整體評分法的標準差略高于分項評分法 (整體評分法的標準差為1.50,分項評分法的標準差為1.08),但是標準差的差異比較小,僅為0.42。所以,數(shù)據(jù)還是能很好地說明評分員對兩者的偏好意見是相對集中的。為什么評分員對整體評分法這么偏好呢?從調(diào)查表中的解釋性說明中可以總結(jié)出如下幾種原因:整體評分法效率比較高,評分員可以憑平時的經(jīng)驗來評分,對評分員的注意力分布要求不是很高;學界分析性評分法的評分維度劃分不一,不如干脆用整體評分法;整體評分法和分項評分法的評分結(jié)果差異不大,沒有必要進行分項評分。對于前兩種原因,應(yīng)該說調(diào)查對象所言都是有定論的,整體評分法的效率比較高是學界的定論,分析性評分法的維度也確實有不同的劃分方法,如托??荚嚭椭袊拇髮W英語口語考試(CET-SET)都是使用分項評分法,但是托福口試是從總體可理解度、語音、語法、流利程度四個維度來評分,而CET-SET是從語言的準確性和范圍、話語的長短和連貫性、語言靈活性和適切性三個維度對考生的口語水平進行評估。對于第三個原因——總體評分法和分項評分法的評分結(jié)果差異不大——本研究利用樣本評分員對樣本英語口語錄音的評分進行了檢驗。
表1 評分員對不同外語口試評分方法偏好的統(tǒng)計
在寄送給樣本評分員的評分說明中,要求評分員在使用總體評分法和分項評分法時均采用等級評分,每個評分量表都有7個等級,只不過,在統(tǒng)計分項評分法的分數(shù)結(jié)果時,把考生口語樣本在語法、語音、詞匯、流利性和可理解性等5個維度上的所得到的等級數(shù)量相加,然后除以維度數(shù)5,得到最終的分數(shù)。所以,使用分項評分法得到的分數(shù)往往是小數(shù)。如表2所示,從樣本個體均數(shù)來看,總體評分法和分項評分法得出的結(jié)果大致相同,因為從極端值來看,兩種評分方法中,口語測試錄音樣本5的得分最低,樣本3得分最高,并且兩種評分方法中各口語樣本的得分比較接近,如樣本1在整體評分和分項評分中的得分分別為4.34、4.54,非常接近。
表2 總體評分法和分項評分法評分結(jié)果統(tǒng)計
為了進一步驗證總體評分法和分項評分法的差異,在研究中對整體和分項評分的結(jié)果進行了配對樣本檢驗,從配對樣本的描述性統(tǒng)計可以看出(如表3),兩者的平均值和標準差都非常接近,兩者的平均值分別為4.54和4.51,兩者的標準差分別為0.71和0.70。從T檢驗的結(jié)果(如表4)可以看出,兩者的顯著性參數(shù)水平為0.46。大于0.05顯著性水平,所以可以判定,這62位評分員的整體評分和分項評分差別不大。所以,我們可以得出這樣的結(jié)論,評分員對整體評分和分項評分的結(jié)果差別不大的猜想得到了實證性的支持,基本上是正確的。
表3 整體評分法和分項評分法評分均數(shù)統(tǒng)計
表4 整體評分法和分項評分法配對檢驗
根據(jù)分析性評分維度的研究和實踐,評分維度在數(shù)量和名稱上各不相同,本研究綜合Heaton的評分理論和CET-SET的評分維度,把問卷調(diào)查中的維度確定為語法、語音、詞匯、流利性和可理解性。
在口語測試評分中,評分員對語法、語音、詞匯、流利性和可理解性中的關(guān)注度是均勻的還是有所差異?為了了解這個問題,我們在問卷上采用5點量表的形式,設(shè)計了如下幾個問題:“1.在口語測試評分的時候,我認為考生口語的語法最重要。2.在口語測試評分的時候,我認為考生口語的詞匯最重要。3.在口語測試評分的時候,我認為考生口語的語音最重要。4.在口語測試評分的時候,我認為考生口語的流利性最重要。5.在口語測試評分的時候,我認為考生口語的可理解性最重要?!眰溥x答案是“A非常贊成B贊成C無意見D不贊成 E很不贊成”,分別賦分“5、4、3、2、1”,并且把答案A視作最重要的表達,答案E視作最不重要的表達。為了直觀地看到評分員的意見,我們對最重要和最不重要的兩個選項進行了統(tǒng)計,結(jié)果顯示 (見表5),51.6%的評分員認為可理解性是他們認為最為重要的因素,其次是語音;37.1%的評分員認為詞匯最不重要,其次是語音和語法。這個結(jié)果也可以對整體評分法中評分員的評分依據(jù)作出解釋,也許,在整體評分法中,大部分評分員把注意力集中到考生英語口語的可理解性上,也就是說,考生如果所說的外語如果能夠使人聽懂了,很多評分員就基本上認可了其外語口語能力。換而言之,很多評分員的對外語口語的評分結(jié)果可能主要反映考生口語的可理解程度,對語法、語音、詞匯、流利性反映的很少或者基本上沒有。
表5 評分員對口語分項評分項目各因素的側(cè)重統(tǒng)計
雖然對評分維度重要性的認識受評分員背景的影響略有差異,但是還是大致一致的,即外語口語的可理解性是評分員最重視的因素,詞匯是最不受重視的因素。從問卷中的解釋性說明中,我們也可以看出評分員重視口語可理解性的原因,即大部分評分員認為口語的目的是交際,交際的功能的實現(xiàn)是通過信息的有效傳遞,那么,如果考生的口語能夠讓人聽懂,即能夠讓人理解,也就很好地實現(xiàn)了口語的功能??梢?,評分員對口語不同因素的側(cè)重受到交際教學理論的影響很大。這也許是近些年大力推行交際教學理論和交際測試理論的結(jié)果。
從以上的調(diào)查問卷和評分結(jié)果分析中我們可以看出,我們不難看出,外語口語測試存在以下的評分心理:在對外語口語評分方法的偏好方面,大部分評分員對整體評分法比較喜愛,在對評分維度的重視方面,大部分評分員認為口語可理解性是評判考生外語水平最重要的因素。評分員的這些心理表現(xiàn)為我們選擇評分方法、組織和培訓(xùn)評分員隊伍提供了重要參照。從評分方法選擇來說,如果確有評分效率的需要,也許選擇整體評分法并不遜于分項評分法。從評分員的組織方面來看,為了提高外語口語測試評分的科學性和合理性,評分員隊伍應(yīng)該注意結(jié)構(gòu)上的合理性。只有使評分員隊伍的背景因素多樣化并有機組合,才能盡可能地使評分寬嚴有度,使評分結(jié)果不至于與考生的真實口語水平距離太大,盡量接近考生的真實口語水平。從評分員的培訓(xùn)來看,除了要求評分員熟悉口語測試流程、準確理解口語測試標準、加強與考生的有效交流從而消除考生的考試焦慮心理以外,從本研究的角度來看,恐怕更重要的是消除評分員的以偏概全的評分心理,即以一個標準來代替其它的標準,因為從本研究的結(jié)果來看,評分員對口語可理解性最為看重,的確,可理解性代表了交際語言理論的觀點,但是,視語言學習者的不同層次,對口語的其它因素也不可偏廢。
值得說明的是,因為已經(jīng)有研究者對外語口試評分員的性別差異進行過研究,故這里不再重復(fù)研究。還有,評分心理是一個非常復(fù)雜的課題,它可能受到性別、年齡、教齡專業(yè)的影響,也許還會受到評分員的人格、氣質(zhì)、口語測試環(huán)境等多方面因素的影響,受研究的條件所限,本實驗只選擇幾個主要指標對其進行初步性的研究,肯定還有許多沒有涉及的因素以及不科學的地方,另外,本研究揭示的這些評分心理傾向性只是評分心理規(guī)律,那么這些心理規(guī)律后面的心理機制和心理本性是什么等問題,這都有待進一步探索。
[1]李筱菊.語言測試科學與藝術(shù)[M].長沙:湖南教育出版社,1997.
[2]Lazaraton,A.Interlocutor support in oral proficiency interviews∶ The case of CASE [J] .Language Testing,1996a.(13)∶151-172.
[3]Brown, A.& T.Lumley.Interviewer variability in specific purpose language performance tests [J].Language Testing,1998(1)∶43-64.
[4]Brown,A.Interviewer variation and the co-construction of speaking proficiency[J].Language Testing,2003(20)∶1-25.
[5]Ross,S.Accommodative questions in oral proficiency interviews[J].Language Testing,1992(9)∶173-186.
[6]Berwick, R.& S.Ross.Cross-cultural pragmatics in oral proficiency interview strategies [M]∥In M.Milanovic&N.Saville (eds.).Performance Testing,Cognition and Assessment∶Selected Papers from the15th Language Testing Research Colloquium.Cambridge:CUP.1996∶34-54.
[7]O'Loughlin,K.The impact of gender in oral proficiency testing[J].Language Testing,2002(19)∶169-192.
[8]Surface,E.& E.Dierdorff.Reliability and the ACTFL oral proficiency interview∶Reporting indices of interrater consistency and agreement for 19 languages [J].Foreign Language Annals,2003(36)∶507-519.
[9]聶建中,王正仁.評分員的信度與口語能力測量[J].山西大學學報∶哲學社會科學版,1997(2)∶102-106。
[10]李慶本,許雪立.中國漢語水平考試(高等)口試評分的誤差控制[J].世界漢語教學,1999(3)∶43-47。
[11]郭茜,邢如,沈明波.口試評分規(guī)范化與信度研究[J].清華大學教育研究,2003(S1)∶135-139.