• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      英語能力等級量表描述語量表化的可行性方案探討

      2016-06-05 14:19:55朱正才
      中國考試 2016年4期
      關鍵詞:量表問卷樣本

      朱正才

      英語能力等級量表描述語量表化的可行性方案探討

      朱正才

      本文在參照國內外語言量表研制經驗基礎上,結合我國的實際情況,提出中國英語能力等級量表描述語量表化的一個可行方案。對如何抽取學生語言行為樣本、收集描述語和學生語言行為表現(xiàn)的匹配數(shù)據(jù)、設計帶錨題的描述語調查問卷等提出解決方法,以期為國家外語能力測評體系建設提供智力支持。

      外語能力測評體系;英語能力等級量表;描述語量表化

      1 引言

      英語能力等級量表描述語量表化是英語能力等級量表研制的關鍵環(huán)節(jié),直接關系到量表的科學性和可操作性。本文在主要參照《歐洲語言共同參考框架:學習、教學、評估》(Common European Framework of Reference for Languages:Learning, Teaching,Assessment,CEFR)等世界著名語言能力量表研制和國內外眾多語言能力標準制定經驗的基礎上,結合我國的實際情況,嘗試對中國英語能力等級量表描述語的量表化提出一整套解決方案,以期為國家外語能力測評體系建設提供智力支持。

      2 描述語的分類和能力等級確定

      描述語量表化的基本程序是:第一步,描述語的撰寫者、收集者或者改寫者在討論的基礎上,憑經驗確定描述語的分類和能力等級;第二步,對描述語廣泛征集各方意見,進行問卷調查和調查數(shù)據(jù)的分析;第三步,綜合調查數(shù)據(jù)的分析結果以及專家意見,最終確定每條描述語適合的類別以及能力等級。

      2.1 抽取有代表性的學生語言行為樣本

      心理學的“能力連續(xù)統(tǒng)”(Continuum)假設認為,人的任何一種心理特質(包括語言能力),從總體上看,其分布都是連續(xù)的,從極端的無能到完美的熟練,呈現(xiàn)一種正態(tài)分布形態(tài)。中國英語學習者的英語能力也應該符合這個假設:從低端的、很有限的英語能力,到高端的專業(yè)翻譯能力,中間是連續(xù)的正態(tài)分布。

      描述語量表化的第一步需要有一個足夠大的、有代表性的學生語言行為樣本。如果能從中國英語學習者(或使用者)總體中抽取一個很大的樣本,并且使用科學的抽樣方法,那么,這個樣本的代表性就會很高。這樣,就有可能通過這個樣本對中國英語學習者的英語能力表現(xiàn)進行全面而細致的描述驗證。

      首先,中國英語能力等級量表的適用對象主要是中國教育系統(tǒng)的英語學習者,故可以在中國各級各類學校中“分層隨機”地抽取學生樣本,其他英語教育系統(tǒng)和英語自學群體則只要抽取少量學生樣本作為補充數(shù)據(jù)。不同層級的學生組成比例要符合兩個原則:第一,在校學生數(shù)多的層級相應地要抽取更多的樣本;第二,社會迫切需要描述其英語能力的學生層級也要抽取更多的樣本,因為針對這部分群體相應的描述語也會更多。

      如何確定合適的樣本大小呢?這主要看項目的真實需要和可行性,兩個方面要做一個平衡。假設需要數(shù)據(jù)驗證的量表數(shù)目有100個,每個量表9個等級,那么,將形成900個交叉描述語網(wǎng)格。如果每個網(wǎng)格最后平均需要2條描述語(這里參考了CEFR的經驗,中國英語能力等級量表可以更多),則共需要1 800條描述語。再假設數(shù)據(jù)驗證過程要淘汰大約30%的描述語,那么,最終應該有2 500條左右描述語需要收集調查數(shù)據(jù)。接下來,將50條描述語組成一份問卷(暫不考慮錨題),共產生50份問卷。根據(jù)IRT多級評分模型,題目難度參數(shù)估計要求的一個比較低的樣本容量是100人,按照這個最低要求每份問卷要調查100人,則至少需要5 000名學生。這就是樣本量的一個下限,實際執(zhí)行時只能多不能少。

      在抽取學生時要按照班級抽,好、中、差兼顧,比如一個市只抽3所學校,一定要好、中、差各一所;抽2所學校時,好、差各一所;抽一所學校時,抽中等的。在抽取班級時,同時要考慮英語任課教師,必須是連續(xù)2年以上負責該班教學的有責任心的教師,因為填寫調查問卷的是教師。在抽取學生時,建議參考CEFR中North的做法,要求教師先將自己“熟悉的學生”(也可能來自不同班級)按平時英語成績和課堂表現(xiàn)從高到低排序,然后再從中抽取10~20人(其中:差生1~2名,中下2~3名,中等3~4名,中上3~4名,最好學生2~3名)。不過,North發(fā)現(xiàn)這樣做,得到的學生樣本代表性也不是很好,因為不完全隨機。但是,如果不做這樣要求,教師就傾向于只抽好學生,樣本代表性會更差。

      2.2 收集描述語和學生語言行為表現(xiàn)的匹配數(shù)據(jù)

      有了學生語言行為樣本,接下來要做的是將描述語和語言行為“匹配”(Matching)在一起,也就是收集描述語和語言行為的匹配數(shù)據(jù)。目前,國際上主要有三種做法:教師評判法、學生自評法和專家評判法。

      (1)教師評判法:就是由最了解學生的任課教師來評學生。教師了解所教學生的英語能力行為表現(xiàn),能夠比較準確地把描述語和每個學生的英語能力匹配起來。筆者認為,中國英語能力等級量表應該主要采用這一方法收集數(shù)據(jù)。

      (2)學生自評法:由學生自己評自己。這一方法存在的問題是:第一,對于小學生,他們還沒有“自我感知能力”,而且還不一定看得懂描述語;第二,學生撒謊,不會的也說會。因此學生自評數(shù)據(jù)的可靠性有問題,筆者建議中國英語能力等級量表可少量收集自評數(shù)據(jù)作為效度研究的一個補充,不能作為主要證據(jù)。

      (3)專家評判法:用文檔、錄音、錄像等收集學生的語言行為表現(xiàn)(包括課堂表現(xiàn)、試卷、競賽、答辯、演說等),專家通過觀看這些資料完成描述語的匹配。這一方法的優(yōu)點是:第一,專家有專業(yè)素養(yǎng),評判數(shù)據(jù)的可靠性高;第二,資料可以復制,允許多人反復評判,能顯著提高描述語匹配數(shù)據(jù)的可靠性。但專家評判法的缺點也是明顯的,收集學生的英語能力行為樣本費力費錢,無法實現(xiàn)大樣本的數(shù)據(jù)收集。因此,筆者建議,中國英語能力等級量表可以少量收集這類數(shù)據(jù),作為大規(guī)模調查數(shù)據(jù)校驗用。

      2.3 設計帶錨題的描述語調查問卷

      2.3.1 問卷設計

      設計“描述語調查問卷”是描述語量表化的又一個關鍵環(huán)節(jié)。如何將全部描述語科學而合理地分配到不同的調查問卷中?先來看North在瑞士項目1994年調查中的做法。North先將能力等級和英語學習者群體進行了大致的關聯(lián),見表1。針對每個不同層次學生所用的問卷,其所含的描述語是最適合其“目標學生群體”的,在組卷時,要依據(jù)給描述語預設的三方面信息來分配它們,即描述語的臨時等級、描述語適合的目標群體以及描述語的難度。North把全部280條描述語分成7份問卷,每份問卷含50條描述語,含10道錨題。分配方案:口語任務24條,理解4條,交互策略7條,口語質量12條,寫作任務3條。7份問卷中,W1和W2是平行問卷,T1和T2是平行問卷,含平行錨題。不同等級問卷之間交叉重疊少部分題目,即含垂直錨題,其中B與W1交叉,W2與T1交叉,T2與I交叉,I與E交叉。

      表1 North在瑞士項目1994年調查中的能力等級與目標學生群體對應關系

      中國英語能力等級量表的問卷調查可基于上述原理,設計50份問卷,每份問卷50~60條描述語,含10道左右的錨題,可以分配為:聽力10條,口語8條,閱讀理解10條,寫作8條,翻譯4條,語言知識運用5條,語用知識運用5條,可行方案見表2。其中同一個層級的是平行問卷,含一組平行錨題,如A1-1和A1-2是平行問卷;相鄰層級之間是垂直問卷,含一組垂直錨題,如A1-1和A2-1交叉,A2-2和A3-1交叉,A3-2和B1-1交叉,B1-2和B2-1交叉,B2-2和B3-1交叉,B3-2和C1-1交叉,C1-2和C2-1交叉,C2-2和C3-1交叉。

      2.3.2 問卷分發(fā)

      描述語調查問卷可以通過互聯(lián)網(wǎng)發(fā)送給教師,教師在網(wǎng)上填寫。為保證調查數(shù)據(jù)的數(shù)量要求,同時保證被評學生有良好的代表性,問卷分發(fā)時應滿足以下要求:(1)每份問卷只評測對應的同一層級的學生;(2)每份問卷至少評100名學生。如果每位教師評20名學生,那么每份問卷就要至少被隨機地分發(fā)給5位不同的教師;(3)每位教師至少要評完一份問卷(即用一份試卷分別評20名左右的學生)。如果時間精力允許的話,一位教師也可以評多份平行問卷。

      表2 中國英語能力等級量表問卷等值設計方案

      此外,按照聽、說、讀、寫、譯、語言知識運用等語言能力分類的描述語應在同一個學生樣本上完成問卷調查。這樣,各類描述語的難度參數(shù)在經過等值后,其量表零點在同一個位置上,即在被調查學生樣本的能力均值上。這無疑會給后面的量表等級劃分帶來極大的方便。否則,各類描述語得到的是相互獨立的量表體系,需要有一個把難度參數(shù)標定(Calibrating)到一個新的共同量表上的環(huán)節(jié),由于誤差累積效應,會嚴重影響描述語難度參數(shù)的估計精度。

      2.3.3 錨題組設計

      “錨題”可以從描述語庫內各位專家公認為“好”的描述語中選出。平行等值的“錨題組”含全卷15%~20%的題量,無論是結構上,還是題目質量上,都是所在問卷的代表性題目。

      垂直等值的“錨題組”由高一級問卷中較易的題和低一級問卷中較難的題組拼起來,難度在兩個等級中間,結構上對上下兩個層級問卷都要有一定的代表性。

      2.4 教師評判松緊度問題的解決方法

      描述語與學生的語言行為表現(xiàn)的匹配程度通常用“5點里克特(Likert)量表”評分,用0表示這條描述語對某個學生的語言行為表現(xiàn)是不適合的,學生肯定達不到描述語所描述的水平;用4表示學生的語言表現(xiàn)水平肯定達到或超過了描述語所描述的水平;用2表示描述語相對學生語言行為來說,是中等程度的符合;1介于0與2之間,3介于2與4之間。

      通常教師在對學生進行評定時,對于描述語與學生符合程度的判斷,在“松緊度”(Severity)的把握上會有很大差異。每個人所評分數(shù),會圍繞分數(shù)量表的中心點(即量表的參照點或者稱零點)上下移動。為了不讓這個零點在評分時任意“飄移”(Float?ing),有必要對全體評分員進行培訓,以統(tǒng)一評分的松緊度。

      North的瑞士項目采取“看錄像打分”的培訓程序,值得借鑒。瑞士項目1994年做的主要是“口語及互動量表”(含寫作),因此North的錄像中錄的是學生的口語表現(xiàn),一個考官、兩個水平相當?shù)膶W生,共11個錄像,不同錄像里面的學生水平都不一樣。North為每個錄像編了一組描述語(5~7條),不同等級錄像的描述語還有交叉的錨題(比如2題),這樣全部錄像里的描述語難度參數(shù)后續(xù)就可以直接等值。North要求參加描述語問卷調查的教師先瀏覽一遍描述語,再看錄像,同時試著給每條描述語評一個臨時分數(shù),看完錄像后,反復核對全部評分情況,看看是否都合適,個別學生成績是否要修改。最后,確認自己的評分。

      在此程序基礎上,North提出兩種解決教師評分松緊度的方法:①行為觀察量表法(Behavior Obser?vation Scales,BOS):根據(jù)錄像培訓所得數(shù)據(jù)可以估計每個教師評分的松緊度參數(shù),教師無需改變自己的評分習慣就可以開始評分。后續(xù)在估計每條描述語的難度參數(shù)時,計算模型會根據(jù)評分教師的松緊度對描述語的難度參數(shù)進行相應調整。②行為描述量表法(Behavior Summary Scales,BSS):經過培訓后的教師,把自己評分的松緊度主動調整到一個給定的“統(tǒng)一標準”上。顯然,這里需要制定一個統(tǒng)一的評分標準。

      很多研究都發(fā)現(xiàn),BSS量表法行不通。因為教師經過培訓后,評分松緊度有的改了,有的改不了,更多的評分員可能是第一天改了,第二天、第三天又回到原來的習慣。因此,對于中國英語能力等級量表的評分松緊度問題,推薦用BOS量表法解決。

      North的1994年瑞士項目只包括口語與互動,他大概認為作文與口語評分具有共通性,因此在培訓評分松緊度時,只用了口語錄像資料。但如果是聽力和閱讀描述語評分,松緊度問題又如何解決呢?是否教師的評分松緊度在口語錄像培訓上統(tǒng)一后,就可以自然地遷移到聽力、閱讀評分上去,還是松緊度本來就和量表類別關系不大?此外,評分員評分時常有“趨中”現(xiàn)象,這是否也需要有一個事后的統(tǒng)一調整呢?這些問題都有待進一步研究。

      3 數(shù)據(jù)分析和描述語的最后審核

      調查問卷的數(shù)據(jù)分析在兩個層面上進行:一個是數(shù)據(jù)的集中分析層面,一個是數(shù)據(jù)的分組分析層面。集中分析要解決的問題有:首先,用模型分析的方法剔除全部數(shù)據(jù)中不合適的描述語和不合適的學生數(shù)據(jù);然后,分析描述語的分類在各組之間是否有不合理的情況,全部描述語的難度估計和等值,全部學生的能力水平參數(shù)估計和等值,描述語的等級劃分和量表的等級劃分等。分組分析要解決的問題有:描述語的分類在組內是否有不合理的情況,描述語的難度估計及排序,描述語的等級劃分,其他與量表構念效度、描述語效度有關的諸多問題。

      描述語分類驗證的數(shù)據(jù)分析方法主要有:因子分析法、聚類分析法、卡方分析法、IRT模型分析等;描述語分級驗證的數(shù)據(jù)分析方法主要有:Facets分析、聚類分析法等,讀者可參考相關專業(yè)文獻。

      綜合全部數(shù)據(jù)分析結果,再加上專家的集體審核意見,不合適的描述語將會被大量刪除,初步估計刪除比例將在30%左右。有些描述語,可能需稍作修改便可留用。保留下來的描述語應該能力目標清晰、語言簡潔易懂、語義結構符合“能做描述”規(guī)范,而且難度參數(shù)在整個能力量表上都有分布,而不是擠在某幾個等級里面。Alderson和North都曾對CEFR的編制工作(包括描述語的審核和分級等)做過細致的總結和評論,其中很多經驗之談,值得借鑒。

      [1]林蕙青.深化考試招生制度改革,加強國家外語能力測評體系建設[J].中國考試,2015(1).

      [2]劉建達.我國英語能力等級量表研制的基本思路[J].中國考試, 2015(1).

      [3]楊惠中.關于我國外語能力測評體系建設的幾點思考[J].中國考試,2015(1).

      [4]朱正才.關于我國英語能力等級量表描述語庫建設的若干問題[J].中國考試,2015(4).

      [5]American Educational Research Association,American Psychologi?cal Association,National Council on Measurement in Education. Standards for Educational and Psychological Testing[M].Washing?ton,DC:American Educational Research Association,1999.

      [6]American Educational Research Association,American Psychologi?cal Association,National Council on Measurement in Education. Standards for Educational and Psychological Testing[M].Washing?ton,DC:American Educational Research Association,2014.

      [7]Council of Europe.Common European Framework of Reference for Languages:Learning,Teaching,Assessment[M].Cambridge:Press Syndicate of the University of Cambridge,2001.

      [8]North,B.,&Schneider,G.Scaling descriptors for language profi?ciency scales[J].Language Testing,1998,15(2):217-263.

      [9]North,B.The development of a common framework scale of lan?guage proficiency[M].New York:P.Lang,2000.

      [10]方緒軍,楊惠中,朱正才.制定全國統(tǒng)一的語言能力等級量表的原則與方法[J].現(xiàn)代外語,2009(4):380-387.

      [11]劉駿,傅榮,譯.歐洲語言共同參考框架:學習、教學、評估[M].北京:外語教學與研究出版社,2008.

      [12]Bachman,L.F.Fundamental Consideration in Language Testing [M].Oxford,UK:Oxford University Press,1990.

      [13]Bachman,L.F.,&Palmer,A.S.Language Assessment in Practice [M].Oxford,UK:Oxford University Press,2013.

      [14]Hughes,A.Testing for Language Teachers[M].Camebridge,UK: Cambridge University Press,1989.

      [15]Hymes,D.On communicative competence[C]//Pride,J.B.,&Hol?mes,J.(Eds.).Sociolinguistics.Harmondsworth:Penguin,1972:269-293.

      [16]Jin,Y.,&Wu,Z.Developing the Common Chinese Framework of Reference:Challenges at Macro and Micropolitical Levels[C]//Pa?per presented at the 36th Language Testing Research Colloquium. Amsterdam,the Netherlands:VU University,2014.

      [17]楊惠中,朱正才,方緒軍.中國語言能力等級共同量表研究——理論方法與實證研究[M].上海:上海外語教育出版社,2012.

      [18]楊惠中,桂詩春.制定亞洲統(tǒng)一的英語語言能力等級量表[J].中國外語,2007(2):34-37.

      [19]Thomas,P.Psychological Testing:A Practical Introduction[M]. Hoboken,NJ:John Wiley&Sons,Inc.(Second Edition),2007: 155-205.

      [20]張厚粲,龔耀先.心理測量學[M].杭州:浙江教育出版社,2012.

      [21]Figueras,N.,North,B.,Takala,S.,Verhest,N.,&Avermaet,P.Re?lating Examinations to the Common European Framework:A man?ual[J].Language Testing,2005,22(3):261-279.

      [22]Jones,N.Background to the validation of the ALTE“Can-do”project and the revised Common European Framework[J].UCLES Research Notes,2000(2).

      [23]Kane,M.T.Validating score interpretations and uses[J].Language Testing,2012,29(1):3-17.

      [24]Weir,C.J.Language Testing and Validation:An evidence-based approach[M].Houndgrave,Hampshire,UK:Palgrave-Macmillan, 2005.

      [25]陳宏.在語言能力測驗中如何建立結構效度[J].語言教學與研究,1997(2):77-92.

      [26]楊惠中,Weir,C.大學英語四、六級考試效度研究[M].上海:上海外語教育出版社,1998.

      [27]Linacre,J.M.A User’s Guide to Facets[M].Chicago:MESA Press, 1989.

      [28]Arbuckle,J.L.Amos 4.0 User’s Guide[M].Chicago:SPSS Inc, 1995.

      [29]Thissen,D.MULTILOG User’s Guide[M].Chicago:Scientific Soft?ware,Inc,1991.

      [30]楊惠中,朱正才,方緒軍.英語口語能力描述語因子分析及能力等級劃分——制定語言能力等級量表實證研究[J].現(xiàn)代外語, 2011(2):151-161.

      [31]朱正才.語言測試的能力結構與因子分析法[J].外語教學,2014,35(5):50-54.

      [32]楊志明,張雷.測評的概化理論及其應用[M].北京:科學出版社,2003.

      [33]Alderson,C.The CEFR and the need for more research[J].The Modern Language Journal,2007,91(4):659–663.

      [34]North,B.The CEFR in Practice[M].Camebridge,UK:Cambridge University Press,2014.

      A Feasible Proposal on Calibrating the Descriptors of the English Proficiency Scale

      ZHU Zhengcai

      With reference to North’experiences in CEFR mainly,the paper puts forward a feasible proposal on scaling all the descriptors from the descriptor items pool in Chinese context.Solutions have been proposed for sampling students at different proficiency levels,linking their performances with specific descriptors,and conducting questionnaire surveys on descriptors with anchor items,the study of which,hopefully,will provide sufficient and reliable data for the validation of the China English Proficiency Scale.

      Foreign Language Testing and Assessment;English Proficiency Scale;Calibration of Descriptors

      G405

      A

      1005-8427(2016)04-0003-6

      本文系教育部哲學社會科學研究重大課題攻關項目“中國英語能力等級量表建設研究”(編號:15JZD049)的研究成果之一,得到教育部考試中心“中國英語能力等級量表研制”項目的資助。

      朱正才,男,上海交通大學外國語學院,教授,博士生導師(上海 200240)

      猜你喜歡
      量表問卷樣本
      用樣本估計總體復習點撥
      推動醫(yī)改的“直銷樣本”
      隨機微分方程的樣本Lyapunov二次型估計
      問卷網(wǎng)
      村企共贏的樣本
      三種抑郁量表應用于精神分裂癥后抑郁的分析
      初中生積極心理品質量表的編制
      心理學探新(2015年4期)2015-12-10 12:54:02
      問卷大調查
      中學生智能手機依賴量表的初步編制
      PM2.5健康風險度評估量表的初步編制
      靖远县| 闻喜县| 五莲县| 通河县| 邳州市| 临武县| 连山| 贺兰县| 嘉峪关市| 芜湖市| 乐都县| 施甸县| 沁阳市| 卢湾区| 辰溪县| 横山县| 呈贡县| 新建县| 拜城县| 大洼县| 湘乡市| 大邑县| 历史| 新竹市| 杭锦旗| 同江市| 昭觉县| 新民市| 广水市| 司法| 北宁市| 汉源县| 汶川县| 石柱| 拜泉县| 涟水县| 独山县| 名山县| 泰顺县| 咸宁市| 东阳市|