林椿 肖云南
摘要: 我國高校課程考試很少采用標準分來報道分數。通過在高校師生中開展“關于在高校大學英語課程考試中采用標準分來報道分數的可行性”的問卷調查,發(fā)現(xiàn)師生對標準分的總體評價普遍較高,支持利用標準分推斷學生原始分數在團體中所處位置,使用標準分的意愿也較強烈,并且支持對傳統(tǒng)原始分制進行改革。同時發(fā)現(xiàn),師生在實際的教/學的過程中不知如何根據標準分提供的信息來調整教/學的方法與內容,師生對原始分與標準分的感知在三個問題上存在顯著性差異。本文通過調查結果分析了標準分難以在高校課程考試中推廣的原因,從而提出可行的解決策略,藉此為進一步改革原始分制與完善標準分制提供一些參考。
關鍵詞:課程考試;學生評價;原始分;標準分;描述性統(tǒng)計;獨立樣本t檢驗
中圖分類號:G642.47
文獻標識碼:A
文章編號:1672-0717(2017)03-0056-07
收稿日期:2016-10-23
基金項目:湖南省教育廳科學研究項目“基于動態(tài)評估的英語教育績效研究”(15C1438);湖南省哲學社會科學基金項目“基于認知診斷理論的ESL分級測試體系研究”(16YBA392)。
作者簡介:林椿(1984-),女,海南??谌?,湖南大學外國語與國際教育學院博士研究生,講師,主要從事語言測試研究;肖云南,湖南大學外國語與國際教育學院教授、博士生導師。
一、引言
學生的考試分數可為反映教學情況、獎懲評比、推薦選拔人才、用人單位考察學生素質等方面提供重要依據。原始分記分制與標準分記分制是兩種比較常用的記分制。使用哪種記分制公平合理地評價學生,是語言測試需要認真研究的課題。美國2014年版《教育與心理測量標準》繼續(xù)規(guī)定了關于考試記分、分數可比性、分數報道等方面的標準,足以說明其對記分制的一貫重視[1]。Bachman和Palmer在2010年提出了測試使用論證(Assessment Use Argument,AUA),其最大特點是強調了考試的使用決策和使用影響,并利用使用決策和使用影響來指導考試項目的開發(fā)和效度驗證[2]。考試為決策提供依據[3],而決策的依據是考試的分數,因此科學合理的記分制極為重要[4]??茖W合理的教育測量所提供的考試分數能對教育現(xiàn)狀給予精確客觀的描述,為教育提供豐富的反饋信息,供教育者分析教育中的優(yōu)點和不足,改進教育方法,提高教育質量,從而更好地培養(yǎng)人才。這與“教育是培養(yǎng)人”的理念標準相一致,由此可見科學合理的記分制的重要性[5]。
在不同記分制對考生排名的影響方面,有的研究顯示考生按原始分和按標準分排列的名次無顯著差異[6];而有的研究顯示考生按原始分和按標準分排列的名次是不相同的[7-9]。在采用哪種記分制來報道學生成績方面,有的研究者推薦對原始分數進行標準轉化后再報道學生的成績[10-13];而有的研究者建議綜合采用原始分和標準分來報道學生的成績[8]。Mahon提議作文成績單上要同時報道原始分數與相應的字母成績等級(Letter grade)[14]。美國學校是很少直接使用考試原始分數來報道學生分數的,他們大量使用量表分數,其中最常用的是標準分數和百分位等級,此外還有標準九分數、四分位等級等[15]。國內外著名的大規(guī)模標準化英語能力考試采用標準分記分制的有:中國大學英語四六級考試、中國漢語水平考試、美國研究生入學考試、美國大學水平考試、托福、雅思等。為保證考試的信度和效度,大規(guī)模標準化考試采用標準分或者轉換后的標準分來報道分數,確保了測量的精度和公平性。這使得考試的分數不但可以解釋,而且可以準確地推論出考生的語言水平[16]。
科學合理的記分制是確保測試可靠、公平、有效的關鍵。原始分與標準分優(yōu)點各異,原始分直接反映了考生對教學內容的掌握程度,而標準分反映了一個原始分數在團體中所處的位置,使不同科目、不同時間的考試分數具有可比性,并能提供更準確的統(tǒng)計信息。前人的研究大多是關于原始分記分制與標準分記分制的對比研究[17-18],關于師生對原始分與標準分的感知差異的調查研究很少。盡管標準分有很多優(yōu)點,然而現(xiàn)實中高校課程考試很少采用標準分來報道分數。針對這一現(xiàn)象,本研究在國內某一高校的師生中展開了“關于在高校大學英語課程考試中采用標準分來報道分數的可行性”問卷調查,旨在找出教師與學生對原始分與標準分的感知是否存在差異,希望為進一步改革原始分制與完善標準分制提供一些參考。
二、研究方法
1. 研究問題
本研究擬研究以下問題:
第一,教師與學生對原始分與標準分的感知情況如何?
第二,教師與學生對原始分與標準分的感知是否存在顯著性差異?
第三,標準分難以在高校課程考試中推廣應用的原因是什么?
2. 研究對象
本研究的調查對象為天津某高校的教師與學生。我們隨機邀請120名師生進行問卷調查,在收回的有效問卷中,按照師生1∶1的比例,隨機選取共100份(教師50份,學生50份)有效問卷進行統(tǒng)計分析。隨機抽樣對象兼顧到不同院系、不同專業(yè)的教師與學生。
3. 調查問卷
進行問卷調查之前,我們對調查對象進行了非正式的、歷時大約5分鐘的簡短培訓,簡單介紹原始分與標準分的概念,以及這兩種記分制的優(yōu)缺點。調查問卷總共設計15個問題,第1~13題為單選題,選項都采用萊克特五級量表(Likert Scale)格式;第14題為多選題,提供四個選項;第15題為提供四個選項的半開放式問題。問卷調查的目的是了解師生對原始分與標準分的看法,找出教師與學生對原始分與標準分的感知是否存在顯著性差異,以了解在高校大學英語課程考試中采用標準分來報道分數的可行性。
4. 分析方法
本研究采用SPSS22.0軟件做描述性統(tǒng)計和獨立樣本T檢驗。數據分析首先采用SPSS22.0做描述性統(tǒng)計以了解教師與學生對原始分與標準分各項內容的打分的均值,然后做獨立樣本T檢驗以找出教師與學生對原始分與標準分各項內容的打分的均值是否存在顯著性差異。
三 結果討論
1. 描述性統(tǒng)計結果
教師與學生對問卷第1~13題的回答的描述性統(tǒng)計結果(見表1):
調查結果顯示,師/生對標準分的總體評價(M=18.64/17.88)高于對原始分的總體評價(M=16.28/15.48)。教師對原始分、標準分的了解(M=4.08、M=3.48)都比學生對它們的了解(M=3.86、M=3.20)多,而且?guī)?生對原始分的了解比對標準分的了解都多;師/生都更加支持利用標準分推斷學生原始分數在團體中所處位置(M=4.12/3.82);師/生皆認為標準分(M=3.64/3.68)比原始分更具合理性,而且學生更加認可標準分的合理性,不過教師群體對于這一問題的看法差異比較大(SD=0.749)。師/生都更加愿意使用標準分(M=3.80/3.62),師/生支持對傳統(tǒng)原始分記分制進行改革并考慮使用標準分(M=3.60/3.56)。
傳統(tǒng)的原始分記分制一般不會出現(xiàn)負數或者小數點,但標準分即z分數有正負值(z分數一般取值大于-3,小于+3,也可能會出現(xiàn)“0”分即代表原始考分為所有原始分的平均分)、且有時候有小數點。筆者擔心教師、學生、家長會誤認為標準分為0分“就表示該生一點都不會, 相當于交白卷”;擔心他們會不理解標準分的這些缺點, 從而不信任標準分及其理論。為此,針對標準分的這些缺點,問卷提出了問題11“傳統(tǒng)原始分一般不會出現(xiàn)負數或者小數點,但標準分即z分數有正負值(z分數大于負3,小于正3)且有時候有小數點,你能接受標準分這一形式么?”,調查結果顯示80%的教師與48%的學生表示“完全能夠”“能夠”接受標準分的負值與小數點形式,沒有人表示“完全不能夠”接受。問題12“你會根據標準分提供的信息(如平均分、標準差、原始分數所處位置等),調整教學(或學習)的方法與內容嗎?”,調查結果顯示64%的教師與56%的學生不知如何根據標準分提供的信息(如平均分、標準差、原始分數所處位置等)來調整教學(或學習)的方法與內容。問題13中“標準分能使學生了解自己在團體中所處的水平。它是否能夠促使學生做好學習計劃以促進自己綜合能力的提高呢?”,48%的教師與54%的學生認為,標準分不一定能夠督促他們做好學習計劃以促進綜合能力的提高。教師與學生對問卷第11~13題的回答的統(tǒng)計結果見表2。
調查表明,相比對原始分的感知,雖然師生對標準分有更高的總體評價,但在實際的教學與學習的過程中,教師(或學生)不知如何根據標準分提供的信息(如平均分、標準差、原始分數所處位置等)來調整教學(或學習)的方法與內容。同時,他們對標準分是否能夠督促他們做好學習計劃以促進綜合能力的提高存在一些質疑。非正式訪談發(fā)現(xiàn),師生都承認標準分能為教師的“教”與學生的“學”提供很多信息,但是師生都認為教師想要提高教學質量、學生想要提高綜合能力,教師應在教學方法與內容上、學生應在學習方法與內容上改進與調整。
問題14“以標準分報道分數的形式,你認為較難理解的內容有哪些?(多選題)”,66%的教師認為已知標準分,使用正態(tài)分布函數表查學生排名P值比較難;72%的學生認為已知標準分,不需查表,如何使用軟件計算排名P值比較難。問題15“你認為,教務系統(tǒng)采用何種形式來報道學生分數,更加科學、合理、可行呢?(半開放式問題)”的回答顯示,52%的教師和50%的學生認為教務系統(tǒng)采用標準分形式來報道學生分數更加科學、合理、可行。師生對問題14和15的回答的對比分析見圖1。
2. 獨立樣本T檢驗結果
上節(jié)統(tǒng)計分析表明,教師與學生對原始分與標準分這兩種記分制的感知存在差異,但是這種差異是否顯著呢?為回答這一問題,需進行獨立樣本T檢驗。教師與學生對兩種記分制的感知的獨立樣本T檢驗結果見表3。
研究發(fā)現(xiàn),教師與學生對原始分與標準分的感知在三個問題(問題4、11、13)上存在顯著性差異(p=0.009、0.001、0.038 <.05)。問題4的回答顯示,教師比學生更能根據標準分提供的信息推斷考試分數在團體中所處的位置(M=4.12/3.82),而且這種差異很顯著。問題11的回答顯示,教師比學生更能接受標準分的缺點比如負值與小數點形式(M=3.96/3.44),而且這種差異具有顯著性。問題13,關于標準分對學習的積極反饋與促進作用,雖然師生存在一些質疑,但是教師比學生更加肯定標準分對學習的積極反饋作用(M=2.92/2.56),而且這種感知差異具有統(tǒng)計性意義。
3. 標準分記分制難以推廣的原因
問卷調查了解到高校師生對標準分記分制持肯定態(tài)度,但是在實際高校課程考試中,標準分仍較難以推廣應用。真正影響標準分實施的問題是什么?調查結果顯示,首先,關于能否接受標準分的缺點比如負值與小數點形式(問題11),雖然多達64%的師生表示“完全能夠”或者“能夠”接受,但是仍然有36%的師生表示“不一定”或者“不能夠”接受;關于標準分制哪些內容較難以理解(問題14),65%的師生認為“如何使用軟件計算排名P值比較難”,說明師生對標準分的計算方法不太熟悉。標準分有自身的缺點,比如標準分在分數形式上有正值且可能出現(xiàn)負值、小數點;標準分的計算方法需要學習才能掌握且計算過程相對麻煩;標準分不能直接反映教學目標達成程度。這是影響標準分實施的內因。其次,關于培訓前對標準分的了解程度(問題2),雖然共有58%的師生表示“非常了解”:“了解”“一般了解”,但是仍有42%的師生表示“不了解”“根本不了解”。很多教師和教學管理人員不理解標準分,這給標準分的推廣增加了難度。標準分的滿分不是100分,這與傳統(tǒng)的記分制很不相同,很多教學管理人員和教師以標準分不便于記入學生成績檔案為由而不使用標準分。這是影響標準分實施的外因。
標準分面臨著難以在高校課程考試中推廣應用的問題,那到底還要不要使用標準分?答案是肯定的。標準分有很多優(yōu)點,比如:能反映考試分數在團體中的位置,使不同科目、不同時間、難度不一的考試分數具有可比性、可加性,無需考慮試卷的難易程度及考分的離散程度;更加穩(wěn)定、科學、合理;能提供更多、更準確的統(tǒng)計信息。在百分制中,不同科目考試之間分數可比性較差,而標準分可以比較不同單位分數[20]。大規(guī)模標準化考試一般不采用原始分(即考生的卷面得分)來報道考生成績,因為這樣做分數的信息量太小,而通常進行一系列的分數轉換,使最后報道的分數不但信息量大且具有可解釋性[16]。標準分給人才選拔與決策提供更多的信息,若我們的課程期末成績用于保送研究生,如果用標準分顯示就可以更精確地比較同年級學生的考分所處位置,更好地評價學生,擇優(yōu)推薦。當然,標準分也可以通過建立模型,在形式上設計為百分制,但是意義上不同于百分制的原始分了。
4.討論與建議
針對標準分難以在高校課程考試中推廣應用的問題,結合此次調查結果并參考1994年中華人民共和國教育部頒發(fā)的標準分數制度實施方案[21],本研究提出以下建議:(1)明確告知教學管理人員、教師、學生高校課程考試建立標準分制的目的,以及標準分制的基本內容,并由教學管理人員、教師負責標準分的實施。高校課程考試建立標準分制的主要目的有三點:實現(xiàn)考試分數標準化,克服原始分數的局限性,使考試分數更科學、準確地反映學生水平;為高校研究生招生錄取提供更科學、準確的依據,方便錄??;為進一步開發(fā)利用考試信息,充分發(fā)揮考試的作用,建立標準分制既有利于高校教學、又有利于用人單位選拔人才。(2)研究制定統(tǒng)一的轉換軟件等具體操作細則。專業(yè)人員需教會教學管理人員、教師如何更快捷計算標準分、如何更好地使用標準分。由于計算器、計算機的發(fā)展和普及,教師可借助工具計算得到原始分數的標準分;教學管理人員可請計算機專業(yè)人員在教務系統(tǒng)中編程錄入概率密度函數積分公式,由計算機自動生成概率P值,在分數報道單上,教師與學生只要了解標準分Z值與概率P值的意義即可。已知隨機變量標準分Z服從正態(tài)分布,計算標準分Z值的概率P(即考分位置)即對標準分Z的概率密度函數求積分,具體計算公式及公式解釋可參見陶敏力論文[22]。(3)編制宣傳材料,加強宣傳工作,培訓各級教學管理人員、教師。加大對標準分的宣傳力度,能讓教師、教學管理人員、學生進一步了解標準分的優(yōu)點,使得教師、教學管理人員愿意逐步對傳統(tǒng)原始分(百分制)記分制進行改革并科學合理地使用標準分。(4)采取實驗、總結、推廣的科學態(tài)度開展工作。參考全國大學英語四、六級考試中心給各校反饋的本校所有考生在某次大學英語四、六級考試中的成績報告單形式,可在教務系統(tǒng)中同時用兩種記分制來報道高校學生課程成績。
考試有選拔功能,比如有些高校的教務部門根據學生課程成績排名情況優(yōu)先保送讀研,根據排名提出推免生名單。采用標準分對學生課程成績排名更加科學與合理,當然我們不提倡用平時成績排名去打擊成績差的學生。人才評價,更需要人性的、人文的關懷。
嚴格遵循決策程序,靈活運用科學的決策方式方法,是走向科學化的教育管理決策的途徑之一[5]。高校在人才培養(yǎng)過程中,要更多地利用其教育、激勵功能,以便改進教學。標準分比原始分給人才選拔與決策提供更多的信息,標準分制是保證有效測試與有效決策的關鍵。
四、結語
本研究發(fā)現(xiàn)師生對標準分的總體評價都較高,都認為標準分記分制比較科學合理,支持對傳統(tǒng)百分制的改革,愿意并建議使用標準分記分制。我們通過非正式訪談發(fā)現(xiàn):師生都承認標準分能提供很多信息,教師認為要提高教學質量,仍然得在教學方法與內容上改革與調整;學生也認為要提高自身綜合能力,仍然得在學習方法與內容上改進與調整。教育測量與評價研究的目的之一是要給語言教學與語言學習提供反饋與參考[23]。對于一次考試,我們除了關心試卷本身的質量(其信度、效度以及各題的難度、區(qū)分度是否合乎要求),還關心考試的記分制是否科學與合理。有經驗的教師總是根據考試中學生反饋的考試分數調整自己的教學,而有經驗的學生也可通過考試分數認識自己的水平,改變學習方法、努力方向以及努力的程度??梢?,考試反饋的考試分數影響著學生的學和教師的教,考試的記分制是否科學直接關系著教學質量的高低、學生的發(fā)展方向以及人才的合理選拔培養(yǎng)[22]。
從世界知名大學的記分制可以看到級別分和標準分被廣泛應用[24]。哈佛大學對學生成績的打分標準不是按絕對分數值(即原始分數)來打“優(yōu)”或打“A、B、C”,而是將學生考分最為集中的那個分數段列為中等分數段即為B。也就是說,學生若想超過B,得到B+或是A-,則必須超過大多數人才行,因而有時候90分可能是A,有時候90分則又可能是B。在哈佛大學,學校只強調競爭的客觀存在,卻不強調學生的考分及名次,也從來不向學生公布其所在班上或系里的名次。這樣做是為了使學生不至于出現(xiàn)自滿或自卑的現(xiàn)象而影響學習。學生每次考試不只看分數高低,而能夠客觀地定位自己,并能夠與以往的成績定位作比較,只有自己的現(xiàn)在比自己的從前進步了,才算是真正進步[25-26]。哈佛大學的記分制對學生的成績觀念有良好的引導,這也是標準分的一個優(yōu)點所在[27]。科學合理的記分法能對教育產生良好的促進作用。在標準化語言測試發(fā)展的今天,因為傳統(tǒng)的原始分沒有反映題目的難易度、區(qū)分度等重要的質量指標,提供的信息量很小,誤差比較大[4],所以高校應該采用更加科學合理的記分制比如標準分制來記分。
參考文獻
[1] Alderson,J.C.,Clapham,C.,Wall,D..語言測試的設計與評估[M].楊惠中,導讀.北京:外語教學與研究出版社,2000:F23.
[2] Bachman,L.F.,Palmer,A.S..Language Assessment in Practice:Developing Language Assessment and Justifying Their Use in the Real World[M].Oxford:Oxford University Press,2010:25.
[3] 李智,肖云南.基于論證的測試效度驗證與高考英語效度驗證研究[J].教育測量與評價(理論版),2013(11):57-62.
[4] 楊惠中.有效測試、有效教學、有效使用[J].外國語,2015(1):2-26.
[5] 胡弼成,彭湘韌.論教育管理決策的科學化[J].湖南師范大學教育科學學報,2014(5):13-17.
[6] Webber,S.A.,Clinton,B.D..Using z-scores to evaluate accounting students:a test of Weinsteins suggestion[J].Journal of Accounting Education,1999(4):407-415.
[7] 宋嶺梅.關于多科考試成績評定的統(tǒng)計方法問題[J].教育研究與實驗,1984(3):33-38.
[8] Weinstein,G.P.Evaluation of accounting students[J].Journal of Accounting Education,1994(3):193-204.
[9] 張菁莉.CET評分標準改革分析[J].河南職工醫(yī)學院學報,2010(2):210-212.
[10] Thomas,C.R.Rational standard and ability adjusted standard transformed score models[J].Educational and Psychological Measurement,1985(4):803-809.
[11] Ebel,R.L.,F(xiàn)risbie,D.A..Essentials of Education Measurement(5th ed.)[M].Englewood Cliffs:Prentice Hall,1991:289.
[12] Ornstein,A.C.Grading practices and policies:An overview and some suggestions[J].Nassp Bulletin,1994(561):55-64.
[13] Cross,L.H.Grading students[J].Practical Assessment,Research & Evaluation,1995(8):1-3.
[14] Mahon,R.L.A Grading System for Composition Papers[J].The Clearing House:A Journal of Educational Strategies,Issues and Ideas,2005(3):102-104.
[15] 楊志明.中美教育考試分數的報告與使用之簡要比較[J].教育測量與評價,2008(7):51-53.
[16] 楊惠中,金艷.大學英語四、六級考試分數解釋[J].外語界,2001(1):62-68.
[17] 石偉,向遠輝,黃玲娟,唐利強.標準分在高校課程考試中的應用[J].湘潭師范學院學報(自然科學版),2005(2):130-132.
[18] 李國英.標準分與CET考試新記分方式[J].長春大學學報,2006(10):105-106.
[19] 秦曉晴.外語教學研究中的定量數據分析[M].武漢:華中科技大學出版社,2003:19.
[20] 黃玉石.使用標準分合理評定學生學業(yè)質量[J].遼寧工業(yè)大學學報(社會科學版),2004(4):34-35.
[21] 中華人民共和國教育部.普通高等學校招生全國統(tǒng)一考試建立標準分數制度實施方案(教試廳[1994]1號)[OL].http://www.chinalawedu.com/falvfagui/fg22598/34504.shtml,1994.
[22] 陶敏力.考試分數的解釋[J].重慶師范學院學報(自然科學版),1986(3):99-103.
[23] Bailey,K.M.Washback in language testing(TOEFL Monograph Series)[M].Princeton,NJ:Educational Testing Service,1999.
[24] 王建平.從分數制到等級制:中考評價制度改革的審思[J].湖南師范大學教育科學學報,2014(5):24-27.
[25] 肖云南,羅曉英.關于英語測試的改革[J].外語教學與研究,2002(4):294-299.
[26] 肖云南.標準分的意義[OL].http://blog.sina.com.cn/xiaoyunnan,2010.
[27] 別敦榮,賈杰靜.哈佛大學的發(fā)展歷程、教育理念及啟示[J].大學教育科學,2011(6):76-81.