陶百強 李明楷 李建平
對我國高考英語命題中建構性題型答案可控性的探討
陶百強 李明楷 李建平
隨著我國高中英語課程標準對測試題型的建議和基礎英語教學及測試界對英語語言產(chǎn)出能力要求的提高,全國版和大部分分省命題省份高考英語試卷引入了一些建構性題型,從而扭轉傳統(tǒng)高考英語試卷中選擇性題型占絕對優(yōu)勢的現(xiàn)狀,但是,建構性題型答案可控性和高考英語測試的效度和閱卷信度密切相關,最終影響高考公平。本文對全國各地高考英語試卷中的典型的建構性題型進行了研究和思考,借鑒國外實踐和作者的思考,提出了系列加強我國高考英語命題中建構性題型答案可控性的措施,以供有關命題機構參考,以盡力確保我國高考的權威性和公平性。
語言測試;高考英語;高考命題;建構性題型;答案可控性
《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》提到“完善高等學??荚囌猩贫取WC國家考試的科學性、導向性和規(guī)范性”,[1]高考試題命制嚴謹科學是國家考試科學性和規(guī)范性的具體體現(xiàn),同時事關考試安全。教育部考試中心歷屆領導都對命題的專業(yè)化和質量提升高度重視,如考試中心刊物《中國考試》2013年第1,2期連續(xù)刊載時任考試中心主任姜鋼先生的文章強調命題質量和命題安全問題,“命題工作是高考的最為重要的環(huán)節(jié)”。[2]命題工作也是關系國家教育考試安全的因素,“將命題工作程序化、規(guī)范化、標準化,實施對命題工作的科學管理……為保證考試的效度和信度,要完善試題質量和評卷質量標準建設,使分數(shù)的解釋和使用更科學、合理、有效”。[3]
對于微觀層面的命題中的答案可控性問題,教育部考試中心原主任戴家干指出,“加強評分標準的操縱性和可控性,保證選拔的可靠性。為了解決這個問題,高考基本實現(xiàn)由采點賦分向按能力層級和采意賦分的過渡,使高考評分更適應于靈活性和開放性的試題”。[4]
高考分省命題或自主命題決策推行后,2014年全國有19套高考英語試卷且各地題型多樣化,但命題尚有完善空間。隨著社會的發(fā)展,社會對高考命題質量和水平的期望值加大,在公平已成為核心價值觀元素之一的時代背景下,高考利益攸關者更期望測試公平。
本著促進命題技術更趨完善和促進高考命題更專業(yè)化的初衷,本文首先提出問題,然后陳述現(xiàn)狀,最后借鑒國外著名英語考試的一些經(jīng)驗和專家意見,基于筆者的認識,提出我國高考英語建構性題型的答案控制建議,以供我國各地高考命題機構和命題實踐工作者參考。
國內高考測評界或中學教學界(含很多學科)習慣將測試題分為客觀題和主觀題,且將選擇題等歸入客觀題,而將非選擇題都歸入主觀題,此觀點和分類欠妥,此概念誤用涉及很多學科,測評研究專著Measurement&Assessment in Teaching第7,8章將簡答(含填空題)、匹配、正誤判斷、多項選擇題等歸入為客觀題。[5]雖國內一些教育測量專著對主客觀題定義有科學闡述。[6][7][8][9]但是,對主客觀題的不妥理解和稱呼似已習慣成自然,如在中國知網(wǎng)(CNKI)分別搜索標題“主觀題”和“建構題”/建構性題型,后者罕見于我國最大的學術數(shù)據(jù)庫。
我國一些官方文件也存在類似題型誤解,如《普通高中英語課程標準(實驗)》建議“適當減少客觀題,增加有助于學生思維表達的主觀題”。[10]《2005年普通高等學校招生全國統(tǒng)一考試大綱的說明》(英語科)也存在對主客觀題型的誤解,后續(xù)考試大綱版本已更正。[11]
實際上,國外測評界早在20世紀已罕用主客觀題來稱呼或分類題型,20世紀六七十年代很多國外學術論文都提到建構性題型這個術語。[12][13]
主客觀題僅從閱卷角度分類,即需閱卷人主觀評判的題型為主觀題,否則為客觀題。國外學術界基于試題本身一般將題型分為選擇性題型(select?ed-response item formats,SR題型)和建構性題型(constructed-response item formats,CR題型)。我國著名外語測試專家、全國大學英語四、六級考試委員會前主任委員、上海交通大學楊惠中教授曾認為“把試題分為客觀題和主觀題的分法并不準確……比較正確的說法是constructed-response和select?ed-response items,后者可稱作“選擇性作答題”或“選擇性反應題”;前者可稱作“構成性作答題”或“構成性反應題”(私人交流)。[11]
茲列舉對建構性題型的定義和相關闡述:
(1)《朗文語言教學與應用語言學詞典》對建構性題型的定義(113頁):要求考生通過寫、讀或做事而非從所給選項選擇答案的方式回答開放性問題的測試題或任務,最常見建構性題型含填空題(fillin),簡答題(short-answer)和行為測試(performance assessment),與之相對的是選擇性題型,常見題型為多項選擇、正誤判斷和匹配題(473頁)。[14]
(2)專著Psychological Testing and Assessment:An Introduction to Tests and Measurement談選擇性題型:選擇性題型要求考生從一組選項中選擇選項答題,常見的三種選擇性題型為多項選擇、匹配及正誤判斷題;建構性題型要求考生提供或創(chuàng)造正確答案,而非僅僅把答案選擇出來(257頁)。[15]
(3)一些國外教育測評學術界將MC(典型的選擇性題型)和建構性題型對立,因多項選擇題型是使用頻率最高的選擇性題型。[16]
將測試題型按兩分法歸類(即選擇性和建構性題型)的觀點也受到西方學者質疑,如加州大學Mi?chael E.Martinez認為兩分法可能有誤導作用,因CR中各種題型本身對考生的知識結構加工測量和自我調節(jié)功能等方面要求各異,如CR中的填空題型可能僅僅需簡單回憶能力,從記憶中提取的非考生主觀思考的答案不存在建構思維過程,[16]國內研究者關丹丹也提出類似質疑,“主客觀題不是絕對的兩端,而是一個連續(xù)體”的觀點。[17]應對此質疑的另一歸類法將題型歸類為接受性試題和產(chǎn)出性試題,語言測試學家James Dean Brown在《語言項目中的測試與評價》一書將試題題型歸類為接受性試題(receptive response items)產(chǎn)出性試題(productive re?sponse items)以及個性化試題(Personal response items,指根據(jù)考生個人情況而答題如自我評價selfassessments)和檔案袋評價(portfolios)。[18]James D Brown贊同將廣義的建構性題型定義為需要考生生成答案而非選擇或匹配答案的題型。[19]
在學術研究自由的時代,鮮有學術術語的定義一致的情況,按學術界習慣性的術語,本文采用建構性題型這一術語。
“高考必須首先是科學的,才能最大限度地控制誤差,才能最大限度地做到公平”,[20]建構性題型的答案控制問題處理不當會讓測量誤差失控。與顯性的命題失誤如答案不唯一或答案本身存疑等相比,建構性題型答案可控性處理失當或答案失控是隱性的命題失誤,但是此類命題瑕疵威脅到大規(guī)模高利害教育考試的公平性。高考作為大規(guī)模、高利害考試,其“設計者有很重的社會責任,因為許多年輕人的未來取決于考試結果。他們必須盡一切可能保證自己所開發(fā)的考試對考生的語言能力提供準確、客觀和公正的測量”。[21]
上海市自1985年開始高考自主命題,2002年北京自主命題,2004年增天津、遼寧、江蘇、浙江、福建、湖北、湖南、廣東、重慶9省市自主命題,2005年增山東省、江西省、安徽省自主命題,2006年增四川、陜西后全國共有16省市自主命題,自主命題在本世紀初快速推進導致高考卷型多元化,高考英語科體現(xiàn)在題型變革方面,絕大部高考卷引進了除寫作外的其他建構性題型(參見表1)。大量使用的建構性題型的答案若制訂不科學或不嚴謹將威脅測試效度,若答案存在瑕疵,閱卷環(huán)節(jié)的評卷員無權限擅自決定更改評卷標準,2012年4月1日起施行的《國家教育考試違規(guī)處理辦法》第十三條規(guī)定考試工作人員不得在評卷中擅自更改評分細則或者不按評分細則進行評卷。所以,考務機構在命題和閱卷之試閱環(huán)節(jié)控制答案非常重要,若閱卷正式開始后陸續(xù)發(fā)現(xiàn)更多可接受答案,因涉公平和閱卷效率等,中途全部返工按修正后的答案重新閱卷基本不現(xiàn)實。
確保較高的測試效度和評分信度,研究答案的可控性和科學性很重要,香港學者的實證研究發(fā)現(xiàn)命題問題或瑕疵(flawed items)對優(yōu)生不利,[22]不宜懲罰提供參考答案外的可接受答案的優(yōu)生。建構性題型的答案可控性已被一些研究者注意,如“山東、天津等高考卷的閱讀簡答題作為主觀性相對較強的題型,答案的非唯一性需要對閱讀表達評卷中的信度進行研究以確??荚嚬焦?。[23]
“雖多項選擇題并非應試教育的始作俑者,如楊惠中、桂詩春所言,‘仿佛只要取消所謂的客觀題,采用主觀題,應試教育的問題就會迎刃而解,這是十分膚淺的看法’。[21]但若不論測試什么語言能力都用該題型是欠妥的……減少題型效應的辦法是題型多樣化,如IELTS題型每次考試不一定相同。筆者主張,語言理解能力測試宜用選擇性反應題,語言表達能力測試宜用建構性反應題。”[24]
題型改革是我國新課標英語高考的重要方面。我國從2004年開始高中實施新課程改革后,2007年開始各地陸續(xù)進入新課標高考,新課改高考依據(jù)高中英語課標中“減少客觀題,增加主觀題”的評價建議,絕大部分高考英語卷新增寫作除外的建構性題型,詳見表1。
表1 2014年全國高考英語試卷建構性題型統(tǒng)計表(注:寫作除外)
看似命題比MC題型簡單的建構性題型同樣涉及命題質量中的重要因子——答案可控性問題。命題者在命題中難免會帶有自己先入為主的看法,[25]然而,認知的多元化、個性化以及思維角度的不同或語言意義和語言符號并非一一對應關系,建構性題型答案制定可能有疏忽,常見問題是答案未窮盡或答案無法被窮盡,從而導致建構性題型答案失控。無法確保答案可控影響測試題效度,甚至懲罰思維活躍、語言水平更高的考生。
引入了建構性題型的高考命題機構對此類試題的問題也很重視,如在高考英語科引入較多建構性題型的湖南考試院的李冰、李瑛認為“增加非選擇題并不意味著增加考試的主觀性,降低其客觀性。無論何種考試,較高的評分客觀性都是人們努力追求的,因為它體現(xiàn)的是試題的信度和考試的公正性?!盵26]
下文選取部分建構性題型答案可控性存疑的實例說明建構性題型的命制需謹慎處理,鑒于高考考試大綱是指導與約束命題的規(guī)范性文件,故舉例含考試大綱樣卷。舉例提及的命題可能存在的瑕疵或被后期合理閱卷環(huán)節(jié)抵消,如在閱卷環(huán)節(jié)進行了試閱或答案增補或進行采意賦分閱卷模式,也可以一定程度消除命題階段未考慮到的答案失控問題。
請閱讀下面短文,并根據(jù)所讀內容在文章后表格中的空格里填入一個最恰當?shù)膯卧~。每個空格只填一個單詞。(限于篇幅未附閱讀文本與表格。)
江蘇省教育考試院公布的答案:
71.performance/act/activity 72.easy
73.properly/appropriately/successfully/rightly
74.urgent 75.culture
76.growing/increasing/rising
77.expected/supposed/required
78.public 79.likely 80.harm/damage
雖命題人在制定答案時試圖增強答案可控性,有的空白給出了一個以上答案。然而,所給答案并未囊括其他可接受答案,鑒于命題考點設置原因,很多空白無法窮盡可接受答案,故可接受答案隨考生詞匯水平上升而增加。例:
71.其他可接受答案:apology/one/behavior(be?haviour)…
73.其他可接受答案:correctly,justly,decently,well,suitably,fittingly,befittingly,fitly…
74.其他可接受答案:pressing…
76.其他可接受答案:expanding,mounting,esca?lating…
77.其他可接受答案:requested…
湖南卷寫作第一節(jié):先閱讀短文然后填空(試題多設計為表格形式),每空不超過3詞。(限于篇幅未附閱讀文本和圖表)
請看湖南省教育考試院公布的官方答案:
71.MOOCs 72.no requirement
73.cannot afford 74.no formal qualifications
75.Potentials 76.providing
77.Challenges
78.particularly difficult delivery
79.evaporating 80.considering
以上部分答案存在其他可接受的正確答案,雖在官方公布的答案中未曾提及,但是,湖南省考試院研究者李冰、李瑛在《語言運用能力的考查—高考英語(湖南卷)非選擇題的設計思路》一文中提到了該題的其他部分可接受答案:“第71題:Introduc?tion to MOOCs/On/Of/About MOOCs;第73題:cannot pay(for),haven’t money for;第 75題:advantages/Benefits/Positive factors等與“潛力”(potentials)語義相近語法正確表述;第76題:offering”。[26]
鄧杰、范曉玲、黃瓊、楊捷以湖南省教育考試院高考評價課題組名義撰寫的《2013年湖南省高考英語學科考生水平評價及教學建議》一文涉及第73小題的抽樣分析,其中未給其他可接受答案(湖南省教育考試院高考評價課題組:“〖考試內容〗隱性細節(jié) 〖考核目標〗概括表達〖答案〗cannot afford。[27]
從以上都和湖南考試院有關的命題研究者的文章看,高考閱卷點是否統(tǒng)一增添了考試院發(fā)布的官方答案以外的其他可接受答案雖欠明確,但據(jù)和湖南考試院有關專家的私人交流獲知,“獲取信息正確,表達無誤,字數(shù)符合要求給滿分;其他情況,酌情給分,因此,在評卷場地,通過調閱學生試卷進行抽樣插標,盡可能發(fā)現(xiàn)可增補的可接受答案,且閱卷過程中發(fā)現(xiàn)新的可接受答案后經(jīng)過學科專家組確認,立即更新”。[28]湖南高考卷閱卷環(huán)節(jié)的相對嚴密的機制彌補了命題過程中無法完全把握的答案可控問題。
福建省教育考試院專家顯然意識到答案可控性問題,考試說明對短文填詞這一建構性題型命制做出約束:“設題盡可能做到答案的唯一性”,[29]這是非常負責的命題約束,但答案可控性實際取決于具體命題者,以2013年福建省高考英語試卷短文填詞題型為例(試題略)。
答案:
76.to 77.believes
78.him 79.which
80.before 81.activities
82.for 83.participate
84.time 85.up
此題絕大部分考點答案唯一(每空限填1詞),符合該省考試說明要求。但仍有少數(shù)考點似有其他可接受答案,如:
第77題:A good citizen_____(相信)that he should serve the community and not the community serve him.
所給答案為believes,其他可接受答案舉例,依據(jù)主要出自牛津高階英漢雙解詞典(第7版):[30]
(1)thinks:to have a particular idea or opinion about sth/sb;to believe sth.認為;相信[30]
(2)deems:(formal)(not usually used in the pro?gressive tenses)to have a particular opinion about sth.“認為,視為;相信”[30]
(3)holds(Oxford:牛津詞典第17義項(formal)to consider that sth is true[30]
(4)considers:填寫該空若不拘泥于某些英漢詞典的解釋,若依據(jù)英語語境,considers也完全正確(to think of sb/sth in a particular way。[30]
(5)feels:牛津詞典義項7:THINK/BELIEVE(認為,相信):to think or believe that sth is the case;to have a particular opinion or attitude[30]
第 81題:our school has lots of_____(活動)which prepare you____good citizenship.
所給答案為activities,其他可接受答案舉例:
(1)programs:計劃,方案,活動安排[30]
(2)projects:規(guī)劃的工作;學校的課題活動等[30]
(3)events:公開活動;社交場合(a planned pub?lic or social occasion:a fund-raising event;the social event of the year);[30]《美國傳統(tǒng)英語詞典》義項C:A social gathering or activity;[31]a planned occasion or ac?tivity(such as a social gathering)。[32]
盡管福建省高考考試說明非常重視且明確“設題盡可能做到答案唯一性”,然而,由于中文提示類考點設置命題有先天缺陷,幾乎必然導致答案不唯一。
江西省2014年高考英語考試說明閱讀表達樣題(限于篇幅未附閱讀文本):[33]
According to the passage,how can the program be best described?(one word)
所給答案:Controversial.然而,所給答案有很多近義詞或同義詞,如:arguable,debatable,disput?able,moot,contentious,controvertible等,囿于各種原因難以窮盡可接受答案。
2014年江西高考英語科試題未出現(xiàn)類似設題方式。但是,江西英語卷閱讀表達題型的評分標準為“重義不重詞”,即意思表述正確,表達形式可以多樣,但必須語法正確,且在一定詞數(shù)范圍內。這雖然有利于優(yōu)秀學生能力的發(fā)揮,但也給評卷工作增加了一定的負擔。)
MC題型在我國高考英語測試中曾長期占主角,但根據(jù)陶百強對此進行的近10年的系統(tǒng)研究結果顯示,[34][35][36][37]因MC題型命制對命題要求非常高,特別是英語學科語法類MC題型涉及語言的演化,且我國英語語法知識與教學系統(tǒng)較陳舊,極易現(xiàn)命題瑕疵。2014年全國高考卷對語法類MC題型進行改革,用語篇型語法填空題代替單句型語言知識(MC)題型,高考專家改革題型的四個原因之一是命題問題,因該題型“容易產(chǎn)生一題有多個可接受答案的情況,影響考試的科學性和公平性”。[38]
以下為2014年考試大綱樣題:
閱讀下面材料,在空白處填入適當?shù)膬热荩ú欢嘤谌齻€單詞)或括號內單詞的正確形式(限于篇幅,試題略)。
考試大綱所給參考答案:
1.happened 2.when
3.gone 4.earlier
5.making 6.Anyway/Besides
7.it 8.the
9.must 10.mind/memory
一些試題還存在其他可接受答案,如:
第1題:has happened;
第6題:Furthermore;Further;Additionally;In ad?ditionally;Moreover;Presumably;Probably;Certainly;Definitely;Surely;Obviously;Clearly
第8題:our(fridge)
教育部考試中心主持的全國高考英語科對題型改革前進行實證研究,語法填空題型的設計專家已考慮到答案可控性問題,正式評卷前評卷教師對試題試評,即先行評閱幾百份試卷,以對已確定的答案審核,并找出其他可接受答案,正式考試評分時則采取客觀評分法,嚴格按照試評后確定的答案進行評閱。[38]但試閱是否能窮盡所有可接受答案?我國考生眾多,如2014年使用全國卷的考生總量多達300多萬,多大的試閱比例合適?試閱比例從理論上越大越好,越能窮盡其他可接受答案,但抽樣試閱有偶然性,試閱后確定的正式評卷答案仍可能無法窮盡可接受答案。我國臺灣建構性題型試閱比例大約為2%~4%【計算依據(jù):臺灣100學年度學測英語試閱的英語建構性試題卷為3 000多份,考生試卷總量為143 852份(缺考除外);臺灣101學年度指考試閱比例為4%(3 000份試閱卷來自各考區(qū),101學年度指考臺灣合計考生人數(shù)為75 934人】。試閱雖很大程度上加強了該題答案可控性,但閱卷成本增加,且我國考生眾多的國情導致試閱卷數(shù)量較多,這對考試機構是很大的挑戰(zhàn)。
“我們這個外語考試的大國,在考試實施技術和測試研究方面尚落后于西方某些發(fā)達國家”。[39]借鑒國外成熟的此類建構性題型的命題指導思想和實踐對推進和完善我國高考內容改革很有意義。下文以英國文化協(xié)會、劍橋大學考試委員會和澳大利亞教育國際開發(fā)署(IDP)共同舉辦的雅思考試(IELTS)和劍橋大學英語考試部(Cambridge Eng?lish Language Assessment)開發(fā)的第一英語證書考試(FCE,F(xiàn)irst Certificate in English)為例,因真題涉及版權問題,故本研究以考試主辦方公開發(fā)布的樣題為例。
雅思考試A類即學術類(Academic)和G類即培訓類(General Training)考試都可能包含表格填空、圖表填空、流程圖填空等建構性題型(Table com?pletion,Diagram label completion,Flow-chart comple?tion),但其命題指導思想和命題考點設置與我國類似試題明顯不同,主要區(qū)別是其答案可控性非常強。
雅思學術類考試—填表題樣題(Table completion)
填表題樣題首先呈現(xiàn)了一篇介紹dung beetles(蜣螂,俗名屎殼螂)的閱讀文章(原文略,閱讀原文請向作者索取或查詢IELTS官網(wǎng))。樣題要求填表,每空要求從閱讀短文中選擇不多于三詞填空(樣題略)。
Answers:
9.temperate 10.early spring
11.two to five/2-5 12.sub-tropical
13.South African tunneling/tunnelling
Alternative answers are separated by a slash(/).(可接受答案用斜線/隔開)
分析以上填表題樣題可知,答案可控性強的雙重原因:
A.命題考點皆為信息(information),即事實或細節(jié)性內容,著重考查考生通過閱讀提取有效信息的能力;此類考點設計避免了考生答案失控。
B.要求考生從閱讀原文選取詞填空(不超過3個詞)。
雅思考試的此類題型命制值得我國高考英語命題者借鑒,通過閱讀提取有效信息是一項重要閱讀技能,此設計思路似優(yōu)于通過填充表格考查詞匯能力的設計理念。
分析FCE舊版考試大綱樣題和2015年1月實施的新版考試大綱英語知識運用(Use of English)中的Open cloze(開放式完形填空)樣題(見下附文)可得出結論:此題型的設計者嚴格控制了可接受答案,且樣題命題者給出的答案囊括了任何考生可能填寫的可接受答案,此舉避免了閱卷環(huán)節(jié)的一些可能出現(xiàn)的問題(如閱卷環(huán)節(jié)發(fā)現(xiàn)更多的可接受答案)。根據(jù)本文筆者陶百強與FCE設計專家的私人交流來看,他們早在命題環(huán)節(jié)就確保答案可控,“……我們竭盡全力確保試題(答案)可控,排除以下可能性:考生因給出的答案不在參考答案之內而不能得分……每題都經(jīng)過經(jīng)驗非常豐富的命題團隊命題,且試題在試測前要經(jīng)過漫長和謹慎的編審流程……對于填空題,我們命題組一般每題給出唯一答案,雖然我們偶爾也給出兩個答案,某題給出三個答案的情況很罕見,我們對含一個以上答案的小題特別謹慎,因為在這種一題多答的情形下,答案不唯一可能表明還存在其他的可接受答案”。[44]
新版FCE樣題(2015年1月后啟用的FCE考試大綱第二部分,限于篇幅樣題略)的語篇填空(open cloze)要求考生填入一個詞的答案方法似更有利于答案控制,樣題的9-16題中,僅第13,14題給出多個答案,即 13 which/that,14 out/on/at。若命題人欲考查代詞,依銜接理論,考生完全可以不用代詞而用“重復”這種銜接手段作答,假設限定了答案為一個詞,則排除了考生使用“詞語重復”這個語篇銜接手段答題。
縱觀IELTS和FCE中的建構性題型(寫作除外),答案可控是它們共同的命題特征且被命題者高度重視。作為高利害測試的高考,確保考生不因正確答案不在命題者所提供的標準答案范疇內而受到不當懲罰,確保所有可接受答案被包括在命題者所提供的參考答案中,從測試公平的角度和國外實踐來看,此點非常重要,也是此類建構性題型命制最大的難點,盡管此題命制貌似簡單。
筆者認為,我國高考該類建構性題型考查定位可借鑒國外著名語言測試實踐,考查定位為測試考生的英語快速閱讀能力,試題答案設置力求嚴格可控。
下文按時間順序,對加強高考英語建構性題型(寫作除外)的答案可控性提出系列建議,以供高考英語試題設計專家和命題專家酌情參考。
考試大綱研制是控制命題質量和科學水平的首要環(huán)節(jié),建構性題型答案可控性因素宜于考試大綱研發(fā)環(huán)節(jié)就考慮到??荚嚧缶V研制宜基于測試目標、命題資源、考生數(shù)量、閱卷成本估算和資源等因素綜合決定題型,如上海題型涉較多建構性題型,但山東、廣東等考生群體很大的省份若采用因閱卷成本制約需慎重考慮。亟待強化考試大綱研制環(huán)節(jié),考試大綱研制與題型改革等應基于研究和證據(jù)(Research-&evidence-based),吸納其他國家題型實踐經(jīng)驗,避免隨意化的考試大綱決策,教育部考試中心主持的全國版高考英語卷歷次題型改革前都進行了嚴謹?shù)膶嵶C研究,值得分省命題地方借鑒。
考試大綱研發(fā)方不宜純粹為了減少選擇性題型而引入建構性題型,宜從全卷考慮,避免不同題型承擔相同或相近的語言考查功能,避免為了題型多樣化而多樣化,以致增加后期的命題難度和閱卷成本甚至致答案失控。
目前我國高考英語建構性題型部分考點存在答案失控風險,根源在于考試大綱研制環(huán)節(jié)的測試目的和答題要求等存先天性缺陷,此非后期命題人所能控制。
(1)目前流行我國多地的高考英語科的閱讀填表(空)題型:如湖南閱讀填空題功能為“運用英語進行信息轉述和概述的能力……考查獲取識別信息,表達信息的能力,考查歸納概括表達能力和考查語言轉述能力。”[26]考試研發(fā)機構欲測試的“表達信息的能力,考查歸納概括表達能力和考查語言轉述能力”考點設計必有答案多元問題,因語言表達方式是多元化的。建議此類題型考點設置以快速提取信息為考查目標,而非著眼于語言表達,參見前文FCE和IELTS此類題型的設計原則。
(2)填充空白的答案詞數(shù)問題:一般來說,試題空白中所容許填入的詞數(shù)越多,則答案控制越難。如:全國卷語法填空題考生可填入不多于3詞,導致該題無法測試某些代詞考點,因考生完全可選擇詞匯重復這一語篇銜接手段答題,而可能規(guī)避用命題人欲求的代詞填空。答案詞數(shù)幅度也影響閱卷成本,因目前技術無法自動識別考生手寫文字故無法機器閱卷,特別是建構性題型按常規(guī)都采用了雙人閱卷,此舉已致閱卷成本增加。
(3)根據(jù)中文詞匯提示寫對應的英文單詞存在先天缺陷,答案可控性不佳,如福建、陜西等高考英語考試說明中建構性題型含此類考點。
(4)陳述考生個人觀點的考點不宜設置,如山東閱讀表達未曾設置類似考點是慎重的。
《普通高等學校招生全國統(tǒng)一考試分省命題工作暫行管理辦法》[教考試(2006)2]以及分省命題地方都對高考命題進行了規(guī)范,含命(審)題人員選聘條件,其中對其職稱都提出了要求,如《普通高等學校招生全國統(tǒng)一考試分省命題工作暫行管理辦法》規(guī)定命題組長的選聘條件是“應具有高級專業(yè)技術職務……”,命題和審題教師的條件是“一般應具有副高級或以上專業(yè)技術職務”等;《普通高等學校招生全國統(tǒng)一考試福建省命題工作實施細則(施行)》對命題教師的選聘條件提到“普通高?;蚱胀ǜ咧芯哂校ɑ蛳喈斢冢└呒墝I(yè)技術職務的現(xiàn)職教師”等,雖學術造詣和專業(yè)知識一般與職稱成正比,但選聘標準不宜僵化,“唯職稱論”和“唯資歷論”可能不利命題。
最重要的是,除了具有較高的學科專業(yè)基本功外,應重點考量命(審)題教師的專業(yè)背景和研究方向或興趣,因為不是任何研究方向的高深造詣都直接有益于專業(yè)性很強的命題工作。
思想是通過語言表達的,“同一個思想可以用不同的語言形式表達”,[4]“俄羅斯學著名語言學家Апресян從轉換生成學說中得到啟示,認為人的語言能力有兩方面的體現(xiàn):說話人以不同方式表達同一思想的能力,受話人透過不同外觀形式的句子理解其相同語義的能力。(Апресян 1967:8-9)”。[40]所以,某些考點出現(xiàn)多個可接受的答案是正常的(除非考試大綱和命題環(huán)節(jié)做了技術控制),這時,建議利用好語料庫語言學研究成果,特別是涉及語法或詞匯類試題更應如此,參見李建平、陶百強論文《英語語料庫及相關軟件在高考英語命題中的運用》。[41]此外,語法類考點要跟上世界英語語言的演變并以基于語料庫的權威語法專著為命題依據(jù),而非基于過時陳舊的詞法或句法知識。
命題者考慮后續(xù)閱卷工作并讓命題有利于確保評分信度?;陂喚砜剂浚ㄗh某考點不宜出現(xiàn)3個以上可接受答案,可接受答案過多會加重閱卷人記憶負荷,加之閱卷強度和時間壓力大,易致閱卷人疲勞,即使雙人閱卷仍可能導致閱卷誤差。所以,在命題環(huán)節(jié)就應考慮到后續(xù)的閱卷可能出現(xiàn)的問題。
對采意賦分的考點,建議利用多部同義詞典檢索答案。在世界各種語言中,英語的同義詞相對較多,可能因英語在過去幾個世紀不斷從其他語種吸納詞匯,故一些空白容易出現(xiàn)較多可接受答案。此外,英國英語和美國英語的區(qū)別也可導致答案多樣化,如:…the cost of ___1(transport)…一般會想到給答案為 transportation(AmE).但英國英語多用transport。此類考點命題人盡量給出所有可接受的答案,不排除高水平考生寫出的某個正確詞匯甚至閱卷人員也不認識的情況,故不宜將答案控制完全依賴后期閱卷。
在教育提倡創(chuàng)造性和思維能力培養(yǎng)的背景下,教育評估領域也應保護思維開闊的考生,不宜以命題者的先入之見和知識以及思維層面去禁錮考生思維和語言表達的多元化。
雖各卷命題組都配套了審題環(huán)節(jié),但為了進一步加強答案可控性,建議強化審題環(huán)節(jié)。
雖“教育部考試中心負責對實行分省命題的省、自治區(qū)、直轄市的高考命題工作進行指導、業(yè)務培訓、監(jiān)督和評價”(《普通高等學校招生全國統(tǒng)一考試分省命題工作暫行管理辦法》)……考試結束后向教育部考試中心報送命制的試題、參考答案及評分參考,評卷結束后報送命題工作總結和試題評價情況”,由此文件可知,各自主命題高考試卷質量高考前完全由各地控制,教育部考試中心原來僅事后監(jiān)督評價等,從2013年開始此環(huán)節(jié)進行改進,從2013年開始各省市5月下旬報送高考試卷清樣給教育部考試中心以備審核。建議考試中心成立常設獨立審題專家組,高考前對未付印試題重大疏漏予以糾偏,特別加強對試卷的建構性題型增加精細審題流程,以在高考前發(fā)現(xiàn)和解決問題。
思維和語言表達的多元化是采意賦分的主要原因,很多自主命題高考卷的建構性題型在閱卷時采意賦分,如山東、湖南等有完善措施。山東閱讀表達“命題期間要求命題老師盡量不出太開放的題,從實際情況看,基本上我省命題人員能預測多數(shù)可能答案”;湖南省建構性題型閱卷原則“獲取信息正確,表達無誤,字數(shù)符合要求給滿分;其他情況,酌情給分……通過調閱學生試卷抽樣插標,盡可能發(fā)現(xiàn)可增補的可接受答案”。[28]此外,湖南卷閱卷人在“閱卷過程中發(fā)現(xiàn)新的可接受答案后經(jīng)過學科專家組確認,立即更新”,此舉進一步避免遺漏可接受答案。
采意賦分閱卷盡管盡量吸納各種可接受答案,避免對考生不當懲罰,但也有缺陷,如閱卷質量取決于閱卷人的英語語言水平,特別是詞匯能力,建議要求閱卷人凡遇到不認識的作答詞匯必須查詢詞典或提交閱卷領導小組決定。此外,采意賦分必然導致閱卷成本增加,越完善的采意閱卷措施產(chǎn)生成本越大,如前文提到的湖南閱卷(閱卷過程中隨時更新可接受答案)影響測試的可操作性。
大規(guī)模測試中建構性題型實施雙人閱卷是國際慣例,[42]ETS考試專家認為建構性題型最大的問題之一是閱卷中的時間和費用問題,因評卷要求經(jīng)嚴格培訓的閱卷員耗費大量時間,且要求精心設計的制度來監(jiān)督評分的一致性和準確度。[43]ETS具有非常嚴密嚴謹?shù)腃R題型閱卷程序,(Constructedresponse scoring-Doing it right),有回頭抽檢機制(back scoring ETS)。建議我國基于科學命題和閱卷等考務能力的提升需求,參照國外同類高利害考試價格酌情提高考試費用,以保證專業(yè)化教育測評的科學運營和相關的科研工作產(chǎn)生的經(jīng)費需求。
正式閱卷前進行試閱或試評是加強答案可控性的重要補救措施,我國高考全國卷2014年首次引入的語法填空題型有試評制,“正式評卷前,評卷教師需對所有需人工評閱的試題進行試評,即先行評閱幾百份試卷,以對已確定的答案進行審核,并找出其他可接受的答案。正式考試評分時則采取客觀評分法,嚴格按照試評后確定的答案進行評閱,出現(xiàn)任何錯誤(如拼寫、大小寫、詞性)都不給分”。[38]
根據(jù)私人交流,部分省份高考閱卷(寫作除外的建構性題型)實際上也存在試評環(huán)節(jié)。建議試閱僅作為命題環(huán)節(jié)答案控制的補救措施而非依賴措施,因涉及試閱成本以及試閱程序囿于試閱比例和抽樣的隨機性而難以窮盡可接受答案,正如上文劍橋FCE考試設計專家Jason Street所言,“我們對含一個以上答案的小題特別謹慎,因為在這種一題多答的情形下,答案不唯一可能表明還存在其他可接受答案”。[44]試閱雖能一定程度彌補命題環(huán)節(jié)的答案控制問題,但會耗費大量人力財力,我國臺灣101學年指考英文科建構性題型試閱比例高達4%,但我國大陸考生數(shù)量眾多,試閱比例較大勢必耗費較高的考務成本,我國相對低廉的考務費恐難以支撐。
一些國家或地區(qū)在重要考試引入答案公示制度以確保測試的公平性和科學性,如韓國負責高考命題的韓國教育課程評價院考后聽取考生對正確答案的意見,答案公示期為4天。[45]我國臺灣大考中心于2004年9月3日頒布實施法規(guī)《國家考試試題疑義處理辦法》;2012年8月10日頒布實施其修正版,“應考人對筆試試題或公布之測試式試題答案(以下簡稱答案)若有疑義,應于該次考試全部筆試結束之次日起五日內向考選部或受委托辦理試務機關、團體申請……填具申請試題疑義相關資料,并上傳佐證資料”。
其實,我國大陸的司法考試在2004年就實施答案公示制度,考生“可對試題及答案提異議:考試結束后,司法部將及時向社會公布考試試題及參考答案。應試人員對試題參考答案有異議的,可在9月28日前登錄司法部網(wǎng)站,在‘2004年國家司法考試試題參考答案異議專區(qū)’中對參考答案提出意見并說明理由。司法部將組織專人收集整理意見,并在試卷正式評閱前提交“試題參考答案審查專家組”研究論證。待異議審查工作結束后,開始試卷評判。”[46]
在高考制度中,適時引入基于科學和民主決策理念的答案公示制度,將進一步確保高考試題中建構性試題的答案可控性,建立高考答案疑義機制具有重要意義,如體現(xiàn)以人為本,踐行教育公平原則,維護國家考試的權威性和嚴肅性;緩解考試機構和命題者的壓力:容許出錯且能后期及時糾錯會減緩命題者巨大心理壓力。
但因我國高考考生人數(shù)眾多,考務機構處理試題疑義需大量考務成本投入,似可試點引入此機制。為避免大量無效的疑義來件,亦可要求考生聯(lián)絡相關學科領域專家或多名教師聯(lián)署附議并提供權威依據(jù)。
高考命題評價,雖為了發(fā)揚長處有必要總結優(yōu)點,但不宜僅大唱贊歌而回避問題,否則會讓問題積重難返。建議各地考試機構系統(tǒng)收集閱卷人在評卷過程中的反饋,從各種渠道接收社會反饋信息,特別是考后刻意收集負面反饋意見并慎待,反思命題得失,并將有效信息利用于為今后的考試大綱修訂和命題實踐。反思能進一步積累經(jīng)驗,以不斷完善高考這一全球最大規(guī)模的高利害考試。
限于數(shù)據(jù)獲取的局限性,本文基于文本和文獻研究,今后研究建議能獲取考生答題數(shù)據(jù)的考試機構結合考生具體答題反應進行相關深入研究。由于未獲取考試機構大量的具體閱卷細則,文中觀點可能有失偏頗。總之,如何充分利用好建構性題型的優(yōu)勢,平衡好題型優(yōu)勢和答案可控性,這是一個值得深入研討的課題,研究結果對大規(guī)模高利害測試的命題實踐具有重要意義。
[1]國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)[M].北京:人民出版社,2010.
[2]姜鋼.深化考試內容與形式改革切實提高命題專業(yè)化水平[J].中國考試,2013(1):3-8.
[3]姜鋼.教育考試安全面臨的形勢和對策[J].中國考試,2013(2):3-6.
[4]戴家干.高考改革與教育公平公正[J].中國高等教育,2006(12):7-9.
[5]Miller,M.D.,Linn,R.L.,&Gronlund,N.E..Measurement and as?sessment in Teaching,10th.Edition[M].Upper Saddle River,NJ:Pearson Education,Inc.2009:172,194.
[6]李筱菊.語言測試科學與藝術[M].長沙:湖南教育出版社,1997:143.
[7]劉潤清,韓寶成.語言測試和它的方法[M].北京:外語教學與研究出版社,2000:13-14.
[8]張敏強.教育測量學[M].北京:人民教育出版社,1998:68.
[9]王孝玲.教育測量[M].上海:華東師范大學出版社,1989:216.
[10]教育部.普通高中英語課程標準(實驗)[S].北京:人民教育出版社,2003:42.
[11]陶百強.關于《2005年普通高等學校招生全國統(tǒng)一考試大綱的說明》(英語科)的一點意見[J].基礎教育外語教學研究,2006(2):53-54.
[12]Coulson,J.E.,&Silberman,H.F.Effects of three variables in a teaching machine[J].Journal of Educational Psychology,1960,Vol.51(3):135-143.
[13]Silverman,R.E.,&Alter,M.Note on the Response in Teaching Ma?chine Programs[J].Psychological Reports,1960,Vol.7:496.
[14]Richards,J C.&Schmidt,R.W.Longman Dictionary of Language Teaching and Applied Linguistics(2ndedition)[M].Harlow,Essex,UK:Longman,1992:113,473.
[15]Cohen,R.J.,&Swerdlik,M.E.Psychological testing and assess?ment:An introduction to tests and measurements(7th ed.)[M].Bos?ton,MA:McGraw-Hill,2010:257.
[16]Martinez,M.E.Cognition and the question of test item format[J].Educational Psychologist,1999,34(4),207-218.
[17]關丹丹.主觀題與客觀題辨議[J].中國考試,2008(7):51—55.
[18]Brown,J D.語言項目中的測試與評價/Testing in Language Pro?grams:A Comprehensive Guide to English Language Assessment[M].北京:高等教育出版社,2006:47,51,58.
[19]Brown,J.D.personal communication,June 4,2014.
[20]楊學為.高考必須首先是科學的[J].考試與招生,2012(3):45-46.
[21]楊惠中,桂詩春.語言測試的社會學思考[J].現(xiàn)代外語,2007:30(4):368-374.
[22]Tarrant,M.&Ware,J.(2008).Impact of item-writing flaws in multi?ple-choice questions on student achievement in high-stakes nurs?ing assessments[J].Medical Education,2008(42):198-206.
[23]李明楷.新高考英語題型功能與題型創(chuàng)新[J].教育與考試,2011(4):25-28.
[24]陶百強,陳效.我國高考英語考試大綱(說明)的問題與思考[J].教育與考試,2008(4):29-34.
[25]高升.如何做好外語試卷的校對工作[J].中小學外語教學,2004(8):16-18.
[26]李冰,李瑛.語言運用能力的考查——高考英語(湖南卷)非選擇題的設計思路.中國考試,2014(3):58-64.
[27]鄧杰,范曉玲,黃瓊,楊捷.2013年湖南省高考英語學科考生水平評價及教學建議[J].教育測量與評價,2013(12):4-29.
[28]李冰(湖南省教育考試院),私人交流,2014年6月20日.
[29]福建省教育考試院.2014年普通高等學校招生全國統(tǒng)一考試福建省語文·數(shù)學·英語考試說明[M].福州:福建教育出版社,2014:200.
[30]Hornby,A.S.王玉章,等,譯.牛津高階英漢雙解詞典(第7版)[Z].北京:商務印書館/牛津大學出版社(中國)有限公司,2009.
[31]The American Heritage Dictionary of the English Language,3rd Edition[M].Houghton Mifflin,1992.
[32]Event.[EB/OL].[2014-06-10].http://www.merriam-webster.com/dictionary/event.
[33]江西教育考試院.2014年普通高等學校招生全國統(tǒng)一考試江西卷(語文、數(shù)學、英語)考試說明[M].南昌:江西高校出版社,2014.
[34]陶百強.加強高考命題科學性提高高考命題的質量—以2006年分省自主命題失誤為例[J].中小學英語教學與研究,2007(3):45-51.
[35]陶百強.2008年高考英語自主命題失誤研究報告及建議[J].英語考試研究,2009(1):14-19.
[36]陶百強.2007年高考英語命題失誤研究與對策[J].英語考試研究,2009(6):7-12.
[37]陶百強.2010年我國高考英語命題瑕疵與商榷[J].英語考試研究,2011(2):21-28.
[38]劉慶思,程蒙蒙.高考英語科啟用語篇型語法填空題的研究[J].中小學外語教學(中學篇),2013(11):1-5.
[39]劉慶思.加強測試研究提升考試質量[J].外語測試與教學,2011(1):9-11.
[40]靳銘吉.轉換生成思想·語言能力·外語教學[J].俄語語言文學研究,2008(4):30-35.
[41]李建平,陶百強.英語語料庫及相關軟件在高考英語命題中的運用[J].考試研究,2014(2):44-48.
[42]Hogan,T.,&Murphy,G.Comparative Review:Recommendations for Preparing and Scoring Constructed-Response Items:What the Experts Say[J].Applied Measurement in Education,2007,20(4),427-441.
[43]Livingston,S.A.Constructed-Response Test Questions:Why We Use Them;How We Score Them.ETS R&D Connections,No.11.Educational Testing Service,September 2009.
[44]Street,J.(Assessment Manager responsible for the FCE Use of Eng?lish Cambridge English),personal communication,March 12,2014.
[45]韓國每年一度高考結束競爭激烈堪比中國[EB/OL].[2014-06-01].http://news.xinhuanet.com/edu/2010-11/19/c_12794745.htm.
[46]司法考試增加分值及時間試題和答案上網(wǎng)公示[EB/OL].[2012-03-12].http://www.people.com.cn/GB/shizheng/1027/2529160.html.
致謝:教育部考試中心外語處英語測試專家劉慶思、湖南省教育考試院英語學科專家李冰以及山東省教育招生考試院、江西省教育考試院專家、夏威夷大學James Dean Brown和劍橋大學外語考試部專家Jason Street對本文亦有貢獻,特此致謝。
(責任編輯 周黎明)
Controllability of Answers for Constructed-Response Items in Matriculation English Test
TAO Baiqiang,LI Mingkai and LI Jianping
The national matriculation English test papers and most provincial versions of MET have employed constructed-response(CR)test item formats for a less-MC-dominant testing style in response to testing-related recommendations of the National High School English Curriculum Standards,increasing expectations from ELT and English testing experts for English learners’productive English language skills.Controllability of answers for constructed-response items impacts dramatically on MET validity and score reliability and potentially threatens college entrance fairness.Based on research into some typical CR test item formats in MET test papers and CR item writing practice in foreign countries and the authors’reflections,the authors have recommended a series of suggestions for limiting potential answers for CR items to ensure test fairness of college entrance examinations.
Language Testing;Matriculation English Test(MET);Gaokao Item Writing;Constructed-response Test Items;Controllability of Answers
G405
A
1005-8427(2014)10-0022-13
陶百強,男,江西金太陽教育研究院英語教研組長,研究員(南昌 330020)
李明楷,男,江西省教育考試院,副教授(南昌 330038)
李建平,男,山東省教育招生考試院,助理研究員(濟南 250011)
本文所研究的建構性題型僅限于具有相對客觀的閱卷標準的建構性題型,研究對象不含寫作題,雖寫作屬建構性題型。文中從略的樣題或試題備索。