![](https://cimg.fx361.com/images/2025/0104/jaAotDxs8379U489JnPpdv.webp)
![](https://cimg.fx361.com/images/2025/0104/Q6eoqZCa7iQqxfksXJDPeD.webp)
測(cè)試評(píng)估是檢驗(yàn)教學(xué)大綱執(zhí)行情況、教學(xué)質(zhì)量、學(xué)生水平的重要手段,唯有高質(zhì)量測(cè)試的有效使用才能獲得真實(shí)的反饋信息。
相當(dāng)部分教師多從試卷結(jié)構(gòu)、難度、考點(diǎn)分布等傳統(tǒng)角度去考量試卷的編制,其質(zhì)量貌似較高,然則經(jīng)專家評(píng)估就會(huì)發(fā)現(xiàn)其嚴(yán)重問(wèn)題。本文就如何科學(xué)進(jìn)行測(cè)試總體設(shè)計(jì),保障高質(zhì)量測(cè)試命題進(jìn)行探討,使其既有利于檢測(cè)教學(xué)效果,又有助于改進(jìn)和提高教學(xué)質(zhì)量。
一、測(cè)試質(zhì)量衡量的主要指標(biāo)
檢測(cè)試卷質(zhì)量的主要指標(biāo)是信度和效度。傳統(tǒng)解釋中,信度指測(cè)試結(jié)果的可信程度,采用統(tǒng)計(jì)、定量的考查方法;效度是檢驗(yàn)是否考了應(yīng)該考查的內(nèi)容(即有效性),既可定性亦可定量地進(jìn)行考查。效度比信度更重要、更全面,高效度是高信度的前提保障。對(duì)于一般教師而言,要保障高質(zhì)量的命題,首先應(yīng)通過(guò)定性的考量來(lái)提高測(cè)試效度[1]。
二、測(cè)試總體設(shè)計(jì)是高質(zhì)量試卷的重要保障
效度的研究在不斷探索進(jìn)行中,迄今為止可分為單一概念、種類概念和整體概念三個(gè)研究發(fā)展階段。
單一概念階段(20世紀(jì)三、四十年代)的效度稱為相關(guān)系數(shù)效度。種類概念階段(20世紀(jì)四、五十年代至八十年代)的效度主要分為三種:內(nèi)容效度、校標(biāo)關(guān)聯(lián)效度(含預(yù)測(cè)效度和共時(shí)效度)及構(gòu)建效度,目前國(guó)內(nèi)多數(shù)教材仍使用這類概念。整體概念階段(20世紀(jì)八、九十年代至今)的效度研究規(guī)避了種類效度內(nèi)涵的含混,擴(kuò)大效度的外延研究,統(tǒng)一為更具一般意義、幾乎無(wú)所不包的有效性概念,即測(cè)試結(jié)果的解釋使用與證據(jù)和理論的一致性程度。考察測(cè)試效度需提供五方面的效度證據(jù):試卷內(nèi)容;反應(yīng)過(guò)程(即測(cè)試構(gòu)建與受考者或評(píng)分員心理反應(yīng)的擬合度);試卷內(nèi)部結(jié)構(gòu);測(cè)試分?jǐn)?shù)與其他外部變量之間的關(guān)系;測(cè)試的后果。
從整體效度概念可知,部分效度證據(jù)的提供(如試卷內(nèi)容與結(jié)構(gòu))在試卷設(shè)計(jì)中可得以保障。因此,科學(xué)進(jìn)行測(cè)試總體設(shè)計(jì),定性地考量保障測(cè)試效度,是高質(zhì)量命題的重要前提。
三、成績(jī)測(cè)試總體設(shè)計(jì)的科學(xué)方法與步驟
測(cè)試開(kāi)發(fā)與實(shí)施包含三個(gè)環(huán)節(jié):設(shè)計(jì)階段,包括明確考試目的、考試范疇、考試對(duì)象等;操作階段,包括設(shè)計(jì)考試主體框架、選擇考試方式和編制試卷;實(shí)施階段,包括測(cè)試實(shí)施、測(cè)試結(jié)果分析和試卷質(zhì)量分析。
本文主要討論成績(jī)測(cè)試的總體設(shè)計(jì),它包括測(cè)試開(kāi)發(fā)的設(shè)計(jì)階段,也包括操作階段的一部分。
粗通統(tǒng)計(jì)分析原理的教師們可利用SPSS軟件省時(shí)、便捷地開(kāi)展測(cè)試評(píng)估的定量分析。SPSS為國(guó)際最有影響的三大統(tǒng)計(jì)軟件之一,現(xiàn)更名為“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”軟件(Statistical Product and Service Solutions)。它具有良好操作界面、自動(dòng)統(tǒng)計(jì)繪圖、數(shù)據(jù)深入分析、功能齊全、輸出結(jié)果美觀、易學(xué)易用等特性。在國(guó)際學(xué)術(shù)交流中有條不成文的規(guī)定,凡用SPSS軟件完成的計(jì)算和統(tǒng)計(jì)分析,可以不必說(shuō)明算法。
1.明確測(cè)試目的,選擇測(cè)試類型
明確測(cè)試目的,包含受試對(duì)象、測(cè)試目的與用途、考試范疇等,是任何考試都面臨的首要任務(wù)。它既是測(cè)試實(shí)施的起點(diǎn),也是測(cè)試使用的歸屬。
每一測(cè)試都有其特定目的,如檢測(cè)教學(xué)效果、考查學(xué)生水平、選拔學(xué)生、診斷學(xué)習(xí)弱點(diǎn)等。根據(jù)不同的測(cè)試目的和用途,應(yīng)選擇不同的測(cè)試類型,如水平測(cè)試、成績(jī)測(cè)試、診斷測(cè)試、潛能測(cè)試等。而不同測(cè)試類型的總體設(shè)計(jì),其側(cè)重點(diǎn)各不相同。
學(xué)校教育中的平時(shí)測(cè)驗(yàn)、期中和期末考試、課程結(jié)業(yè)考試等,旨在檢測(cè)學(xué)生在一定階段對(duì)所講授知識(shí)與技能的掌握情況,均屬成績(jī)測(cè)試。如若方便地選用已有水平測(cè)試試題進(jìn)行某次期末考試,盡管能體現(xiàn)學(xué)生現(xiàn)有能力水平差異,卻無(wú)法檢測(cè)本期的課程教學(xué)效果。多數(shù)教師也明確此點(diǎn),但卻未充分重視成績(jī)測(cè)試的目的用途,特別在下述步驟中其側(cè)重點(diǎn)的考慮常與水平測(cè)試設(shè)計(jì)混淆。
2.有效結(jié)合效度與信度因素,確定考試方式
考試方式可分為直接測(cè)試和間接測(cè)試。直接測(cè)試要求學(xué)生直接運(yùn)用某種技能或能力去完成與真實(shí)環(huán)境相一致的任務(wù)。如測(cè)試寫(xiě)作能力,可簡(jiǎn)單直接地讓學(xué)生寫(xiě)一篇作文。間接測(cè)試通過(guò)考察構(gòu)成某一能力的微技能,采用間接、迂回的方法來(lái)測(cè)試學(xué)生的某一能力。如寫(xiě)作能力是由篇章結(jié)構(gòu)、用詞、語(yǔ)法、連貫等各項(xiàng)微技能組成,通過(guò)對(duì)這些微技能的測(cè)試,可間接了解學(xué)生寫(xiě)作能力的強(qiáng)弱。
直接測(cè)試須用主觀試題,間接測(cè)試可用客觀試題。直接測(cè)試與間接測(cè)試各有優(yōu)缺點(diǎn)(見(jiàn)表1),但人們對(duì)間接測(cè)試是否能真正測(cè)試預(yù)期能力心存疑慮(如現(xiàn)行語(yǔ)言測(cè)試能否真正了解學(xué)生的語(yǔ)言能力)。由表1可見(jiàn),既要保障效度,又要考慮信度,應(yīng)根據(jù)測(cè)試目的與內(nèi)容綜合考慮,合理組合運(yùn)用兩種測(cè)試,充分發(fā)揮各自優(yōu)勢(shì),彌補(bǔ)另一形式的缺陷。例如,即使是寫(xiě)作測(cè)試,為減少閱卷員的主觀判斷,提高測(cè)試分?jǐn)?shù)的可信度,除采用高效度的直接測(cè)試外,我們可適當(dāng)增加間接測(cè)試方式(如改錯(cuò)等)。
3.依據(jù)教學(xué)大綱列舉具有適合性和代表性的測(cè)試內(nèi)容細(xì)目表
試卷內(nèi)容是效度證據(jù)的具體、重要體現(xiàn),總體設(shè)計(jì)時(shí)應(yīng)詳細(xì)、全面列舉測(cè)試內(nèi)容細(xì)目表,注重其適合性與代表性。
成績(jī)測(cè)試的特點(diǎn)之一是基于所講授的知識(shí)與技能,其內(nèi)容的適合性須依據(jù)教學(xué)大綱的范疇,這是與水平測(cè)試的根本區(qū)別所在。水平測(cè)試不與任何教學(xué)大綱、教材、學(xué)習(xí)途徑(自學(xué)或?qū)W校教育)等掛鉤,是根據(jù)學(xué)科理論所設(shè)計(jì)的標(biāo)準(zhǔn)來(lái)測(cè)試受試者的現(xiàn)有能力與水平。
但教師們時(shí)常忽略成績(jī)測(cè)試內(nèi)容的適合性。如選擇閱讀題時(shí),多數(shù)僅注重材料難度,忽視考量大綱規(guī)定的閱讀微技能。如,大綱要求學(xué)生領(lǐng)會(huì)作者態(tài)度或觀點(diǎn),若考點(diǎn)均是推理判斷,即使難度適中的試題也是不適合的。尤其對(duì)英語(yǔ)教師,不難確定語(yǔ)法與詞匯內(nèi)容的適合性,而設(shè)計(jì)聽(tīng)說(shuō)、閱讀、寫(xiě)作測(cè)試時(shí)卻極易忽略內(nèi)容的適合性,即具體微技能的考慮和列舉。
測(cè)試內(nèi)容的代表性首先表現(xiàn)在考點(diǎn)是教學(xué)大綱規(guī)定內(nèi)容的均勻分布,其次表現(xiàn)在這些考點(diǎn)是否具有以點(diǎn)概全的特性。
4.明確教育目標(biāo),確定試題題型
考試方式確定后須選擇適當(dāng)?shù)脑囶}題型,相當(dāng)一部分教師常按定式或選擇便于閱卷的題型。如英語(yǔ)課程教學(xué)大綱規(guī)定的內(nèi)容是倒裝,其教育目標(biāo)是正確運(yùn)用倒裝結(jié)構(gòu)。若選用便于閱卷的多項(xiàng)選擇,盡管考點(diǎn)體現(xiàn)了大綱內(nèi)容,但像多項(xiàng)選擇這樣的客觀題只能考查學(xué)生是否記憶或領(lǐng)會(huì)了倒裝結(jié)構(gòu),我們?nèi)圆荒軝z測(cè)出大綱規(guī)定的能否正確運(yùn)用這一教育目標(biāo)。
因此,對(duì)于成績(jī)測(cè)試而言,在列舉大綱規(guī)定的測(cè)試內(nèi)容細(xì)目表時(shí),必須明確與之相關(guān)聯(lián)的教育目標(biāo),依此確定與之匹配的題型,避免貌似恰當(dāng)?shù)拿}設(shè)計(jì),即僅內(nèi)容相關(guān)而教育目標(biāo)卻不匹配。這是絕大多數(shù)教師命題時(shí)存在的嚴(yán)重問(wèn)題。
新版布盧姆教育目標(biāo)分類的提出,為我們描述并確定教育教學(xué)目標(biāo)提供了規(guī)范的體系。它將認(rèn)知領(lǐng)域教育目標(biāo)分為知識(shí)向度和認(rèn)知?dú)v程向度。其中認(rèn)知?dú)v程向度引導(dǎo)教師怎樣教和學(xué)生怎樣學(xué),分為一個(gè)從低到高的漸進(jìn)目標(biāo)層次,即記憶、領(lǐng)會(huì)、應(yīng)用、分析、評(píng)鑒和創(chuàng)造。在測(cè)試評(píng)估中不同層次的教育目標(biāo)須設(shè)計(jì)不同的題型,通??陀^性試題適合測(cè)低層次的目標(biāo),主觀性試題適合檢測(cè)較高層次的目標(biāo)(見(jiàn)表2)。
5.考量評(píng)分分值、測(cè)試時(shí)間、可操作性等問(wèn)題
各考點(diǎn)分值分配是試卷結(jié)構(gòu)的重要體現(xiàn),首先應(yīng)有與考試方式保持一致的設(shè)計(jì)思路,即綜合考慮各題型效度與信度的因素。其次體現(xiàn)教學(xué)大綱重點(diǎn)的部分應(yīng)相應(yīng)突出比例。
考試時(shí)間亦不容忽視,它既受題量、題型(如英語(yǔ)語(yǔ)言測(cè)試中每一語(yǔ)法或詞匯多項(xiàng)選擇須20秒左右;每一閱讀理解多項(xiàng)選擇平均須1至2分鐘等)、題目長(zhǎng)度、試題難度、受試者年齡與熟練程度等綜合因素的影響,又須考慮試卷分發(fā)、監(jiān)考指令發(fā)布的時(shí)間等。
此外,還需考慮測(cè)試實(shí)施的可操作性,如考場(chǎng)設(shè)置、設(shè)備、閱卷組織等所需的財(cái)力、人力問(wèn)題。
6.編制試卷結(jié)構(gòu)表
完成上述工作后,須編制一張含試卷組成部分、題型、題量、分值、時(shí)間等的二維試卷結(jié)構(gòu)表。該表與測(cè)試內(nèi)容及教育目標(biāo)明細(xì)表是成績(jī)測(cè)試總體設(shè)計(jì)的核心組成,為下一步命題任務(wù)的具體化提供了有章可循的規(guī)范。同時(shí)高質(zhì)量測(cè)試往往需經(jīng)多次或多年測(cè)試修改,相對(duì)穩(wěn)定的明細(xì)表和結(jié)構(gòu)表在一定程度上保證了各試卷的統(tǒng)一性。
四、關(guān)于難度問(wèn)題的認(rèn)識(shí)誤區(qū)
細(xì)心的讀者會(huì)詫異上述步驟未考慮試題難度問(wèn)題,這恰由成績(jī)測(cè)試的特性所決定。
成績(jī)測(cè)試旨在檢測(cè)學(xué)生對(duì)所學(xué)知識(shí)技能的掌握,其焦點(diǎn)是規(guī)定內(nèi)容是否掌握。如同駕照考試,只要通過(guò)了設(shè)定技能考核就可獲取駕照,它不關(guān)心駕駛技能的熟練與精湛差異。水平測(cè)試則不同,其目的是檢測(cè)受試者的現(xiàn)有能力與水平,它關(guān)心能否體現(xiàn)受試者之間的水平差異,具有選拔性質(zhì)。
因此,水平測(cè)試設(shè)計(jì)須考慮易、中、難試題的適當(dāng)比例,以便區(qū)分受試者之間的差異,而成績(jī)測(cè)試的難度不是我們關(guān)注的焦點(diǎn),即使試題極難或極易,只要是教學(xué)大綱規(guī)定的,就應(yīng)是考查的范疇。
我們須明確測(cè)試總體設(shè)計(jì)是高質(zhì)量試卷的重要保障,正確把握成績(jī)測(cè)試總體設(shè)計(jì)步驟。其中特別注重題型的選擇與確定應(yīng)與測(cè)試內(nèi)容相關(guān)聯(lián)的教育目標(biāo)匹配,其次應(yīng)糾正對(duì)難度問(wèn)題的錯(cuò)誤認(rèn)識(shí)。
此外,應(yīng)明確測(cè)試目的與用途的首要性和重要性,它不僅決定測(cè)試總體設(shè)計(jì)側(cè)重點(diǎn)的不同,也決定測(cè)試結(jié)果如何被使用,即基于測(cè)試分?jǐn)?shù)作出的特定推斷或決策。相對(duì)于測(cè)試目的而言的測(cè)試分?jǐn)?shù)誤用或?yàn)E用,不僅導(dǎo)致設(shè)計(jì)周全的測(cè)試是無(wú)效的,且不利于教學(xué)檢測(cè)結(jié)果的正確判斷,也不利于改進(jìn)和提高教學(xué)質(zhì)量。關(guān)于分?jǐn)?shù)解釋與分析,作者將另文闡述。
參考文獻(xiàn)
[1] 桂詩(shī)春.標(biāo)準(zhǔn)化考試——理論、原則與方法.廣州:廣東高等教育出版社,1986.
[2] 黃濤.新版盧布姆教育目標(biāo)分類對(duì)外語(yǔ)教學(xué)與測(cè)試改革的啟示.西華師范大學(xué)學(xué)報(bào),2009(2).
[3] Payne,David A.Applied Educational Assessment.Wadsworth Publishing Company.1997.
[4] 鄒申.語(yǔ)言測(cè)試.上海:上海外語(yǔ)教育出版社,2005.
?。ㄘ?zé)任編輯關(guān)燕云)