潘璋榮
一次考試的試題難度如何,通常的衡量標(biāo)準(zhǔn)是以考生考試之后的得分情況,即得分高低來(lái)衡量的,也就是以所謂的試題“難度系數(shù)”來(lái)衡量。但是,這樣的衡量標(biāo)準(zhǔn)在筆者看來(lái)是不恰當(dāng)?shù)?。因?yàn)椋忌牡梅智闆r,往往只是考生自身的解題能力和知識(shí)掌握程度等的一個(gè)反應(yīng),它雖然也跟試題的難度有關(guān),但是卻絕對(duì)不等于試題本身的難度。而且,很多時(shí)候由于被試者或被試群體的學(xué)習(xí)素養(yǎng)和學(xué)習(xí)效率太低,不管試題的本身的客觀難度多小,被試者考試結(jié)果顯示的得分“難度系數(shù)”總是很小的,總是達(dá)不到有關(guān)的測(cè)試管理部門(mén)所預(yù)期出現(xiàn)的“難度系數(shù)”結(jié)果。譬如,現(xiàn)在很多的教育會(huì)考,如初中畢業(yè)會(huì)考,一般的教育行政管理部門(mén)總是要求各學(xué)科的考試命題要保證鄉(xiāng)鎮(zhèn)一級(jí)初中畢業(yè)生的考試所得總平分顯示出“難度系數(shù)”在0.70以上,或者要讓90%以上的鄉(xiāng)鎮(zhèn)學(xué)生考試及格。然而,由于我國(guó)教育資源的實(shí)際分布特別是學(xué)生資源分布的嚴(yán)重不均,一般的優(yōu)秀學(xué)生都向城鎮(zhèn)重點(diǎn)初中和私立中學(xué)集中,鄉(xiāng)鎮(zhèn)中學(xué)的學(xué)生素質(zhì)普遍偏低,加之學(xué)校管理者素質(zhì)的低下,于是鄉(xiāng)鎮(zhèn)一級(jí)的學(xué)生在數(shù)學(xué)、外語(yǔ)等學(xué)科的考試中,總是無(wú)法達(dá)到上級(jí)的規(guī)定要求。造成這種情況的原因其實(shí)根本不是命題者的試題難度過(guò)大,而是測(cè)試群體的學(xué)習(xí)素質(zhì)和學(xué)習(xí)效果太低。
換句話(huà)說(shuō),長(zhǎng)期流行的“試題難度系數(shù)”只是一種主觀的試題難度系數(shù),其本質(zhì)只是考生的考試“得分系數(shù)”,而不是試題本身的難度系數(shù),它基本是由被測(cè)群體的得分結(jié)果決定。按照這種“難度系數(shù)”的思路,同一套題目,如果使用于不同的測(cè)試群體,它的難度系數(shù)就會(huì)表現(xiàn)出不同的結(jié)果。譬如,拿一套相同的數(shù)學(xué)試題,分別去測(cè)試省級(jí)重點(diǎn)中學(xué)的初中生、市級(jí)重點(diǎn)中學(xué)的初中生、縣級(jí)重點(diǎn)中學(xué)的初中生、一般鄉(xiāng)鎮(zhèn)中學(xué)的初中生,再分別計(jì)算它們的難度系數(shù),其“難度系數(shù)”就會(huì)表現(xiàn)出天壤之別。它們極可能出現(xiàn)分別是0.90、0.80、0.70、0.20這樣四個(gè)差距懸殊的難度系數(shù)。那么面對(duì)這樣四個(gè)差距懸殊的難度系數(shù),我們?nèi)绾握J(rèn)定這套試題本身到底是難是易呢?當(dāng)然,如果有人愿意將這四個(gè)不同的測(cè)試群體所獲得的“難度系數(shù)”進(jìn)行平均,則其結(jié)果為0.65。但是,這樣的結(jié)果本質(zhì)上仍然只是由測(cè)試對(duì)象的答題結(jié)果來(lái)決定試題的難度。筆者認(rèn)為,它是不科學(xué)的,是主觀的和偶然的。
這種主觀的、不科學(xué)的“難度系數(shù)”法,對(duì)于考試,尤其是對(duì)于衡量一個(gè)國(guó)家的教育和文化發(fā)展水平與潛力,對(duì)于衡量一個(gè)國(guó)家和民族的智力發(fā)展態(tài)勢(shì),是極其不利的,甚至是十分有害的。因?yàn)?,它抹殺了考試試題難度本身的客觀性,從而就會(huì)導(dǎo)致我們從小處說(shuō)是沒(méi)法衡量一個(gè)學(xué)生是否達(dá)到基本的教育培養(yǎng)目標(biāo)要求,沒(méi)法衡量一個(gè)學(xué)校是否達(dá)到了基本的辦學(xué)效益要求;從大處說(shuō),是沒(méi)法把握一個(gè)國(guó)家的教育質(zhì)量是在走向不斷提高還是走向不斷低落,沒(méi)法準(zhǔn)確地衡量和把握一個(gè)國(guó)家和民族智力發(fā)展的歷史趨勢(shì)。因此,探索一套客觀的試題難度系數(shù)衡量標(biāo)準(zhǔn)和檢測(cè)辦法,是十分必要和重要的教育科研課題。它對(duì)于我們科學(xué)地把握受教育者個(gè)人、學(xué)校、民族和人類(lèi)的教育文化水平和質(zhì)量以及智力發(fā)展水平、趨勢(shì)及其成效,具有重大理論意義和現(xiàn)實(shí)意義。
筆者認(rèn)為,任何試題,在其尚未交給考生考試及閱卷之前,我們應(yīng)該可以判斷其難度大小,也就是可以判斷其客觀的難度系數(shù)。
當(dāng)然,要確定各種文化考試試題的客觀難度系數(shù),這本身是一個(gè)巨大的課題,它本身需要做許多繁復(fù)的研究、論證和實(shí)驗(yàn)。本文不可能得出一個(gè)簡(jiǎn)單思路或公式來(lái)確定各種文化考試試題的客觀難度系數(shù)。本文只是將個(gè)人在這方面多年的思考做些初步的整理,以期引起教育界、學(xué)術(shù)界對(duì)這個(gè)問(wèn)題的重視,并為這方面的研究提供一些初淺的思路。
由于文化考試一般都是以一套試題的形式出現(xiàn),而一套試題一般又是由許多單獨(dú)的試題組成的。因此,一套試題總的客觀難度將由所有組成該套試題的單個(gè)試題的客觀難度共同決定。因此,要衡量一套試題的客觀難度,實(shí)際上關(guān)鍵就是要衡量出這套試題每個(gè)獨(dú)立試題的難度。本文因此只討論單個(gè)試題難度的確定問(wèn)題。
要確定每個(gè)試題的客觀難度,我認(rèn)為主要應(yīng)從如下這些方面去思考。
一、試題的邏輯層次愈多則試題的難度愈大
每個(gè)試題都包含幾個(gè)邏輯層次,一般來(lái)說(shuō),包含邏輯層次越多的試題,它的難度就愈大。而不同的試題涉及的邏輯層次往往不同。
譬如,很多試題中的部分填空題、選擇題、簡(jiǎn)答題往往只涉及學(xué)生的記憶問(wèn)題,只要學(xué)生能記憶相關(guān)內(nèi)容,就可以根據(jù)前后文,或者根據(jù)題干,想到答案,不用作任何其它的思考。譬如,語(yǔ)文題目中的根據(jù)課文內(nèi)容填空,補(bǔ)充空缺部分的課文內(nèi)容,歷史題中的我國(guó)人物、年代、歷史事件的填空題,數(shù)學(xué)中的兩個(gè)個(gè)位數(shù)直接相加等。當(dāng)然,記憶也是一種某個(gè)層次的思考,但這種思考是十分機(jī)械的思考,甚至從某種意義上說(shuō)不是思考,而是簡(jiǎn)單的心理學(xué)中的“再現(xiàn)”。在這里姑且把它認(rèn)定為一種只包含一個(gè)層次的“思考”習(xí)題。
再如,數(shù)學(xué)中“a+b=?”這樣的試題可以看作是只有1個(gè)邏輯層次的試題;“(a+b)×c=?”可以看成2個(gè)邏輯層次的試題;而“[(a+b)×c]n=?”則可以看作是3個(gè)邏輯層次的試題。
如果我們假定一個(gè)邏輯層次試題的客觀難度系數(shù)是0.1,那么包含兩個(gè)邏輯層次的試題客觀難度系數(shù)就是0.2(注:此處試題的客觀難度系數(shù)跟流行的主觀難度系數(shù)的計(jì)數(shù)方法相反,客觀難度系數(shù)值越大則試題難度越大,以下同)。包含三個(gè)邏輯層次的試題難度系數(shù)就是0.3……以此類(lèi)推,一個(gè)試題包含的邏輯層次愈多,則其試題的難度系數(shù)愈大。
二、試題構(gòu)成的并列意義單元越多則試題難度愈大
有些試題的題干內(nèi)容或題目?jī)?nèi)容是由單一的意義單元組成,而有些試題的內(nèi)容或題干是由幾個(gè)意義單元組成,那么由幾個(gè)意義單元組成的試題其難度就高于單一意義單元組成的試題。譬如,材料閱讀分析題材料,有些試題的材料只是由一個(gè)比較單純的意義材料組成,而有些題目則出現(xiàn)“材料一”、“材料二”兩個(gè)獨(dú)立的意義材料。那么這樣的兩個(gè)試題,在其它條件相當(dāng)?shù)那闆r下,后者的難度顯然大于前者的難度。因?yàn)?,?gòu)成試題的意義單元或組成部分越多,則考生要統(tǒng)籌思考的內(nèi)容越多,難度就越大。假定試題的組成意義單元只有1個(gè),其難度系數(shù)為0.1,那么組成試題的意義單元有2個(gè)的難度系數(shù)就是0.2……試題的難度系數(shù)可以以此類(lèi)推,試題組成意義單元越多,則難度系數(shù)越大。
三、試題的語(yǔ)言特色也是決定難度系數(shù)的因素之一
在試題的邏輯層次和組成意義單元等其它各種因素不變的情況下,如果使用不同特色的語(yǔ)言來(lái)表述試題,其試題難度會(huì)因此發(fā)生變化。
例如,對(duì)于同樣一個(gè)材料閱讀分析題,如果將材料部分用古文的形式來(lái)表述和用現(xiàn)代文的形式來(lái)表述,其難度顯然區(qū)別很大;再如,同樣是用現(xiàn)代文來(lái)表述,用直白淺顯的說(shuō)明方式來(lái)表述的材料,跟用幽默風(fēng)趣的文學(xué)語(yǔ)言來(lái)表述的材料,后者的難度系數(shù)又要大于前者的難度系數(shù);又如,同樣是用文學(xué)語(yǔ)言來(lái)表達(dá)的材料,用一般的通俗文學(xué)語(yǔ)言來(lái)表達(dá)的材料,跟用一些不常見(jiàn)的文學(xué)修辭手法來(lái)表達(dá)的材料,后者的難度又大于前者的難度。
四、試題的篇幅長(zhǎng)短也是決定試題難度的因素之一
一般來(lái)講,在其他因素相當(dāng)?shù)那疤嵯拢囶}的篇幅或試題所涉及內(nèi)容的篇幅越長(zhǎng),則試題的難度系數(shù)越大。
五、試題內(nèi)容涉及的知識(shí)面也是試題難度的重要決定因素
如果一個(gè)試題只涉及單獨(dú)一個(gè)學(xué)科,在其它因素不變的條件下當(dāng)然難度系數(shù)最少。如果它涉及兩個(gè)以上的學(xué)科,則難度系數(shù)隨涉及學(xué)科數(shù)目的增加而增大,因?yàn)樗蟊辉囌咚莆盏闹R(shí)更多。同樣,即使只是涉及同一學(xué)科,如果它涉及同一學(xué)科的不同知識(shí)領(lǐng)域的內(nèi)容越多,則難度系數(shù)也越大。譬如,同樣是物理試題,如果一個(gè)物理試題的內(nèi)容既涉及力學(xué)又涉及光學(xué),那么這個(gè)題目較之僅涉及力學(xué)或光學(xué)的試題難度顯然要大。
六、試題是否存在表述上的差錯(cuò)和問(wèn)題也是決定試題客觀難度系數(shù)的重要因素
在長(zhǎng)期的學(xué)習(xí)、教育和研究實(shí)踐中,筆者發(fā)現(xiàn),任何學(xué)科的考試試題和平時(shí)的作業(yè),都存在一定比例的問(wèn)題試題或差錯(cuò)試題。這類(lèi)試題,由于表述上的語(yǔ)句錯(cuò)誤,或者由于試題本身設(shè)計(jì)的缺陷,導(dǎo)致試題本身無(wú)法解答,或者造成理解上的歧義,這樣的試題難度系數(shù)也就自然增大了。這種情況是屬于試題難度系數(shù)的錯(cuò)誤性增大或不正常增大,在命題中是應(yīng)該避免的。但是,在命題和審題的程序不夠民主、科學(xué)、嚴(yán)謹(jǐn)?shù)那樾蜗拢侨菀壮霈F(xiàn)的。
七、各個(gè)學(xué)科要根據(jù)自身學(xué)科的特點(diǎn)制定自身試題客觀難度系數(shù)的衡量標(biāo)準(zhǔn)與細(xì)則
由于各學(xué)科有著各自本身的許多特點(diǎn),這就需要將之前所講的六點(diǎn)標(biāo)準(zhǔn)具體落實(shí)到各個(gè)學(xué)科中去,結(jié)合各個(gè)學(xué)科內(nèi)容的特點(diǎn)制定一個(gè)詳盡的難度系數(shù)衡量標(biāo)準(zhǔn)。要按年級(jí)、按學(xué)段、按不同的考試性質(zhì)等制定不同的難度系數(shù)標(biāo)準(zhǔn)。然后拿這套細(xì)致的標(biāo)準(zhǔn)去衡量每個(gè)試題、每套試題的客觀難度系數(shù)。
總之,我們可以根據(jù)以上幾個(gè)標(biāo)準(zhǔn),對(duì)任何學(xué)科命制出的試題在尚未用于考試前,就進(jìn)行試題難度的定量分析和定位,確認(rèn)每個(gè)試題的難度系數(shù),并進(jìn)而確定全卷的難度系數(shù)。