PETS垂直量表的建立

2014-11-28 12:19:11莫春暉

中國(guó)考試 2014年10期

莫春暉

PETS垂直量表的建立

莫春暉

垂直量表（vertical scale）是指將測(cè)量領(lǐng)域相似但考查的內(nèi)容水平不同的數(shù)個(gè)測(cè)試，構(gòu)建到一個(gè)共同量表上的過程。本文以2001年全國(guó)英語(yǔ)等級(jí)考試的量表建立過程為例，簡(jiǎn)述了垂直量表的模型選擇、數(shù)據(jù)分析過程和在實(shí)際考試中的應(yīng)用，并認(rèn)為垂直量表作為對(duì)群體水平差異和變化的一個(gè)判定依據(jù)，有一定的參考作用，而用于對(duì)考生個(gè)體進(jìn)行報(bào)告則尚有風(fēng)險(xiǎn)。

垂直量表；PETS；Rasch

垂直量表（vertical scale）是指將測(cè)量領(lǐng)域相似但考查的內(nèi)容水平不同的數(shù)個(gè)測(cè)試，構(gòu)建到一個(gè)共同量表上的過程，通俗地解釋就是：同在某個(gè)科目下但不同水平有差異的測(cè)試之間，通過共同量表，使得試題的難度或考生的水平能夠在數(shù)值上互相比較。垂直量表的用處，就是監(jiān)測(cè)不同等級(jí)間的考生水平差異，或考生在一定時(shí)間、一定知識(shí)或能力維度上的水平變化。

從20世紀(jì)60年代開始，美國(guó)開展了一項(xiàng)國(guó)家教育發(fā)展評(píng)價(jià)項(xiàng)目（National Assessment of Educa?tional Progress，NAEP）。2002年1月，時(shí)任美國(guó)總統(tǒng)布什簽署了“不讓一個(gè)孩子落后”法案（No Child Left Behind Act，NCLB）。至2009年，奧巴馬總統(tǒng)又提出了“角逐卓越”計(jì)劃（Race to the Top），增值評(píng)價(jià)一時(shí)成為美國(guó)教育測(cè)量界的熱門話題，其研究的主要方向是如何監(jiān)測(cè)美國(guó)中學(xué)教育質(zhì)量的變化，以對(duì)美國(guó)政府提供教育決策的依據(jù)。在英聯(lián)邦的有關(guān)地區(qū)，同一能力量表（Common Ability Scale）的研究也得到了廣泛應(yīng)用，尤其是在英語(yǔ)學(xué)科的測(cè)量中，可以說，同一能力量表是對(duì)垂直量表的另一種表述方式?？偠灾?，隨著教育界對(duì)學(xué)習(xí)過程的關(guān)注，診斷性、過程性評(píng)價(jià)的測(cè)試工具越來越注重學(xué)習(xí)結(jié)果的歷時(shí)性變化。在具體技術(shù)上，垂直量表的建立是進(jìn)行增值評(píng)價(jià)或應(yīng)用于其他成長(zhǎng)模型（Growth Model）的基礎(chǔ)。

在國(guó)內(nèi)，除教育部考試中心以外，也有一些研究人員發(fā)表過相關(guān)的研究文章，但具體應(yīng)用的實(shí)例比較少見。相比較之下，教育部考試中心在這方面的探索和應(yīng)用則起步較早。1997開始設(shè)計(jì)的全國(guó)外語(yǔ)等級(jí)考試（簡(jiǎn)稱PETS），應(yīng)用Rasch理論將PETS1級(jí)至5級(jí)統(tǒng)一到一個(gè)量表上，完成了對(duì)5個(gè)級(jí)別的量化定位，建立了一個(gè)實(shí)際可供使用的垂直量表。2010年，在海南高考增值評(píng)價(jià)項(xiàng)目中，在三個(gè)學(xué)科（數(shù)學(xué)、語(yǔ)文、英語(yǔ)）構(gòu)建了從初三（中考）至高三（高考）的垂直量表，以監(jiān)測(cè)學(xué)生學(xué)業(yè)水平的變化。

PETS是全國(guó)英語(yǔ)等級(jí)考試的簡(jiǎn)稱，其五個(gè)級(jí)別的難度從低到高分別對(duì)應(yīng)初中畢業(yè)、高中畢業(yè)、大學(xué)公外畢業(yè)、研究生入學(xué)和非英語(yǔ)專業(yè)出國(guó)的水平，首次公開考試始于1998年。為確認(rèn)和驗(yàn)證PETS各級(jí)別定位的準(zhǔn)確度，考試中心先后于1997年、2001年兩次實(shí)施了垂直量表的等值實(shí)驗(yàn)，在統(tǒng)計(jì)數(shù)據(jù)的基礎(chǔ)上，對(duì)PETS考試的各個(gè)能力級(jí)別進(jìn)行了定位，該量表建立后一直使用至今。

本文以2001年P(guān)ETS量表實(shí)驗(yàn)為例談一下垂直量表的建立過程和后期的增值應(yīng)用。

1 數(shù)據(jù)采集方案設(shè)計(jì)及實(shí)施

5個(gè)級(jí)別分別編制一套試卷，并各自選取符合PETS考試大綱級(jí)別定位的群體實(shí)施試測(cè)（見表1）。

相鄰級(jí)別采取共同題設(shè)計(jì)。如表2所示，1級(jí)試卷為70道題，2級(jí)至4級(jí)的每套試卷均為80道題，由相鄰低級(jí)別的40道題目和本級(jí)別的40道題目組成，同時(shí)本級(jí)別的40道題也被包含在相鄰高級(jí)別的試卷中。

表1 錨連接形式

全部題目均為多項(xiàng)選擇題，每題1分，來源于正在使用的PETS題庫(kù)，事先已經(jīng)過試測(cè)。

2001年4月至9月，全部測(cè)試均在嚴(yán)格的考務(wù)管理下完成。

2 分析方法

垂直量表有多種統(tǒng)計(jì)方法進(jìn)行標(biāo)定，IRT理論作為一種能夠提供等距測(cè)量的統(tǒng)計(jì)理論更加適宜。PETS使用Rasch理論（IRT理論中的一個(gè)特例）進(jìn)行統(tǒng)計(jì)分析，并以3級(jí)為基準(zhǔn)量表將其余級(jí)別的試題及難度參數(shù)值均轉(zhuǎn)換到該量表上。

具體計(jì)算方法：以3級(jí)試卷所含題目為基準(zhǔn)，假設(shè)3級(jí)試卷的平均難度為零，計(jì)算出每道題目的Rasch難度；分別用3級(jí)與相鄰的2級(jí)、4級(jí)的共有題目為錨，計(jì)算出2級(jí)、4級(jí)其余題目的難度，再以2級(jí)與1級(jí)、4級(jí)與5級(jí)的共有題目為錨，分別計(jì)算出1級(jí)、5級(jí)其余題目的難度；取得難度數(shù)據(jù)的同時(shí)，計(jì)算參加5個(gè)級(jí)別試測(cè)的考生能力。

分析中使用如下軟件：

Iteman Ver3.2，一款用于經(jīng)典試題分析的商用軟件；

Bigstep是用于Rasch分析的商用軟件，Raquel是內(nèi)部數(shù)據(jù)處理軟件，兩者共同用于Rasch參數(shù)估計(jì)；

Excel 2003：圖表制作。

3 數(shù)據(jù)分析

為使得計(jì)算后的數(shù)值更直觀，將所有計(jì)算后的原始的Rasch難度和能力值做了轉(zhuǎn)換，轉(zhuǎn)換公式為：原始值*9.1+60，使其數(shù)值區(qū)間近似于0～100。結(jié)果如表3所示。

表2 實(shí)驗(yàn)信息

3.1 難度與能力

表3 各級(jí)別難度與能力均值和標(biāo)準(zhǔn)差

圖1 PETS1-5平均難度

圖2 PETS1-5平均能力

從圖1題目難度數(shù)據(jù)看，1級(jí)和2級(jí)均拉得較開，2級(jí)和3級(jí)的間隔較佳，3級(jí)、4級(jí)、5級(jí)則稍顯接近。

從圖2考生能力數(shù)據(jù)看，1級(jí)與2級(jí)間差別明顯，而2級(jí)、3級(jí)、4級(jí)間幾乎在同一水平上，5級(jí)只是略高一點(diǎn)。

3.2 各級(jí)別考生做答同一試卷相鄰級(jí)別題目時(shí)的答對(duì)率

表4 各級(jí)別考生作答不同級(jí)別題目時(shí)的答對(duì)率

從表4答對(duì)率數(shù)據(jù)看，同級(jí)別考生群體作答相鄰級(jí)別題目時(shí)，對(duì)低級(jí)別的答對(duì)率高于對(duì)高級(jí)別的答對(duì)率，表現(xiàn)出的差異情況與級(jí)別間平均難度的差異基本一致。

再看相鄰級(jí)別考生做答相同題目時(shí)的表現(xiàn)，如圖3所示。作答2級(jí)題目時(shí)，3級(jí)考生的答對(duì)率比2級(jí)考生只是略高（0.77與0.75），而作答3級(jí)的題目時(shí)，4級(jí)考生的答對(duì)率比3級(jí)考生還要略低（0.62與0.63），與級(jí)別間平均能力數(shù)據(jù)表現(xiàn)的情況一致，從另一角度說明本次參加試測(cè)的2級(jí)、3級(jí)、4級(jí)的考生能力差距不大。

通過進(jìn)一步對(duì)考生群體的分析，2級(jí)所選擇的北京高中的英語(yǔ)水平普遍偏高一些，表現(xiàn)出的能力值略高，而4級(jí)選擇的是9月已入學(xué)的研究生新生，距其參加研究生考試已相隔8個(gè)月之久，因考試后的“遺忘”效應(yīng)，其表現(xiàn)出的能力水平相對(duì)偏低，感覺這是造成2級(jí)、3級(jí)、4級(jí)考生能力相差不大的一個(gè)重要原因。

3.3 題目難度的分步

從圖4各級(jí)別的情況看，1級(jí)與2級(jí)分布有明顯差異，2級(jí)與4級(jí)的差異不大，而5級(jí)則幾乎與前幾個(gè)級(jí)別沒有差異。

3.4 能力分布

如圖5能力的分布，1級(jí)群體與其余級(jí)別差異明顯，2級(jí)、3級(jí)、4級(jí)幾乎是重疊的，5級(jí)略有偏移。

圖3 各級(jí)別考生作答不同級(jí)別題目時(shí)的答對(duì)率

圖4 PETS1-5級(jí)難度分布

圖5 PETS1-5級(jí)能力分布

4 級(jí)別定位

PETS垂直量表實(shí)驗(yàn)的初衷是確定各個(gè)級(jí)別的合格能力標(biāo)準(zhǔn)。面對(duì)實(shí)際數(shù)據(jù)，會(huì)發(fā)現(xiàn)本次實(shí)驗(yàn)中題目和考生群體的選擇都有不盡如人意的地方，與理想分布有差距。但是，這個(gè)結(jié)果是實(shí)際參加測(cè)試的群體分布，并非我們?cè)O(shè)定的各個(gè)級(jí)別的合格標(biāo)準(zhǔn)。在實(shí)際操作中，尤其是樣本有限的情況下，也很難找到完全符合設(shè)計(jì)預(yù)期的典型樣本。參照這個(gè)結(jié)果進(jìn)行PETS各級(jí)別的定位時(shí)，需根據(jù)學(xué)校水平、學(xué)科內(nèi)容和能力的要求、每個(gè)級(jí)別定位的構(gòu)想等情況，人為設(shè)定各級(jí)別的合格標(biāo)準(zhǔn)，既要考慮到各群體的實(shí)際水平，又要保證級(jí)別間有合適的間距。通俗地說就是：標(biāo)準(zhǔn)是人定的，但卻是在客觀數(shù)據(jù)基礎(chǔ)上進(jìn)行專業(yè)性的主觀判斷而形成。當(dāng)前這一領(lǐng)域涉及的方法，如Angoff法（含拓展）、書簽法等均是基于此種方式。

比如1級(jí)的定位是全國(guó)普通初中的畢業(yè)水平，而樣本群體是職高一年級(jí)，其水平應(yīng)比初三學(xué)生略高，則可以將1級(jí)的合格能力值確定為43。2級(jí)的定位是普通高中畢業(yè)水平，而北京五中在全國(guó)高中學(xué)校中屬于相當(dāng)好的學(xué)校，則可將2級(jí)合格能力值設(shè)為54。其余級(jí)別類推。

各級(jí)別合格能力值推定，如圖6所示。

5 垂直量表存在的問題

垂直量表的建立是一個(gè)極其復(fù)雜的問題，其方案設(shè)計(jì)和統(tǒng)計(jì)運(yùn)算相對(duì)是容易把握的，但在涉及各級(jí)別的知識(shí)層次的相似度上，則目前尚無(wú)明確的結(jié)論。比如，各個(gè)級(jí)別雖然看似在Rasch參數(shù)數(shù)值上統(tǒng)一到了一個(gè)量尺上，但是這個(gè)數(shù)值是否真的體現(xiàn)出了級(jí)別間的差異，則是十分可疑的。從ACT的課程介紹，結(jié)合10年來PETS實(shí)踐，存在的主要問題有以下兩方面。

5.1 量表無(wú)法反映出各級(jí)別的知識(shí)或能力的包含關(guān)系

一般情況下，在學(xué)科知識(shí)體系中，越往高處，越是包含有更多的知識(shí)，有一些科目中如物理或數(shù)學(xué)，甚至有相對(duì)獨(dú)立的知識(shí)分支。在PETS中，每一個(gè)高級(jí)別與相鄰的低級(jí)別比較，除了單純提高了難度以外，還會(huì)有更多的詞匯要求、更強(qiáng)的交際能力要求。

應(yīng)用Rasch理論（IRT理論）的重要前提是單維性假設(shè)和局部獨(dú)立性，如果兩個(gè)測(cè)試考察的能力不在一個(gè)大致相同的維度上，這種測(cè)量的結(jié)果就會(huì)不準(zhǔn)確?，F(xiàn)有理論下的難度（或能力）指標(biāo)是否能反映出知識(shí)上的差異，或者在多大程度上反映出這種知識(shí)的差異，依然是個(gè)爭(zhēng)論中的問題。盡管有不少研究者嘗試用MIRT（多維IRT理論）來解決這些問題，結(jié)果并不理想。這是因?yàn)閷W(xué)科中各級(jí)別的要求已經(jīng)預(yù)先設(shè)定，而后驗(yàn)的統(tǒng)計(jì)分析，并不能改變具體學(xué)科內(nèi)容的內(nèi)在關(guān)系及其在命題中的要求。

拿PETS的3級(jí)與4級(jí)比較，命題教師和學(xué)生的反映都是4級(jí)試題明顯難于3級(jí)，但實(shí)際數(shù)據(jù)則顯示試題難度在數(shù)值上相差不大，應(yīng)與4級(jí)要求更大的詞匯量有關(guān)。

圖6 PETS1-5級(jí)別定位

5.2 量表無(wú)法反映出學(xué)生答題速度的差異

非速度測(cè)試同樣是IRT應(yīng)用的重要前提，即要求被試的水平表現(xiàn)不佳是由于能力不足引起的，而不是因?yàn)闀r(shí)間不夠。試題數(shù)據(jù)的準(zhǔn)確取得，要求考生能夠答完每個(gè)試題。如果考生來不及作答某個(gè)試題，則該考生不被計(jì)入這個(gè)試題的統(tǒng)計(jì)樣本中，統(tǒng)計(jì)軟件還會(huì)根據(jù)考生在其他試題上的作答情況推測(cè)考生在未做試題上的答對(duì)概率。這既是IRT理論的優(yōu)勢(shì)，也是劣勢(shì)，試題的難度無(wú)法反映出是否作答的因素。

體現(xiàn)在4級(jí)和5級(jí)上這個(gè)問題尤其突出。按PETS考試大綱的要求，5級(jí)正式試卷的題量較大，對(duì)閱讀的要求比4級(jí)高，在相差不大的考試時(shí)間內(nèi)，要求考生有更大的閱讀量和更快的答題速度。從這點(diǎn)上說，5級(jí)應(yīng)比4級(jí)“難”很多，而數(shù)據(jù)上則顯示4級(jí)試題的難度與5級(jí)相差“不顯著”。

基于以上原因，對(duì)垂直量表的研究雖然已有多年，且在各方面不斷深入，如美國(guó)ACT這樣的專業(yè)測(cè)評(píng)公司的測(cè)量部門也對(duì)其表現(xiàn)了高度的重視，但除了公布研究數(shù)據(jù)外，ACT及其他美國(guó)的測(cè)評(píng)機(jī)構(gòu)，對(duì)垂直量表的使用一直持審慎的態(tài)度，在利害關(guān)系相對(duì)重大的正式考試中一直未見到使用的報(bào)告。

圖7 PETS筆試成績(jī)報(bào)告單正面

6 應(yīng)用

對(duì)垂直量表的使用，應(yīng)慎重評(píng)估，把握分寸。從目前的理論研究上看，垂直量表作為對(duì)群體水平差異和變化的一個(gè)判定依據(jù)，有一定的參考作用，而用于對(duì)考生個(gè)體進(jìn)行報(bào)告，則尚有風(fēng)險(xiǎn)。當(dāng)前，世界各國(guó)幾乎都在非高利害考試中應(yīng)用這一技術(shù)，如在過程性評(píng)價(jià)中或不反饋個(gè)體成績(jī)的國(guó)家教育質(zhì)量監(jiān)測(cè)中。

以PETS為例，在PETS的垂直量表體系中，單純從統(tǒng)計(jì)分析中獲取的能力數(shù)值上看，很容易地聯(lián)想到：考生參加過某個(gè)級(jí)別的考試后，如果其能力值已經(jīng)超過了更高級(jí)別的合格能力要求，是否說明他不用再參加高級(jí)別考試呢？結(jié)果顯然不是，考生仍必須要參加并通過高級(jí)別的考試，我們也只有在其通過相應(yīng)級(jí)別的測(cè)試后，才對(duì)其合格與否做出判定。

圖8 PETS筆試成績(jī)報(bào)告單背面

PETS垂直量表建立后，主要的應(yīng)用對(duì)象有二。一是在題庫(kù)建設(shè)中，對(duì)試題質(zhì)量控制和級(jí)別定位提供一種輔助的判定指標(biāo)，而PETS各級(jí)別試的統(tǒng)計(jì)分析、組卷、確定合格線、成績(jī)處理等環(huán)節(jié)仍是獨(dú)立處理，并不進(jìn)行跨級(jí)別的運(yùn)作。二是在提供給考生的成績(jī)報(bào)告中，提供一個(gè)參考的水平定位，讓考生看到自己的能力在相鄰級(jí)別上可能的位置，但并不以此判定考生在相鄰級(jí)別上是否合格，如圖7，圖8所示。

限于筆者的水平，對(duì)垂直量表及其背后的相關(guān)理論掌握有限，對(duì)目前測(cè)量理論下垂直量表在實(shí)際應(yīng)用中存在的問題，尚存很多困惑。以此文拋磚引玉，以供同行批評(píng)、研究和探討。

[1]教育部考試中心.全國(guó)英語(yǔ)等級(jí)考試考試大綱[M].北京：高等教育出版社，2006.

[2]Knupp,T.&Tao,W.Vertical Scaling[M].Presentation for the NEEA visitors.Iowa City,IA.2011,11.

（責(zé)任編輯吳四伍）

The Construction of PETS Vertical Scale

MO Chunhui

Vertical Scaling is the process of linking several assessments measuring similar domains but at different levels into the same scale.Taking the construction of PETS scale in 2001 as an example,this paper describes its model selection and data analysis process as well as their application in real testing scenario.It concludes that a vertical scale,as a reference,is useful in identifying differences and developments of target group,but could be risky if used in identifying differences of individuals.

Vertical Scale；PETS；Rasch

G405

1005-8427(2014)10-0040-7

莫春暉，男，教育部考試中心，助理研究員（北京 100084）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

PETS垂直量表的建立

1 數(shù)據(jù)采集方案設(shè)計(jì)及實(shí)施

2 分析方法

3 數(shù)據(jù)分析

3.1 難度與能力

3.2 各級(jí)別考生做答同一試卷相鄰級(jí)別題目時(shí)的答對(duì)率

3.3 題目難度的分步

3.4 能力分布

4 級(jí)別定位

5 垂直量表存在的問題

5.1 量表無(wú)法反映出各級(jí)別的知識(shí)或能力的包含關(guān)系

5.2 量表無(wú)法反映出學(xué)生答題速度的差異

6 應(yīng)用