考試的構(gòu)念界定及驗證探析

2018-02-08 20:05:23劉慶思

中國考試 2018年10期

劉慶思

（教育部考試中心，北京 100084）

構(gòu)念是心理學(xué)中的一個重要概念，“是指用來解釋人類行為的理論框架或心理特質(zhì)，它是心理學(xué)中抽象的假設(shè)性的概念、特質(zhì)或變量?！盵1]1955年，Cronbach和Meel提出構(gòu)念效度的概念，將構(gòu)念引入到教育和心理測量中，構(gòu)念效度被定義為“能夠測量到某一理論構(gòu)念或特質(zhì)的程度”[2]95，成為效度研究的一個重要方面。1989年，Messick提出以構(gòu)念效度為基礎(chǔ)的效度整體觀，得到教育和心理測量界的廣泛認可，構(gòu)念在測量研究中的作用日益凸顯。

在教育測量領(lǐng)域，研究人員傾向于將構(gòu)念直接界定為考生的能力，Bachman等指出“我們可將構(gòu)念視為對（某項）能力的特定界定”[3]21，F(xiàn)ulcher認為“構(gòu)念即是學(xué)習者的能力，我們相信該能力是考生在考試中表現(xiàn)的基礎(chǔ)”[4]96。從內(nèi)涵和性質(zhì)看，考試構(gòu)念具有3個顯著的特點：第一，它是研究者設(shè)計出來的，尚有待證實。構(gòu)念并非先天存在，往往是研究人員根據(jù)自己的觀察和研究結(jié)果提出來的理論假設(shè)，需要從理論和實踐2個層面進行綜合性的研究和論證。例如，100多年前研究人員即提出了“智力”（intelligence）這一構(gòu)念，但時至今日，圍繞這一構(gòu)念的研究和爭論仍在繼續(xù)[4]96。第二，構(gòu)念是抽象的，不可直接觀察，但它往往與穩(wěn)定、可觀察的事件相關(guān)。對這些構(gòu)念的判斷，在一定程度上來自于從相關(guān)個體行為中觀察到的很多具體事例[4]96。很多英語考試所考查的交際語言能力即屬于此類沒有實體的抽象概念，無法直接觀察和測量，但考試人員卻可以通過向考生提供考試、評判答題情況來推測他們在這方面的水平。第三，構(gòu)念的界定需要基于特定的理論模型。一個構(gòu)念往往含有許多構(gòu)成要素，組成一個相互關(guān)聯(lián)的構(gòu)念子集，或稱構(gòu)念域（construct domain），而構(gòu)念域中各要素間的關(guān)系往往只有借助理論模型才能厘清。如，按照Bachman和Palmer的交際語言能力模型，交際語言能力由語言能力、策略能力、心理生理機制構(gòu)成，其中的語言能力包括語言組織能力和語用能力，語言組織能力包括語法能力和語篇能力，語用能力則包括語義能力、功能能力和社會語言能力[5]。

1 為什么要界定考試構(gòu)念？

構(gòu)念界定是考試流程中必不可少的一個環(huán)節(jié)，是考試設(shè)計和評價所需要的基礎(chǔ)性工作。考試研究人員歷來都非常重視考試構(gòu)念的界定，F(xiàn)ulcher將構(gòu)念界定列為考試設(shè)計中的一個重點環(huán)節(jié)[4]94，Bachman和Palmer明確指出了構(gòu)念界定的3個主要目的：一是指導(dǎo)考試命題工作，二是為基于預(yù)期目的使用考試分數(shù)奠定基礎(chǔ)，三是使考試命題者和使用者得以呈現(xiàn)分數(shù)解釋的構(gòu)念效度[3]116。

構(gòu)念界定對考試設(shè)計和試題命制至關(guān)重要。試卷設(shè)計的一項重要任務(wù)即是將抽象的構(gòu)念轉(zhuǎn)化為可以觀察、能夠直接測量的考試任務(wù)。設(shè)計考試自然首先需要知道要考什么能力，明晰這一能力的構(gòu)成要素，也就是明確考試的構(gòu)念。在此基礎(chǔ)上，才能設(shè)計出相應(yīng)的考試任務(wù)，為其后的試題命制奠定基礎(chǔ)。命題工作同樣需要構(gòu)念界定結(jié)果的支持，這有助于提高試題對所考查能力要素的覆蓋程度和平衡試卷中各類試題的難度水平。

構(gòu)念界定是確認考試分數(shù)使用合理性、提高考試分數(shù)可解釋性的必要前提。任何考試都有其預(yù)期設(shè)計目的，或是全面考查或是僅僅考查某個方面的能力。使用考試分數(shù)無疑需要知道分數(shù)所承載的這類信息，知曉如果得到某一分數(shù)就具備了哪些能力、能做哪些事情，使考試分數(shù)的使用有理據(jù)可依，這就需要對考試構(gòu)念進行明確界定、細化描述。如，2018年教育部考試中心發(fā)布了中國英語能力等級量表，以“能做之事”的形式從多個維度、多個層次對英語學(xué)習者的英語語言能力進行詳細描述，為各項英語考試確定考試構(gòu)念提供了重要參考，同時也有助于提高考試分數(shù)的可解釋性。

構(gòu)念界定是進行效度研究、呈現(xiàn)效度研究結(jié)果的必要條件。效度是指“我們能夠?qū)ο霚y量的、作為能力或構(gòu)念標識值的考試分數(shù)進行解釋的程度”[3]21。因此，效度研究是在構(gòu)念界定工作已經(jīng)完成，考試任務(wù)設(shè)計、命題、實施和評分已經(jīng)結(jié)束的情況下進行的，構(gòu)念界定是效度研究的前提。構(gòu)念界定所依據(jù)理論模型的科學(xué)性，所確定構(gòu)念子集的合理性、清晰性和全面性，對后續(xù)考試各個環(huán)節(jié)的工作影響重大，會清楚地呈現(xiàn)在效度研究結(jié)果中。

2 如何界定考試構(gòu)念?

作為考試設(shè)計中一項奠基性的工作，考試構(gòu)念界定需要在深入細致研究的基礎(chǔ)上進行。構(gòu)念界定的方式依據(jù)考試的性質(zhì)、用途，大致可分為2種：一是基于教學(xué)大綱或課程標準的界定，另一種則是基于理論的界定[3]118。實際上，教學(xué)大綱要求培養(yǎng)的各種學(xué)科能力依然來自相應(yīng)的理論，只不過是依據(jù)特定教學(xué)需要進行了梳理和細化，由此看來，基于教學(xué)大綱的構(gòu)念界定也可認定為基于理論界定的一個特例。

基于教學(xué)大綱進行構(gòu)念界定的對象，主要是各級各類學(xué)校中的成就檢測類考試，包括學(xué)習成就考試、診斷性考試、分班考試等，同時也包括一些以教學(xué)大綱為依據(jù)的升學(xué)類考試。針對這類考試，構(gòu)念界定的任務(wù)即是將教學(xué)大綱中要求培養(yǎng)的各項能力及構(gòu)成要素詳細列出，之后從中選出能夠在考試中進行考查的內(nèi)容。以我國的高考英語科為例，它雖為高等學(xué)校招生入學(xué)考試，但被要求嚴格按照課程標準設(shè)計考試。課程標準中的核心素養(yǎng)可看作是該項考試以語言能力為依托的整體能力框架，包括語言能力、文化意識、思維品質(zhì)和學(xué)習能力4個組成部分；課程內(nèi)容中列出了主體范圍、語篇類型、語言知識、語言技能、文化意識和學(xué)習能力等內(nèi)容。語言知識和語言技能是該項考試傳統(tǒng)的考查內(nèi)容，其中的絕大部分內(nèi)容在考試中具備可操作性；主體范圍、語篇類型、文化意識等難以直接考查，但可以適當體現(xiàn)在對語言知識和語言技能的考查中。語言知識和語言技能均可細化為若干項內(nèi)容，而這些構(gòu)成了高考英語科考試構(gòu)念中的主體內(nèi)容。

基于理論進行構(gòu)念界定的對象，主要是一些用于升學(xué)、招工的能力評測類考試。針對這類考試，構(gòu)念界定的任務(wù)即是根據(jù)相應(yīng)的理論模型和招生或用人單位對人才的需要，總結(jié)歸納出需要評測的各項能力要素，并從中選取能夠在特定考試中可以考查的內(nèi)容作為考試的構(gòu)念。例如，ETS的TOEFL 2000將所依據(jù)的理論模型確定為COE（Committee of Examiners）模型，以“學(xué)術(shù)情景下的交際語言能力”為考試的總構(gòu)念，并根據(jù)COE模型從多個緯度、多個層面對考試構(gòu)念進行了界定[6]。

考試構(gòu)念界定是一項理論性和實踐性都很強的工作，研究人員在確定所依據(jù)教學(xué)大綱或理論模型的基礎(chǔ)上，需認真考慮以下事項：一是構(gòu)念界定的理據(jù)是否充分、可靠。所依據(jù)的教學(xué)大綱必須穩(wěn)定可靠，理論模型必須經(jīng)得起實證性研究的檢驗。二是所界定構(gòu)念是否符合特定考試的實際情況。為特定考試界定構(gòu)念時，必須充分考慮考生群體、考試用途、考試情境等方面的情況，為其量身定做考試構(gòu)念，如Bachman等所言“考試設(shè)計者需在深思熟慮的基礎(chǔ)上作出選擇，詳細列出能夠在特定測試情景中進行檢測的能力的構(gòu)成要素”[3]116，絕不應(yīng)將其他考試項目的構(gòu)念直接拿來使用。三是所界定的考試構(gòu)念會對考試后續(xù)工作帶來何種影響。構(gòu)念界定是考試設(shè)計中一項最為重要的基礎(chǔ)性工作，直接影響著其后的任務(wù)設(shè)計、試題命制和評分標準制訂等，雖然不應(yīng)本末倒置地根據(jù)后續(xù)工作來確定考試構(gòu)念，但界定考試構(gòu)念時應(yīng)該適當考慮到這些構(gòu)念的可操作性。

3 如何圍繞考試構(gòu)念進行效度驗證？

20世紀80年代末，隨著效度整體觀被教育和心理測量界廣泛接受，構(gòu)念效度成為效度研究的主體內(nèi)容，曾經(jīng)的效標效度、內(nèi)容效度等都用于支持和協(xié)助構(gòu)念效度的驗證。最新發(fā)布的《教育和心理測量標準（2014版）》總結(jié)了效度研究應(yīng)該關(guān)注的5個方面的證據(jù)：基于考試內(nèi)容的證據(jù)（evidence based on test content）、基于答題過程的證據(jù)（evidence based on response processes）、基于內(nèi)部結(jié)構(gòu)的證據(jù)（evidence based on internal structure）、基于與其他變量關(guān)系的證據(jù)（evidence based on relations to other variables）和基于考試結(jié)果的證據(jù)（evidence based on consequences of tests）[7]。效度驗證的主要任務(wù)即是從多方收集證據(jù)，對在考試各階段提出的假設(shè)和推論進行驗證，而這也就同時驗證了考試構(gòu)念界定的結(jié)果及落實情況。如果得到足夠的證據(jù)支持，就說明該項考試分數(shù)解釋的效度較高；否則，或是因為它進行構(gòu)念界定所依據(jù)的理論模型存在問題，或是因為分數(shù)解釋的效度低。因此，效度驗證應(yīng)包含以下2項任務(wù)：一是對構(gòu)念界定的依據(jù)進行驗證，二是對分數(shù)解釋的效度進行驗證。

3.1 驗證構(gòu)念界定的依據(jù)

教學(xué)大綱的制訂是一項極為嚴肅的工作，往往是由學(xué)科專家起草和審核、權(quán)威部門發(fā)布，事先均經(jīng)過大量的研究和論證。因此，進行效度驗證時一般無需再對教學(xué)大綱中的內(nèi)容進行驗證。構(gòu)念界定所依據(jù)的理論模型則一般都需經(jīng)過必要的驗證，驗證的主要內(nèi)容為模型中內(nèi)容的完備性、各構(gòu)成要素的重要性、各要素之間的關(guān)系等，模型驗證往往需要多角度、多層次研究的支持。構(gòu)念界定如果以已經(jīng)驗證、較為成熟的理論模型為依據(jù)，此項驗證工作則可以略去。

3.2 驗證分數(shù)解釋的效度

目前，針對考試分數(shù)解釋和使用進行的效度驗證模式已涵蓋考試的各個環(huán)節(jié)和與考試相關(guān)的各項內(nèi)容，涉及參與考試的各類人群[8]。因此，效度驗證需要從各方面收集證據(jù)，而證據(jù)主要來自考試內(nèi)部、考試與考試之間和考試的使用。

3.2.1 來自考試內(nèi)部的證據(jù)

按照所關(guān)注內(nèi)容的不同，研究人員傾向于將來自考試內(nèi)部的證據(jù)分成3個類別。

第一，基于考試內(nèi)容的證據(jù)。搜集這類證據(jù)的目的是研究考試內(nèi)容與所界定考試構(gòu)念之間的關(guān)系，即考試在多大程度上檢測了考試構(gòu)念。研究內(nèi)容應(yīng)包括考試內(nèi)容的各個方面，含考試任務(wù)設(shè)計的恰當性、應(yīng)該檢測內(nèi)容的代表性、對不同考生群體的公平性等。內(nèi)容比對和專家判斷是搜集和分析這類證據(jù)的主要手段。

第二，基于答題過程的證據(jù)。搜集這類證據(jù)的手段，主要是要求考生進行“有聲思維”，說出其在解答試題時的思維過程；也可觀察和記錄考生答題所花費時間、答題時的眼動情況等。這類證據(jù)可被用來分析考生的思維過程，研究考生行為的性質(zhì)與所界定考試構(gòu)念的擬合情況，對考試設(shè)計者的理論假設(shè)進行驗證。

第三，基于內(nèi)部結(jié)構(gòu)的證據(jù)。這類證據(jù)來自對試卷各部分內(nèi)容間、各個試題間關(guān)系的研究，主要用以分析與所界定考試構(gòu)念的一致性程度，對于驗證考試設(shè)計者的設(shè)計思想至關(guān)重要。研發(fā)考試時，設(shè)計人員會對試卷各部分的考查內(nèi)容制訂詳細計劃；考試結(jié)束后，可以采用探索性因素分析（Exploratory Factor Analysis,EFA）和驗證性因素分析（Confirmatory Factor Analysis,CFA）的方法對設(shè)計思想的落實情況進行驗證。

3.2.2 來自考試之間的證據(jù)

某項考試所界定的考試構(gòu)念可能與其他考試的某些構(gòu)念存在一些關(guān)系，通過研究這種關(guān)系也可以獲得一些重要的效度證據(jù)。研究人員可以采用多種特質(zhì)—多種方法矩陣法（multitrait-multimethod matrix）綜合分析研究對象與構(gòu)念基本相同考試和構(gòu)念不同考試之間的關(guān)系，獲得聚斂證據(jù)（convergent evidence）和區(qū)分證據(jù)（discriminant evidence），對分數(shù)解釋的效度提供支持。如，高考英語科應(yīng)與全國英語等級考試（PETS）的特定級別有較高相關(guān)，但與高考地理科不會有高相關(guān)；如果這一推斷得以證實，就說明高考英語科考查了應(yīng)該考查的內(nèi)容、未考查不應(yīng)該考查的內(nèi)容，在分數(shù)解釋和使用方面具有一定的效度。考試效標方面的證據(jù)，即傳統(tǒng)的共時效度和預(yù)測效度方面的證據(jù)，同樣可以在效度驗證中發(fā)揮重要作用。

3.2.3 來自考試使用的證據(jù)

考試分數(shù)使用后即會產(chǎn)生各種各樣的結(jié)果，有些可能與考試設(shè)計者的期望相符，如找出了學(xué)生學(xué)習中存在的問題，選出了合適的人選；有些則可能與其期望不完全一致，如某些試題因存在項目功能差異（Differential Item Functioning,DIF）而不利于某個群體（種族、地域、性別等）的考生，因試卷中試題難度分布不夠合理，考試未能有效區(qū)分不同水平的考生。各項考試依利害程度的不同也會產(chǎn)生不同程度的后效作用，有些后效作用是正面的，如有助于促進因材施教、提高教學(xué)效率；有些則可能是負面的，如會導(dǎo)致過度關(guān)注考試內(nèi)容，縮小教學(xué)范圍。目前，研究人員日益重視對這類證據(jù)的搜集和分析。

總之，作為考試設(shè)計中的一項基礎(chǔ)性工作，構(gòu)念界定對確定和穩(wěn)定考試內(nèi)容、提高考試分數(shù)的可解釋性、開展考試評價工作具有重要意義；而針對構(gòu)念界定實施情況的研究則是考試評價中的一項重要工作，對監(jiān)控考試質(zhì)量、推動提高考試的科學(xué)性具有重要價值?？荚囋O(shè)計人員應(yīng)該切實重視考試構(gòu)念的界定工作，選擇或構(gòu)建恰當?shù)睦碚撃Ｐ妥饕劳?，厘清?gòu)念域中各要素間的關(guān)系，確保構(gòu)念界定基礎(chǔ)扎實、邏輯清晰、科學(xué)規(guī)范；考試評價人員則應(yīng)持續(xù)不斷地開展構(gòu)念界定及落實的驗證工作，對考試分數(shù)的使用情況進行跟蹤研究，為考試的宣傳推廣和改革完善提供有效支撐。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看