張詠梅 田 一
(北京教育科學研究院,北京 100191)
?
考生作答數(shù)據(jù)反饋對Angoff標準設定結果的影響
張詠梅田一
(北京教育科學研究院,北京 100191)
摘要:以大規(guī)模學業(yè)成就水平測驗為背景,采用組間設計,按類別將專家分為五組,在反饋數(shù)據(jù)環(huán)節(jié)隨機給予每個專家組未調整的考生真實作答數(shù)據(jù)和經(jīng)過上調、下調0.5或1個標準差的調整數(shù)據(jù)后,采用單因素方差分析與項目反應理論兩參數(shù)模型考查專家組在標準設定Angoff方法中如何參考使用題目作答數(shù)據(jù)。結果表明,反饋考生題目作答數(shù)據(jù)對Angoff標準劃定結果有明顯影響:反饋未經(jīng)調整的真實考生題目作答數(shù)據(jù)影響較大;反饋調整后的高于真實考生題目作答數(shù)據(jù)影響相對較小,反饋低于真實考生題目作答數(shù)據(jù)影響相對較大。
關鍵詞:Angoff方法;標準設定;考生題目作答數(shù)據(jù)反饋
1問題提出
標準設定是標準參照測驗編制、實施和結果報告過程中最重要的環(huán)節(jié)之一,是為測驗確立臨界分數(shù)線(Cut Scores)的過程。標準設定體現(xiàn)了考試目的、內容及測試者能力在廣泛的社會或教育環(huán)境中的專業(yè)價值。依據(jù)考試目的,在學業(yè)成就水平測試或證書資格考試中,通常需要建立“通過與否”一個或多個臨界分數(shù)線,如合格線、良好線和優(yōu)秀線。
Angoff方法作為標準設定領域中應用歷史悠久、范圍較廣的方法之一,由美國學者Angoff(1971)在《教育測量》第二版“評分、常模與等值分數(shù)”一章中首次提出。起初,此法要求擔當評委角色的專家判斷“某等級內最低能力水平的人或人群”能夠正確作答每道多項選擇題概率或百分率,所有題目概率或百分率總和即為此等級內最低分數(shù)或臨界分數(shù)線。在實施過程中,需要為評委設置數(shù)據(jù)反饋、小組討論、多輪評定等環(huán)節(jié),增加了這些操作環(huán)節(jié)后的Angoff方法被稱為“調整后Angoff方法”。作為當前國際上采用較多的標準設定形式,調整后Angoff方法在多輪重復評定中,反饋數(shù)據(jù)通常包括:①常規(guī)數(shù)據(jù),如某類別考生組在每道題目的完成表現(xiàn);②影響數(shù)據(jù),如在專家評委暫時劃定的標準下,預計某參照組可能通過的百分率;③一致性數(shù)據(jù),即評委在單個題目上的一致性情況(Hambleton & Pitoniak,2006)。
雖然在標準設定Angoff方法中提供反饋數(shù)據(jù)已成為重要一環(huán),但在教育測量研究領域就是否反饋數(shù)據(jù)存在爭議。有學者則認為其有利于經(jīng)驗豐富的專家評委將反饋數(shù)據(jù)與題目內容結合進行整合判斷(Clauser,Swanson,& Harik,2002),也有學者提出專家評委可能會對數(shù)據(jù)產(chǎn)生過多依賴(Clauser,Harik,Margolis,McManus,Mollon,Chis,& Williams,2009a;Clauser,Mee,Baldwin,Margolis,& Dillon,2009b),導致忽視題目內容而僅依據(jù)數(shù)據(jù)結果進行判斷。
關于數(shù)據(jù)反饋環(huán)節(jié)在Angoff法中作用的研究集中于:①反饋數(shù)據(jù)與判斷結果之間是否存在關系?Clauser等(2002)檢驗了內科醫(yī)生對于醫(yī)學證書考試題目所做的判斷,發(fā)現(xiàn)在未提供考生實際表現(xiàn)數(shù)據(jù)時的專家判斷與以考生實際表現(xiàn)數(shù)據(jù)為基礎的經(jīng)驗性條件概率間僅具有低到中等程度的相關。Clauser等(2009a,2009b)的后繼研究檢驗了在專家判斷難度與條件概率間的關系,發(fā)現(xiàn)當缺乏真實數(shù)據(jù)反饋時,兩者間相關較低;當提供實際表現(xiàn)數(shù)據(jù)時,相關顯著上升。②如果反饋數(shù)據(jù),判斷如何改變?Hambleton(2001)提出,提供表現(xiàn)數(shù)據(jù)對判斷的影響“可能更多是在心理方面而非教育測量方面”,并認為這種影響體現(xiàn)在“專家評委估計分數(shù)間的變異而非所最終估計的臨界分數(shù)”;Brandon(2004)對六個為專家評委提供表現(xiàn)數(shù)據(jù)的研究進行了綜述,其中四個研究表明了在臨界線上的顯著變化。③如何運用反饋數(shù)據(jù)?Dillon和Walsh(2000)調查了專家評委在判定過程中如何運用反饋數(shù)據(jù),研究要求評委挑出那些實際表現(xiàn)數(shù)據(jù)所體現(xiàn)的情況與評委對考生期待不一致的題目,并報告如何將實際表現(xiàn)數(shù)據(jù)與以內容為依據(jù)的判定相整合?評委們的回答集中在兩方面:一是盡管實際表現(xiàn)與預想不同,也應堅持最初以內容為基礎的判斷;二是實際表現(xiàn)數(shù)據(jù)反映出之前沒有甄別出的題目內容問題,應對判斷進行調整。
近十年來,隨著標準參照測驗在我國教育質量評價、學業(yè)成就水平測試、資格證書考試中越來越廣泛地應用(常蕤,2008;汪存友,余嘉元,2010),以Angoff為代表的多種標準設定方法開始在國內引起關注,但就在標準設定過程中反饋數(shù)據(jù)對所制定分數(shù)線影響問題還鮮有涉及。文章采用實驗研究的方式,以大規(guī)模學業(yè)成就水平測試中臨界分數(shù)線的劃定為研究背景,探求Angoff方法中反饋考生作答數(shù)據(jù)是否會對專家評委分數(shù)線制定結果產(chǎn)生影響,專家評委如何運用所提供的反饋數(shù)據(jù)進行研究,以期為當前標準設定的科學應用提供借鑒。
2研究方法
2.1研究工具和樣本
依托北京市2010年五年級語文學科大規(guī)模學業(yè)成就水平測驗進行,在此測驗中的學生學業(yè)表現(xiàn)是體現(xiàn)區(qū)域教育教學質量核心指標。根據(jù)需要,將采用標準設定過程制定合格、優(yōu)秀兩條臨界學業(yè)水平分數(shù)線。測驗包括55道二級計分題目。有效測試人數(shù)為99162人,占本區(qū)域五年級學生總人數(shù)的94.4%。
2.2研究步驟
2.2.1建立專家評委組
專家評委組共25人(小學語文學科領域課程研究人員5人,教學研究人員10人,一線教師10人)。其中,評委在小學語文學科方面至少具有十年教齡,且一線教師在本年度教授五年級語文課程。
2.2.2實驗設計
采用組間設計方式。將三類評委劃分為五組,每組5人(1名學科領域課程研究人員、2名教學研究人員和2名一線教師)。在正式評判時,每組評委均需按照一定步驟和要求,對處于“剛剛合格”、“剛剛優(yōu)秀”水平的學生群體正確作答55道題目的百分率進行逐一判斷。
實驗過程中,將向五個評委組反饋五種類別考生題目作答數(shù)據(jù),即隨機向其中一組反饋考生未調整的真實作答通過率,而向另四組隨機反饋作調整之后的作答通過率。依據(jù)Clauser等(2009b)的研究,作答通過率調整方式為:①將題目真實通過率(答對百分率)轉換成自然對數(shù)Ln(p/1-p);②計算所有對數(shù)的標準差;③將題目真實通過率的對數(shù)進行相應的標準差調整,即分別增加或降低0.5、1個標準差;④將調整后的題目轉換回到真實通過率量表上去。因此,反饋的五類題目作答數(shù)據(jù)組分別為真實作答通過率組T組和調整后作答通過率組T+0.5SE、T-0.5SE、T+1SE、T-1SE組。
2.2.3實驗步驟
準備階段:向評委組介紹五年級語文學業(yè)成就測驗背景目的及Angoff方法流程,熟悉操作環(huán)節(jié)。實驗階段:分兩輪進行。第一輪呈現(xiàn)55道題目評定表,要求評委組在認真瀏覽試卷上每道題目后,閱讀相關資料,估計每等級內最低能力水平學生群體答對百分率。第二輪向評委組反饋考生題目作答通過率。提醒如果數(shù)據(jù)顯著不同于自己預期,請專家再仔細地閱讀題目,進行深入細致的小組討論。繼續(xù)鼓勵專家小組討論存在較大判斷差異題目,考慮產(chǎn)生組內差異原因。開始第二輪評定。
2.3研究問題及數(shù)據(jù)分析方法
2.3.1研究問題
研究問題包括反饋考生作答數(shù)據(jù)是否會對評委組的制定結果產(chǎn)生影響?向各評委組反饋未調整作答數(shù)據(jù)和調整作答數(shù)據(jù)后,其更改判斷的程度是否相同? 同時假設如果評委認為在反饋數(shù)據(jù)幫助下,能夠更清楚地甄別出題目存在的問題從而更改初始判斷,那么推斷評委會更改那些具有真實作答數(shù)據(jù)反饋的題目,而對那些具有調整后作答數(shù)據(jù)反饋的題目或不做調整或做較小幅度調整。
2.3.2數(shù)據(jù)分析方法
單因素方差分析:在整卷水平,對各評委組制定的測驗合格、優(yōu)秀分數(shù)線進行差異分析,檢驗各評委組初始分數(shù)線差異情況及反饋考生題目作答數(shù)據(jù)后最終分數(shù)線差異情況。采用軟件SPSS18.0完成數(shù)據(jù)分析。
在每道題目上,評委均需估計(合格、優(yōu)秀水平)最低能力考生群體正確回答的概率。對與分數(shù)線相對應能力水平的考生群體而言,此概率與項目反應理論下的經(jīng)驗條件概率在邏輯上存在密切相關。而這種對應關系被認為是評價判斷劃定結果合理性的重要基礎,也是Angoff方法的重要組成部分(Clauser et al.,2002)。
依據(jù)已有研究的應用情況(Clauser et al.,2002;Clauser et al.,2009b),采用2PLM來估計臨界分數(shù)相對應能力水平學生通過某題目的經(jīng)驗條件概率,其所期待的指定能力水平的考生正確反應概率(經(jīng)驗條件概率)被表示為:
a:表示題目區(qū)分度,b:表示題目難度,θ:表示能力水平,P:表示為經(jīng)驗條件概率,即能力水平為θ的考生通過某題目的經(jīng)驗條件概率,量表因子D為1.7。
以Hambleton等人(1991)相關方法為依據(jù),確定臨界分數(shù)對應能力水平為θ的考生群體答對某題目的經(jīng)驗條件概率p(θ)的步驟為:①通過兩參數(shù)模型獲得測驗期望分數(shù)(原始分數(shù)量尺)和能力量尺的關系;②將每位專家對每道題目的判斷結果加和求平均,得到測驗原始臨界分數(shù)后,根據(jù)測驗期望分數(shù)和能力量尺的關系,找到相對應學生能力值θ。 ③將每個臨界分數(shù)所對應的學生群體能力值θ代入各題的兩參數(shù)模型,即可得到該群體答對每題的經(jīng)驗條件概率p(θ)。
采用軟件PARSCALE4.1完成數(shù)據(jù)分析,且55道題目與模型的擬合系數(shù)均在0.8~1.2之間,表明模型擬合良好。
2.3.3相關概率指標說明
PI(合格),PI(優(yōu)秀):第一輪未提供考生題目作答數(shù)據(jù)前,評委組基于領域內容分別對剛剛達到合格、優(yōu)秀水平學生群體答對某題目的初始直接的概率判斷。
安和莊所屬乍舌,就是患得患失的鬼算盤也瞪大了眼睛,因為溫文爾雅的蕭飛羽竟然能夠以內力與修為譽為宇內第一的強者抗衡。紫陽道長對天問大師傳音:“試招有三分對七分之嫌?!?/p>
PR(合格),PR(優(yōu)秀):第二輪提供考生題目作答數(shù)據(jù)后,評委組根據(jù)反饋作答數(shù)據(jù)對剛剛達到合格、優(yōu)秀水平學生群體答對某題目直接的概率判斷。
CI(合格),CI(優(yōu)秀):第一輪未提供考生題目作答數(shù)據(jù)前,根據(jù)兩參數(shù)模型,所得到的評委組基于領域內容確定的合格、優(yōu)秀水平分數(shù)線對應能力水平的學生答對某題的初始經(jīng)驗條件概率。
CR(合格),CR(優(yōu)秀):第二輪提供考生題目作答數(shù)據(jù)后,根據(jù)兩參數(shù)模型,所得到的評委組根據(jù)反饋作答數(shù)據(jù)確定的合格、優(yōu)秀水平分數(shù)線對應能力水平的學生答對某題的最終經(jīng)驗條件概率。
3研究結果與分析
3.1作答數(shù)據(jù)反饋對分數(shù)線制定的影響——基于對整卷制定結果的單因素方差分析
表1 作答數(shù)據(jù)反饋對于分數(shù)線制定的影響
注:Ⅰ表示第一輪制定結果;Ⅱ表示第二輪制定結果。
單因素方差分析結果由表1所示:對于第一輪評委組判斷的結果分析表明,在僅基于領域內容所制定的初始合格線Ⅰ、優(yōu)秀線Ⅰ方面,各評委組之間不存在顯著性差異F(4,20)=0.59,p>0.05;F(4,20)=0.96,p>0.05。對于第二輪評委組判斷的結果分析表明,在反饋考生作答數(shù)據(jù)后,各評委組所制定的合格線Ⅱ、優(yōu)秀線Ⅱ存在顯著性差異F(4,19)=5.73,p<0.01,η2=0.55;F(4,19)=22.55,p<0.01,η2=0.83,說明各評委組接受的學生作答信息對其合格線、優(yōu)秀線的判定產(chǎn)生了顯著影響。具體而言,在接受學生作答信息后,各專家組均有所提高;在優(yōu)秀分數(shù)線上,T組、T±0.5SE組、T+1SE組均有所提高,而T-1SE組有所降低。對于評委組兩輪所制定的合格線差值絕對值|Ⅰ-Ⅱ|、優(yōu)秀線差值絕對值|Ⅰ-Ⅱ|的結果分析表明,在合格線調整幅度方面存在邊緣顯著差異F(4,19)=2.63,p=0.07,η2=0.36。合格線調整幅度與反饋作答數(shù)據(jù)的調整幅度間具有中等程度的負相關(r=-0.28),這意味著作答數(shù)據(jù)被調整的幅度越大,評委組對于合格線調整的幅度越小。而在優(yōu)秀線調整幅度方面則不存在顯著性差異F(4,19)=0.50,p>0.05,調整幅度與反饋作答數(shù)據(jù)的調整幅度無關(r=0.001)。
總的來說,作答數(shù)據(jù)反饋對合格線和優(yōu)秀線的制定結果產(chǎn)生顯著影響。對合格線的影響體現(xiàn)在:在所有專家組均調高合格線的同時,并未貿然隨著反饋作答數(shù)據(jù)的調整幅度而相應增加調整力度,而是在將數(shù)據(jù)與領域內容進行結合分析后相應減少調整幅度;對優(yōu)秀線的影響則體現(xiàn)在:雖然在相應調整幅度方面不存在顯著性差異,但是當反饋的作答數(shù)據(jù)明顯低于真實作答數(shù)據(jù)(T-1SE)時,優(yōu)秀線隨之下降。優(yōu)秀線下調是否出于評委組保證相應優(yōu)秀率的考慮,還有待于研究證實。
3.2作答數(shù)據(jù)反饋對分數(shù)線制定的作用——基于題目的項目反應理論兩參數(shù)模型的分析
表2 基于領域內容的初始概率判斷(PI)與相應經(jīng)驗條件概率判斷(CI)的相關分析
注:*表示相關系數(shù)顯著(p<0.05),**表示相關系數(shù)非常顯著(p<0.01),下同。評委組基于領域內容的題目初始直接概率判斷(PI)與基于兩參數(shù)模型的經(jīng)驗條件概率判斷(CI)之間的相關表明了基于領域內容的初始分數(shù)線劃定的邏輯合理性程度。結果如表2和圖1所示:在未反饋題目作答數(shù)據(jù)前,①無論是制定合格線還是制定優(yōu)秀線,PI與CI之間存在低至中等程度的相關(0.21~0.51)。②制定合格線時PI與CI之間的相關程度大都高于優(yōu)秀線(0.38>0.32,0.48>0.35,0.51>0.27,0.34>0.21)。
表3 基于作答數(shù)據(jù)反饋的概率判斷(PR)與相應條件概率判斷(CR)相關分析
評委組基于反饋作答數(shù)據(jù)調整后的題目直接概率判斷(PR)與基于兩參數(shù)模型的經(jīng)驗條件概率判斷(CR)之間的相關表明了反饋作答數(shù)據(jù)調整后的分數(shù)線劃定的邏輯合理性程度。結果如表3和圖1所示。在反饋題目作答數(shù)據(jù)后,①無論是制定合格線還是制定優(yōu)秀線,PR與CR之間存在中等至較高程度的相關(0.49~0.97),且較本組表2中PI與CI之間的相關有了較大幅度提高(除T+0.5SE組外);②對基于真實作答數(shù)據(jù)反饋的T組而言,PR與CR間的相關已達到很高的程度(0.84,0.96)。雖其與T-0.5SE組和T-1SE組無明顯差異,但卻明顯高于T+0.5SE組和T+1SE組;③在制定優(yōu)秀線時PR與CR之間的相關程度大都高于合格線(0.96>0.84,0.97>0.83,0.75>0.66,0.94>0.85)。
表2、表3和圖1綜合反映了在題目水平,反饋和不反饋題目作答數(shù)據(jù)條件下,評委組的直接概率判斷與基于兩參數(shù)模型的經(jīng)驗條件概率判斷之間相關關系的變化情況:①在反饋考生題目作答數(shù)據(jù)后,專家直接判斷概率與基于模型的相應經(jīng)驗條件概率之間的相關均有顯著提高,這意味著無論反饋給專家的數(shù)據(jù)是否屬實,前者均受到數(shù)據(jù)反饋的顯著影響。②當反饋的調整后題目作答通過率數(shù)據(jù)高于真實作答情況時(T+0.5SE、T+1SE組),評委組受到數(shù)據(jù)反饋的影響相對較?。欢敺答伒恼{整后題目作答通過率數(shù)據(jù)低于真實作答情況(T-0.5SE、T-1SE組),評委組受到數(shù)據(jù)反饋的影響與T組接近。③制定合格線時PI與CI間相關程度大都高于優(yōu)秀線,在制定優(yōu)秀線時PR與CR間相關程度大都高于合格線,可能由于在合格線的制定時相對較大程度地依據(jù)所考查的領域內容,而在優(yōu)秀線制定時則相對較大程度依據(jù)所反饋的考生作答數(shù)據(jù)。
在上述研究結果基礎上,深入探求反饋不同條件作答數(shù)據(jù)即真實作答數(shù)據(jù)和調整后的作答數(shù)據(jù),基于領域內容的初始直接判斷對數(shù)據(jù)反饋調整后判斷的影響或者解釋程度。與Clauser(2009)研究相同,采用|PI-CI|與|PR-CR|間的相關系數(shù)(R)和決定系數(shù)(R2)來說明這種影響程度或者解釋程度,決定系數(shù)越大解釋程度越高。
注:RI代表PI和CI的相關系數(shù),RR代表PR和CR的相關系數(shù)。圖1 基于領域內容概率判斷(PI,CI)與基于作答數(shù)據(jù)反饋概率判斷(PR,CR)散點系列圖
專家小組相關/決定系數(shù)TT+0.5SET+1SET-0.5SET-1SE合格優(yōu)秀合格優(yōu)秀合格優(yōu)秀合格優(yōu)秀合格優(yōu)秀TR0.69**0.59**R20.48**0.35**T+0.5SER0.54**0.62**R20.71**0.38**T+1SER0.91**0.69**R20.83**0.48**T-0.5SER0.50**0.59**R20.25**0.35**T-1SER0.82**0.22R20.67**0.05
結果如表4和圖2所示:①無論是制定合格線還是制定優(yōu)秀線,對基于真實作答數(shù)據(jù)反饋P組和其它四組來說,|PR-CR|與|PI-CI|之間均存在中等至較高程度的相關(除T-1SE組優(yōu)秀線外),且|PI-CI|對|PR-CR|的解釋度R2處于25%~83%間,為中等至較高水平。此與由表2、表3和圖1所得研究結果相同。②與T組相比,T+0.5SE和T+1SE組的|PI-CI|與|PR-CR|間相關系數(shù)較高,解釋度也較高(38%~83%),而T-0.5SE和T-1SE組的相關系數(shù)略低(除-1SE組合格線外),解釋度也相對較低(5%~35%)。深入分析表明,當所反饋的調整后題目作答概率高于真實作答概率情況時,|PI-CI|對|PR-CR|具有相對較高解釋度,即領域內容的初始直接判斷在較大程度上影響了數(shù)據(jù)反饋調整后的判斷。這意味著,后者的判斷在很大程度上依賴于前者,即在判斷過程中結合了領域內容信息而非僅僅依賴于所反饋的數(shù)據(jù)。當所反饋的調整后題目作答概率數(shù)據(jù)低于真實作答概率情況時,|PI-CI|對|PR-CR|具有相對較低的解釋程度,即領域內容的初始直接判斷在較小程度上影響了數(shù)據(jù)反饋調整后的判斷。這意味著后者的判斷在很小程度上依賴于前者,即在判斷過程中更多地結合了由反饋得到的調整后數(shù)據(jù)。
4綜合討論
以大規(guī)模學業(yè)成就水平測試為背景,通過合格線與優(yōu)秀線的標準設定過程,考查了評委是否將反饋的考生作答數(shù)據(jù)結合進Angoff方法且如何運用這些數(shù)據(jù)的情況,得到兩個重要結論:①無論反饋的考生作答數(shù)據(jù)真實與否,均會對評委制定結果產(chǎn)生明顯影響。此與美國學者Clauser等(2002)、Clauser等(2009b)的研究結論相一致。②與反饋真實作答數(shù)據(jù)組相比,部分被反饋了調整后數(shù)據(jù)的評委組也對題目做了基于領域內容的相應調整。此結論與Clauser等(2009b)認為所反饋真實數(shù)據(jù)和調整后數(shù)據(jù)對評委組產(chǎn)生了“相同程度影響”的結論存在差異。例如,評委組在整卷水平并未依賴作答數(shù)據(jù)調整幅度而相應增加對合格線的調整力度,在題目水平當反饋的調整后題目作答數(shù)據(jù)高于真實作答情況時(T+0.5SE組,T+1SE組),其受到作答數(shù)據(jù)反饋的影響相對較小。這表明評委在一定條件下,面對調整后數(shù)據(jù)且沒有提供任何關于考生如何作答題目的更深層信息時,依然依賴其領域知識而非僅數(shù)據(jù)結果,故并未大幅度更改其初始判斷。與此同時,還需要關注的是,當反饋的調整后題目作答數(shù)據(jù)低于真實作答情況時(T-0.5SE組,T-1SE組),即數(shù)據(jù)是調整后的且未提供任何關于考生如何作答題目的更深層信息時,專家還是愿意改變其判斷。這充分表明評委在一定條件下,還會過重地依賴于反饋數(shù)據(jù)而非領域知識,且進行了機械地追隨和運用。
當前研究還發(fā)現(xiàn)與上述結論相關的兩個現(xiàn)象:①制定合格線時相對較多地依據(jù)了所考查的領域內容,而在制定優(yōu)秀線時則相對較多地依據(jù)了所反饋的考生題目作答數(shù)據(jù),推斷可能與評委組對學科課程標準的熟悉程度有關。我國當前義務教育階段的學科課程標準即為合格標準,而優(yōu)秀標準則未做清晰的說明與界定。因此,評委對于合格水平學生群體所應掌握的內容及程度較為熟悉,而且合格率又是判斷教育教學質量的核心基線指標,這或許是對于合格線判斷較為慎重且更倚重于領域內容的深層原因。②專家組對低于和高于真實反饋數(shù)據(jù)值的判斷模式不同,高于時更依賴于領域內容。這可能是由于作為學業(yè)成就水平測試的標準參照測驗,多年來其難度一直較低即考生群體的題目答對率相對較高。因此,在調整后更高的反饋數(shù)據(jù)可能會引起專家學者的警覺,在基于領域內容找不到充分合理解釋的時候,其調整的可能性較小,即使調整其客觀可調整幅度也會較小。
圖2 基于領域內容的|PI-CI|與基于作答數(shù)據(jù)反饋的|PR-CR|的散點系列圖
綜上所述,在應用Angoff方法于標準參照測驗分數(shù)線制定過程中,是否反饋數(shù)據(jù)對劃定結果的影響極為復雜。在此情況下,簡單判定支持或放棄Angoff方法均不可取且也很難保證其他方法就能完全提供基于內容的判斷而同時避免實驗中所體現(xiàn)的問題。因此,在今后運用Angoff方法制定分數(shù)線的過程中,如何有效地設計與實施前期的熱身練習并在此過程中引導評委正確解讀、運用所反饋的數(shù)據(jù)信息應為關注重點。此外,由于受客觀環(huán)境所限,當前實驗研究僅選取在真實作答通過率基礎上增加或降低0.5、1個標準差的條件下開展,建議在今后同類研究中可設定范圍更寬、間隔更細的實驗條件進行。
5研究結論
在Angoff標準設定方法中,無論反饋的考生題目作答數(shù)據(jù)真實與否,均會對合格線和優(yōu)秀線制定結果產(chǎn)生明顯影響;反饋未經(jīng)調整的真實考生題目作答數(shù)據(jù)對分數(shù)線制定影響較大。與其相比,反饋調整后的高于真實考生題目作答數(shù)據(jù)對分數(shù)線制定影響相對較小,反饋調整后的低于真實考生題目作答數(shù)據(jù)對分數(shù)線制定影響相對較大;反饋考生題目作答數(shù)據(jù)對合格線制定影響相對較小,即制定合格線較多依賴領域內容的判斷;而對優(yōu)秀線制定影響相對較大,即制定優(yōu)秀線較多依賴于考生題目作答數(shù)據(jù)的反饋。
參考文獻
常蕤.(2008).一種基于Rasch模型的Angoff方法及其應用.心理學探新,28(4),76-79.
汪存友,余嘉元.(2010).關于兩種Angoff法比較的模擬實驗研究.心理科學,33(1),159-161.
Angoff,W.H.(1971).Scales,norms,and equivalent scores.In R.L.Thorndike(Ed.),Educationalmeasurement(2nd ed.,pp.508-600).Washington,DC:American Council on Education.
Brandon,P.R.(2004).Conclusions about frequently studied modified Angoff standard setting topics.AppliedMeasurementinEducation,17,59-88.
Clauser,B.E.,Swanson,D.B.,& Harik,P.(2002).A multivariate generalizability analysis of the impact of training and examinee performance information on judgments made in an Angoff-style standard-setting procedure.JournalofEducationalMeasurement,39,269-290.
Clauser,B.E.,Harik,P.,Margolis,M.J.,McManus,I.C.,Mollon,J.,Chis,L.,& Williams,S.(2009a).Empirical evidence for the evaluation of performance standards estimated using the Angoff procedure.AppliedMeasurementinEducation,22,1-21.
Clauser,B.E.,Mee,J.,Baldwin,S.G.,Margolis,M.G.,& Dillon,G.F.(2009b).Judges’ use of examinee performance data in an Angoff standard-setting exercise for a medical licensing examination:An experimental study.JournalofEducationalMeasuremen,46,390-407.
Dillon,G.F.,& Walsh,W.P.(2000).Using performance data to set standards:Practical impact and the perception of judges.CLEARExamReview,11(1),15-18.
Hambleton,R.K.,Swaminathan,H.,& Rogers,H.J.(1991).Fundamentalsofitemresponsetheory.Newbury Park,CA:Sage.
Hambleton,R.K.,& Pitoniak,M.J.(2006).Setting performance standards.In R.L.Brennan(Ed.),Educationalmeasurement(4th ed.,pp.433-470).Westport,CT:American Council on Education/Praeger.
Hambleton,R.K.(2001).Setting performance standards on educational assessments and criteria for evaluating the process.In G.Cizek(Ed.),Standardsetting:Concepts,methodsandperspectives(pp.89-116).Mahwah,NJ:Erlbaum Associates.
Influence of the Feedback of Students’ Performance Data on Standard-setting Result in Angoff Method
Zhang YongmeiTian YiHao YiLi Meijuan
(Beijing Academy of Educational Sciences,Beijing 100191)
Abstract:Based on the large-scale academic test,the study used between group design,divided the experts into five groups,and provided them with the examinee true performance data,up or down 0.5 or 1 standard deviations of the true data.At the same time,the study used one-way ANOVA and two parameter model to test that how the experts read the performance data to set standard in the Angoff method.The results show that the feedback of the data had the significant influence on the setting of the qualified line and the excellent line;the feedback with unadjusted and true performance data had great influence on the standard setting.Compared with that,the feedback with adjusted and above the true performance data had smaller influence on the standard setting,and the feedback with adjusted and below the true performance data had greater influence on the standard setting.
Key words:Angoff method;standard setting;feedback of the students’ performance data
中圖分類號:B841.2
文獻標識碼:A
文章編號:1003-5184(2016)01-0084-08
通訊作者:田一,E-mail:tianyio-001@163.com。郝懿李美娟