汪劍
內(nèi)容摘要:本研究對2015年河南省英語中招試卷中的客觀題部分的性別進行公平性分析。研究問題:(1)該試卷是否存在對某一性別更有利的題項;(2)該試卷中5個語篇是否存在對男性考生,或女性考生更有利的語篇。研究發(fā)現(xiàn):(1)該試卷中的第22題和第45題對女考生不利:(2)該試卷中5個語篇沒有對某一性別考生存在明顯有利或不利。結(jié)果表明,該試卷在性別層面存在些許不公平的題項,但總體質(zhì)量較好。
關(guān)鍵詞:河南省中考英語試卷 性別 公平性
一.引言
公平性問題是中考這種規(guī)模的考試必須看重的問題,對河南省這種人口大省來說更甚。任何涉及不公平的因素都可能產(chǎn)生重大的社會效應(yīng)。涉及公平性的因素很多,性別因素是其中容易被忽略的一個側(cè)面,但是同等能力但性別不同的受試,在某些題項上則可能存在明顯的差異性,在大樣本下觀測,這種差異性可能更顯著。
二.項目功能差異簡介
項目功能差異檢測(DIF)是檢驗大規(guī)??荚嚨墓叫缘某S玫囊环N統(tǒng)計方法。DIF是指,對于某個特定項目,如果在來自同一目標特質(zhì)的兩批平行被試組中,顯現(xiàn)出不同的統(tǒng)計特性,那么該項目就存在功能差異。(董圣鴻,馬世曄,2001)“同一目標特質(zhì)的兩批平行被試組”是指在測驗打算測查的能力(目標特質(zhì))上,兩組被試具有相同的水平。
在大部分西方發(fā)達國家,DIF檢測已是大規(guī)模測試研發(fā)的重要一環(huán),在大規(guī)模測試實施前,都會進行一定規(guī)模的試測,并進行DIF檢測,據(jù)此剔除有瑕疵的題項。在國內(nèi)測量領(lǐng)域?qū)W者在上世紀末已將該方法引介到國內(nèi)并進行了一些涉及方法論研究(曾秀芹、孟慶茂,1999;董圣鴻,馬世曄,2001;曹亦薇,張厚粲,1999)。也有部分學(xué)者對某些具體的測試進行了一些實證性研究,有部分學(xué)者已將該方法運用到語言測試的公平性研究中,如漢語水平考試(黃春霞,2004)(鹿士義,2004),高考英語考試(雷新勇,2007),英語專四考試(李清華,孔文,2009)等。但是尚未見到從性別公平角度對中招考試進行的相關(guān)實證研究。目前河南省這個人口大省,每年參加中招考試的人數(shù)眾多,考生之間性別,背景等方面存在較大差異,因此對該考試進行性別偏差研究是非常必要的。
目前測量界已有多種檢測項目功能差異DIF的方法,在諸多方法中,MH(Mantel-Haenszel Pro-cedurel檢測法和SIBTEST (Si-muhaneous Item Bias Proce-dure)比較常用。因為SIBTEsT存在眾多優(yōu)勢,且本研究對象河南省英語中考試卷中包含的英語閱讀測試每篇閱讀任務(wù)帶有若干題目(可以視為項目束),因此本研究選用SIBTEST方法進行。
三.研究設(shè)計
(一)研究對象
本研究研究對象為河南省2015年中招英語試題中的客觀題。本研究擬考察該卷中五個客觀題型中總共75個題項的性別公平性。五個部分分值共計95分(總分120),包括:20題聽力理解(單選題)、15題單項選擇(單選題)、包括10個題項的1篇完形填空題(單選題)、4個語篇的閱讀理解題(單選題,每個語篇5個選擇題)、10個詞語運用題(選詞填空題)。此外,因為完形填空和閱讀理解題,每個語篇都是多個題項,即多個題項根據(jù)考生對同一個語篇的理解來進行能力考察的,因此,本研究還對所有語篇進行性別方面的項目束功能差異檢驗。
(二)研究問題
問題1,河南省該年英語中招試卷中所有客觀題項在性別方面是否存在項目功能差異,即該試卷中是否存在對某一性別更有利的題項
問題2,該年河南省英語中招試卷中在語篇方面是否存在項目束功能差異,即該試卷中包括完形填空和閱讀理解共計5個語篇中是否存在對某一性別更有利的語篇
(三)研究樣本
本研究施測對象為兩所中學(xué)九年級共1000名同學(xué),其中男生女生分別為500人(實際參加測試的學(xué)生為1200余人,因需要男生和女生實現(xiàn)一對一匹配,從中隨機選擇各500名)。
(四)研究工具
本研究使用應(yīng)用廣泛的SIBTEST軟件,版本為SIBTest1.7。先運行SIBIN,然后運行SIBTEST。得到的分析結(jié)果中,B為正值,表示對參照組有利;B為負值,表示對目標組有利。顯著水平定為0.05。
(五)研究步驟
第一,施測并整理數(shù)據(jù)。
本研究用該真題對受試對象進行測試(在第一次月考中進行,避免太多學(xué)生已經(jīng)接觸該試卷,從而造成考試信度不高的問題);測試完畢后,用專用統(tǒng)計軟件對本次考試的所有實測情況進行統(tǒng)計(將所有考生的原始答案依據(jù)是否得分轉(zhuǎn)換為“0”、“1”數(shù)據(jù)),按照性別分類并命名為男生組和女生組,儲存?zhèn)溆?。本研究假設(shè)有題項對女生組不利,女生組為目標組,男生組為參照組。
第二,用軟件處理數(shù)據(jù)。
(1)數(shù)據(jù)處理第一步:運用SIBTEST程序進行分析。第一次將所有的項目都列為懷疑有存在項目功能差異,經(jīng)篩選懷疑存在項目公平差異的題目包括:2道聽力理解,2道單項選擇題,2道完形填空題,2道閱讀理解題,1道詞語運用題;把這些題項分別剔除,對剩下的題目進行再一次操作,反復(fù)進行,直到?jīng)]有DIF項目為止,這樣得到一個最佳的匹配變量;把篩選出來的項目組成一個“懷疑分測驗組”,用上一步操作得到的最佳匹配變量,再運用程序運算,如果此時得到的項目的B值,仍然在0.05的標準之上,那么這樣的項目就是有DIF的項目。
(2)分別用SIBTEST軟件檢測5個語篇項目束功能差異
第三,對得出的數(shù)據(jù)進行統(tǒng)計學(xué)意義的解讀:即根據(jù)數(shù)據(jù),哪些題目體現(xiàn)出了統(tǒng)計學(xué)意義上的項目功能差異(DIF),對目標組有利或不利;哪些題目體現(xiàn)出了統(tǒng)計學(xué)意義上的項目束功能差異(DBF),對目標組有利或不利。
四.討論
(一)問題1的討論
試卷中第22題和第45題的B值分別為0.072和0.068,超過了0.05的界限,達到了顯著水平。表明這兩道題目存在明顯的性別項目功能差異,對目標組(即女生組)不利。
第22題:-Is this phototaken in Tibet?
-Yes.You can see beautiful snow mountain in the of____the photo.
A.form B.background C.shape D.introduction
該題答案為B.
針對第22題的檢測結(jié)果,結(jié)合具體題目,筆者認為可能有兩種解釋:第一,題干中有一個“Titet”這個生詞,而這個詞經(jīng)常出現(xiàn)在政治性語篇中,而男同學(xué)對政治性語篇比較敏感,所以清楚地知道這個詞的意思,這樣能更好地理解題干的語境,所以能更好地作答,選出正確答案;第二,男同學(xué)更可能對攝影這個話題感興趣,更能理解題干的意思,所以更可能選出正確答案。
第45題為完型填空部分的最后一個段落,上下文和選項如下:
The child replied,“My daddy is the 45,and he is taking me home.”
45.A.guard B.driver C.pilot D.traveller
該題答案為C.
針對第45題的檢測結(jié)果,結(jié)合完型填空的上下文,筆者認為造成這種結(jié)果的原因可能在于:四個選項中,C選項應(yīng)該是所有選項中在日常學(xué)習(xí)中出現(xiàn)詞頻最低的詞,但是“pilot”所代表的飛行員這個職業(yè)是很多男同學(xué)期望的職業(yè)之一,所以男生對該詞更敏感一些,所以更可能選對正確的答案,而女生更可能會選到干擾項B。
(二)問題2的討論
問題2結(jié)果顯示,該試卷中所有語篇中,雖然5個語篇里的單個題目表現(xiàn)出了一定程度的項目功能差異,但是任何一個語篇的項目束差異都沒有表現(xiàn)出突然增大或突然縮小。因此,我們可以得出結(jié)論:本次考試選用的5個語篇在統(tǒng)計意義上沒有對目標組明顯不利或有利,本次試卷的語篇選用沒有明顯的項目束功能差異,即本次考試的語篇選用對相同能力但性別不同的考生不會造成成績在統(tǒng)計學(xué)上的差異。
五.結(jié)論
本研究發(fā)現(xiàn):第一,本次試卷中的第22題和第45題兩道題目存在明顯的性別項目功能差異,對目標組,即女考生不利。但根據(jù)DIF顯著性的判斷標準,此類題目在選用時需考慮,但是仍可以采用;第二,本次試卷中的完型填空和閱讀理解共5個語篇(項目束)在性別方面沒有明顯的項目束功能差異,這五個語篇對某個性別的考生沒有明顯不利或有利。這說明本次考試的語篇較好,沒有造成性別層面的不公平現(xiàn)象。
本研究對2015年河南省中考英語試卷進行項目功能差異分析,分析改試卷在性別方面的公平性問題,是對該考試效度和信度的一個檢驗。本研究由于主客觀條件的限制,存在很多不足。比如,數(shù)據(jù)來源不是第一手的施測數(shù)據(jù),樣本代表性不充分;另外對結(jié)果的解釋,更多憑借筆者的主觀猜斷,主觀性較強;再加上本研究局限于對二級題型進行了檢測,沒有涉及到該卷中的主觀題部分,因此僅憑這得出的結(jié)果,可能有失偏頗。