• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      兩種DIF檢測方法的模擬研究

      2014-11-08 08:06:34廖虹宇王立君
      中國考試 2014年5期
      關鍵詞:錯誤率樣本量一致性

      廖虹宇 王立君

      1 引言

      考試作為一種相對公平競爭的機制,從古至今都是人才選拔的主要方式?,F(xiàn)代社會不管是升學、就業(yè)升職等都離不開考試,考試的重要性日益凸顯。那么考試項目本身是否足夠公平?考試內容是否有利于某些群體,而對另外的群體不利呢?同時,在考試公平性受到影響時,考試的效度也得不到保證?,F(xiàn)代考試采用項目功能差異(Differential Item Functioning,DIF)來研究該問題。DIF分析作為評估測驗公平性和效度的關鍵,已經成為世界標準化考試質量分析的必要環(huán)節(jié)。由于DIF研究的重要性,曾秀芹和孟慶茂(1998,1999)等較早在國內進行了DIF的相關研究,隨后嚴芳和張增修(2001),任杰(2002),曹亦薇(2003)張穎和趙世明(2004),鹿士義(2004),劉文、邊玉芳和陳玲麗(2010)等將DIF分析運用到了各種測驗的分析當中,可見國內越來越多的研究者開始重視DIF分析在測驗質量評估中的作用。另外,關于DIF方法的比較也涌現(xiàn)出一些文章,如董圣鴻和馬世曄(2001),于媛穎(2004),駱方和張厚粲(2006)。但是這些研究都是基于實際數(shù)據(jù)的研究,由于實際數(shù)據(jù)的特殊性,用其作為研究的基礎,難以對不同方法間的特性差異得出普遍的結論。而Monte Carlo模擬作為一種經濟高效的方法可以為我們提供更為普遍的結論。因此,本研究采用Monte Carlo模擬,對兩種常用的DIF分析方法進行比較。

      目前,已經開發(fā)出了許多DIF檢測方法,如MH方法(Mantel-Haenszel Procedure),SIBTEST方法(Simultaneous Item Bias Procedure),LR方法(Logistic Regression Procedure),STND 方法(Standardization),Lord卡方檢驗法等。各種方法都有其優(yōu)缺點,在此本文選取MH和LR方法,兩種方法均使用普遍,且檢出率高。MH方法計算簡單,花費低,易于實際應用,且不要求大樣本(Narayanan&Swaminathan,1996)。LR方法可以看作MH方法的擴展方法,可同時有效地檢測一致性DIF(Uniform DIF)和非一致性DIF(Nonuniform DIF)(Rogers&Swaminathan,1993)。

      2 兩種DIF檢測方法的介紹

      2.1 MH方法

      MH方法由Mantel和Haenszel(1959)首先提出,Holland(1985)以及Holland和Thayer(1988)把這種方法用于檢測項目功能差異[3]?,F(xiàn)在已經成為檢測DIF應用最為廣泛的一種方法。MH法用于偵查兩級記分項目的DIF,以測驗總分作為匹配變量。MH方法統(tǒng)計量的計算建立在一張S×2×2的列聯(lián)表中,其中S是測驗總分的水平數(shù),對于其中的任一水平K,可構成一個來自兩子群體在項目上得、失分數(shù)的2×2列聯(lián)次數(shù)表(見表1)。

      表1 MH法S×2×2列聯(lián)表

      根據(jù)樣本數(shù)據(jù)完成上述的S×2×2列聯(lián)表,即可按表中數(shù)據(jù)計算αMH,公式如下:

      其中f1rk、f0rk分別是在第k個能力水平組中,參照組答對項目的人數(shù)和答錯項目的人數(shù);f1fk、f0fk則是目標組答對的人數(shù)和答錯的人數(shù)。

      αMH的取值介于0至正無窮之間。αMH=1.0時,表示該研究項目無DIF;αMH<1.0時,表示研究項目對目標組有較低難度;αMH>1.0時,表示所研究項目對參照組有較低難度。但是由于αMH的計算來自樣本數(shù)據(jù),因此對其值是否等于1.0必須進行統(tǒng)計檢驗(董圣鴻,馬世曄,2001)。

      2.2 LR方法

      Swaminathan和Rogers于1990年介紹了此方法:令Y為項目分數(shù)變量,取值為1或0;令Z為觀察變量,通常為測驗總分;令V為被試分類變量。在完全的Logistic回歸模型中,在給定Z與V的條件下,被試正確作答該測驗項目的概率為:

      對上式兩邊取對數(shù),整理得:

      這樣就將Logistic回歸模型轉化成了線性回歸模型,因變量就是我們通常所說的Logit,Z和V都是觀察變量,ZV項僅是一個記號,表示兩觀察變量的組合水平。雖非直接觀察變量,但也可由Z與V的觀察變量而推定。用極大似然法或最小二乘法等其他方法估出回歸參數(shù)β0、β1、β2和β3。對于這些估計的回歸參數(shù)可以用假設檢驗方法檢驗它們的顯著性。檢驗的不同結果,對DIF的檢測有不同的含義:如果方程中只有β0與β1不為零(與零有顯著差異),則表示該項目無DIF;如果方程中β0、β1與β2均不為零,表示該項目有一致性DIF;如果ZV項參數(shù)β3也不為零,則表示項目存在非一致性DIF](鹿士義,2004)。

      3 實驗設計

      3.1 數(shù)據(jù)模擬

      本研究所使用的是兩參數(shù)Logistic模型,對于任意一個能力為θ的被試,其在項目i上的正確作答概率Pi(θ)為:

      其中,被試能力參數(shù)θ~N(0,1),項目區(qū)分度ln(a)~N(0,1),難度參數(shù)b ~N(0,1),D=1.7。

      3.2 DIF項目模擬設計

      本研究固定測驗長度為50個項目,均為二級記分項目。50個項目的原始參數(shù)情況(見表2)。無DIF的項目在目標組與參照組中各參數(shù)不變,即不同組中能力相同的被試,其在該類項目上的正確作答概率相同;有一致性DIF的項目在兩組中具有不同的難度,相同的區(qū)分度,因此通過改變其中一組被試的項目難度參數(shù)來設定有一致性DIF的項目;有非一致性DIF的項目在兩組中具有不同的區(qū)分度,相同的難度,因此通過改變其中一組被試的項目區(qū)分度參數(shù)來設定有非一致性DIF的項目。

      3.3 研究設計

      表2 項目參數(shù)情況

      兩被試組的匹配變量為被試在無DIF的題目上的得分和。

      本研究的自變量如下:樣本量(300,800,1200,1600,2000),DIF值大?。?.25,0.5,1),DIF項目的比例(8%,16%,24%),DIF方法(MH和LR)。已有研究表明,要想得到合適的檢出率,參照組和目標組的樣本量至少分別要200~250人(Swaminathan&Rogers,1990;Rogers&Swaminathan,1993)。為了獲得更加穩(wěn)定的結果,本文選取了300作為最小樣本量,并以2000作為最大樣本量(見表2)。在8%的項目(4個項目)有DIF時,設定3題,6題,26題,30題有DIF,前兩個項目為含一致性DIF的項目,后兩個為含非一致性DIF的項目;在16%的項目(8個項目)有DIF時,設定3題,6題,9題,12題,26題,30題,34題,40題有DIF,前4個項目為含一致性DIF的項目,后4個題目為含非一致性DIF的項目;24%的項目(12個項目)有DIF時,設定3題,6題,9題,12題,17題,21題,26題,30題,34題,40題,43題,48題有DIF,同樣前6個題目為含一致性DIF的項目,后6個題目為含非一致性DIF的項目。因此本研究的實驗設計為5×3×3×2的混合設計,共計90種實驗條件,每種條件下重復100次,共計9 000次。模擬運算用R-2.15.2進行。

      因變量:I型錯誤率和檢出率。統(tǒng)計學中I型錯誤為棄真錯誤,即當原假設為真(統(tǒng)計學意義上不顯著)時,卻錯誤地否定了原假設。在DIF分析中則表示,當原假設(題目沒有DIF)為真時,卻錯誤地否定原假設,認為題目含有DIF。如果一個DIF檢測方法I型錯誤率高,那么就說明該方法不夠好,會錯誤識別不含DIF的題目,而被錯誤識別出有DIF的題目可能會面臨被修改或刪除,從而也就增加了相應的工作量,浪費人力。檢出率為統(tǒng)計學中的正確拒斥率,也被成為統(tǒng)計檢驗力,即原假設(題目沒有DIF)為假時,正確地拒絕了原假設,認為題目有DIF。因此,檢出率高就代表該方法好,能夠很好地檢測出有DIF的項目。

      4 結果

      4.1 I型錯誤率分析

      表3呈現(xiàn)了MH和LR兩種方法在不同條件下的平均I型錯誤率。

      表3 MH和LR的平均I型錯誤率情況(α=0.05時)

      由表3可以看出,MH和LR兩種方法的I型錯誤率均在0.05左右,說明兩種方法都比較好。MH的I型錯誤率隨樣本量有較小幅度的增加(0.052增至0.0550);且隨著有DIF的項目比例的增加也有較小幅度的增加(0.0510增至0.0546);而LR的I型錯誤率在所有情況下都較穩(wěn)定,保持在0.049~0.051。因此,可以看出MH方法的I型錯誤率變動范圍比LR略大(MH:0.0510~0.0550;LR:0.0497~0.0517)。

      另外也可以看到,MH的I型錯誤率總是略高于LR的I型錯誤率,在樣本量=2000及DIF項目的比例=24%時,兩種方法的I型錯誤率差異最大。在樣本量=800時,兩種方法的I型錯誤率都最小。

      表4呈現(xiàn)了MH和LR兩種方法的檢出率情況。

      表4 MH和LR的檢出率情況

      從表4可以看到,對于DIF類型來說,MH對非一致性DIF的檢測相當差,對一致性DIF的檢出率大大高于對非一致性DIF的檢出率。對于一致性DIF,MH和LR在樣本量?。∟R=NF=300)時,檢出率能達到0.5,且MH的檢出率在所有樣本量下都是略高于LR的(Swaminathan&Rogers,1990);對于非一致性DIF,LR的檢出率則遠遠高于MH的,LR對兩種類型的DIF檢測都很好,適用于檢測兩種DIF類型。MH對非一致性DIF的檢測很差,是因為MH是設計來用于檢測一致性DIF的,其對非一致性DIF的檢測不夠敏感(Swaminathan&Rogers,1990;Li,Brooks,&Johanson,2012)。因此,兩種方法的比較在接下來僅限于比較檢測一致性DIF時的表現(xiàn)。

      兩種方法的檢出率,不管是一致性DIF還是非一致性DIF,都隨著樣本量及DIF值的增加而增加,在樣本量從300到800及DIF值從0.25增到0.5時,兩種方法檢出率的增長幅度最大??梢钥吹?,在樣本量大(NR=NF=2000)及DIF值大(DIF=1)時,除去MH檢測非一致性DIF時,此時兩種方法的檢出率都很高,在0.9左右。

      DIF項目的比例對兩種方法的檢出率的影響則不同。對一致性DIF來說,兩種方法的檢出率隨DIF項目比例的增加而增加,在DIF項目比列達到24%(12個題目有DIF)時,兩種方法的檢出率都在0.8以上;而對非一致性DIF來說,檢出率有所下降[MH:0.314(8%),0.230(24%);LR:0.803(8%),0.732(24%)]。

      從表4還可以看出,在檢測一致性DIF時,MH方法的檢出率在樣本量為1200時就已在0.8以上,而LR在1600才達到MH的水平。這可能是因為LR是參數(shù)方法,對樣本量的要求較大,因此在樣本量偏大時才能達到一個比較好的檢出率。

      5 討論

      本研究的結果與前人的研究結果一致,MH適合于檢測一致性DIF,檢測一致性DIF時,檢出率高,且略高于LR。而LR在檢測一致性和非一致性DIF時檢出率都很好,但是其對樣本量的要求較高。DIF項目的比例增加對檢出率影響隨著DIF類型的不同有所不同??偟膩碚f,MH是檢測一致性DIF非常好的方法,并且它不需要大樣本,方法簡單易用。因此ETS一直采用它對項目DIF作常規(guī)分析(余仁勝,1999)。當要研究其他方法時,通常以這個方法作為標準,將其他方法與之對比(曾秀芹,孟慶茂,1999)。LR是一個可以同時檢測一致性DIF和非一致性DIF的很強大的方法,在樣本量達到1500左右時,能夠很好地發(fā)揮其優(yōu)勢。

      項目功能差異是在我國的研究還有待進一步地深入,未來還有許多可以研究的方向,當兩被試組能力水平不同時不同方法的DIF檢測情況,不同匹配變量對DIF檢測的影響,小樣本時如何優(yōu)化DIF檢測等都值得進一步的研究。

      [1]曹亦薇.項目功能差異在跨文化人格問卷分析中的應用[J].心理學報,2003,35(1):120-126.

      [2]董圣鴻,馬世曄.三種常用DIF檢測方法的比較研究[J].心理學探新.2001,(1):43-48.

      [3]劉文,邊玉芳,陳玲麗,等.馬洛-克羅恩社會贊許性量表在跨文化研究中的項目功能差異檢驗[J].心理科學,2010,33(6):1473-1476.

      [4]鹿士義.漢語水平考試HSK的DIF研究[D].南京師范大學教育科學學院,2004:30.

      [5]駱方,張厚粲.檢驗功能差異的兩類方法——CFA和IRT的比較[J].心理學探新,2006,1(26):74-78.

      [6]任杰.中國境內外HSK成績公平性的分析[J].語言教學與研究,2002,5:69-74.

      [7]嚴芳,張增修.用Logistic Regression偵察題目差異功能[J].應用心理學,2001,7(1):57-62.

      [8]余仁勝.訪美觀感[J].考試研究動態(tài),1999(3).

      [9]于媛穎.多種DIF檢測方法的比較研究[D].北京語言大學,2004.

      [10]曾秀芹,孟慶茂.項目功能差異的簡介[J].心理學探新,1998(1).

      [11]曾秀芹,孟慶茂.項目功能差異及其檢測方法[J].心理學動態(tài),1999(2):41-47.

      [12]張穎,趙世明.醫(yī)師資格考試中的項目功能差異研究[J].中國考試,2004(10):23-26.

      [13]Li,Y.,Brooks,G.P.,&Johanson,G.A.Item Discrimination and Type IError in the Detection of Differential Item Functioning.Educational and Psychological Measurement,2012,72(5),847-861.

      [14]Narayanan,P.,&Swaminathan,H..Identification of items that show nonuniform DIF[J].Applied Psychological Measurement,1996(20):257-274.

      [15]Rogers,H.J.,&Swaminathan,H..A comparison of logistic regression and Mantel-Haenszel procedures for detecting differential item functioning[J].Applied Psychological Measurement,1993(17):105-116.

      [16]Swaminathan,H.&Rogers,H.J.Detectingitem functioningusinglogistic regression procedures[J].Journal of Educational Measurement,1990(27):361-370.

      猜你喜歡
      錯誤率樣本量一致性
      限制性隨機試驗中選擇偏倚導致的一類錯誤率膨脹*
      關注減污降碳協(xié)同的一致性和整體性
      公民與法治(2022年5期)2022-07-29 00:47:28
      醫(yī)學研究中樣本量的選擇
      注重教、學、評一致性 提高一輪復習效率
      IOl-master 700和Pentacam測量Kappa角一致性分析
      航空裝備測試性試驗樣本量確定方法
      測控技術(2018年4期)2018-11-25 09:46:52
      Sample Size Calculations for Comparing Groups with Binary Outcomes
      正視錯誤,尋求策略
      教師·中(2017年3期)2017-04-20 21:49:49
      解析小學高段學生英語單詞抄寫作業(yè)錯誤原因
      基于事件觸發(fā)的多智能體輸入飽和一致性控制
      张家口市| 南阳市| 晋江市| 辽宁省| 岢岚县| 新兴县| 南皮县| 德州市| 九江市| 宿迁市| 东莞市| 什邡市| 广元市| 普安县| 平顺县| 岳西县| 吉安市| 蕲春县| 嘉禾县| 汝南县| 大洼县| 松滋市| 藁城市| 色达县| 宜阳县| 马尔康县| 六盘水市| 曲阜市| 福海县| 招远市| 巴塘县| 宜章县| 禄丰县| 沙河市| 长垣县| 宝山区| 宜君县| 保康县| 丹东市| 广元市| 阜新|