• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)包絡(luò)分析的模糊綜合評判法的應(yīng)用

      2013-11-08 08:06:06趙曉霞譚夏侃
      中國考試 2013年2期
      關(guān)鍵詞:內(nèi)容效度區(qū)分度評判

      趙曉霞 譚夏侃

      1 引言

      試卷質(zhì)量評價就是“客觀、公正、科學地對試卷質(zhì)量進行分析與評價”。它是評價考試質(zhì)量,檢驗考試可靠性、有效性的最基本也最重要的方法,是改進考試工作、提高命題綜合質(zhì)量的基礎(chǔ),是獲取教學效果反饋信息的有效途徑[1]。

      基于數(shù)據(jù)包絡(luò)分析的模糊綜合評判法是一種科學而有效地評價試卷質(zhì)量的建模方法。通過將模糊綜合評判和數(shù)據(jù)包絡(luò)分析方法的結(jié)合應(yīng)用,建立起一個科學的試卷質(zhì)量評價模型,按照教育測量學的有關(guān)理論和方法,通過對試卷考試結(jié)果的測量與分析,提供對試題篩選的依據(jù)及對命題質(zhì)量的評價,并由此指導課程的題庫或試卷庫的建設(shè),做到對學生的學習評價準確、可靠,使考試這一教學環(huán)節(jié)逐步走上科學化和規(guī)范化的軌道。

      模糊綜合評判法的基本原理是:首先確定被評判對象的因素(指標)集和評價(等級)集;再分別確定各個因素的權(quán)重及它們的隸屬度向量,獲得模糊評判矩陣;最后把模糊評判矩陣與因素的權(quán)向量進行模糊運算并進行歸一化,得到模糊評價綜合結(jié)果[2]。

      數(shù)據(jù)包絡(luò)分析的基本思想是:對一組給定的決策單元,選定一組輸入、輸出的評價指標,通過輸入和輸出數(shù)據(jù)的綜合分析,數(shù)據(jù)包絡(luò)分析可以得出每個決策單元綜合效率的數(shù)量指標。之后我們將各個決策單元定級排隊,確定有效的決策單元,并可給出其他決策單元非有效的原因和程度[3]。

      模糊綜合評判法目前在多個領(lǐng)域中應(yīng)用廣泛,但在具體應(yīng)用中,它的缺陷與不足還是存在的,首先,模糊綜合評判法僅能告訴各決策方案的好壞程度,卻無法找出較差方案無效的原因。

      其次,必須首先確定權(quán)重。在模糊綜合評判過程中,各因素的權(quán)重分配主要靠人的主觀判斷,而當因素較多時,權(quán)重往往難以恰當分配。

      還有,模糊綜合評判法僅從被評價對象自身的角度進行評價,而事實上各評價對象是有聯(lián)系的。而同類型單元的這種聯(lián)系對評價結(jié)果與改進是大有幫助的。

      數(shù)據(jù)包絡(luò)分析方法恰恰可以互補,應(yīng)用它,決策單元是不是有效是相對于其他所有決策單元而言的。特別是,它把決策單元中各“輸入”和“輸出”的權(quán)重作為變量,通過對決策單元的實際原始數(shù)據(jù)進行計算而確定,排除了人為因素,具有很強的客觀性,從而避免了認為主觀確定權(quán)重的缺點。

      基于以上分析,有必要也有可能將模糊綜合評判法和數(shù)據(jù)包絡(luò)分析法進行集成。在模糊綜合評判過程基礎(chǔ)上,引入數(shù)據(jù)包絡(luò)分析理論,通過巧妙構(gòu)造數(shù)據(jù)包絡(luò)分析的“輸入”和“輸出”指標,建立新的綜合評價模型方法。

      2 新模型方法的機理

      下面對基于數(shù)據(jù)包絡(luò)分析的模糊綜合評判法的機理作介紹[4]:

      一個評價對象相對于各因素的評價具有一定的模糊性,那么需要運用模糊集合論來研究。首先確定評價對象集W={w1,w2,…wt},評價因素集U={u1,u2,…um},評價等級集V={v1,v2,…vn}。

      2.對每個評價對象,有模糊矩陣R,稱為某一評價對象的評價矩陣。

      3.數(shù)據(jù)包絡(luò)分析模型——C2R模型,即應(yīng)用最廣泛的模型進行討論。

      設(shè)某個決策單元在某活動中的輸入向量為x={x1,x2,…,xs}T,輸出向量為 y={y1,y2,…,ys}T。用(x,y)來表示這個決策單元的整個生產(chǎn)活動。

      選取需要評價的對象(針對某因素而言)或因素(針對某對象而言)作為數(shù)據(jù)包絡(luò)分析的決策單元,以其評價矩陣R的轉(zhuǎn)置矩陣作為決策單元的“輸入”和“輸出”矩陣。對于一個決策單元,有t種類型的“輸入”以及s種類型的“輸出”。s+t=n,n為評價等級的個數(shù)。

      以評價對象為決策單元時,l=k;以評價因素為決策單元時,l=m.v1,v2,…vt為數(shù)據(jù)包絡(luò)分析輸入的一種量度(或稱權(quán)),u1,u2,…us為數(shù)據(jù)包絡(luò)分析輸出的一種量度(或稱權(quán)),如圖1所示。

      圖1

      記 X=(x1j,x2j,…xtj),Y=(y1j,y2j,…ysj),j=1,2,…l,則可用(Xj,Yj)表第 j個決策單元。

      相對應(yīng)于權(quán)系數(shù)V={v1,v2,…vt},U={u1,u2,…us},每一個決策單元都有相應(yīng)的效率評價指數(shù)

      可以適當?shù)剡x取權(quán)系數(shù)V和U,使hj≤1。對于第 j0個決策單元的效率指數(shù)為目標,以所有決策單元(包括第 j0個決策單元)的效率指數(shù)為約束,構(gòu)成最優(yōu)化模型。原始的C2R模型是一個分式規(guī)劃,當使用Charnes-Cooper變化時,可將分式規(guī)劃化為一個等價的線性規(guī)劃(LP)問題。

      相應(yīng)于第 j0(1≤j0≤l)個決策單元的線性規(guī)劃模型為:

      用線性規(guī)劃的最優(yōu)解來判斷決策單元 j0的有效性。利用上述模型評價決策單元是不是有效是相對于其他所有決策單元而言的。

      4.若要評價k個對象,即評價系統(tǒng)的決策單元有k個。對某個評價因素來說,可以得到一共k個線性規(guī)劃模型。這k個線性規(guī)劃模型的最優(yōu)目標函數(shù)值,即為這k個評價對象在該因素上的評價結(jié)果。對k個對象的m個因素分別進行計算,將每個評價對象的m個結(jié)果相乘(或相加),其積(或和)可作為該對象的總的評價結(jié)果。

      3 建模并求解

      本文抽取了四份高等數(shù)學的期末試卷進行評價,分別是08級高數(shù)上,07級高數(shù)上,07級高數(shù)下,06級高數(shù)下,即上冊與下冊各兩份試卷。獲取每份試卷的全部應(yīng)試者成績和應(yīng)試者的各題得分情況.應(yīng)用基于數(shù)據(jù)包絡(luò)分析的模糊綜合評判法建模,通過獲取的數(shù)據(jù),確定評價指標體系,接下來結(jié)合教育測量學與統(tǒng)計相關(guān)知識確定各指標的統(tǒng)計方法與區(qū)分好中差的標準,得出科學評價。

      我們?nèi)∷姆菰嚲碜髟u價,上冊下冊各兩份試卷,便于作比較。設(shè)評價對象集為 W={w1,w2,…,wn},n=4,w1=08級高數(shù)上,w2=07級高數(shù)上,w3=07級高數(shù)下,w4=06級高數(shù)下。評價等級集為V={v1,v2,…,vt},t=3,v1= 好,v2= 中,v3= 差。

      試卷質(zhì)量評價是指評價試卷的整體質(zhì)量,影響試卷整體質(zhì)量的主要因素有:試卷的難度、區(qū)分度、信度、內(nèi)容效度、試題覆蓋率、試題及格率以及反映試卷成績分布正態(tài)性的偏度和峰度[5]。可將這8個因素分為兩層三組,便于直觀了解,如圖2所示:

      圖2

      設(shè)評價指標集為U={u1,u2,…,uk},k=8,u1= 難度,u2=區(qū)分度,u3=信度,u4=內(nèi)容效度,u5=覆蓋率,u6=及格率,u7=偏度,u8=峰度。

      通過計算獲得各個評價對象的模糊評判矩陣,以下先以“08級高數(shù)上”的評判矩陣做說明:

      我們選取每份試卷,即評價對象(針對某評價指標而言)作為數(shù)據(jù)包絡(luò)分析的決策單元,以其評判矩陣的轉(zhuǎn)置矩陣作為決策單元的“輸入”和“輸出”矩陣。

      本模型中,決策單元個數(shù)為l=4,評價等級個數(shù)為n=3,則對于一個決策單元,設(shè)它有t種類型的“輸入”以及s種類型的“輸出”,那么t+s=3,即t=1或2,對應(yīng)s=2或1.

      下面以區(qū)分度為例進行說明。對于區(qū)分度,我們選取好作為輸出,以中、差作為輸入。由上一小節(jié)每個評價對象的模糊評判矩陣,我們可以得到區(qū)分度的評判矩陣的轉(zhuǎn)置矩陣,輸出的度量以 p表示,輸入的度量以q表示,如表1所示:

      表1

      根據(jù)C2R模型,對“07級高數(shù)上”來說,可以得到一個線性規(guī)劃模型,即:

      同理可以得到其他3份試卷在區(qū)分度指標上的線性規(guī)劃模型。通過求解得到這4個線性規(guī)劃的最優(yōu)目標函數(shù)值[6],分別為:

      同樣我們還可以得到一下結(jié)論:

      我們可以對每個評價對象的6個因素都相加,可以得到每個對象的總的評價結(jié)果。如表2所示:

      表2

      4 分析與評價

      為了便于查看,將它們匯總到表3中:

      表3

      從表2中我們可以看出,這四份卷子的各項指標數(shù)值除了峰度之外,兩兩之間并沒有太大差異,并且我們可以將表3中的數(shù)值與表2的評價標準進行對比之后得出結(jié)論,整卷難度系數(shù)、區(qū)分度、信度、及格率、覆蓋率基本全都達到“好”的等級,可見本課程命題水平穩(wěn)定在一個較高水平,達到標準參照性考試的要求;整卷的內(nèi)容效度略遜,基本處在“中”的等級;偏度的負值較大,即負偏差數(shù)值較大,為正偏或者右偏,即長尾巴拖在左邊,表明學生成績偏高的居多,峰度均略大于0,表明比正態(tài)分布的高峰更加陡峭,不同程度地呈現(xiàn)尖頂峰。

      運用模型求解前的表1的整卷數(shù)據(jù)所能帶來的分析結(jié)果有限,并且不能對比出試卷之間的差異,我們通過建模求解后獲取的表2來進一步分析評價。

      表2中,在難度系數(shù)指標上,08上、07上、06下的表現(xiàn)都達到了最優(yōu),而07下的偏低;可以看到表3中07下的整卷難度系數(shù)最小??芍?,07下的總體難度偏難,而另外三份試卷的難度則把握得非常好。

      表2中,在區(qū)分度指標上,07下的表現(xiàn)最優(yōu),表明它的區(qū)分度最合適;另外三份卷子的區(qū)分度也很接近于最優(yōu)。可知,這四份卷子的區(qū)分度都比較合適。

      表2中,在內(nèi)容效度的指標上,07上的表現(xiàn)最優(yōu),具有最高的內(nèi)容效度,這與07上在表3中有最大的內(nèi)容效度也是相符合的。另外三份卷子的內(nèi)容效度相對不理想,都獲得了較低的目標函數(shù)值。我在分析后認為,普遍的內(nèi)容效度偏低是受到高數(shù)這個學科的特點所影響,高數(shù)中有些章節(jié)是為了后面的章節(jié)做鋪墊,占的學時并不少,而在試卷中很少甚至不會單獨考察,這造成了該章的吻合率較低,從而影響了總內(nèi)容效度指標。比如下冊的“第7章空間解析幾何與向量代數(shù)”,可以說是下冊的基礎(chǔ),學時分配有18,而試卷中的分數(shù)往往只是幾分。

      表2中,在覆蓋率的指標上,07上的獲得最大的目標值,這與07上在表3中有最大的覆蓋率也是相符合的。08上的覆蓋率也達到較高的目標值,07下、06下覆蓋率的目標值則相對不理想。覆蓋率與內(nèi)容效度普遍偏低的原因是一樣的,都是受到了小部分基礎(chǔ)章節(jié)的影響,但是從整卷的覆蓋率來看,四份卷子都是比較理想的。

      表2中,在偏度的指標上,08上表現(xiàn)最好,而出現(xiàn)了一個無效的決策單元06下,剩余的07上、07下則是處于中等。也就是說,06下的成績分布過于負偏,即成績偏高的人相對較多,而06下的難度、區(qū)分度、及格率均較理想,所以我認為06級學生的掌握水平較好是其中一個原因。

      表2中,在峰度的指標上,08上、06下達到了最大的目標值,表明兩者成績的分布與標準正態(tài)分布的高峰更接近,而07上、07下的成績分布的高峰要陡峭些,成績也相對集中。

      總的來看,08上這份試卷獲得了最高的總評價分數(shù),其次是07上、06下、07下??陀^地說,這四份試卷總體來看都是優(yōu)秀的教學檢測試卷,通過這種新的綜合評判方法建模求解,我們可以清晰地了解各份卷子的所長所短,同時可以對該課程的命題提些建議,在目前及格率偏高與偏度負值較大的情況下,稍難題與較難題的數(shù)量可以適量增加,細節(jié)基礎(chǔ)的知識點可以通過客觀小題的形式適量增加,使學生對該課程更加重視,學生的成績分布更加趨于正態(tài),敦促學生不斷提高自身學習能力,為今后學習打下堅實的基礎(chǔ)。

      [1]雷新勇.大規(guī)??荚嚱逃?命題與評價[M].上海:華東師范大學出版社.2006.

      [2]劉承平.數(shù)學建模方法[M].北京:高等教育出版社.2002.

      [3]胡運權(quán),郭耀煌.運籌學教程[M].北京:清華大學出版社.2003.

      [4]杜棟,龐慶華,吳炎.現(xiàn)代綜合評價方法與案例精選[M].北京:清華大學出版社.2008.

      [5]張敏強.教育測量學[M].北京:人民教育出版社.2001.

      [6]袁新生.LINGO和EXCEL在數(shù)學建模中的應(yīng)用[M].北京:科學出版社.2007.

      猜你喜歡
      內(nèi)容效度區(qū)分度評判
      交流與評判
      COSMIN方法介紹:評價患者報告結(jié)局測量工具內(nèi)容效度的評分系統(tǒng)
      循證護理(2021年5期)2021-05-28 09:17:26
      基于學習的魯棒自適應(yīng)評判控制研究進展
      自動化學報(2019年6期)2019-07-23 01:18:18
      淺談試卷分析常用的幾個參數(shù)及其應(yīng)用
      圖形推理測量指標相關(guān)性考察*
      江淮論壇(2018年4期)2018-08-24 01:22:30
      英語專八閱讀理解部分內(nèi)容效度的歷時對比研究(2009—2017年)
      淺觀一道題的“區(qū)分度”
      詩歌評判與詩歌創(chuàng)作
      文學教育(2016年27期)2016-02-28 02:35:12
      單維參數(shù)型與非參數(shù)型項目反應(yīng)理論項目參數(shù)的比較研究*
      心理學探新(2015年3期)2015-12-27 06:25:14
      大學英語新四級閱讀理解內(nèi)容效度研究
      盐山县| 双辽市| 辛集市| 山东省| 沾益县| 鸡泽县| 新平| 松桃| 乌兰县| 理塘县| 海阳市| 隆化县| 泸定县| 南岸区| 金塔县| 大连市| 六盘水市| 巴林左旗| 全椒县| 台山市| 彰化县| 西乌珠穆沁旗| 鲁甸县| 贵南县| 龙江县| 墨玉县| 沙河市| 崇文区| 秦皇岛市| 海丰县| 伊通| 衢州市| 资溪县| 阿克陶县| 新郑市| 黎平县| 博罗县| 日照市| 南江县| 韶关市| 双桥区|