• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      學(xué)習(xí)素養(yǎng)評(píng)估中的效度保障策略研究

      2021-10-19 06:32:54齊宇歆楊曉玉
      關(guān)鍵詞:效度變量知識(shí)點(diǎn)

      齊宇歆,楊曉玉

      (閩南師范大學(xué)教育科學(xué)學(xué)院,福建漳州363000)

      進(jìn)入21世紀(jì)后,人類(lèi)在信息獲取和知識(shí)加工的內(nèi)容、方式和品質(zhì)等方面都發(fā)生了深刻變化,學(xué)習(xí)者依據(jù)個(gè)性、特長(zhǎng)開(kāi)展自主學(xué)習(xí)具有了更大的現(xiàn)實(shí)可能性.如何科學(xué)地測(cè)評(píng)學(xué)習(xí)者的學(xué)習(xí)素養(yǎng)水平,確保評(píng)估模式有效性,促進(jìn)個(gè)體學(xué)習(xí)行為的持續(xù)優(yōu)化,是當(dāng)代學(xué)習(xí)評(píng)價(jià)中的一項(xiàng)基礎(chǔ)性、關(guān)鍵性工作.

      1 學(xué)習(xí)素養(yǎng)評(píng)估

      1.1 學(xué)習(xí)素養(yǎng)

      人類(lèi)學(xué)習(xí)行為是一種以文字性符號(hào)為基本媒介,以符號(hào)所象征的意義為核心,以增加環(huán)境適應(yīng)性為目的的自組織系統(tǒng).作為一種意義分享與意義接受的互動(dòng)性過(guò)程,學(xué)習(xí)活動(dòng)不僅要在一定的情境中展開(kāi),并且總是和學(xué)習(xí)者個(gè)體的獨(dú)特經(jīng)歷、內(nèi)在情感需求聯(lián)系在一起的,具有個(gè)體獨(dú)特性和相對(duì)穩(wěn)定性.個(gè)體通過(guò)同一情境下的無(wú)數(shù)次條件反射,最后演化成一種某一環(huán)境條件下的自動(dòng)化行為模式.這就是“素養(yǎng)”.學(xué)習(xí)素養(yǎng)就是學(xué)習(xí)者個(gè)體在長(zhǎng)期的學(xué)習(xí)活動(dòng)中,以生活、社會(huì)中的靈活運(yùn)用為目標(biāo),以深度探索和透徹理解為途徑,將前后學(xué)習(xí)活動(dòng)進(jìn)行內(nèi)容、方法和意義上的整合之后所形成的一種個(gè)性化認(rèn)知習(xí)慣與品質(zhì)[1].

      1.2 評(píng)估模式及其效度

      學(xué)習(xí)素養(yǎng)的評(píng)估模式是利用標(biāo)準(zhǔn)化測(cè)評(píng)工具對(duì)學(xué)習(xí)者行為樣本及其發(fā)生背景進(jìn)行數(shù)據(jù)測(cè)定并做出意義解釋與判斷的一種規(guī)范性流程和標(biāo)準(zhǔn)化樣式[2].本研究中學(xué)習(xí)素養(yǎng)評(píng)估模式中所采用的具體指標(biāo)和測(cè)量方法如表1所示:

      表1 學(xué)習(xí)素養(yǎng)的評(píng)估指標(biāo)與方法Tab.1 Measuring Indicators and Ways for Learning Literacy

      評(píng)估效度是指測(cè)評(píng)活動(dòng)實(shí)際測(cè)到的結(jié)果與它原來(lái)設(shè)定的測(cè)評(píng)目的之間吻合程度,或者說(shuō)依據(jù)測(cè)評(píng)分?jǐn)?shù)所做推論的恰當(dāng)性.作為一個(gè)綜合性概念,評(píng)估效度一般同時(shí)包括了效標(biāo)效度、內(nèi)容效度和構(gòu)想效度[3].不過(guò),不同目的的評(píng)估對(duì)上述三種效度有不同的倚重.

      2 內(nèi)容效度的保障

      2.1 內(nèi)容效度的內(nèi)涵

      內(nèi)容效度也曾稱(chēng)為“課程效度”[4].在教育與學(xué)習(xí)成就評(píng)估中,人們都特別重視評(píng)估的內(nèi)容效度.它是指一個(gè)測(cè)評(píng)所實(shí)際測(cè)到的內(nèi)容、行為與它所計(jì)劃測(cè)評(píng)的內(nèi)容、行為之間的一致性程度[5].檢驗(yàn)一個(gè)測(cè)試的內(nèi)容效度時(shí),最根本的是看該試卷是否能構(gòu)成原定內(nèi)容域中一個(gè)最具代表性的樣本.具體來(lái)說(shuō)主要有兩點(diǎn):1)試卷是否包含了原測(cè)試范圍中的各章節(jié),且每一章節(jié)都有與其在內(nèi)容域中重要性相匹配的、有充分代表性的試題;2)試卷中的每一知識(shí)點(diǎn)都含有不同難度的試題分布.

      2.2 內(nèi)容效度的保證

      常見(jiàn)的內(nèi)容效度檢驗(yàn)方法有專(zhuān)家判斷法、邏輯判斷法等.有學(xué)者指出:在做好領(lǐng)域范圍內(nèi)知識(shí)結(jié)構(gòu)分析的基礎(chǔ)上,緊密依據(jù)教育目標(biāo)、能力要求、內(nèi)容與精熟度要求而設(shè)計(jì)雙向細(xì)目表是一種最為有效的辦法[6].本研究主要通過(guò)擴(kuò)展后的雙向細(xì)目表來(lái)保證試卷的內(nèi)容效度.該細(xì)目表需要解決三個(gè)主要問(wèn)題:1)測(cè)評(píng)總范圍;2)課程中各知識(shí)點(diǎn)的目標(biāo)與對(duì)應(yīng)能力要求;3)各知識(shí)點(diǎn)及其不同難度在總分中的比例.其主要過(guò)程如下:

      2.2.1 領(lǐng)域中各知識(shí)點(diǎn)的關(guān)聯(lián)性分析

      在正式編制雙向細(xì)目表之前,先運(yùn)用沃菲爾德(J.N.Warfield)的解釋性結(jié)構(gòu)模型方法(Interpretative Structural Modeling Method,ISM)對(duì)教材內(nèi)容進(jìn)行結(jié)構(gòu)性分析,以判定哪些知識(shí)點(diǎn)屬于核心內(nèi)容、重點(diǎn)內(nèi)容或一般性?xún)?nèi)容.有學(xué)者認(rèn)為:將該方法應(yīng)用于教材分析時(shí)能把教材中的復(fù)雜知識(shí)點(diǎn)用直觀易懂的圖形符號(hào)來(lái)表示,通過(guò)圖形結(jié)構(gòu)使教材中的內(nèi)容實(shí)現(xiàn)層次化、可視化排列.這對(duì)于明確教材中各相關(guān)知識(shí)點(diǎn)的地位具有很大幫助,且便于通過(guò)計(jì)算機(jī)編程進(jìn)行分析[7].

      使用ISM分析教材知識(shí)結(jié)構(gòu)的基本步驟為:1)從教材中抽出相關(guān)知識(shí)點(diǎn),形成基本要素集;2)思考各知識(shí)點(diǎn)之間的順序關(guān)系,明確誰(shuí)是直接前提,誰(shuí)是其相應(yīng)結(jié)論;3)根據(jù)所有要素之間的邏輯生成關(guān)系建立目標(biāo)可達(dá)矩陣,尋找各自的直接低級(jí)目標(biāo).對(duì)于那些沒(méi)有直接低級(jí)目標(biāo)的就是最底層,然后去掉最底層中的那些要素,沒(méi)有直接形成關(guān)系的就是第二層.如此類(lèi)推,直到目標(biāo)矩陣的全部要素都搜尋完畢,最后形成一個(gè)帶有層級(jí)的結(jié)構(gòu);4)依據(jù)圖論的基本規(guī)則畫(huà)出要素集的有向?qū)蛹?jí)關(guān)系圖,不斷檢查,逐步完善,直到滿(mǎn)意為止[8].當(dāng)然,ISM 分析是依據(jù)“越為底層,涉及范圍越廣,其重要性越高”的基本原則大致劃定教材中各知識(shí)點(diǎn)在整個(gè)內(nèi)容域中的相對(duì)重要性.

      2.2.2 領(lǐng)域中各知識(shí)點(diǎn)的難度分析

      有了初步的ISM 分析,接下來(lái)就須參照課程標(biāo)準(zhǔn)中的內(nèi)容—目標(biāo)能力對(duì)每一章節(jié)、每一知識(shí)點(diǎn)的目標(biāo)能力劃定難度等級(jí).本研究主要參照了新修訂布魯姆教育目標(biāo)分類(lèi)法和比格斯SOLO中的學(xué)習(xí)結(jié)果精熟度分類(lèi)法.

      1) 依據(jù)教育目標(biāo)劃分不同難度

      安德森(L.W.Anderson)將布魯姆的教育目標(biāo)分類(lèi)修訂為記憶、理解等6個(gè)層次.其中,記憶層次包括再認(rèn)和回憶,理解層次包括比較與分類(lèi)、解釋與舉例、概括,運(yùn)用層次包括計(jì)劃和實(shí)施,分析層次包括辨析與劃分、重組、推斷,評(píng)價(jià)層次包括核查和評(píng)判,創(chuàng)造層次包括提出新假設(shè)、擬定實(shí)施方案并予以落實(shí)[9].有學(xué)者認(rèn)為:新修訂布魯姆教育目標(biāo)分類(lèi)學(xué)的中的層次劃分比較適合于通過(guò)“測(cè)評(píng)設(shè)計(jì)框架”與我國(guó)的現(xiàn)有課程標(biāo)準(zhǔn)中的能力目標(biāo)要求相對(duì)接[10].但筆者認(rèn)為,后三個(gè)水平的“分析、評(píng)價(jià)、創(chuàng)造”都是對(duì)前三個(gè)層次的“識(shí)記、理解、應(yīng)用”的總結(jié)、反思、拓展,旨在提升學(xué)生普遍性的知識(shí)遷移能力和陌生情境下的問(wèn)題解決能力[11],而不同的學(xué)習(xí)者所運(yùn)用的方法存在較大差異,屬于個(gè)性化認(rèn)知與思維習(xí)慣,不能夠做出清晰的界限與類(lèi)別劃分,故從目標(biāo)意義的相對(duì)獨(dú)立性、抽象層次匹配性和實(shí)際應(yīng)用的連續(xù)性來(lái)看,將領(lǐng)域知識(shí)劃分為識(shí)記、理解、簡(jiǎn)單應(yīng)用(后稱(chēng)應(yīng)用)、綜合分析與應(yīng)用(后稱(chēng)分析)、拓展與創(chuàng)新(后稱(chēng)拓展)這樣五個(gè)層級(jí)更為簡(jiǎn)明扼要,也更便于操作.

      2) 根據(jù)精熟度等級(jí)劃分不同難度

      上個(gè)世紀(jì)八十年代,澳大利亞教育心理學(xué)教授比格斯(J.B.Biggs)提出了一種以問(wèn)題解決為導(dǎo)向的等級(jí)描述式精熟度評(píng)估方法.在比格斯看來(lái),學(xué)習(xí)者的學(xué)習(xí)結(jié)果涉及五個(gè)不同的反應(yīng)層級(jí)(圖1)[12].按照認(rèn)知水平從低到高排列,它們則依次是:前結(jié)構(gòu)、單點(diǎn)結(jié)構(gòu)、多點(diǎn)結(jié)構(gòu)、關(guān)聯(lián)結(jié)構(gòu)和拓展抽象結(jié)構(gòu).其中,前結(jié)構(gòu)表示學(xué)習(xí)者沒(méi)有理解所學(xué)內(nèi)容;單點(diǎn)結(jié)構(gòu)表示學(xué)習(xí)者對(duì)問(wèn)題略知一二;多點(diǎn)結(jié)構(gòu)則表示學(xué)習(xí)者對(duì)問(wèn)題有了較多的了解,但在解決問(wèn)題時(shí)還不能將它們聯(lián)系起來(lái)思考;關(guān)聯(lián)結(jié)構(gòu)表示學(xué)習(xí)者對(duì)整個(gè)問(wèn)題有了全局性了解,能夠?qū)⒍鄠€(gè)知識(shí)點(diǎn)整合起來(lái)去思考;拓展結(jié)構(gòu)表示學(xué)習(xí)者在解決問(wèn)題時(shí)能對(duì)主題知識(shí)與素材及其相互關(guān)系進(jìn)行概括與抽象,使其知識(shí)、經(jīng)驗(yàn)?zāi)軌蜻w移到未經(jīng)歷過(guò)的陌生情境,具有了較強(qiáng)的創(chuàng)新能力.其中,關(guān)聯(lián)結(jié)構(gòu)主要適合于13~15歲學(xué)生的具體型概括思維,擴(kuò)展結(jié)構(gòu)則主要是適合于16歲以上學(xué)習(xí)者的形式化運(yùn)算與推理.筆者認(rèn)為,SOLO 分類(lèi)的整個(gè)思路與PISA 中的精致加工策略運(yùn)用和知識(shí)遷移二指標(biāo)殊途同歸.它完全適合用作測(cè)評(píng)內(nèi)容的熟練度表征和分?jǐn)?shù)實(shí)際意義解釋的理論依據(jù).

      圖1 比格斯SOLO認(rèn)知水平分類(lèi)模型Fig.1 Biggs'classification model for recognition levels

      2.2.3 擴(kuò)展雙向細(xì)目表的編制

      按照規(guī)模大小,教材中的知識(shí)通??煞譃槿?lèi):知識(shí)點(diǎn)、知識(shí)單元和知識(shí)板塊.其中,知識(shí)點(diǎn)是教材中具有相對(duì)獨(dú)立意義的基本信息單元,如概念、定義、某一完整的現(xiàn)象或機(jī)理描述等.它們是教學(xué)組織和試卷編制的最小單位.說(shuō)它具有相對(duì)性是因?yàn)檎裎镔|(zhì)具有無(wú)限可分性一樣,領(lǐng)域、學(xué)科、教材內(nèi)容的廣度不同,對(duì)所學(xué)內(nèi)容的深度要求不同,知識(shí)點(diǎn)數(shù)量和結(jié)構(gòu)的劃分與認(rèn)定都會(huì)有所變動(dòng),也與教師的知識(shí)水平和教學(xué)經(jīng)驗(yàn)有關(guān).知識(shí)單元由一系列知識(shí)點(diǎn)組成,而知識(shí)板塊又是由多個(gè)知識(shí)單元組成.筆者認(rèn)為,對(duì)于擴(kuò)展后的雙向細(xì)目表一般以大小適宜的知識(shí)單元為基本單位比較恰當(dāng),但個(gè)別有特殊重要性的知識(shí)點(diǎn)也可作為試卷命題單位.

      各知識(shí)點(diǎn)、知識(shí)單元、知識(shí)板塊在整個(gè)測(cè)試內(nèi)容中的相對(duì)重要性即為它們?yōu)樵嚲碇械臋?quán)重.它通常用百分比來(lái)衡量.按照前述五級(jí)難度分類(lèi),考慮到基礎(chǔ)教育的基礎(chǔ)性,有國(guó)內(nèi)同行指出:前三類(lèi)的比重應(yīng)占到總分的70%左右,其中,識(shí)記、理解、應(yīng)用分別占15%、25%和30%,而分析、拓展的比重則分別是20%和10%左右[13].參考測(cè)評(píng)設(shè)計(jì)框架后擴(kuò)展后的雙向細(xì)目表的大體樣式如表2所示:

      表2 擴(kuò)展后的雙向細(xì)目表樣式Tab.2 The style of extended two-way checklists

      3 效標(biāo)關(guān)聯(lián)效度的檢驗(yàn)

      3.1 “效標(biāo)”的概念

      通過(guò)測(cè)試所得到的原始分?jǐn)?shù)本身并無(wú)意義,必須和外界的某些參照物相比較,其意義才會(huì)更加明晰.實(shí)際上,在效度研究早期,所選定的參照物往往被看作是一種判斷測(cè)試有效性的外在標(biāo)準(zhǔn),于是,作為效度標(biāo)準(zhǔn)的“效標(biāo)”這一概念也就產(chǎn)生了.效標(biāo)所對(duì)應(yīng)的效度也稱(chēng)為效標(biāo)關(guān)聯(lián)效度.

      依據(jù)測(cè)試分?jǐn)?shù)與效標(biāo)之間的時(shí)間遠(yuǎn)近程度的不同,效標(biāo)效度有預(yù)測(cè)效度和并存效度之分.其中,并存效度是指通過(guò)這次的評(píng)估結(jié)果去推斷大致處于同一時(shí)間段內(nèi)的另一評(píng)估結(jié)果或行為表現(xiàn)的正確程度.它主要用于調(diào)查性評(píng)價(jià)和診斷性評(píng)價(jià).預(yù)測(cè)效度是指通過(guò)這次樣本的評(píng)估結(jié)果去預(yù)先推測(cè)、估計(jì)評(píng)價(jià)主體所關(guān)心的另一種特質(zhì)、特性的正確程度.它主要用于被試群體的分類(lèi)和選拔.由于預(yù)測(cè)效度的驗(yàn)證需要假以時(shí)日,甚至是數(shù)年之后才具備相應(yīng)條件,因此,在本研究的初期還是重點(diǎn)保證并存效度.

      3.2 效標(biāo)的選擇

      效標(biāo)的選擇必須科學(xué).那么,實(shí)踐中該如何選擇呢?通常必須綜合考慮四個(gè)因素[14]:1)效標(biāo)不能出現(xiàn)方向性偏差.在理論上,它必須和預(yù)測(cè)原有相近的評(píng)估目的或具有相同性質(zhì);2)效標(biāo)本身必須具有足夠的信度;3)效標(biāo)不能受到預(yù)測(cè)原的污染,也就是預(yù)測(cè)原的相關(guān)信息不能事先向效度評(píng)價(jià)者公開(kāi);4)注意保持效標(biāo)樣本數(shù)和預(yù)測(cè)原樣本數(shù)的一致性,尤其要注意表現(xiàn)極好、表現(xiàn)極差這兩類(lèi)人員是否有流失.

      3.3 效標(biāo)關(guān)聯(lián)效度的計(jì)算

      效標(biāo)關(guān)聯(lián)效度通常用預(yù)測(cè)原與效標(biāo)之間的相關(guān)系數(shù)來(lái)衡量.其數(shù)值越大,意味著對(duì)于所選擇的效標(biāo)來(lái)說(shuō),測(cè)試結(jié)果越有效.依據(jù)評(píng)估數(shù)值類(lèi)型的不同,相關(guān)系數(shù)的計(jì)算方法也略有差異,教育心理測(cè)量中比較常見(jiàn)的相關(guān)系數(shù)計(jì)算方式有:積差相關(guān)、等級(jí)相關(guān)、點(diǎn)二列相關(guān)和雙列相關(guān)四種[15].一般認(rèn)為,0.5~0.75之間為較高程度的相關(guān),大于0.75為強(qiáng)相關(guān),而小于0.25則可視為弱相關(guān)或不相關(guān)[16].

      3.3.1 測(cè)試成績(jī)與效標(biāo)的相關(guān)系數(shù)計(jì)算

      在學(xué)習(xí)素養(yǎng)評(píng)估中,效標(biāo)通??蛇x擇某一總體(如班級(jí)、年段)最鄰近的期末考成績(jī)或月考成績(jī)作為效標(biāo).盡管領(lǐng)域成績(jī)本質(zhì)上是一種順序數(shù)據(jù),但是,業(yè)界一般都把它們看作等距數(shù)據(jù),因此,通常是計(jì)算其Pearson 相關(guān)系數(shù).在計(jì)算出相關(guān)系數(shù)之后,還可依據(jù)自由度df=n-2 和某一顯著性水平(通常是α=0.05)對(duì)積差相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn).即如果上述相關(guān)系數(shù)大于其臨界值,則可認(rèn)定為顯著相關(guān).此外,在統(tǒng)計(jì)學(xué)上,相關(guān)系數(shù)的平方也稱(chēng)為確定系數(shù)(coefficient of determination).它表征了一個(gè)變量的方差中大約有多少比例是由另一變量所引起,在一定程度上也能幫助說(shuō)明其關(guān)聯(lián)性大小[17].

      3.3.2 測(cè)試均值與效標(biāo)均值的顯著性檢驗(yàn)

      在學(xué)習(xí)素養(yǎng)的評(píng)估中,可選擇的并存效度效標(biāo)可能是上次期末考、這個(gè)學(xué)期的月考或期中考等,一般選擇在時(shí)間上最為接近的那一個(gè).因?yàn)槭峭慌辉?,且時(shí)間較為接近,被試的學(xué)業(yè)水平這一心理特質(zhì)不可能發(fā)生顯著變化,因此,這兩次測(cè)試的樣本可看作是來(lái)自于同一個(gè)學(xué)業(yè)水平總體的兩次不同抽樣.依據(jù)中心極限定理,所有可能的抽樣分布的樣本均值也呈正態(tài)分布,且隨著樣本數(shù)n的增大,所有可能的樣本均值xˉ的均值越來(lái)越接近于總體的平均值,并且均值的標(biāo)準(zhǔn)差等于總體的標(biāo)準(zhǔn)差與樣本容量的平方根之商[18].不過(guò),因?yàn)槌闃诱`差的存在,我們不能用一次樣本的均值和標(biāo)準(zhǔn)差去估計(jì)總體的均值和標(biāo)準(zhǔn)差,因?yàn)檫@樣會(huì)低估總體的均值和標(biāo)準(zhǔn)差.在通過(guò)一次樣本,尤其是小樣本進(jìn)行統(tǒng)計(jì)分析時(shí),一般都使用無(wú)偏估計(jì)量來(lái)估計(jì)總體方差和標(biāo)準(zhǔn)差.這時(shí),自由度df為(n-1)[19].如果總體本身為正態(tài)分布,或者抽樣時(shí)樣本容量≥30,那么,抽樣分布的樣本均值也將服從正態(tài)分布,即

      通常,效標(biāo)的均值μ0都能通過(guò)具體計(jì)算得到,那么,進(jìn)行效標(biāo)關(guān)聯(lián)效度假設(shè)檢驗(yàn)的過(guò)程如下:

      1) 提出假設(shè)

      先假定此次測(cè)試分?jǐn)?shù)的均值μ1與效標(biāo)均值μ0之間沒(méi)有差異,即零假設(shè)為H0=μ0.這時(shí),備擇假設(shè)為此次測(cè)試分?jǐn)?shù)的均值與效標(biāo)均值μ0之間存在差異,即H1≠μ0.由于樣本均值的方向并不確定,因此,選擇雙尾檢驗(yàn).

      2) 選擇檢驗(yàn)統(tǒng)計(jì)量

      由于總體屬于正態(tài)分布,但標(biāo)準(zhǔn)偏差為未知,故用樣本的標(biāo)準(zhǔn)差ρx來(lái)估計(jì)總體的標(biāo)準(zhǔn)偏差ρ,樣本均值與總體均值的離差都呈正態(tài)分布,因此,選擇Z檢驗(yàn)統(tǒng)計(jì)量:

      當(dāng)然,如果總體分布為不確定分布,且樣本量在小于30的情形下,也可以選擇t檢驗(yàn)統(tǒng)計(jì)量:

      3) 計(jì)算檢驗(yàn)統(tǒng)計(jì)量Z的數(shù)值

      首先,計(jì)算出此次測(cè)試分?jǐn)?shù)的均值μ1和標(biāo)準(zhǔn)差ρ1,在H0為真的條件下,用效標(biāo)均值μ0去代替式(4)中的總體均值μ,然后用此次測(cè)試分?jǐn)?shù)的均值μ1、標(biāo)準(zhǔn)差ρ1以及樣本數(shù)n1分別代入式(4)中的、ρx和n,計(jì)算出一個(gè)具體的Z值Z1:

      4) 根據(jù)顯著性水平確定臨界值

      一般情況下,給定顯著性水平α=0.05去查閱概率論教材附錄中的標(biāo)準(zhǔn)正態(tài)分布表,可得到Z的臨界值=±1.96.當(dāng)然,也可選擇顯著性水平α=0.01,這時(shí)=±2.58.

      5) 將檢驗(yàn)統(tǒng)計(jì)量的數(shù)值與臨界值進(jìn)行比較,得出結(jié)論

      根據(jù)Z1的數(shù)值判斷它是否處在[-1.96,1.96]之間.如果Z1落在這一區(qū)間,則接受零假設(shè)H0,得出此次測(cè)試分?jǐn)?shù)與效標(biāo)之間在0.05的顯著性水平下沒(méi)有顯著差異的結(jié)論,否則,接受備擇假設(shè)H1.

      4 構(gòu)想效度的因子分析

      4.1 構(gòu)想效度

      構(gòu)想效度關(guān)心的是心理學(xué)相關(guān)理論在評(píng)估活動(dòng)中的表現(xiàn)程度[20].對(duì)于同一個(gè)理論,不同流派的學(xué)者觀察的角度與層次往往不盡相同.這樣,不同的理解必然導(dǎo)致不同的估測(cè)方法.此外,同一個(gè)構(gòu)想也往往提出了多個(gè)假設(shè),并不囿于某一具體指標(biāo).因此,構(gòu)想效度的評(píng)估需要多方面的長(zhǎng)期資料積累.例如,本評(píng)估中問(wèn)卷的構(gòu)想效度要重點(diǎn)考慮三個(gè)方面的問(wèn)題:1)問(wèn)卷中的項(xiàng)目是否具有較好的相對(duì)獨(dú)立性;2)問(wèn)卷中的所有項(xiàng)目能否彼此形成某種協(xié)同關(guān)系;3)問(wèn)卷的最終測(cè)量結(jié)果與原來(lái)的心理理論預(yù)期是否存在明顯差異.考慮到構(gòu)想效度的復(fù)雜性和方法的成熟性,在本研究中,學(xué)習(xí)素養(yǎng)構(gòu)想效度的驗(yàn)證主要使用探索性因子分析(Exploratory Factor Analysis,EFA)與驗(yàn)證性因子分析(Confirmatory Factor Analysis,CFA)相結(jié)合的方法.

      4.2 通過(guò)EFA探索學(xué)習(xí)素養(yǎng)的因子結(jié)構(gòu)

      4.2.1 探索性因子分析

      在EFA中,通常是依據(jù)相關(guān)性大小將變量進(jìn)行分組,把相關(guān)性較高的幾個(gè)可觀測(cè)變量歸為一個(gè)類(lèi)別,而認(rèn)為不同類(lèi)別之間變量的關(guān)聯(lián)性則較低.在EFA 看來(lái),同一類(lèi)別內(nèi)各變量之所以緊密相關(guān),是因?yàn)槭艿搅四硞€(gè)共同的潛在公共因子的影響.由于每個(gè)類(lèi)別都可視作一個(gè)結(jié)構(gòu)性維度,這樣,全部可觀測(cè)變量的絕大部分信息最終都可通過(guò)少數(shù)相互獨(dú)立的幾個(gè)公共因子去描述,最終將復(fù)雜問(wèn)題轉(zhuǎn)變?yōu)橐粋€(gè)相對(duì)簡(jiǎn)單的結(jié)構(gòu)化模型.

      4.2.2 通過(guò)EFA探索學(xué)習(xí)素養(yǎng)成分結(jié)構(gòu)的主要過(guò)程

      學(xué)習(xí)素養(yǎng)的九個(gè)評(píng)價(jià)指標(biāo)經(jīng)過(guò)數(shù)值的標(biāo)準(zhǔn)化處理后(對(duì)于考試分?jǐn)?shù)X=(X1,X2,…,Xn),其平均值為,標(biāo)準(zhǔn)差為S,則其標(biāo)準(zhǔn)分Z=()/S),可以用公因子f1,f2,…,fp和每個(gè)變量的特殊因子ε表述為如下因子模型:

      (4)式中,公共因子共有p個(gè),aij(i=1,2,…,9;j=1,2,…,p)稱(chēng)為因子載荷.它就是變量Xi和公因子fj之間的相關(guān)系數(shù).

      學(xué)習(xí)素養(yǎng)EFA分析的主要步驟如下:

      1) 適合度檢驗(yàn)

      其常用方法是Bartlett 球形檢驗(yàn)+KMO 取樣適合度檢驗(yàn).根據(jù)Kaiser 的經(jīng)驗(yàn),如果KMO 值大于0.9,非常適合;0.8~0.9之間,適合;0.7~0.8之間,一般;0.6~0.7之間,不太適合;小于0.5,則極不適合[21].

      2) 因子提取與因子數(shù)確定

      因子提取的基本問(wèn)題是如何找出少數(shù)幾個(gè)公因子并使這些公因子能夠在相當(dāng)程度上解釋原來(lái)分?jǐn)?shù)的變異.目前使用的最多的還是主成分分析法(Principal Component Analysis,PCA).

      在PCA中,每一名學(xué)生學(xué)習(xí)素養(yǎng)的九個(gè)評(píng)價(jià)指標(biāo)對(duì)應(yīng)著九個(gè)變量,通過(guò)坐標(biāo)原點(diǎn)移動(dòng)、坐標(biāo)旋轉(zhuǎn)方法可使(4)式中各指標(biāo)的數(shù)值重新用一組新的坐標(biāo)的線(xiàn)性組合來(lái)表示,這種變換后的數(shù)學(xué)模型見(jiàn)(5)式:

      在(5)式中,由于各指標(biāo)之間存在一定的相關(guān)性,因此,可使q<9.其中,F(xiàn)1,F2,…,Fq之間彼此是無(wú)關(guān)的,并且從F1、F2到Fq方差貢獻(xiàn)依次減小,分別稱(chēng)為第一主成分、第二主成分、…、第q個(gè)主成分.為了達(dá)到減少變量數(shù)目的目的,在分析時(shí)通常只取前面幾個(gè)主成分作為公共因子,在每一個(gè)公因子的特征值都大于1的前提下,一般以累計(jì)方差貢獻(xiàn)率達(dá)到70%~80%作為公因子數(shù)目的取舍標(biāo)準(zhǔn)[22].

      3) 因子旋轉(zhuǎn)

      經(jīng)過(guò)前述步驟確定的因子指標(biāo)的含義并不十分清楚,為此,有必要使用數(shù)學(xué)變換的辦法使各因子能凸顯某些特定的實(shí)際意義并便于命名.這就是因子旋轉(zhuǎn).因子旋轉(zhuǎn)中最常見(jiàn)的辦法是方差最大化(Vari‐max)的正交旋轉(zhuǎn),讓各因子軸之間彼此保持90度的夾角,同時(shí)使各公因子上的載荷極大化.

      4) 給各維度因子命名

      通過(guò)EFA 獲得的學(xué)習(xí)素養(yǎng)因子模型,其結(jié)果僅僅具有數(shù)學(xué)意義.在實(shí)踐中,人們更關(guān)心數(shù)據(jù)之間的認(rèn)知心理學(xué)意蘊(yùn),因此,研究者會(huì)依據(jù)自身的經(jīng)驗(yàn)與專(zhuān)長(zhǎng)給每一個(gè)公因子取一個(gè)更加通俗易懂而又意義明確的名字.有學(xué)者指出:這種對(duì)公因子的命名看似是一種主觀、隨意的事情,非常簡(jiǎn)單,實(shí)則是從一個(gè)側(cè)面折射出研究者的專(zhuān)業(yè)素養(yǎng)和個(gè)人旨趣.本研究的基本做法是:將公共因子中那些低于0.3 的載荷因子忽略不計(jì),并在每一個(gè)公共因子里重點(diǎn)要考慮那些高負(fù)荷的載荷因子,分析它們具有怎樣的心理過(guò)程共性,然后加以抽象并命名.

      4.3 通過(guò)CFA驗(yàn)證學(xué)習(xí)素養(yǎng)因子結(jié)構(gòu)的合理性

      前述EFA探索得到的是一組可觀察變量的結(jié)構(gòu)擬合模型,其所得到的理論架構(gòu)是事后(posterior)的概念,并且假設(shè):1)不同公共因子之間彼此獨(dú)立;2)同一個(gè)公共因子內(nèi),各變量之間高度相關(guān)或具有較大相關(guān);3)所有觀察變量都只受到各公共因子的直接影響,而不受到其它潛在因素的影響.總之,上述假設(shè)不一定完全符合實(shí)際情況.[23]為此,二十世紀(jì)六十年代后期,統(tǒng)計(jì)學(xué)家波克(R.D.Bock)等在研究EFA擬合模型的過(guò)程中提出了如何進(jìn)行參數(shù)假設(shè)檢驗(yàn)的問(wèn)題,后經(jīng)瑞典統(tǒng)計(jì)學(xué)家喬納斯柯格(K.G.J?reskog)等結(jié)合協(xié)方差結(jié)構(gòu)模型進(jìn)行參數(shù)的極大似然估計(jì)開(kāi)發(fā)出與之相配套的統(tǒng)計(jì)分析軟件LISREL,最終成為了一種通過(guò)結(jié)構(gòu)方程建模(Structural Equation Modeling,SEM)驗(yàn)證多變量之間原有假設(shè)關(guān)系的通用統(tǒng)計(jì)模型[24].將SEM應(yīng)用在測(cè)量與統(tǒng)計(jì)分析領(lǐng)域就成了后來(lái)的驗(yàn)證性因子分析.

      4.3.1 CFA的基本模型

      CFA的基本模型為:

      (6)式中,X 為觀察變量,對(duì)應(yīng)于向量,也就是一組評(píng)價(jià)指標(biāo).ξ 和Λ 分別為潛在因子、潛在因子與觀察變量的協(xié)方差(covariance),δ為隨機(jī)誤差變量,其數(shù)學(xué)期望E(δi)=0,并且δ與潛在因子ξ之間是不相關(guān)的.

      4.3.2 CFA的基本思想

      作為一種路徑分析與整合的多變量分析方法,CFA的基本目標(biāo)是先假設(shè)各測(cè)量指標(biāo)數(shù)據(jù)均呈正態(tài)分布且各測(cè)量指標(biāo)與潛在因子之間是一種線(xiàn)性依存關(guān)系,然后針對(duì)要驗(yàn)證的模型的樣本協(xié)方差矩陣S,通過(guò)迭代計(jì)算方法找出與它相對(duì)應(yīng)的再生矩陣Σ,使Σ既符合原來(lái)的假設(shè)模型M,又能與S 在某種意義上最為接近(兩個(gè)矩陣中相對(duì)應(yīng)元素之間的殘差最小).Σ 和S 的差距越小,則表示模型與現(xiàn)有數(shù)據(jù)越吻合.如果通過(guò)迭代計(jì)算所找出的最小的再生矩陣Σ仍和模型M 之間有不可接受的差距,則表示假設(shè)模型M 與現(xiàn)有數(shù)據(jù)不匹配.這時(shí),必修對(duì)原來(lái)模型M做出修改或予以更換[25].

      4.3.3 擬合模型的判定

      除了待估參數(shù)和表征模型復(fù)雜性的自由度,模型中還包含因子負(fù)荷、因子間相關(guān)系數(shù)等路徑參數(shù),應(yīng)該依據(jù)什么指標(biāo)去檢驗(yàn)再生矩陣Σ 和樣本協(xié)方差矩陣S 之間的差異大小呢?這就是擬合優(yōu)度指數(shù)(good‐ness of fit index,GFI).由于擬合優(yōu)度指數(shù)不僅和模型有關(guān),也和樣本有關(guān),因此,不同的學(xué)者提出過(guò)不同的擬合指數(shù),其中,比較常用的有卡方值χ2、非范擬合指數(shù)NNFI、相對(duì)擬合指數(shù)CFI、標(biāo)準(zhǔn)化殘差均方根SRMR或經(jīng)過(guò)調(diào)整后的均方根指數(shù)RMSEA 等.通常,自由度較大而又能使Σ與S之差最小的簡(jiǎn)單模型才是最理想的.

      4.3.4 CFA的樣本容量

      對(duì)于CFA 來(lái)說(shuō),如果樣本數(shù)較少,則其參數(shù)估計(jì)和擬合指數(shù)數(shù)據(jù)會(huì)欠穩(wěn)定,因此,一般采用大樣本.至于大到什么程度,有學(xué)者提出了“首要規(guī)則(rules of thumb)”,即必須與觀察變量相配套,通常是一個(gè)觀察變量至少要有10~20個(gè)樣本.依據(jù)首要規(guī)則,學(xué)習(xí)素養(yǎng)的9 指標(biāo)評(píng)價(jià)體系至少應(yīng)有90~180個(gè)樣本.當(dāng)然,大部分學(xué)者認(rèn)為,CFA的被試樣本應(yīng)該在200以上.

      4.3.5 待估模型的參數(shù)設(shè)置

      如果經(jīng)過(guò)自身的經(jīng)驗(yàn)判斷或希望兩個(gè)指標(biāo)或因子之間沒(méi)有關(guān)聯(lián),那么,在研究中可將其因子負(fù)荷設(shè)為0.在同一個(gè)公因子中,采用固定負(fù)荷法,將其中因子負(fù)荷數(shù)值最大的那一個(gè)指標(biāo)數(shù)值設(shè)為1.除了因?yàn)橛?jì)算需要而設(shè)定因子度量單位的那些元素之外,其它所有待估的因子負(fù)荷、指標(biāo)的誤差方差、因子之間的相關(guān)系數(shù)、因果路徑系數(shù)之外的元素都可以設(shè)置為自由[26].

      4.3.6 通過(guò)AMOS進(jìn)行CFA分析

      學(xué)習(xí)素養(yǎng)在統(tǒng)計(jì)分析中屬于高階多維測(cè)量模型.其主要分析步驟有:1)依據(jù)EFA 的公因子分類(lèi)結(jié)果繪制模型的路徑分析圖;2)給各變量命名;3)依據(jù)分析特性,選擇要呈現(xiàn)的統(tǒng)計(jì)量;4)運(yùn)用最大似然估計(jì)法(Maximum Likelihood Estimate,MLE)進(jìn)行模型估計(jì).如果模型可識(shí)別,將呈現(xiàn)出卡方值、自由度和相關(guān)統(tǒng)計(jì)量;5)依據(jù)模型吻合程度的χ2計(jì)算值、概率顯著水平、參數(shù)估計(jì)值判斷原來(lái)的假設(shè)模型是否與樣本數(shù)據(jù)匹配.否則,可依據(jù)修正指數(shù)(Modification Index,MI)進(jìn)行模型修改或重新選擇另外的假設(shè)模型進(jìn)行驗(yàn)證.目前,可用于CFA 分析且比較流行的專(zhuān)門(mén)軟件有LISREL和AMOS等.筆者在實(shí)踐中使用的是James L.Arbuckle設(shè)計(jì)的AMOS7.0軟件.

      4.3.7 學(xué)習(xí)素養(yǎng)的效度計(jì)算

      一般認(rèn)為,通過(guò)EFA 所得到的學(xué)習(xí)素養(yǎng)指標(biāo)的公因子結(jié)構(gòu)在經(jīng)過(guò)CFA 的驗(yàn)證后,其分析結(jié)論就更為真實(shí)而可靠.當(dāng)然,在試卷和問(wèn)卷編制過(guò)程中,為提高評(píng)估有效性,還可結(jié)合多質(zhì)多法(Multitrait-Multi‐method,MTMM)模型去檢驗(yàn)問(wèn)卷、試卷中的收斂效度、區(qū)分效度和方法效應(yīng).在MTMM 中,同一種方法應(yīng)能辨別不同的能力目標(biāo),而用不同的方法去測(cè)量同一個(gè)目標(biāo)內(nèi)容時(shí),應(yīng)該具有較高的相關(guān),從而幫助我們了解試卷、問(wèn)卷中的各個(gè)項(xiàng)目、試題是否在原來(lái)預(yù)期的因子維度之內(nèi)并判定這種從屬關(guān)系是否合理,最后通過(guò)解釋并推斷出所評(píng)估的“學(xué)習(xí)素養(yǎng)”概念的合理性.實(shí)踐中還可通過(guò)可接受模型協(xié)方差矩陣中的主對(duì)角線(xiàn)上的元素計(jì)算出全部觀察變量的唯一性方差(i=1,2,…,n),其中n為觀察變量數(shù),將各觀察變量的方差與其唯一性方差之差的和作為全部觀察方差中能由所測(cè)的學(xué)習(xí)素養(yǎng)這部分特質(zhì)所能解釋的那部分方差數(shù).這樣,依據(jù)效度的定義可由(7)式計(jì)算出整個(gè)學(xué)習(xí)素養(yǎng)評(píng)估的效度[27]:

      5 對(duì)效度評(píng)估的思考

      在教育與學(xué)習(xí)評(píng)估實(shí)踐中,人們普遍將效度高低作為判斷一個(gè)評(píng)估模式是否可靠的基本依據(jù).然而,效度卻是一個(gè)發(fā)展中的概念.二十世紀(jì)八十年代,學(xué)界對(duì)效度驗(yàn)證多采用效標(biāo)效度.但是,效標(biāo)的有效性極為有限,有時(shí)甚至難以自圓其說(shuō).于是,退而求其次,提出了內(nèi)容效度,用測(cè)試樣本代表性去補(bǔ)充效標(biāo)效度.不過(guò),要做到樣本在總體中的充分代表性也并非易事,何況總體也是人為劃定的,它本身并沒(méi)有一個(gè)統(tǒng)一而固定的邊界.這時(shí)候,人們必須尋找一種更為底層的東西,于是作為心理測(cè)量目標(biāo)的“構(gòu)念”出現(xiàn)了.但是,“構(gòu)念”又是一個(gè)無(wú)法得到效度證明的假設(shè)性概念,本身具有虛弱的邏輯假設(shè)性和不可操作性,而且有循環(huán)論證之嫌[28].到了上世紀(jì)九十年代末,效度被定義為“測(cè)驗(yàn)所要測(cè)量的概念或特性”.這時(shí),效度已經(jīng)發(fā)展成為對(duì)“構(gòu)念”進(jìn)行測(cè)量的有效程度,原來(lái)的“效標(biāo)”演變成了“證據(jù)”.這樣,效度驗(yàn)證就是一個(gè)通過(guò)測(cè)試內(nèi)容、反應(yīng)過(guò)程、內(nèi)部結(jié)構(gòu)、與其它變量之間的關(guān)系和測(cè)試結(jié)果相關(guān)等累積性證據(jù)去支持評(píng)估的有效性并對(duì)評(píng)估結(jié)論做出合理解釋的過(guò)程.

      筆者認(rèn)為,由于教育與學(xué)習(xí)的評(píng)估對(duì)象是慣性和靈性兼具的人,其復(fù)雜性遠(yuǎn)遠(yuǎn)超過(guò)了前人的預(yù)期,故當(dāng)前業(yè)內(nèi)人士不再籠統(tǒng)地談效度論證,而是在接受“測(cè)不準(zhǔn)原理”和遵循結(jié)構(gòu)清晰性、邏輯一致性和可合理解釋性三條基本準(zhǔn)則的前提下,去尋找各種可供選擇的能解釋效度的方式,更多地關(guān)注某一評(píng)估活動(dòng)中的測(cè)試分?jǐn)?shù)對(duì)于它特定目標(biāo)的合理解釋程度[29].特別近十多年來(lái),隨著模糊數(shù)學(xué)的興起,還有數(shù)據(jù)挖掘(DM)與人工智能(AI)技術(shù)的不斷成熟,效度驗(yàn)證也必將綜合運(yùn)用各種定性與定量分析方法,在多渠道、多層級(jí)收集相關(guān)證據(jù)中走向更加精細(xì)化和科學(xué)化.

      猜你喜歡
      效度變量知識(shí)點(diǎn)
      一張圖知識(shí)點(diǎn)
      一張圖知識(shí)點(diǎn)
      第四頁(yè) 知識(shí)點(diǎn) 殲轟-7A
      抓住不變量解題
      也談分離變量
      慈善募捐規(guī)制中的國(guó)家與社會(huì):兼論《慈善法》的效度和限度
      關(guān)于G20 的知識(shí)點(diǎn)
      被看重感指數(shù)在中國(guó)大學(xué)生中的構(gòu)念效度
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      外語(yǔ)形成性評(píng)估的效度驗(yàn)證框架
      衡水市| 双鸭山市| 通海县| 桓台县| 运城市| 钟山县| 若羌县| 兴隆县| 荣成市| 白银市| 金华市| 宁乡县| 囊谦县| 图们市| 衡东县| 手游| 方山县| 松溪县| 大冶市| 凤庆县| 和田市| 米泉市| 西盟| 阳高县| 黄骅市| 巨鹿县| 五原县| 清河县| 汽车| 东乌| 芒康县| 青神县| 秭归县| 靖安县| 克山县| 江山市| 湟中县| 电白县| 连云港市| 迁安市| 天全县|