《走向優(yōu)質——中國幼兒園教育質量評價標準》的測量學屬性分析

2021-02-04 07:34陳德枝李克建周兢

學前教育研究 2021年1期

陳德枝李克建周兢

[摘要] 幼兒園教育質量評價標準的編制具有重要的理論與實踐意義。中國學前教育研究會組建了一個包含了來自國內(nèi)6所高校的專家的跨學科研究團隊，遵循嚴謹?shù)臏y量學研制程序，經(jīng)過兩年扎實的研究，編制了《走向優(yōu)質——中國幼兒園教育質量評價標準》（簡稱《優(yōu)質標準》）。為驗證該標準的有效性，課題組采用分層抽樣的方法，在位于我國不同區(qū)域的5個省區(qū)抽取了不同性質與等級的城鄉(xiāng)幼兒園共計100所，采用《優(yōu)質標準》進行質量評價，同時從300個樣本班級中隨機抽取了1670名兒童（男女各半），對其語言、數(shù)學認知、情感社會性發(fā)展水平進行測評?；谟變簣@教育質量和兒童發(fā)展水平測評數(shù)據(jù)，課題組對《優(yōu)質標準》進行了信效度分析。結果顯示，《優(yōu)質標準》總體及其各領域內(nèi)部一致性均達到較高水平;絕大部分項目具有良好的區(qū)分度;《優(yōu)質標準》具有良好的結構效度，包含兩個潛在的質量因子，分別是課程教學與學習環(huán)境、管理支持與師資保障;幼兒園教育質量評價結果與兒童發(fā)展水平測評結果總體上呈顯著相關，不同質量領域與兒童不同發(fā)展領域之間的相關性存在一定差異。綜合以上證據(jù)表明，《優(yōu)質標準》是適用于我國幼兒園教育情境的有效評估工具，其評價結果是可靠、可信的。

[關鍵詞] 《優(yōu)質標準》;測量學屬性;信度;效度

一、前言

（一）學前教育質量評價工具研制的價值

幼兒園教育質量對兒童的學習與發(fā)展至關重要。[1][2][3]當前，我國學前教育正處于從高速度增長向高質量發(fā)展轉型的關鍵期。2018年，我國幼兒園教育普及率達到81.7%，在園兒童超過4656萬。[4]面對如此龐大的學前兒童群體，如何科學地評價幼兒園教育質量，引領廣大幼兒教育工作者不斷改進教育實踐，有效促進兒童的學習和發(fā)展，成為重要而緊迫的任務。眾所周知，幼兒園教育質量評價工具的研制，是一項專業(yè)性、科學性很強的工作。自20世紀80年代以來，我國各地陸續(xù)建立了以教育行政部門為主導的幼兒園分等定級體系和評估標準。但這些評估標準體系基本上是建立在地方實踐經(jīng)驗的基礎上，往往未經(jīng)過科學的測量學研制程序和信效度檢驗，存在許多明顯的缺陷，如側重靜態(tài)要素的評價、對動態(tài)的教育過程的評價不足，評價信息采集渠道單一、可靠性不足，評分方法不夠科學合理等。[5][6][7]在此背景下，研制一份適宜我國文化和學前教育情境、科學有效的幼兒園教育質量評價工具，具有重要意義。

（二）學前教育質量評價工具研究的國際趨勢

從國際范圍來看，對學前教育質量評價工具的研究大致呈現(xiàn)如下特征。第一，評價功能與評價工具相匹配。出于學前教育機構管理與政策調(diào)控目的的評價，往往是從學前教育機構整體進行質量評價，評價內(nèi)容側重機構的條件保障（物質環(huán)境、經(jīng)費、師資）、管理運行的合規(guī)性、保教工作的規(guī)范性。比如，美國各州的QRIS體系、美國幼教協(xié)會的高質量托幼機構認證標準、德國的日托機構質量標準、新加坡的SPARK等。出于研究性目的和教育過程質量提升目的的評價，往往是以班級為單位進行觀察評價，評價內(nèi)容側重點各異，如ECERS系列量表關注的是幼兒的學習環(huán)境，[8][9]ECERS-E主要是對幾個領域的課程進行評價，[10]CLASS量表聚焦于師幼關系與互動的評價，[11]SSTEW、MOVERS則是對班級的環(huán)境、課程、教學能否形成對兒童多領域（語言、認知、情感社會性、運動）核心素養(yǎng)的有效支持進行評價。[12][13]第二，信效度驗證方法的多元性?？茖W的質量評價工具是建立在嚴格的、不斷累積的信效度驗證的基礎上的。在量表研制過程中，往往通過采集一定規(guī)模的樣本數(shù)據(jù)，采用現(xiàn)代心理與教育測量學技術對這些工具的信、效度進行探索。如，通常采用克隆巴赫系數(shù)估計量表各項目間的內(nèi)部一致性;[14]因幼兒園教育質量評價是多人參與的多維度評價，已有研究采用多元概化理論和項目反應理論對測評的信度展開了深入探索;[15][16][17]效度研究方面，通常采用探索性因素分析（EFA）或驗證性因素分析（CFA）對評價工具結構效度進行探索，[18]尤其重視質量工具的測評結果與兒童發(fā)展結果（如語言、認知、情感社會性）的校標關聯(lián)效度或預測效度。[19][20][21]

（三）《優(yōu)質標準》的研發(fā)

中國學前教育研究會（以下簡稱“研究會”）作為全國學前教育研究者和實踐者的專業(yè)性組織，有力量也有使命引領全國學前教育科學研究和提升其質量。2018年初，研究會設立了“十三五”重點項目“中國優(yōu)質幼兒園評價標準研究”，整合國內(nèi)多所高校的研究力量，組建了一個包括學前教育學、兒童發(fā)展心理學、教育測量與統(tǒng)計學等領域專家的跨學科研究團隊，開始進行幼兒園優(yōu)質標準的研制工作。研制這一標準的初衷是引領全社會更新幼兒園教育質量觀念，支持幼兒園教師專業(yè)發(fā)展，促進幼兒園的質量提升，為政府部門的學前教育決策提供參考，同時，研究會可以依據(jù)該標準展開學前教育質量相關的科學研究以及優(yōu)質幼兒園認證。

經(jīng)過兩年扎實的工作，課題組研制出《走向優(yōu)質——中國幼兒園教育質量評價標準》（以下簡稱《優(yōu)質標準》）。研究團隊基于人類發(fā)展生態(tài)系統(tǒng)理論、發(fā)展適宜性實踐理論、需求層次理論等，廣泛借鑒了多個國家、專業(yè)組織的學前教育機構質量評價標準以及ECERS系列、CLASS、SSTEW、MOVERS等評價工具的質量觀念與指標框架，結合中國國情以及學前教育研究與實踐，構建起具有中國特色的《優(yōu)質標準》質量概念與指標框架。在評價指標編寫的過程中，研究團隊堅持了以兒童為本、系統(tǒng)思維、動態(tài)思維、層層遞進、問題導向等基本原則。

2018年12月，《優(yōu)質標準》草稿基本完成，并召開了境內(nèi)外專家咨詢會，征求了來自美國、英國、中國香港的多位學前教育質量評價領域資深專家的意見和建議，《優(yōu)質標準》的質量概念、指標框架、評價方式等得到了專家們的肯定。2019年3月、6月、9月，研究團隊分別在四川成都、浙江杭州、上海進行了三次幼兒園現(xiàn)場試測，基于每次試測的數(shù)據(jù)分析結果，研究團隊對標準的項目結構、指標數(shù)量和內(nèi)容不斷進行調(diào)整和優(yōu)化。2019年10月，《優(yōu)質標準》正式定稿，2019年10月至12月，為驗證《優(yōu)質標準》的測量學屬性，研究團隊在全國抽樣了100所幼兒園和1670名兒童進行測評，基于測評數(shù)據(jù)對該標準的測量學屬性進行了基本分析。

二、研究方法

（一）抽樣說明

1. 幼兒園和班級抽樣。

課題組采用分層抽樣的方法，在廣西、陜西、吉林、江蘇和浙江5個省區(qū)的市區(qū)、城郊、縣鎮(zhèn)和農(nóng)村，分別抽樣公辦和民辦不同性質、不同等級幼兒園共計100所，幼兒園樣本分布情況如表1所示。每所幼兒園各隨機抽樣大、中、小各1個班級，共計300個班級。評估員團隊運用《優(yōu)質標準》對樣本幼兒園和班級進行了質量評估。

2. 兒童抽樣。

為檢驗《優(yōu)質標準》的實證效度，幼兒園質量測評當日在每個樣本班級隨機抽樣6名兒童（男女各半），運用PPVT、REMA、情感社會性量表對兒童進行發(fā)展水平測試。剔除無效樣本，最終從100所幼兒園300個班級共獲得了1670名兒童的發(fā)展測評數(shù)據(jù)，兒童樣本分布情況如表2所示。需要說明的是，一名兒童需參與三份量表測評，但并非每位兒童均完成了所有測評。最終，實際參與PPVT測評的兒童1669名，有效率為99.94%;參與REMA測評的兒童1594名，有效率為95.45%;參與情感社會性測評的兒童1548名，有效率為92.69%。

（二）評價工具

1. 幼兒園教育質量評價：《優(yōu)質標準》。

（1）《優(yōu)質標準》的結構與內(nèi)容。

用于本輪測試的《優(yōu)質標準》包含5個質量領域、28個評價項目，具體情況如下：一是管理引領（6個項目），二是環(huán)境支持（5個項目），三是課程促進（9個項目），四是師資保障（4個項目），五是家園社區(qū)合作（4個項目）。每個項目由若干子項目組成，每個子項目又包含了若干個不同等級的精細評價指標。如表3所示，領域一“管理引領”的項目2理念與規(guī)劃，由2個子項目組成;其中子項目2.1理念與愿景有1～7個評分等級，每個等級下有若干不等的精細指標組成，如在不適宜等級（1分指標）有3個精細指標2.1.1a，2.1.1b，2.1.1c。統(tǒng)計結果顯示，《優(yōu)質標準》共包含80個子項目、880個精細指標。

需要特別指出的是，《優(yōu)質標準》綜合了已有評價工具的共性內(nèi)容和先進理念，兼顧了幼兒園和班級兩個層面的質量評價。在幼兒園整體層面，主要對幼兒園管理、總體環(huán)境、課程建設、師資隊伍、家園社區(qū)合作等方面進行評價;在班級層面，則對班級內(nèi)部的學習環(huán)境（物質環(huán)境與心理環(huán)境）、各領域課程的實施（健康、語言、社會、科學、藝術）進行評價，關注環(huán)境創(chuàng)設、活動安排、教學互動對幼兒各領域核心經(jīng)驗獲得的支持與促進。

（2）評分規(guī)則說明。

首先，精細指標評分規(guī)則。每個精細指標均應進行評價，評價結果為“是”或“否”（“不適用”情況除外）。

其次，子項目評分規(guī)則。子項目采用7點Likert量表進行評分：1分=不適宜，3分=合格，5分=良好，7分=優(yōu)秀。子項目評分采取由低到高逐級推理的原則，依據(jù)精細指標測評結果和評分推理規(guī)則（如表4所示），賦予子項目相應等級計分（1～7分之間）。

第三，項目的計分方法。項目得分為所含多個子項目得分的均分，在1～7分之間變化（保留2位小數(shù)）。

2. 兒童發(fā)展測評工具。

評估團隊采用3個應用廣泛、具有良好測量學屬性的兒童發(fā)展測評工具，包括PPVT（Peabody Picture Vocabulary Test，《皮博迪圖片詞匯測驗（修訂版—甲式）》），[22]REMA-SF（Research-based Early Mathematics Assessment-Short Form，《研究型早期數(shù)學測驗—短版》）[23]和《情感與社會性個別測試》，[24]從語言/詞匯、數(shù)學認知和情感社會性3個方面對兒童發(fā)展水平進行測評。PPVT采用0～1計分方式，作答正確為“1”，作答錯誤為“0”。REMA-SF每個項目計分編碼包含是否正確和采用的策略等，該研究主要采用了正確作答與否計分方式，正確為“1”，錯誤或沒有作答為“0”或“9”。REMA-SF相關研究顯示其具有較好的信效度，較適合測評學前兒童數(shù)學能力。[25][26]情感社會性等問卷依據(jù)幼兒的作答進行編碼，中性為“1”、積極為“2”和消極為“0”。

（三）測評過程

正式測評開始前，課題組對參與測評的評估員進行了統(tǒng)一、嚴格的測評培訓，包括測評方法、測評指標解讀、現(xiàn)場試測培訓等。已有研究結果表明，兩人一組進行測評是經(jīng)濟有效的。[27]本研究中，幼兒園（班級）的質量測評采用兩人一組，各自獨立評分。待測評結束后兩人再進行討論，做出最后的測評結果。每所幼兒園的測評時間一般從早上8：00至下午4：00。本輪測評中，《優(yōu)質標準》的評價者間一致性百分比為0.819～0.986，達到了可接受水平。

在幼兒園質量測評當日，由兒童發(fā)展測評人員在幼兒園對抽樣兒童進行一對一測評。具體而言，分別對每位兒童依次進行PPVT、情感社會性和REMA-SF測評。測評指導語和流程嚴格按照各量表說明進行。每個工具的測評時間一般為10～20分鐘;一名兒童參與三份工具的測評時間一般為30～60分鐘（視兒童年齡與反應時間而異）。如測評過程中兒童疲勞、注意力下降，讓兒童適當休息后繼續(xù)。所有參與測評的兒童，均已取得其父母書面同意。

（四）數(shù)據(jù)分析

數(shù)據(jù)分析采用SPSS 26.0和R軟件進行處理。

三、研究結果與分析

（一）內(nèi)部一致性信度

《優(yōu)質標準》總體內(nèi)部一致性和各個領域內(nèi)部一致性分析結果如表5所示。結果顯示，總體內(nèi)部一致性α=0.926;各領域的內(nèi)部一致性α系數(shù)在0.554～0.934之間。相對來說，領域四的內(nèi)部一致性α系數(shù)偏低，領域五的內(nèi)部一致性α系數(shù)也低于0.7，一致性α系數(shù)較高的是領域三。內(nèi)部一致性系數(shù)與測驗長度有關，增加項目數(shù)可以提高內(nèi)部一致性，但更重要的是提高項目編制質量。分析結果表明，領域四、五的評價項目和指標的編制質量需要進一步提升。

各領域所含項目與領域得分的相關性分析結果如下表6所示，各項目得分與所在質量領域得分的相關系數(shù)都較高，且均具有顯著性。

（二）項目區(qū)分度

采用高低分組法，高、低分組各取《優(yōu)質標準》總分高、低部分的30%，對《優(yōu)質標準》的28個項目進行區(qū)分度分析，[28][29]結果如表7所示。結果顯示，24個項目的區(qū)分度指標均在可接受的范圍（CR值在0.2～0.3之間），4個項目（項目17語言、21師資配備、22工資待遇和25統(tǒng)籌管理）CR值在0.2以下，課題組接下來應考慮對這些項目進行適當修訂。另外，對高、低分組進行顯著性檢驗，結果表明，除項目1依法辦園外，其他均具有顯著性（P<0.01）?？梢姡秲?yōu)質標準》的項目區(qū)分度總體上達到可接受水平，個別項目仍需修訂和優(yōu)化。

（三）結構效度

研究者采用了探索性因子分析（EFA）對《優(yōu)質標準》的潛在結構進行了探索。其中KMO=0.883，Barletts=1804.656，df=378，P<0.01，表明測評數(shù)據(jù)有條件運用EFA進行分析。[30]采用主成分法提取公因子，運用平行分析法確定因子個數(shù)，[31]結果如圖1所示。

依據(jù)上圖EFA和平行分析結果，基于《優(yōu)質標準》5個領域的基本內(nèi)涵，最終確定抽取2個公因子。結合2個公因子所含項目的基本內(nèi)涵和考察的主要內(nèi)容，把這2個公因子分別命名為：公因子1“課程教學與學習環(huán)境”，公因子2“管理支持和師資保障”。這2個公因子可解釋的累積方差貢獻率為50.326%。運用最大方差旋轉法進行旋轉后，依據(jù)因子負荷系數(shù)大于等于0.4進行歸類，結果如表8所示。其中項目9戶外空間與設施設備和項目22工資待遇的因子負荷系數(shù)在0.4以下，依據(jù)負荷系數(shù)的大小將它們歸于相應的公因子。另外，項目24能力建設在這2個公因子上的負荷系數(shù)都較高，依據(jù)其基本含義，將其歸類于公因子2。這些項目在未來進一步的修訂中應被關注。

（四）實證效度

本研究中，我們把兒童發(fā)展測評的結果作為《優(yōu)質標準》的效標，實證效度分析主要圍繞樣本幼兒園在《優(yōu)質標準》上的得分與樣本兒童在3個發(fā)展評價工具上的得分的相關性展開，主要包括：《優(yōu)質標準》總分與兒童語言、數(shù)學認知、情感社會性發(fā)展之間的相關分析;《優(yōu)質標準》2個公因子得分與兒童發(fā)展間的相關分析;《優(yōu)質標準》5個質量領域與兒童發(fā)展測評結果的相關分析。

相關分析結果顯示（見表9），《優(yōu)質標準》總測評結果與兒童語言、數(shù)學認知和情感社會性測評結果均存在弱的顯著正相關?！秲?yōu)質標準》公因子1（課程教學與學習環(huán)境）得分與兒童語言、情感社會性測評結果之間存在顯著正相關;公因子2（管理支持與師資保障）得分與兒童語言、數(shù)學認知測評結果之間存在顯著正相關?！秲?yōu)質標準》5個領域得分與兒童語言、情感社會性測評結果之間均存在弱的顯著正相關;兒童數(shù)學認知（REMA-SF測評結果）僅與領域2（環(huán)境支持）、領域4（師資保障）和領域5（家園社區(qū)合作）之間存在弱的顯著正相關。

兒童發(fā)展受到眾多因素的影響，其中家庭教育背景對兒童發(fā)展具有重要影響。依據(jù)已有研究，[32]研究者以母親受教育程度為控制變量，對《優(yōu)質標準》得分與兒童發(fā)展測評結果進行偏相關分析。偏相關分析結果表明（見表10），《優(yōu)質標準》總分與兒童語言、情感社會性發(fā)展測評結果呈弱的顯著正相關;公因子1（課程教學與學習環(huán)境）與兒童語言、情感社會性測評結果均有弱的顯著正相關性，但是公因子2（管理支持與師資保障）與兒童發(fā)展未見顯著相關;領域1～5與兒童語言發(fā)展均有顯著的偏正相關，領域2（環(huán)境支持）與兒童數(shù)學認知發(fā)展有顯著正相關，領域2、3和5與兒童情感社會性發(fā)展存在顯著正相關。與已有研究類似，[33]這些偏相關系數(shù)均不高。

四、討論

（一）《優(yōu)質標準》的內(nèi)部一致性信度和項目區(qū)分度

《優(yōu)質標準》的信度分析首先采用了最常用的內(nèi)部一致性α系數(shù)進行分析和報告。從總體內(nèi)部一致性和各領域所含項目間一致性的分析結果來看，該標準總體內(nèi)部一致性達到較高水平（α系數(shù)為0.926）;各個領域的內(nèi)部一致性α系數(shù)值在0.554～0.934之間，其中領域3（課程促進）的α系數(shù)值最高，領域4（師資保障）最低。一般來說，α系數(shù)值與測驗長度有關，領域3所含的項目數(shù)最多，領域4所含項目數(shù)最少。當然，更重要的是項目的編制質量。在《優(yōu)質標準》未來的修訂中需要關注并著力提升領域4的項目編制質量，以提高其信度。已有研究發(fā)現(xiàn)，美國的《幼兒學習環(huán)境評價量表》（ECERS）各子量表的內(nèi)部一致性α系數(shù)值在0.32～0.79之間，其修訂版ECERS-R各子量表的α系數(shù)值在0.71～0.83之間。[34]與之相比，本研究中《優(yōu)質標準》的內(nèi)部一致性信度總體上略優(yōu)于ECERS/ECERS-R。其次，《優(yōu)質標準》各質量領域與各項目得分的相關分析結果也顯示，各項目與所屬的領域均呈顯著正相關。這些分析結果均表明，《優(yōu)質標準》總體及各領域內(nèi)部一致性較好，其測評結果是穩(wěn)定可靠的。

本研究采用了經(jīng)典測量理論中常用的高低分組法對《優(yōu)質標準》的項目區(qū)分度進行計算。分析結果顯示，除項目1、17、21、22和25的區(qū)分度值在0.2以下，其他項目的區(qū)分度值均在可接受的范圍內(nèi)。項目1是考察幼兒園辦園是否合法，抽樣的100所幼兒園均為合法辦園。但不能僅從這點對項目1做修改或刪除的舉措，合法辦園是幼兒園舉辦、管理和質量的根本，從項目的測評意義和重要性來分析，項目1須繼續(xù)保留。項目17、21、22和25分別考察語言、師資配備、工資待遇和（家園社區(qū)工作的）統(tǒng)籌管理，從區(qū)分度值分析結果來看，其值近似于0.2，可考慮對這些項目進行適當修訂，調(diào)整其評價內(nèi)容和評價方式，以提高其區(qū)分度。此外，研究者還對各項目高、低分組進行了統(tǒng)計檢驗，結果表明，除項目1以外，其他所有的項目均能對高、低分組進行顯著性區(qū)分。項目1之所以無顯著性，主要是因為該項目考察幼兒園辦園的合法性，而抽樣的100所幼兒園均為合法幼兒園。同上原因，這一結果不足以作為對項目1進行調(diào)整的依據(jù)。

《優(yōu)質標準》的內(nèi)部一致性和項目的區(qū)分度分析結果均基于經(jīng)典測量理論，經(jīng)典測量理論非常依賴于樣本，同時也難以對優(yōu)質標準項目水平上的信度展開討論。另外，幼兒園教育質量測評是多人參與的多維主觀評價活動。因經(jīng)典測量理論的局限性以及篇幅所限，本研究未對這些問題展開深入討論，有待后續(xù)另辟篇幅做進一步探討。

（二）《優(yōu)質標準》的結構效度和實證效度

為探討和驗證《優(yōu)質標準》的有效性，研究團隊對抽樣的100所幼兒園進行了實際測評，與此同時對300個樣本班級進行了兒童發(fā)展的抽樣測評。基于這些測評數(shù)據(jù)，從結構效度和實證效度兩方面展開《優(yōu)質標準》的效度分析。在結構效度方面，研究者采用了常用的探索性因子分析（EFA）對《優(yōu)質標準》的潛在結構進行了探索。研究提取了2個公因子：課程教學與學習環(huán)境、管理支持與師資保障，這2個公因子可解釋的方差貢獻率超過50%，可以較好地解釋和代表《優(yōu)質標準》的結構。對《優(yōu)質標準》潛在結構的探索一方面為我們進一步解釋和建構幼兒園教育質量的基本內(nèi)涵提供了依據(jù)，同時也為進一步優(yōu)化項目、提高項目質量提供了科學依據(jù)和參考。如分析結果表明，項目22（工資待遇）因子負荷系數(shù)較低，可以在后期的優(yōu)化中對該項目做適當?shù)男抻啞?/p>

在評價標準潛在因子的探索上，樣本數(shù)據(jù)的不同、因子提取方法的不同，會帶來分析結果的差異。比如美國的ECERS-R，有的研究發(fā)現(xiàn)其包含1個公因子，[35]有的研究發(fā)現(xiàn)其具有2個公因子，[36][37]有的研究則揭示其潛在結構是3個公因子。[38]在我國，浙江師范大學團隊研制的《中國幼兒園教育質量評價量表》（CECERS）則在歷次的研究中保持其兩公因子結構不變。[39][40]值得注意的是，雖然都是學前教育機構教育質量評價工具，但《優(yōu)質標準》與ECERS-R、CECERS等量表所測評的質量內(nèi)涵和維度不同，潛在結構也會有所差異。此外，受樣本量限制，本研究僅對《優(yōu)質標準》的潛在結構進行了探索性因子分析，相關驗證性因素分析還有待未來的研究與應用加以檢驗。

實證效度主要從《優(yōu)質標準》測評結果與兒童發(fā)展水平間的關系來進行探索。本文在探討兩者關系時先進行二元相關分析，并在此基礎上以母親受教育程度為控制變量進行偏相關分析，探討《優(yōu)質標準》各項得分（包括總分、因子得分、領域得分）與兒童發(fā)展測評結果（包括語言、數(shù)學認知、情感社會性）之間的關系。這些分析結果顯示，《優(yōu)質標準》總體上與兒童各領域發(fā)展之間存在顯著的相關性。

具體來看，《優(yōu)質標準》各項得分與兒童不同領域之間的關聯(lián)性呈現(xiàn)出差異化的特點，本研究的結果與已有的研究發(fā)現(xiàn)既具有一致性，也有不同的發(fā)現(xiàn)值得進一步關注。在控制母親受教育程度的條件下，公因子1（課程教學與學習環(huán)境）與兒童語言、情感社會性發(fā)展存在顯著相關性，這與已有研究發(fā)現(xiàn)是一致的;[41]但與兒童數(shù)學認知發(fā)展不存在顯著關聯(lián)性，這與已有研究發(fā)現(xiàn)不一致，值得進一步探究。公因子2（管理支持與師資保障）與兒童各領域發(fā)展均不存在顯著相關性，這與已有發(fā)現(xiàn)是一致的，[42]主要的解釋是管理與師資屬于結構性質量要素，對兒童發(fā)展并沒有直接效應，但對教育過程質量具有顯著的預測效應。[43]我們可以做出這樣的推斷，在《優(yōu)質標準》的兩因子結構中，公因子2（管理支持與師資保障）通過公因子1（課程教學與學習環(huán)境）這一中介變量對兒童發(fā)展產(chǎn)生作用。這一假設有待于未來研究的驗證。

在《優(yōu)質標準》的5個領域中，不同質量領域與兒童發(fā)展不同領域之間的關聯(lián)性也呈現(xiàn)出不同特征。在控制母親受教育程度的情況下，5個領域的教育質量與兒童語言發(fā)展均存在顯著相關性;領域2（環(huán)境支持）、領域3（課程促進）、領域5（家園社區(qū)合作）的測評結果與兒童情感社會性發(fā)展均存在顯著相關性。這些研究發(fā)現(xiàn)與已有研究發(fā)現(xiàn)基本一致。[44]但兒童數(shù)學認知的測評結果僅與領域2（環(huán)境支持）的測評得分存在相關性。這一結果與《優(yōu)質標準》編制者的理論預設存在一定出入，比如，我們預期質量領域3（課程促進）的得分應該與兒童各領域發(fā)展（包括數(shù)學學習）存在顯著相關性。這一結果與已有研究發(fā)現(xiàn)也不盡一致，比如，已有研究發(fā)現(xiàn)教學與互動質量與兒童數(shù)學學習結果存在顯著相關性。[45][46]造成這種差異的其中一個重要原因，可能在于兒童的數(shù)學學習方式與兒童語言、社會性學習存在差異，比如，兒童的語言學習、社會性學習更加依賴于人際互動，[47][48]而數(shù)學的學習更加依賴于對數(shù)學材料的獨立操作，[49][50]因而，本研究中發(fā)現(xiàn)僅學習環(huán)境質量與兒童數(shù)學認知測評結果存在相關性。另外一個可能的解釋是，幼兒園教育質量與兒童數(shù)學認知發(fā)展之間有可能存在非線性相關，比如，可能存在“門檻效應”（threshold effect）：質量得分上存在一個臨界值，不同質量水平與兒童的數(shù)學學習結果之間存在顯著不同的相關性。幼兒園教育質量與兒童數(shù)學學習、語言和社會性學習結果之間關系的差異性，以及幼兒園教育質量對兒童不同領域的發(fā)展均存在顯著的“門檻效應”，這些在李克建等人最近的一項研究中也得到了證實。[51]

總體而言，通過質量測評結果與兒童發(fā)展測評結果的相關分析，研究發(fā)現(xiàn)，《優(yōu)質標準》測評得分與兒童語言、數(shù)學認知、情感社會性發(fā)展之間存在弱的正相關性，這與已有研究發(fā)現(xiàn)基本一致。[52][53][54][55]這些證據(jù)能夠支持研究者作出這一謹慎的結論：在我國的幼兒園教育情境中，《優(yōu)質標準》的測評結果是有意義的和有效的。當然，本研究僅是一次初步的探索，存在一定的局限性，比如，現(xiàn)有的數(shù)據(jù)分析方法尚未考慮教育質量測評數(shù)據(jù)的層次性和數(shù)據(jù)嵌套關系。另外，《優(yōu)質標準》所測評的質量水平是否與兒童發(fā)展間存在“門檻效應”，是否受到其他因素的影響等，針對這些問題，我們將另辟篇幅展開更深入精細的討論。

參考文獻：

[1]BURCHINAL M， MAGNUSON K， POWELL D， et al. Early child care and education and child development[C]//LERNER R， BORNSTEIN M M H， LEVENTHAL T. Handbook of child psychology and developmental science（7th ed）. Hoboken， NJ： Wiley，2015，4：223-267.

[2][40]李克建.中國托幼機構教育質量評價研究[M].北京：北京師范大學，2017.

[3]秦金亮，等.基于證據(jù)的學前教育需求與質量研究[M].北京：北京師范大學出版社，2018.

[4]教育部.2018年全國教育事業(yè)發(fā)展統(tǒng)計公報[EB/OL].（2019-07-24）[2020-04-18].http：//www.moe.gov.cn/jyb_sjzl/sjzl_fztjgb/201907/t20190724_392041.html.

[5]劉焱.試論托幼機構教育質量評價的幾個問題[J].學前教育研究，1998（03）：14-17.

[6]戴雙翔，劉霞.我國現(xiàn)行托幼機構教育質量評價工具研究[J].學前教育研究，2003（01）：39-41.

[7]劉麗湘.當前我國幼兒園教育質量評價工作的誤區(qū)及調(diào)整策略[J].學前教育研究，2006（01）：85-87.

[8]HARMS T， CLIFFORD R M， CRYER D. Early childhood environment rating scale-revised version （ECERS-R） [M]. New York： Teachers College Press，1998.

[9]HARMS T， CLIFFORD R M， CRYER D. Early childhood environment rating scale（ECERS-3）[M]. New York： Teachers College Press，2015.

[10]SYLVA K， SIRAJ-BLATCHFORD I， TAGGART B. ECERS-E： the four curricular subscales extension to the early childhood environment rating scale（ECERS-R） 4th Edition[M]. New York： Teachers College Press，2010.

[11]PIANTA R C， LA PAR KM， HAMRE B K. Classroom assessment scoring system （CLASS） manual， K-3[M]. Baltimore， MD： Brookes，2008.

[12]IRAM S， DANISE K， EDWARD M.持續(xù)共享思維和情緒情感健康評量表（SSTEW）[M]. 詹慧妮，朱珊，譯.南京：南京師范大學出版社，2019.

[13]CAROL ARCHER， IRAM SIRAJ.運動環(huán)境評量表（MOVERS）[M].張丹丹，劉萌然，譯.南京：南京師范大學出版社，2019.

[14][19][32][33][39][41][44][45][54]LI K， HU B Y， PAN Y， et al. Chinese early childhood environment rating scale（trial）（CECERS）： a validity study[J]. Early Childhood Research Quarterly，2014，29（3）：268-282.

[15][27]CHEN D， HU B Y， FAN X， et al. Measurement quality of the Chinese early childhood program rating scale： an investigation using multivariate generalizability theory[J]. Journal of Psychoeducational Assessment，2014，32（3）：236-248.

[16]BATRK R， IIKOLU N. Analyzing process quality of early childhood education with many facet rash measurement model[J]. Educational ences： Theory and Practice，2008，8（1）：25-32.

[17]陳德枝，秦金亮，李克建.托幼機構教育質量評價中評委偏差的多側面Rasch分析[J].心理科學，2016（03）：628-636.

[18][34][36]CASSIDY D J， HESTENES L L， HEGDE A， et al. Measurement of quality in preschool child care classrooms： an exploratory and confirmatory factor analysis of the early childhood environment rating scale-revised[J]. Early Childhood Research Quarterly，2005，20（3）：345-360.

[20]SYLVA K， SIRAJ-BLATCHFORD I， TAGGART B， et al. Capturing quality in early childhood through environmental rating scales[J]. Early Childhood Research Quarterly，2006，21（1）：76-92.

[21]HOWARD S J， SIRAJ-BLATCHFORD I， MELHUISH E C， et al. Measuring interactional quality in pre-school settings： introduction and validation of the Sustained Shared Thinking and Emotional Wellbeing （SSTEW） scale[J]. Early Child Development & Care，2018（08）：1-14.

[22]陸莉，劉鴻香.皮博迪圖片詞匯測驗（修訂版—甲式）：指導手冊[M].臺北：心理出版社，2005.

[23]SARAMA J H， CLEMENTS D H. Interventions in early mathematics： avoiding pollution and dilution[J]. Advances in Child Development and Behavior，2017（53）：95.

[24]蓋笑松.情感與社會性個別測試.兒童入學準備研究與實踐[M].長春：吉林教育出版社，2007.

[25]WEILAND C， WOLFE C B， HURWITZ M D， et al. Early mathematics assessment： validation of the short form of a prekindergarten and kindergarten mathematics measure[J]. Educational Psychology，2012， 32（3）：311-333.

[26]CLEMENTS D H ， SARAMA J H ， LIU X H . Development of a measure of early mathematics achievement using the Rasch model： the research-based early math assessment[J]. Educational Psychology， 2008，28（4）：457-482.

[28]戴海崎，張峰，陳雪楓.心理與教育測量學（第三版）[M].廣州：暨南大學出版社，2011：88-89.

[29]王孝玲.教育測量[M].上海：華東師范大學出版社，2005：121-123.

[30]張文彤.SPSS統(tǒng)計分析高級教程[M].北京：高等教育出版社，2004：220-222.

[31]孔明，卞冉，張厚粲.平行分析在探索性因素分析中的應用[J].心理科學，2007，30（4）：924-925.

[35]HOLLOWAY S D， KAGAN S L， FULLER B， et al. Assessing child-care quality with a telephone interview[J]. Early Childhood Research Quarterly，2001，16（2）：165-189.

[37]SAKAI L M， WHITEBOOK M， WISHARD A， et al. Evaluating the early childhood environment rating scale （ECERS）： assessing differences between the first and revised edition[J]. Early Childhood Research Quarterly，2003，18（4）：427-445.

[38][53]GPRDON R A， FUJIMOTO K， KAESTNER R， et al. An assessment of the validity of the ECERS-R with implications for measures of child care quality and relations to child development[J]. Developmental Psychology，2013，49（1）：146-160.

[42][46][55] LI K， PAN Y， HU B Y， et al. Early childhood education quality and child outcomes in China： evidence from Zhejiang Province[J]. Early Childhood Research Quarterly，2016，36：427-438.

[43]HU B Y， MIRANDA C K M， JENNIFER N， et al. Predictors of Chinese early childhood program quality： implications for policies[J]. Children and Youth Services Review，2016，70：152-162.

[47]周兢.學前兒童語言學習與發(fā)展核心經(jīng)驗[M].南京：南京師范大學出版社，2015.

[48]劉晶波.社會學視野下師幼互動行為研究：我在幼兒園里看到了什么？[M].南京：南京師范大學出版社，2006.

[49]吳慧鳴.操作法的原理及其在幼兒數(shù)學教育中的應用[J].學前教育研究，1995（06）：43-45.

[50]黃瑾，田方.學前兒童數(shù)學學習與發(fā)展核心經(jīng)驗[M].南京：南京師范大學出版社，2015.

[51]LI K， ZHANG P， HU B Y， et al. Testing the ‘thresholds of preschool education quality on child outcomes in China[J]. Early Childhood Research Quarterly，2019，47（1）：445-456.

[52]BURCHINAL M. Measuring early care and education quality[J]. Child Development Perspectives， 2018，12（1）：3-9.