張 勝,康玥媛
?
TIMSS研究方法的經(jīng)驗(yàn)與啟示——基于對(duì)梁貫成教授的深度訪談
張 勝1,康玥媛2
(天津師范大學(xué)教師教育學(xué)院,天津 300387)
通過(guò)對(duì)國(guó)際大型教育測(cè)評(píng)項(xiàng)目TIMSS數(shù)學(xué)測(cè)試香港地區(qū)執(zhí)行官員、教育部長(zhǎng)江學(xué)者、2013年“費(fèi)萊登特爾獎(jiǎng)”獲得者、香港大學(xué)教育學(xué)院梁貫成教授進(jìn)行訪談,深入探討了TIMSS嚴(yán)謹(jǐn)?shù)难芯糠椒捌浔澈笏N(yùn)含的教育研究原則.梁教授認(rèn)為:明確研究問(wèn)題是整個(gè)研究的核心,是首先要做的、最為重要的環(huán)節(jié),并需有理論框架支撐,研究問(wèn)題直接決定實(shí)施研究過(guò)程中研究方法的選擇、樣本的選取和抽樣方法的選擇,以及獲取研究結(jié)果時(shí)數(shù)據(jù)的分析方法及策略等問(wèn)題;TIMSS作為大樣本的量的研究,存在其局限性,可以考慮與質(zhì)的研究相結(jié)合.
國(guó)際數(shù)學(xué)及科學(xué)趨勢(shì)研究;研究問(wèn)題;教育研究方法;經(jīng)驗(yàn)與啟示
2013年11月28日,香港大學(xué)教育學(xué)院梁貫成教授獲國(guó)際數(shù)學(xué)教育委員會(huì)頒授堪稱“數(shù)學(xué)教育諾貝爾獎(jiǎng)”的費(fèi)萊登特爾獎(jiǎng)(Freudenthal Award),這是全球數(shù)學(xué)教育界的最高榮譽(yù),梁先生是該國(guó)際獎(jiǎng)項(xiàng)自2002年設(shè)立以來(lái)首位獲此殊榮的亞洲學(xué)者.梁先生作為國(guó)際大型教育測(cè)評(píng)項(xiàng)目TIMSS(Trends in International Mathematics and Science Study,國(guó)際數(shù)學(xué)及科學(xué)趨勢(shì)研究)香港地區(qū)執(zhí)行官員,國(guó)際數(shù)學(xué)教育委員會(huì)認(rèn)為其“學(xué)術(shù)成就杰出,在促進(jìn)東亞地區(qū)數(shù)學(xué)教育的發(fā)展、增進(jìn)東亞國(guó)家與西方國(guó)家數(shù)學(xué)教育群體之間的交流了解方面建樹(shù)良多,獲得2013年費(fèi)萊登特爾獎(jiǎng),實(shí)至名歸.”[1]
近十幾年來(lái),上海、中國(guó)香港、中國(guó)臺(tái)灣、中國(guó)澳門(mén)地區(qū)的學(xué)生在國(guó)際大規(guī)模測(cè)評(píng)項(xiàng)目中表現(xiàn)優(yōu)異,使得TIMSS、PISA等大型國(guó)際教育評(píng)價(jià)項(xiàng)目在國(guó)內(nèi)受到越來(lái)越多教育研究者和一線教師的關(guān)注.在當(dāng)今國(guó)際教育改革潮流的推動(dòng)下,實(shí)證研究方法已成為國(guó)內(nèi)教育研究變革的訴求.但目前國(guó)內(nèi)的教育實(shí)證研究還存在著諸如“不重視因素關(guān)聯(lián)”、“只有數(shù)字羅列”、“不遵循研究規(guī)范”、“研究過(guò)程不完整”等問(wèn)題[2].因此TIMSS、PISA等大型國(guó)際權(quán)威性測(cè)評(píng)項(xiàng)目的研究方法成為國(guó)內(nèi)教育工作者借鑒和學(xué)習(xí)的重要對(duì)象.梁貫成教授作為T(mén)IMSS數(shù)學(xué)測(cè)試在香港地區(qū)的負(fù)責(zé)人,對(duì)TIMSS研究方法有著非常豐富的經(jīng)驗(yàn)和獨(dú)到深入的見(jiàn)解.2016年11月14日,梁貫成教授應(yīng)邀赴津?yàn)樘旖驇煼洞髮W(xué)2016年“國(guó)培計(jì)劃”學(xué)員講學(xué),期間研究者(下文簡(jiǎn)稱“研”)有幸對(duì)梁先生進(jìn)行了約150分鐘的深度訪談.梁先生(下文簡(jiǎn)稱“梁”)就TIMSS研究方法的相關(guān)問(wèn)題,分享了許多寶貴的經(jīng)驗(yàn).梁先生主要以TIMSS測(cè)評(píng)為例,圍繞研究問(wèn)題為核心,探討了建立理論框架的重要意義,如何搞清楚研究問(wèn)題,以及在研究實(shí)施過(guò)程中如何選取樣本、選擇抽樣方法、如何編制測(cè)量工具、如何獲取研究結(jié)果等問(wèn)題.
研:梁先生您好,非常榮幸您能夠接受我們的訪談.我們對(duì)TIMSS研究方法非常感興趣,希望能夠借鑒其精髓運(yùn)用于今后的科研.作為T(mén)IMSS數(shù)學(xué)測(cè)試在香港地區(qū)的執(zhí)行官員,您的觀點(diǎn)是非常具有權(quán)威性的,能否結(jié)合TIMSS測(cè)評(píng),談?wù)勀J(rèn)為教育研究中最重要的是什么?
梁:TIMSS研究方法確實(shí)是有其借鑒意義和價(jià)值的,無(wú)論做大型跨國(guó)研究抑或小型課堂研究,嚴(yán)謹(jǐn)?shù)难芯糠椒ū澈蟮脑瓌t都類(lèi)同.做研究最重要的是首先要明確好研究問(wèn)題,研究對(duì)象、研究?jī)?nèi)容、所有的關(guān)鍵詞都要有明確的定義.給出定義時(shí)不能想當(dāng)然,而要到文獻(xiàn)里去看.
2.1 比較什么
要明確研究的問(wèn)題是什么,首先要明確第一點(diǎn):比較什么?以TIMSS測(cè)評(píng)為例,要“比較數(shù)學(xué)成績(jī)”,那么“數(shù)學(xué)”是什么呢?在一個(gè)國(guó)家地區(qū)內(nèi)進(jìn)行研究時(shí),“數(shù)學(xué)”的定義是已經(jīng)由數(shù)學(xué)課程標(biāo)準(zhǔn)規(guī)定好了的,不會(huì)產(chǎn)生爭(zhēng)論.但“數(shù)學(xué)”在中國(guó)的理解與在德國(guó)、美國(guó)是一樣的嗎?舉個(gè)例子,在TIMSS的一次專(zhuān)家會(huì)議上,我們針對(duì)“比較什么”進(jìn)行討論時(shí)談及“幾何”.我發(fā)現(xiàn)我們國(guó)家所理解的“幾何”與一些西歐人所理解的“幾何”是不同的.國(guó)內(nèi)所熟知的“全等三角形”的判定與性質(zhì),西歐的一些數(shù)學(xué)家表示從未見(jiàn)過(guò),他們學(xué)習(xí)的是射影幾何.TIMSS作為大型跨國(guó)研究,要注意“數(shù)學(xué)”在不同國(guó)家地區(qū)的不同理解,所以要對(duì)不同國(guó)家地區(qū)的數(shù)學(xué)課程標(biāo)準(zhǔn)進(jìn)行比較,對(duì)“數(shù)學(xué)”的定義達(dá)成一個(gè)共同的看法.
2.2 理論框架包括什么
要“比較數(shù)學(xué)成績(jī)”,“成績(jī)”又是什么呢?“成績(jī)”應(yīng)該放在怎樣的理論框架里進(jìn)行研究呢?這就是除了“明確定義”之外,第二點(diǎn)很重要的:研究一定要在一個(gè)理論框架里進(jìn)行.為了探索不同國(guó)家地區(qū)的教育系統(tǒng)中各相關(guān)因素對(duì)成績(jī)的影響,TIMSS首先在宏觀上構(gòu)造了“課程框架”,將“課程”劃分為Intended Curriculum(預(yù)期課程,對(duì)應(yīng)社會(huì)文化背景)、Implemented Curriculum(實(shí)施課程,對(duì)應(yīng)學(xué)校及社區(qū)背景)、Attained Curriculum(實(shí)現(xiàn)課程,對(duì)應(yīng)個(gè)人背景)3個(gè)層面來(lái)把握.分析學(xué)生“成績(jī)”,對(duì)應(yīng)個(gè)人背景,因此在“實(shí)現(xiàn)課程”層面進(jìn)行研究.為了深入了解學(xué)生在不同方面的表現(xiàn),TIMSS進(jìn)一步構(gòu)造出了“測(cè)評(píng)框架”,將“實(shí)現(xiàn)課程”劃分為“內(nèi)容”、“表現(xiàn)”、“觀感”3個(gè)維度,各維度下又細(xì)分為不同的內(nèi)容.例如在TIMSS 2011數(shù)學(xué)測(cè)評(píng)框架中,小學(xué)四年級(jí)的“內(nèi)容”維度下包括“數(shù)”、“幾何圖形與度量”、“數(shù)據(jù)表達(dá)”3方面內(nèi)容.TIMSS比較成績(jī)不單單是比較分?jǐn)?shù)的高低,而是會(huì)在測(cè)評(píng)框架中去分析不同國(guó)家地區(qū)“實(shí)現(xiàn)課程”的差異,例如不同國(guó)家地區(qū)學(xué)生的“實(shí)現(xiàn)課程”如何受個(gè)人背景影響、如何受教學(xué)影響等.理論框架非常重要,所有的研究都要有理論支撐,既然是理論,那就要回到文獻(xiàn)里去,不能想當(dāng)然.有了理論框架以后要把理論框架具體化、行動(dòng)化、操作化,這樣就可以將研究問(wèn)題明確化,給出關(guān)鍵概念的操作性定義,并利用工具去研究不同因素的影響.
2.3 比較對(duì)象是誰(shuí)
TIMSS數(shù)學(xué)測(cè)試對(duì)象是“小學(xué)四年級(jí)”和“初中二年級(jí)”的學(xué)生,但是如何理解“小學(xué)四年級(jí)”呢?不同國(guó)家地區(qū)的學(xué)生入學(xué)年齡不同,中國(guó)香港學(xué)生是6歲入學(xué),但英國(guó)是5歲、南美洲一些國(guó)家是8歲.這意味著小學(xué)四年級(jí)時(shí),中國(guó)香港學(xué)生是9歲,英國(guó)學(xué)生還是8歲,但巴西學(xué)生卻已經(jīng)11歲了.這是比較研究中很重要的問(wèn)題:何為“公平的比較”?現(xiàn)在TIMSS對(duì)“小四”的定義是“最多9歲學(xué)生所在的年級(jí)”,所以“小四”在一些國(guó)家地區(qū)可能并不是真的“小四”.PISA是完全依據(jù)年齡進(jìn)行測(cè)試的,它測(cè)試全部15歲的學(xué)生,不論在何年級(jí).但是它同樣存在問(wèn)題,那就是不同國(guó)家地區(qū)15歲的學(xué)生所受教育的年數(shù)是不同的.總之,一定要明確研究對(duì)象是誰(shuí),以及確定研究對(duì)象的標(biāo)準(zhǔn)是什么.
2.4 研究單位是什么
所有的研究還要考慮一個(gè)問(wèn)題:“研究單位”是什么?“研究單位”有兩方面,一方面是表述結(jié)果的單位,另一方面是搜集數(shù)據(jù)時(shí)最低層的單位.就TIMSS而言,表述結(jié)果的單位是“國(guó)家”或“地區(qū)”,因?yàn)門(mén)IMSS最終需要的是一個(gè)國(guó)家或“地區(qū)”層面的分?jǐn)?shù);搜集數(shù)據(jù)時(shí)最低層的單位是“學(xué)生”.舉例說(shuō)明,“在新加坡有80%的學(xué)生,他們的老師是本科畢業(yè)”與“在新加坡有80%的老師是本科畢業(yè)”,這是兩個(gè)不同的概念.為什么呢?因?yàn)樗鸭瘮?shù)據(jù)時(shí),前者最低層的單位是“學(xué)生”,該研究沒(méi)有“具有代表性的老師的樣本”,只有“具有代表性的學(xué)生的樣本”.研究過(guò)程實(shí)施時(shí),先是隨機(jī)抽取學(xué)生,然后再對(duì)抽取到的學(xué)生的老師進(jìn)行問(wèn)卷調(diào)查,了解包括“是否本科畢業(yè)”在內(nèi)的諸多情況.雖然這兩個(gè)數(shù)字可能會(huì)很接近,但一定要分得很清楚.一個(gè)嚴(yán)謹(jǐn)?shù)难芯浚欢ㄒWC數(shù)據(jù)在最大程度上的精確性.
3.1 總體是什么
研:感謝您對(duì)明確研究問(wèn)題重要性的深入解讀.您剛才談及對(duì)研究單位的確定以及抽樣,那么在研究過(guò)程的具體實(shí)施中,TIMSS的抽樣是如何實(shí)現(xiàn)的呢?
梁:所有的研究在抽樣之前都要確定一個(gè)問(wèn)題:總體是什么?在TIMSS中,所需要的總體是某一個(gè)國(guó)家地區(qū)的全部小學(xué)四年級(jí)學(xué)生,這叫做“所需總體”.考慮到測(cè)試實(shí)際操作的可行性,TIMSS允許對(duì)所需總體進(jìn)行一定范圍內(nèi)的排除.比如有些特殊學(xué)生:生理障礙或認(rèn)知障礙的學(xué)生、地理位置不通達(dá)的學(xué)生等.排除以后得到的,叫做“有效總體”或“定義總體”.對(duì)所需總體進(jìn)行排除、獲取有效總體的過(guò)程,一定要遵守兩個(gè)原則:第一,不能隨便排除,排除一定要有合理原因,假如把所有成績(jī)差的學(xué)生排除出去,就會(huì)使樣本不具代表性,而排除一些地理位置不通達(dá)的學(xué)生,是符合原則的;第二,排除的百分比不能超過(guò)5%,如果排除超過(guò)5%的話,同樣會(huì)影響其代表性.國(guó)際上對(duì)PISA2009和PISA2012上海學(xué)生測(cè)試成績(jī)的問(wèn)題就有討論:在2009年和2012年的兩屆測(cè)試中,上海學(xué)生都取得了閱讀、數(shù)學(xué)、科學(xué)三大領(lǐng)域的第一,但抽樣時(shí)排除了所有無(wú)上海戶口的學(xué)生.這是個(gè)不小的數(shù)字,有很多學(xué)生的父母是從外地來(lái)到上海工作的,他們并沒(méi)有上海戶口.因?yàn)榘严喈?dāng)多的學(xué)生排除出去,所以在國(guó)際上有學(xué)者認(rèn)為PISA測(cè)試上海的成績(jī)并不具有說(shuō)服力.
3.2 如何選擇抽樣方法
TIMSS使用的抽樣方法為“兩階段層化聚點(diǎn)抽樣(two-stage cluster sampling)”,先隨機(jī)抽取學(xué)校,再在學(xué)校中隨機(jī)抽取一個(gè)班,然后測(cè)試所有這個(gè)班的學(xué)生.但是運(yùn)用這個(gè)較為方便的抽樣方法是有代價(jià)的,因?yàn)橥粚W(xué)校中學(xué)生間的差異是小于整個(gè)國(guó)家地區(qū)學(xué)生間的差異的,所以這樣抽樣的代表性,不如對(duì)整個(gè)國(guó)家地區(qū)全部小學(xué)四年級(jí)學(xué)生進(jìn)行隨機(jī)抽樣那么好.TIMSS規(guī)定至少要抽取150個(gè)學(xué)校才可以代表整個(gè)國(guó)家地區(qū),讓樣本大一些,借此來(lái)保證足夠的代表性.但針對(duì)不同國(guó)家或地區(qū)仍有不同的情況,比如在北歐,各個(gè)學(xué)校間水平差異很小,抽取150個(gè)學(xué)校足以保證其代表性;但中國(guó)香港在1995年抽取了180個(gè)學(xué)校,因?yàn)橄愀鄣貐^(qū)的學(xué)校差異比較大.所以TIMSS規(guī)定的是,“至少要抽取150個(gè)學(xué)校”而不是“抽取150個(gè)學(xué)?!保媒y(tǒng)計(jì)學(xué)中的組內(nèi)相關(guān)系數(shù)(intra-class correlation coefficient)可以測(cè)量學(xué)校間差異大小,差異大的國(guó)家地區(qū)可以通過(guò)“增加抽取學(xué)校數(shù)量”的方式來(lái)保證其代表性.
那么具體如何去抽取學(xué)校呢?假如在天津進(jìn)行,抽取學(xué)校時(shí)在天津所有的學(xué)校中隨機(jī)抽取150個(gè),這樣“公平”嗎?答案是否定的.研究單位是“學(xué)生”而非“學(xué)校”,所以要保證每個(gè)學(xué)生被抽中的概率相同而非學(xué)校.一個(gè)國(guó)家地區(qū),所有的學(xué)校都會(huì)有大小之分,直接隨機(jī)抽取會(huì)使得每個(gè)學(xué)校被抽中的概率相同,而不同校學(xué)生被抽中的概率不同.所以TIMSS使用PPS(Probability Proportional to Size Sampling)抽樣方法,從而保證每個(gè)學(xué)校被抽到的概率與其自身規(guī)模大小成正比,每個(gè)學(xué)生被抽到的概率相同.
3.3 測(cè)量工具的編制及引用
研:您剛剛談了抽樣過(guò)程,那么接下來(lái)就該施測(cè)了.TIMSS的測(cè)量工具,尤其是試卷,是如何編制的?例如TIMSS的認(rèn)知維度包括3個(gè)方面:知識(shí)、應(yīng)用和推理[3~4].那么這3個(gè)方面是如何確定的,這3個(gè)方面在試題測(cè)試中是否有一個(gè)大致的比例,這個(gè)比例又是如何確定的?
梁:TIMSS主要通過(guò)測(cè)試及問(wèn)卷來(lái)收集學(xué)生的學(xué)業(yè)成績(jī)和學(xué)習(xí)態(tài)度、課程設(shè)置、教材管理,以及教學(xué)資源等信息[5].在數(shù)學(xué)教育研究來(lái)講,大致有問(wèn)卷、試卷、大綱及教材分析這些測(cè)量工具,問(wèn)卷包括學(xué)生問(wèn)卷、教師問(wèn)卷、學(xué)校問(wèn)卷、國(guó)家問(wèn)卷等.下面我就主要談?wù)勗嚲恚紫纫伎迹貉芯孔罱K要獲取怎樣的結(jié)果?以中國(guó)香港舉例,最終只需要獲取香港學(xué)生數(shù)學(xué)的分?jǐn)?shù)?還是除此之外還要獲取香港學(xué)生代數(shù)的分?jǐn)?shù)、幾何的分?jǐn)?shù)?如果只需獲取總分的話,試卷題目可能無(wú)須太多;假若還要獲取幾何、代數(shù)、統(tǒng)計(jì)等具體各方面分?jǐn)?shù),一定要有足夠的代數(shù)題目,這樣才能夠代表“代數(shù)”.認(rèn)知要求維度:“推理”、“應(yīng)用”、“知識(shí)”.如果劃分更具體,要獲取“幾何推理”的分?jǐn)?shù),就會(huì)需要更多的題目,因?yàn)橐凶銐虻摹皫缀瓮评怼钡念}目才能夠說(shuō)明一個(gè)國(guó)家地區(qū)的情況.TIMSS在命題時(shí)要求有測(cè)試藍(lán)圖,TIMSS1995數(shù)學(xué)測(cè)試藍(lán)圖的內(nèi)容包括6個(gè)方面,分別是:①整數(shù),②分?jǐn)?shù)與比例,③測(cè)量、估算與數(shù)感,④數(shù)據(jù)描述、分析與概率,⑤幾何,⑥規(guī)律、關(guān)系與函數(shù)[6].當(dāng)時(shí)首先找專(zhuān)家商議6個(gè)分布應(yīng)該各占多少百分比,以及選擇題、短答題、長(zhǎng)答題等每一種題型的比例,進(jìn)而由該比例計(jì)算出每一道題目的分值.
研:在測(cè)量工具的編制過(guò)程中,除了可以自編題目之外,還可以引用或改編一些權(quán)威測(cè)試題,在此過(guò)程中,您認(rèn)為有哪些要注意的問(wèn)題?
梁:引用試題時(shí),試題的翻譯需要引起注意.TIMSS的所有題目最初都是用英文來(lái)命題的,而參與測(cè)試的國(guó)家和地區(qū)總共有三十多種語(yǔ)言.舉個(gè)例子,有一個(gè)題目是這樣描述的:英語(yǔ)原題表達(dá)為“How many sides are there in a hexagon”,是一個(gè)有價(jià)值的題目,但翻譯成中文“一個(gè)六邊形有多少條邊呢?”,這個(gè)題目就沒(méi)有意義了.當(dāng)然還要注意文化的差異,會(huì)造成誤會(huì)的題目也要?jiǎng)h掉.比如在小數(shù)運(yùn)用這一部分,中國(guó)會(huì)有類(lèi)似這種題目:一瓶水1.2元,五瓶水多少錢(qián)?這種題目在TIMSS里面沒(méi)有,為什么?一些國(guó)家比如日本貨幣日元的紙幣最小面值就已經(jīng)是1?000元了,所以學(xué)生沒(méi)有這種運(yùn)用小數(shù)購(gòu)物的情境.對(duì)于引用試題后的分析,除了用數(shù)據(jù)指標(biāo)評(píng)價(jià)之外,在TIMSS中都是靠不同國(guó)家地區(qū)專(zhuān)家的評(píng)估來(lái)實(shí)現(xiàn).
3.4 測(cè)量工具的信度及效度
研:測(cè)試題的信度、效度分析又是如何實(shí)現(xiàn)的呢?
梁:測(cè)試題信度檢驗(yàn)的實(shí)現(xiàn)要比效度檢驗(yàn)容易得多.信度主要是測(cè)試的一致性,所以題目用詞是否清楚、架構(gòu)是否明確都會(huì)影響到信度.TIMSS預(yù)試時(shí)會(huì)有三倍于正式試題的題量來(lái)保證信度:首先通過(guò)預(yù)試分析信度,不夠高就針對(duì)具體有問(wèn)題的題目進(jìn)行修改,并將無(wú)法改進(jìn)的題目刪除.效度是什么呢?效度主要是測(cè)試的有效性.比如在數(shù)學(xué)中,代數(shù)、幾何、統(tǒng)計(jì),它們具體的比例應(yīng)該是多少呢?統(tǒng)計(jì)無(wú)法說(shuō)明,回答這個(gè)問(wèn)題需要各國(guó)相關(guān)專(zhuān)家進(jìn)行評(píng)估.專(zhuān)家們經(jīng)過(guò)討論得到一個(gè)比較公認(rèn)的結(jié)果,比如對(duì)于一個(gè)小學(xué)四年級(jí)的學(xué)生來(lái)說(shuō),代數(shù)是最重要的,所以它要占50%,然后幾何占30%,統(tǒng)計(jì)占20%.用專(zhuān)家評(píng)估得到的結(jié)構(gòu)去保證測(cè)試題目的分布,這本身就是一種效度的研究.TIMSS還會(huì)請(qǐng)不同國(guó)家的數(shù)學(xué)專(zhuān)家進(jìn)行評(píng)定,比如某一道幾何題是不是好的幾何題等.請(qǐng)專(zhuān)家進(jìn)行評(píng)價(jià),這也是提高效度的一種方法.當(dāng)然還有一些統(tǒng)計(jì)學(xué)的方法,但對(duì)于一般的教育研究來(lái)講,專(zhuān)家評(píng)估是最容易實(shí)現(xiàn)的.
研:您剛才談了信效度分析的問(wèn)題.眾所周知,信度和效度的種類(lèi)有很多,那么選擇什么樣類(lèi)型的信效度?有無(wú)一定的選擇標(biāo)準(zhǔn)?
梁:研究問(wèn)題決定了研究者需要做一個(gè)什么樣的效度.就TIMSS的研究問(wèn)題而言,是要了解不同國(guó)家地區(qū)學(xué)生的數(shù)學(xué)狀況,屬于國(guó)家地區(qū)層面上比較概括的層次,所以沒(méi)有結(jié)構(gòu)效度,專(zhuān)家評(píng)估足矣.假如有一個(gè)研究是要在深層次搞清楚“代數(shù)”,那代數(shù)就不只是一個(gè)“課程”而已了,背后還有一個(gè)“何為代數(shù)”的哲學(xué)問(wèn)題,所以就會(huì)需要結(jié)構(gòu)效度——這些題目能否測(cè)量“代數(shù)”的結(jié)構(gòu).
4.1 IRT的使用
研:您剛才已經(jīng)分享了許多TIMSS測(cè)評(píng)實(shí)施過(guò)程中值得學(xué)習(xí)的方法.那么數(shù)據(jù)搜集整理完畢后如何進(jìn)行分析呢?您認(rèn)為有哪些是值得借鑒的?
梁:好,下面我問(wèn)大家一個(gè)問(wèn)題:取得七十分的學(xué)生是不是一定比取得六十五分的學(xué)生好呢?當(dāng)然我這樣問(wèn),你們知道答案一定是“不是”.為什么呢?因?yàn)檫@些題目難度不一,有些學(xué)生做比較容易的題,拿分就會(huì)更容易.有人說(shuō)可以這樣:如果第一題很簡(jiǎn)單答對(duì)就給1分,第二題很難答對(duì)就給3分,這樣不就解決了.但是第二題3分,第一題1分,就意味著第二題的難度一定是第一題的3倍,不是2.9倍或3.2倍.所以這樣評(píng)分太過(guò)隨意.那怎么解決呢?利用IRT(Item Response Theory,項(xiàng)目反應(yīng)理論),簡(jiǎn)單地說(shuō),就是建立一個(gè)函數(shù),用來(lái)描述和刻畫(huà)試題成功完成的概率與試題難度、測(cè)試者能力之間的關(guān)系.核心思想是將試題的難度與學(xué)生的能力建立在同一個(gè)測(cè)量量尺上.這樣不論試題的難度還是學(xué)生的能力估計(jì),在統(tǒng)計(jì)意義的范圍內(nèi),誤差是不變的.這是CTT(Classical Test Theory,經(jīng)典測(cè)量理論)所欠缺的.理論上來(lái)講,TIMSS的題目在每一個(gè)國(guó)家地區(qū)、每一個(gè)城市,IRT的標(biāo)度都是不同的,所以不能用TIMSS的題目測(cè)試天津市的學(xué)生與美國(guó)等地區(qū)學(xué)生做比較,因?yàn)閮傻卦u(píng)分標(biāo)準(zhǔn)是不一樣的.
4.2 數(shù)字編碼策略
對(duì)于短答題和長(zhǎng)答題的批改,TIMSS有兩位數(shù)字編碼,這是非常有價(jià)值的.兩位數(shù)字編碼代表什么含義呢?因?yàn)橥粋€(gè)題目可以不同方法來(lái)解答,所以第一位數(shù)字代表學(xué)生的得分,第二位數(shù)字代表學(xué)生運(yùn)用的方法.比如某個(gè)學(xué)生的得分編碼為13,編碼第一個(gè)數(shù)字1,就說(shuō)明這個(gè)題目拿了1分,第二個(gè)數(shù)字3,就是該生用第三種方法得到這1分.如果另一個(gè)學(xué)生的編碼是21、22、23,那就是該生用3個(gè)不同的方法得到2分.這樣分析可以把一個(gè)問(wèn)題典型的解法列出來(lái),所以兩位數(shù)字編碼非常有價(jià)值.當(dāng)?shù)谝粋€(gè)數(shù)字為0的時(shí)候是最有價(jià)值的,因?yàn)?代表答錯(cuò),但它背后卻有很多信息:TIMSS會(huì)總結(jié)01、02、03等,分析某個(gè)題目有哪些典型的錯(cuò)誤.09代表題目留空.這對(duì)某些國(guó)家地區(qū)非常有價(jià)值,比如中國(guó)香港在TIMSS測(cè)試中表現(xiàn)很好,卻發(fā)現(xiàn)有一個(gè)學(xué)校的學(xué)生有很多02出現(xiàn),這說(shuō)明同一個(gè)老師教的很多學(xué)生都有第二種錯(cuò)誤,所以教學(xué)一定出了問(wèn)題.接下來(lái)可以探討如何進(jìn)行教學(xué),可以避免這種錯(cuò)誤,所以這對(duì)診斷教師的教學(xué)非常有幫助.
研:您主要談及了TIMSS諸多方面的優(yōu)勢(shì)與借鑒價(jià)值,那么您認(rèn)為T(mén)IMSS有沒(méi)有局限性和不足呢?
梁:TIMSS作為量的研究,樣本很大,能夠處理很多的數(shù)據(jù),但變量不是很多,涉及的較為概括、寬泛,難以深入,所以要考慮和質(zhì)的研究相結(jié)合.質(zhì)的研究樣本量很小,研究的對(duì)象很少,但是可以研究深層次的問(wèn)題.比如有一個(gè)學(xué)生很喜歡數(shù)學(xué),有很多因素可能會(huì)是這種喜歡的成因,但通過(guò)質(zhì)的研究發(fā)現(xiàn),在多種因素中老師的教學(xué)才是最為關(guān)鍵的,而這個(gè)結(jié)論只是針對(duì)這一個(gè)學(xué)生而已,所以要在質(zhì)的研究之后跟進(jìn)一個(gè)較大樣本的量的研究.此外在整個(gè)研究中還可以先用量的研究得到一個(gè)大致的印象,然后找案例深入了解情況,但是只研究幾個(gè)案例又沒(méi)有足夠的說(shuō)服力,所以再下一步可以做一個(gè)樣本量大一些的量的研究.當(dāng)然,最重要的還是要針對(duì)具體的問(wèn)題,再考慮要用量的研究還是質(zhì)的研究,要用錄像、問(wèn)卷還是測(cè)試.TIMSS作為大樣本的量的研究,存在其局限性,可以考慮與質(zhì)的研究相結(jié)合.
正如梁先生所說(shuō),無(wú)論做大型跨國(guó)研究抑或小型課堂研究,嚴(yán)謹(jǐn)?shù)难芯糠椒ū澈蟮脑瓌t都類(lèi)同.梁先生從TIMSS談起,特別強(qiáng)調(diào)了明確研究問(wèn)題是整個(gè)研究的核心,是首先要做的、最為重要的環(huán)節(jié),另外很重要的一點(diǎn)是整個(gè)研究要有理論框架的支撐.研究問(wèn)題將直接決定實(shí)施研究過(guò)程中研究方法的選擇、樣本和抽樣以及獲取研究結(jié)果時(shí)數(shù)據(jù)的分析方法及策略等問(wèn)題;研究問(wèn)題的明確便于對(duì)關(guān)鍵概念給出操作性的定義,進(jìn)而才能確定研究對(duì)象、鎖定研究單位,提出恰當(dāng)?shù)睦碚摽蚣埽谎芯窟^(guò)程的實(shí)施要注意所需總體與有效總體(定義總體)的區(qū)別,在抽樣時(shí)要結(jié)合具體的研究問(wèn)題選擇最為適宜的抽樣方法,測(cè)試試題的信效度分析要結(jié)合具體的研究問(wèn)題來(lái)進(jìn)行操作實(shí)現(xiàn),引用國(guó)外試題或量表要特別注意文化的差異以及翻譯問(wèn)題;研究結(jié)果的獲取要對(duì)IRT以及數(shù)字編碼的分析策略引起足夠的重視;TIMSS作為大樣本的量的研究,存在其局限性,可以考慮和質(zhì)的研究相結(jié)合.
TIMSS研究方法不僅對(duì)教育科學(xué)研究有重要的借鑒意義,并且對(duì)中國(guó)中高考改革以及基礎(chǔ)教育質(zhì)量監(jiān)測(cè)的改革和發(fā)展有著同樣重要的借鑒價(jià)值:其一,確立教育系統(tǒng)觀.TIMSS宏觀上的三層“課程框架”,本質(zhì)上是將教育看作一個(gè)包括“預(yù)期—實(shí)施—實(shí)現(xiàn)”過(guò)程的系統(tǒng),在提取和分析各相關(guān)因素與成績(jī)間關(guān)系的同時(shí),更注重探索其背后的影響路徑,進(jìn)而在國(guó)家、地區(qū)、學(xué)校、個(gè)人層面實(shí)現(xiàn)“對(duì)癥下藥”,為教育決策的依據(jù).其二,構(gòu)建符合國(guó)情和學(xué)情的背景因素框架.不同文化背景下的教育特色不同,在“立德樹(shù)人”的大背景下,建立起適合中國(guó)文化及教育實(shí)際的、符合中國(guó)學(xué)生自身學(xué)情的背景因素框架.其三,構(gòu)建具有中國(guó)特色的基礎(chǔ)教育可操作性測(cè)評(píng)指標(biāo).在構(gòu)建完成理論框架和背景因素框架的基礎(chǔ)之上,明確給出具有可操作性的具體測(cè)評(píng)指標(biāo),將頂層設(shè)計(jì)框架具體化.其四,改進(jìn)測(cè)評(píng)技術(shù)及方法.測(cè)評(píng)技術(shù)及方法的運(yùn)用與規(guī)范對(duì)統(tǒng)計(jì)測(cè)量分析的重要性不言而明,全國(guó)性的重大考試,如中高考可考慮IRT技術(shù)的運(yùn)用等.
致謝:訪談得到了梁貫成教授的大力支持,整理成文后經(jīng)梁貫成教授審核確認(rèn).
[1] 尹世昌.全球數(shù)學(xué)教育界最高榮譽(yù)首次花落亞洲香港教授梁貫成獲費(fèi)萊登特爾獎(jiǎng)[N].人民日?qǐng)?bào),2013-11-29(12).
[2] 周明.教育實(shí)證研究的地位與價(jià)值——中國(guó)教育學(xué)會(huì)教育理論刊物分會(huì)2015年年會(huì)綜述[J].?dāng)?shù)學(xué)教育學(xué)報(bào),2016,25(2):98-100.
[3] 曾小平,劉長(zhǎng)紅,李雪梅,等.TIMSS2011數(shù)學(xué)評(píng)價(jià):“框架”“結(jié)果”與“啟示”[J].?dāng)?shù)學(xué)教育學(xué)報(bào),2013,22(6):79-84.
[4] 張偉平.TIMSS測(cè)試的認(rèn)知診斷評(píng)價(jià)標(biāo)準(zhǔn)下中美學(xué)生數(shù)學(xué)能力比較[J].?dāng)?shù)學(xué)教育學(xué)報(bào),2010,19(4):66-69.
[5] 梁貫成.第三屆國(guó)際數(shù)學(xué)及科學(xué)研究結(jié)果對(duì)華人地區(qū)數(shù)學(xué)課程改革的啟示[J].?dāng)?shù)學(xué)教育學(xué)報(bào),2005,14(1):7-11.
[6] Timss & Pirls International Study Center. TIMSS1999 International Achievement Reports [EB/OL]. http://timssandpirls. bc.edu/timss1999i/sampling.html
Experience and Enlightenment of TIMSS Research Methods——Based on an In-Depth Interview Study of Professor Frederick K. S. Leung
ZHANG Sheng, KANG Yue-yuan
(College of Teacher Education, Tianjin Normal University, Tianjin 300387, China)
The article was about the interview with Professor Frederick K. S. Leung, who was the Hong Kong Regional Executive Officer of TIMSS Mathematics Assessment, Chang Jiang Scholar of the Ministry of Education, winner of the 2013 Freudenthal Medal and professor of the University of Hong Kong. We got a precious opportunity to have an in-depth discussion on the rigorous research methods and the educational research principles behind TIMSS. Professor Leung put forward that understanding research questions clearly was the core of the whole research as well as the first and the most important part, also, it needed to be supported by the theoretical framework. The research question determines directly the choice of the research method, the selection of the sample, the option of the sampling method and the analysis method and the strategy when the results were obtained. As a large sample of the amount of research, TIMSS, which had limitations, could be considered combining with qualitative research.
TIMSS; research questions; educational research methods; experience and enlightenment
[責(zé)任編校:周學(xué)智]
G420
A
1004–9894(2017)04–0072–04
2017–03–01
天津市哲學(xué)社會(huì)科學(xué)規(guī)劃重點(diǎn)項(xiàng)目——立德樹(shù)人背景下中學(xué)生學(xué)科核心素養(yǎng)測(cè)評(píng)——以語(yǔ)數(shù)外為例(TJJX16-007)
張勝(1990—),男,回族,河北滄州人,碩士研究生,主要從事數(shù)學(xué)教育研究.康玥媛為本文通訊作者.
數(shù)學(xué)教育學(xué)報(bào)2017年4期