● 劉夢今 陳月茹
教科書實(shí)驗(yàn)評價法及其應(yīng)用個案研究*
● 劉夢今 陳月茹
本文介紹了教科書實(shí)驗(yàn)評價法的概念、步驟及特點(diǎn),并簡述了美國學(xué)者對特殊教育領(lǐng)域兩種歷史教科書進(jìn)行的實(shí)驗(yàn)評價,從理論和實(shí)踐兩個層面對教科書實(shí)驗(yàn)評價法進(jìn)行介紹,以期為我國教科書評價方法理論體系的構(gòu)建提供思路。
教科書;實(shí)驗(yàn)法;評價
本文將對教科書評價方法中的實(shí)驗(yàn)評價法及其應(yīng)用個案進(jìn)行研究,以期完善教科書評價方法的理論體系。
關(guān)于教科書實(shí)驗(yàn)評價法的概念,還沒有形成統(tǒng)一的明確的描述。筆者認(rèn)為,教科書實(shí)驗(yàn)評價法是指由專家組織,在學(xué)校施行,由學(xué)生參與,在一段時間(幾個星期,一般不超過6學(xué)期)后,通過對學(xué)生關(guān)于教科書內(nèi)容的習(xí)得和理解程度進(jìn)行測試,從而對教科書的有效性、適切性進(jìn)行評價的方法。
教科書實(shí)驗(yàn)評價法可分為兩種,一種是評價現(xiàn)行的教科書是否適用,實(shí)驗(yàn)類型通常采用單組實(shí)驗(yàn);另一種是通過對兩本教科書的對照實(shí)驗(yàn),確定哪一本更有效,實(shí)驗(yàn)類型通常采用等組實(shí)驗(yàn)。
通常情況下,教科書面向的學(xué)生群體是龐大的,這就需要在學(xué)生中進(jìn)行抽樣,抽樣時要注意兩點(diǎn)問題,一是樣本容量,二是樣本的代表性。
樣本容量由學(xué)生的多樣性及容許的誤差所決定,正如下面的公式所示[1]:
n-參加實(shí)驗(yàn)的學(xué)生人數(shù):t-學(xué)生系數(shù);δ-學(xué)生的多樣性參數(shù);△X-允許的誤差
為保證樣本的代表性,在確定樣本時,可使用分層抽樣法。例如,如果實(shí)驗(yàn)區(qū)的學(xué)生總數(shù)中,有40%的學(xué)生來自于農(nóng)村,那么在抽取的樣本中,農(nóng)村的學(xué)生數(shù)量就應(yīng)當(dāng)占40%。
1.題目的數(shù)量、內(nèi)容與難度
題目的數(shù)量應(yīng)當(dāng)適中,過少可能會遺漏部分知識點(diǎn),影響實(shí)驗(yàn)的效度;過多則可能會給學(xué)生負(fù)擔(dān)太大的工作量,從而影響學(xué)生進(jìn)行測試的態(tài)度,也會降低實(shí)驗(yàn)的效度。研究表明,若想實(shí)驗(yàn)結(jié)果的誤差低于5%,對一本教科書的評價需要設(shè)計大約400道題目。[2]
同一本教科書可以有很多不同版本的測試題目,題目的難易程度不同,測試的結(jié)果也就不同。格林在一次實(shí)驗(yàn)中,對一篇課文的題目進(jìn)行了多次調(diào)整,結(jié)果正確率有的才達(dá)到22%,有的卻高達(dá)70%。[3]題目的正確率取決于題目的難度:以術(shù)語為基礎(chǔ)的問題正確率高于以事實(shí)或觀點(diǎn)為基礎(chǔ)的問題;原文中涉及答案的內(nèi)容越多,正確率越低;問題越長,正確率越低。
2.題目的類型
在國外的教科書實(shí)驗(yàn)研究中,測試題目多以單項(xiàng)選擇題(multiple-choice)和完形填空題(cloze procedure)為主。
單項(xiàng)選擇題作為一種客觀題,存在的一個重要問題就是被試有可能因?yàn)椴聹y而答對題目,提高分?jǐn)?shù)。恩廷和克萊爾在其研究中發(fā)現(xiàn),某些選擇題中,80%的被試在沒有閱讀課文時就已給出正確答案。[4]由此可見,必須對猜測進(jìn)行校正,以求出能反應(yīng)被試真實(shí)水平的校正分?jǐn)?shù),公式如下[5]:
S-校正后的分?jǐn)?shù);R-被試答對的題目數(shù);W-被試答錯的題目數(shù);K-題目的選項(xiàng)數(shù)
完形填空題作為一種測量文本可讀性的工具,其創(chuàng)始人是泰勒[6]。完形填空是研究者按相同的間隔(一般為5至10個詞語)刪除一個詞語,由被試根據(jù)自己的理解,在空格上填上自己認(rèn)為正確的詞語。完形填空的評分標(biāo)準(zhǔn)十分嚴(yán)格,只有“當(dāng)填上的詞語跟原文完全符合時,才能算正確”。[7]
教科書實(shí)驗(yàn)評價中的測試題目,有的來自于國家或區(qū)域統(tǒng)一的題庫,有的來自于教師命題,但一般都會由研究者進(jìn)行二次加工,使其數(shù)量、內(nèi)容、難度以及題目類型基本與上述原則相符合。
博姆斯教授于1971年提出了中小學(xué)教科書閱讀材料的評判標(biāo)準(zhǔn),這個標(biāo)準(zhǔn)在美國得到了廣泛的使用。博姆斯指出,“在完形填空測試中,正確率為0-34%,是無效等級;正確率為35%-49%,是需要教師輔導(dǎo)的等級;正確率在50%以上,是可自主學(xué)習(xí)的等級?!薄巴晷翁羁?8%的正確率等同于單項(xiàng)選擇75%的正確率,完形填空50%的正確率等同于單項(xiàng)選擇90%的正確率。”[8]
如果通過測試結(jié)果的分析后,發(fā)現(xiàn)教科書的難度不適合于學(xué)生,那么該怎樣由實(shí)驗(yàn)結(jié)果來計算理想的難度水平呢?以下兩個案例可以為我們提供思路和方法。
第一個案例是愛沙尼亞1973年九年級地理教科書的難度測試。此測試由854名學(xué)生參加,測試的滿分為20分,測試的統(tǒng)計結(jié)果如表1所示。
表1 愛沙尼亞1973年九年級地理教科書的難度測試統(tǒng)計結(jié)果[9]
由表1可知,95%的學(xué)生可以達(dá)到6分。按照博姆斯的標(biāo)準(zhǔn),正確率應(yīng)達(dá)到至少50%,教科書才可被使用。因此,12分所對應(yīng)的難度水平就應(yīng)當(dāng)是教科書的理想難度。此教科書的難度過高,需要降低20-12 20*100%=40%的難度。
第二個案例是愛沙尼亞1978-1979學(xué)年八年級解剖學(xué)教科書的難度測試[10]。此測試的滿分為42,平均分為26.1,方差為8.l。分析結(jié)果如下:
理想的難度水平可由下面的公式計算得出:
有關(guān)美國歷史教科書存在的缺陷,早在20多年以前就有學(xué)者論及。拜克和麥基翁就曾指出兩大問題,一是教科書中蘊(yùn)含的背景知識遠(yuǎn)遠(yuǎn)多于學(xué)生實(shí)際掌握的知識[12],二是“教科書內(nèi)容的呈現(xiàn)既沒有形成連續(xù)的歷史事件鏈,也不能滿足學(xué)生總結(jié)事件和觀點(diǎn)之間聯(lián)系的需求。”[13]也有研究表明,很多學(xué)生將歷史看做是一系列獨(dú)立的事件,更不能理解國家領(lǐng)導(dǎo)人緣何制定相關(guān)的政策[14]。因此,此案例針對美國歷史教科書存在的問題,通過對照實(shí)驗(yàn),評價兩版歷史教科書孰優(yōu)孰劣。
因此,在此案例中,教科書的理想難度水平應(yīng)該
實(shí)驗(yàn)選定了兩所中學(xué),這兩所中學(xué)位于太平洋西北部的兩個毗鄰的中等大小的學(xué)區(qū)。兩所學(xué)校的人數(shù)均為500人左右,在州統(tǒng)一組織的閱讀和數(shù)學(xué)測試中成績相當(dāng)。在一項(xiàng)對全州范圍內(nèi)336所中學(xué)進(jìn)行的以家庭收入、父母受教育程度、學(xué)生的流動性以及學(xué)生出勤率為指標(biāo)的綜合性排名中,兩所學(xué)校的名次分別位列第29和第155名,這是兩所學(xué)校最大的區(qū)別所在。為了避免區(qū)別所帶來的誤差,研究者在實(shí)驗(yàn)組和對照組中都安置了來自兩所學(xué)校的學(xué)生。實(shí)驗(yàn)者分別從兩所學(xué)校中選出24和26名八年級學(xué)生參與實(shí)驗(yàn),但是,在為期20周的實(shí)驗(yàn)中,由于學(xué)生離校等原因未能堅持參與,最終有效的樣本人數(shù)為29人,具體信息如表2所示:
表2 學(xué)生分組信息表
實(shí)驗(yàn)選用了兩種不同版本的歷史教科書,1994年版《理解美國歷史》[15]和 1991 年版《美國歷史》[16],分別作為實(shí)驗(yàn)組和對照組的教材。
實(shí)驗(yàn)組的教材涵蓋了前殖民地時期到內(nèi)戰(zhàn)的歷史。作者首先羅列出標(biāo)題,建立起內(nèi)容之間的聯(lián)系。教科書以“原因——結(jié)果”為基本的敘述框架,呈現(xiàn)人們遇到的一連串問題和解決辦法,以及預(yù)料和預(yù)料之外的結(jié)果,即自始至終貫穿“問題——解決方法——結(jié)果”的思路。此外,還有一些課堂實(shí)踐活動被安排在教科書中,如每隔一或兩段,都有問題要求學(xué)生回答,以幫助學(xué)生提煉重點(diǎn)。
對照組的教材講述了美國前殖民地時期一直到現(xiàn)代的歷史。作者采用了記敘文文體,講述不同時期不同的人。教科書通過呈現(xiàn)對于同一歷史事件的不同觀點(diǎn),以告訴學(xué)生理解歷史可以有多種角度和方法。此外,為了加強(qiáng)學(xué)生對教材的理解,作者還增加了與歷史聯(lián)系密切的地理地圖、閱讀技巧的訓(xùn)練以及章節(jié)和單元復(fù)習(xí)。
此實(shí)驗(yàn)主要通過對學(xué)生基于教科書內(nèi)容的習(xí)得水平的考查來評價教科書的適用性,測試方法有如下幾種:
1.NAEP(國家教育進(jìn)展評價項(xiàng)目)①
來自NAEP中的歷史測試題目由歷史學(xué)科的專家以及NAEP的測量專家共同創(chuàng)建,題目類型均為多項(xiàng)選擇題。此實(shí)驗(yàn)選用了題庫中與樣本教科書內(nèi)容相關(guān)的3、8、11三個年級的測試版本。通過對最初選定的49個題目的信度系數(shù)α②進(jìn)行測量發(fā)現(xiàn),前測的α值為0.571,后測的α值為0.635,鑒于前測的α值偏低,研究者在題目中去除了25道與教材內(nèi)容關(guān)系不夠密切的題目,最終保留了24道題,經(jīng)過測量,前、后測的α值分別為0.725和0.635。NAEP的題目分別在前測和后測中使用。
2.教師命題
來自實(shí)驗(yàn)組和對照組的教師分別出題,題目既要來自于樣本教材,還要與教師在課堂上講解的內(nèi)容一致。題目類型為簡答、匹配和多項(xiàng)選擇。研究者將題目合并為一份有32題的試卷,并且測量得出α值為0.91。這份試卷由學(xué)生在課程結(jié)束后完成。
3.進(jìn)度監(jiān)控措施
研究者在涉及重點(diǎn)內(nèi)容的術(shù)語詞匯中進(jìn)行選擇,每周對學(xué)生進(jìn)行一次包含20個詞匯含義匹配題的測試,要求學(xué)生在5分鐘內(nèi)完成,根據(jù)正確率來評價學(xué)生對于教科書內(nèi)容的習(xí)得水平。
將教科書分發(fā)給每位學(xué)生,在授課前對所有的教師進(jìn)行兩個小時的備課指導(dǎo)。歷史課每天進(jìn)行90分鐘,每周5天。對每天的進(jìn)度并不做統(tǒng)一的要求,只要保證20周過后,能夠完成4到5章的教學(xué)即可。
通過對NAEP測試結(jié)果進(jìn)行F-test③,以時間為變量的結(jié)果為F(1,23)=0.157,p④=0.7;以組別為變量的結(jié)果為F(1,23)=0.437,p=0.52。由此可見,兩組學(xué)生均沒有因?yàn)閷炭茣鴥?nèi)容的學(xué)習(xí)而在NAEP測試中取得顯著的提高。
研究者對學(xué)生完成教師命題的結(jié)果進(jìn)行T-test⑤,從對照組的教科書中抽取的題目,實(shí)驗(yàn)組學(xué)生的測試結(jié)果為M=0.38,SD⑥=0.21,對照組學(xué)生的測試結(jié)果為M=0.41,SD=0.25,可見差別并不明顯;從實(shí)驗(yàn)組的教科書中抽取的題目,實(shí)驗(yàn)組學(xué)生的測試結(jié)果為M=0.87,SD=0.22,對照組學(xué)生的測試結(jié)果為M=0.38,SD=0.26,由此可見,實(shí)驗(yàn)組教科書更有利于學(xué)生對于教科書內(nèi)容的習(xí)得。
進(jìn)度監(jiān)控的結(jié)果如圖1所示。由圖可見,實(shí)驗(yàn)組的學(xué)生每五分鐘回答正確的題目個數(shù)由3個上升至16個,而對照組則由3個最終下降到0個。因此可得出結(jié)論,實(shí)驗(yàn)組的教科書有助于幫助學(xué)生習(xí)得術(shù)語,而對照組的教科書缺乏對于術(shù)語的強(qiáng)調(diào)。
通過以上分析,研究者的得出最終的結(jié)論,1994年版歷史教科書向?qū)W生呈現(xiàn)出明確的歷史時間鏈以及歷史事實(shí)之間的因果聯(lián)系,思路清晰,框架明了,可以使學(xué)生習(xí)得更多的歷史知識并使其在測試中取得更優(yōu)異的成績。
此案例實(shí)驗(yàn)?zāi)康拿鞔_并具有較強(qiáng)的針對性,測試方法恰當(dāng)并具有一定的權(quán)威性。同時,研究者注意規(guī)避有可能產(chǎn)生的誤差,運(yùn)用到心理測量的手段,使實(shí)驗(yàn)評價更加嚴(yán)謹(jǐn)、科學(xué)。當(dāng)然,此案例也有其局限性,比如樣本容量的確定,最終將29人作為樣本容量,顯然會因?yàn)槿萘科《绊懡Y(jié)果的代表性和普及性。
圖1 進(jìn)度監(jiān)控結(jié)果
1.直面學(xué)生 針對性強(qiáng)
在教科書實(shí)驗(yàn)評價法當(dāng)中,教科書在正式投入使用之前,就直接與學(xué)生面對面,評價的過程不再僅僅是研究者對于文本的字斟句酌,對插圖的審慎篩選的過程,不再僅僅是研究者對照審核表,對教科書打分評判的過程。將評價的實(shí)施過程置于真實(shí)的學(xué)校環(huán)境中,由學(xué)生直接參與,教師根據(jù)實(shí)際教學(xué)情況編纂部分測試題目,使得評價具有更強(qiáng)的針對性,通過學(xué)生對教科書的使用情況來直接反映教科書的難度大小以及適切性能的高低,由此得出的結(jié)論最為真實(shí)有效。
2.綜合性強(qiáng) 可靠度高
實(shí)驗(yàn)法作為科學(xué)研究的基本方法,可以廣泛應(yīng)用于很多研究中。教科書實(shí)驗(yàn)評價法既可以驗(yàn)證其他方法的結(jié)論,又可以將其本身的結(jié)論提供給其他評價法,作為其研究的基礎(chǔ)和依據(jù)。對于這種既是檢驗(yàn)手段,又是基礎(chǔ)論據(jù)的評價方法,在教科書評價領(lǐng)域,已經(jīng)有越來越多的研究者開始對其投入更多的關(guān)注,通過對它的廣泛運(yùn)用,開發(fā)其巨大的價值。
1.操作復(fù)雜 難度大
實(shí)驗(yàn)評價法是教科書評價方法中最為復(fù)雜的方法。研究者需要考慮諸多因素,如被試的代表性、被試之間的平等性、實(shí)驗(yàn)設(shè)計和測量的有效性等。在實(shí)驗(yàn)前設(shè)想的理想條件在真實(shí)的實(shí)驗(yàn)中往往很難實(shí)現(xiàn)。與理論的設(shè)想偏差越大,實(shí)驗(yàn)結(jié)果的價值就越小。正如本文案例的缺憾,正是由于研究者沒有考慮到實(shí)驗(yàn)參與者中途退出的可能性,因而導(dǎo)致樣本容量偏小,實(shí)驗(yàn)信度下降。因此,對于研究者而言,實(shí)驗(yàn)前要做好充足的準(zhǔn)備,全面考慮各方面因素,實(shí)驗(yàn)中也要捕捉新情況,及時調(diào)整實(shí)驗(yàn)的進(jìn)行。
2.耗資耗時 投入多
實(shí)驗(yàn)評價法還是最耗時、最昂貴的教科書評價方法。為了保證學(xué)生的多樣性和代表性、保證教師在實(shí)驗(yàn)中所起作用的一致性,必須調(diào)動很多的學(xué)校和學(xué)生參與進(jìn)來,并對教師進(jìn)行培訓(xùn),這些都離不開學(xué)校的配合和經(jīng)費(fèi)的支持。實(shí)驗(yàn)持續(xù)的時間有所不同,最短也要一個星期,在這期間,學(xué)生和教師都要投入大量時間和精力,才能保證實(shí)驗(yàn)的順利進(jìn)行。
注釋:
①美國國家教育進(jìn)展評價 (The National Assessment of Educational Progress,NAEP)提供了一個獨(dú)立的測量工具,來了解全美中小學(xué)生在閱讀、寫作、數(shù)學(xué)、科學(xué)、社會等學(xué)科領(lǐng)域的學(xué)術(shù)表現(xiàn)及發(fā)展趨勢,是美國目前唯一定期在各個學(xué)科領(lǐng)域持續(xù)測評學(xué)生學(xué)業(yè)的全國性評價項(xiàng)目。
②克倫巴赫alpha系數(shù)的計算公式是由克倫巴赫于1951年提出的。后來,克倫巴赫及其同事又從方差分量分解的角度定義了很多種適應(yīng)于各種不同測量情景的信度。alpha信度系數(shù)的取值范圍應(yīng)該在0~+1.0 之間。
③方差分析又稱F檢驗(yàn) (F test),用于推斷多個總體均數(shù)有無差異。
④ p為可能性參數(shù)。
⑤檢驗(yàn)是用于小樣本(樣本容量小于30)的兩個平均值差異程度的檢驗(yàn)方法。它是用T分布理論來推斷差異發(fā)生的概率,從而判定兩個平均數(shù)的差異是否顯著。
⑥ M為平均值,SD為方差。
[1]Jann Mikk.Textbook:Research and Writing.New York,Oxford.2002.P47.P48.
[2]Jann Mikk.Theory of the Measurement and Optimization of the Degree of Complicacy of the Study Material in Comprehensive School.Doctoral dissertation.Manuscript.Tartu:University of Tartu,P434.
[3]Green K.Effects of item characteristics on multiple-choice item difficulty.Education and Psychological Measurement,vo1.44,551-561.
[4]Entin E.B.,Klare G.R.Relationship of measures of interest,prior knowledge and readability to comprehension of exposition passages.Advances in Reading/Language Research Quarterly,vo1.15,no.2.1980.
[5]戴海琦,張鋒,陳雪楓.心理與教育測量[M].廣州:暨南大學(xué)出版社,2007.87.
[6]Taylor.Wilson L. “Cloze procedure”:a new tool for measuring readability.Journalism quarterly,Vol30,1953,415-433.
[7]Bormuth.John R.Cloze readability procedure.CSEIP Occasional Report No.l,Feb.1967.
[8]Graham Wagner.Interpreting Cloze Scores in the Assessment of Text Readability and Reading Comprehension.1986-directions.usp.ac.fj.
[9]V ja IX.Results of a test on geography in fifth and ninth form in 1973.
[10]Jann Mikk.Experimental evaluation of textbook and multimedia.ED472706,2002.
[11]Mark K.Harniss,Jennifer Caros,Russell Gersten.Impact of the Design of U.S.History Textbooks on Content Acquisition and Academic Engagement of Special Education Students:An Experimental Investigation.Journaloflearning disabilities,vol40,number2,March/April 2007,P100-110.
[12]Beck I.L,McKeown M.G Gromoll E.W.Learning from social studies texts.Cognition and Instruction,Vo16,Issue 2,1989.
[13]Beck I.L,McKeown M.G Making sense of accounts of history:Why young students don't and how they might.Teaching and learning in history,1994,P7.
[14]http://www.redorbit.com/news/education/454060/eyes_on_the_prize_teaching_complex_historical_content to middle.html
[15]Carnine D,Crawford D.B,Harniss M.K,Hollenbeck K.L.Understanding U.S.history,Vol.l.Through the Civil War.Eugene,OR:Considerate,1994.
[16]Garraty J.A.The story of America.Orlando,FL:Harcourt Brace Jovanovich,1991.
*本課題系教育部人文社科研究項(xiàng)目 《教科書評價方法研究》(09YJA880077)的研究成果。
劉夢今 陳月茹/山東師范大學(xué)教育學(xué)院
(責(zé)任編輯:陳培瑞)