黎光明, 張敏強,劉曉瑜
(華南師范大學a.心理學院;b.教育科學學院,廣州510631)
高校教師教學水平評價的反思與改進:基于概化理論的視角
黎光明a, 張敏強a,劉曉瑜b
(華南師范大學a.心理學院;b.教育科學學院,廣州510631)
目前高校教師教學水平的評價存在著評價因素單一、缺乏統(tǒng)一問卷、評價時間局限、學生數(shù)難確定、分數(shù)合成困難等問題。使用概化理論,能夠對高校教師教學水平評價作出改進,主要包括找出影響教師教學水平評價的主要因素、編制適合國內(nèi)高校統(tǒng)一使用的評教問卷(量表)、考察學生評價教師教學水平的最佳時間、確定評價教師教學水平的最少學生參評人數(shù)、探索評價分數(shù)的合成方法等。
概化理論;高校教師;教學水平評價;反思;改進
高校教師教學水平評價是診斷和改進教學、幫助管理部門做出有關教師個人的人事決策的基礎。這一工作直接影響到教師積極性的調動和教學質量的提高,以及管理部門人事決策的準確性。高校教師的中心任務是教學,是培養(yǎng)人才。對于一所高校,教師的教學水平跟不上,所培養(yǎng)的學生質量堪憂,即使其出了大量的科研成果,這所高校也是不成功的。因此,高校應高度重視教師教學水平的評價。
高校教師教學水平評價的目的是為了監(jiān)控教育質量,提高教師的教學水平[1]。然而,目前高校教師教學水平的評價卻遠未達到此目的,評價中還存在許多問題:
第一,評價因素單一。大部分高校僅把“學生評教”作為考察教師教學水平的唯一依據(jù),這樣做是欠妥的。其原因是:除了評價者因素外,影響高校教師教學水平評價還存在其它許多因素,如評價項目、評價場合、評價時間、評價課程、評價專業(yè)等。
第二,缺乏統(tǒng)一問卷。各個高校采用自己設計的評價問卷來評價教師教學水平,是否科學值得商榷。另外,各個高校采用不同的評價內(nèi)容和題目,造成了各個高校教師教學水平難以比較,不便于高校教學水平質量監(jiān)測。
第三,評價時間局限。各高校一般均要求學生在學期中或學期結束前對每個任課教師進行評分,再對每個教師的所得分數(shù)進行加權。這種做法具有一定的合理性,但評估的準確性難以保證,其原因是:參與評價的一些學生礙于期末考試教師評分的壓力,往往不會作出如實評價,一些學生害怕給教師打低分造成“自己”低分,往往都給高分。另外,許多高校教師會在評價前對學生實施“分數(shù)承諾”(給學生高分),所以很可能造成學生評價失真。
第四,學生數(shù)難確定。到底多少學生參評才能保證高校教師教學水平評價的可靠性呢?沒有統(tǒng)一和科學的規(guī)定。一些高校規(guī)定1門課程的參評學生數(shù)不得低于10人,但此規(guī)定并無科學理據(jù)。
第五,分數(shù)合成困難。大多數(shù)高校合成分數(shù)采用如下做法:一位教師擔任多門課程教學任務的按不同課程統(tǒng)計;一門課程不同班級由不同教師承擔教學任務的按不同教師統(tǒng)計;一門課程不同班級由同一教師承擔教學任務的按一門課程合班統(tǒng)計。這種合成分數(shù)的做法缺乏科學性。
教學和科研是高校教師始終面臨的一對矛盾。一方面,一些教師長期不從事科研,學術水平低、知識陳舊、創(chuàng)造力低下;另一方面,一些教師關注科研,但對教學投入不足,教學中敷衍應付。在高校的職稱評定中,長期存在著“一手硬,一手軟”的情況,即科研(項目、經(jīng)費、論文)是硬指標,教學(教學工作量、教學效果)是軟指標。在許多高校,教師只要科研水平高,就踏上了“快車道”,許多教學好的教師卻沒有這么幸運。究其原因:對于高校教師的科研水平和科研成果的評定比較容易量化,但不易科學地評價教師的教學水平,這是一個“老大難”問題。
概化理論是現(xiàn)代心理與教育測量理論之一,可以解決高校教師教學水平評價存在的上述問題,其理由如下:第一,概化理論可以一并考察評價多個因素。第二,概化理論可以開發(fā)科學的標準化量表。第三,概化理論可以分析不同時間對評價的影響。第四,概化理論可以探討最佳的評價學生數(shù)。第五,概化理論可以合理利用各種權重指標合成全域分數(shù)。相對于經(jīng)典測量理論,分析高校教師教學水平評價,概化理論具有如下優(yōu)勢:一是能夠根據(jù)不同情境進行可靠性分析;二是運用多元概化理論可以對問卷評估指標的權重作出最佳估計;三是可以預測在一定的問卷評估可靠性下需要多少參評學生。
國內(nèi)外學者已將概化理論應用于高校教師教學水平評價中。國內(nèi)使用概化理論分析教師教學水平評價的研究相對較少,有待發(fā)展和推動。羅發(fā)友、王記志和劉友(2002)運用概化理論,對高校教師教學水平測評問題進行設計,定量研究評分者因素對高校教師教學水平測評信度與一致性的影響,并研究減少評分者人數(shù)的可行性[2]。楊志明和張雷 (2003) 認為教學測評的數(shù)據(jù)符合概化理論的研究設計,但情況相當復雜,因為所涉及到的觀測全域與概化理論中的觀測全域的概念有所差別,但當需要進行教學評價或已經(jīng)就教學評價的結果做出決策之后,其決策的可信度問題是應該重視的[3]。黎光明等人(2004, 2009)針對一個屬多元嵌套不平衡設計教學人員測評方案,運用多元概化分析,估出測量目標及側面的方差協(xié)方差分量、探索控制誤差的方法,并為改進不同情形下教學人員測評提供實際參考價值[4]。
國外學者使用概化理論分析教師教學水平評價相對成熟。Kane, Gillmore,和 Crooks(1976)[5]用概化理論進行教師水平評價方面的分析,認為學生側面數(shù)的樣本容量以10~20位為宜,因為樣本容量超過20個以后,概化系數(shù)的增加量十分小,特別值得注意的是,當參與教學評價的學生人數(shù)少于10個以后,其測評信度或可靠性程度會隨著人數(shù)的減少而大幅度地變小。Crooks和Kane(1981)[6]曾通過改變評價量表中項目容量的方法,對Gillmore等人的研究數(shù)據(jù)進行重復研究,發(fā)現(xiàn)課程效應的數(shù)值令人滿意,表明課程效應在不同設計下的效應是不同的,教師是造成課程評價結果不一致的因素,即學生對課程的評價在某種程度上取決于這門課程是由誰來教,但這又與教師主效應不影響課程質量水平順序的情況相混淆。Pratt(1997)[7]研究中的概化理論研究設計是把教師和課程合為一體作為測評目標。這種聯(lián)合體可以稱之為教學事件,研究發(fā)現(xiàn)教師和課程的主效應不再被區(qū)分。Chang和Hocevar(2000)[8]發(fā)現(xiàn)影響教學評價數(shù)據(jù)的因素中測量條件可以區(qū)分為5個方面,分別是教師、課程、學生、項目和場合。Dolmans,Wolfhagen,Scherpbier和van der Vleuten(2003)[9]研究發(fā)現(xiàn),當學生數(shù)為理想狀態(tài)時,基于一門課程教學評價的概化系數(shù)也能達到可以接受的水平(0.60或更高),將課程作為測量目標與教師作為測評目標相比,發(fā)現(xiàn)任教同一門課程的教師數(shù)量比課程數(shù)量對概化系數(shù)影響更大。
使用概化理論,能夠在以下方面對高校教師教學水平評價作出改進,包括找出影響高校教師教學水平評價的主要因素、編制適合國內(nèi)高校統(tǒng)一使用的評教問卷(量表)、考察學生評價教師教學水平的最佳時間、確定評價教師教學水平的最少學生參評人數(shù)、探索評價分數(shù)的合成方法等五個方面。
(一)找出影響高校教師教學水平評價的主要因素。對于教師教學水平評價的概化理論分析,測量目標是教師的實際教學水平,測量影響因素可能包括學生、班級、課程和專業(yè)等。概化理論可以一并考慮這些影響因素。一個教師的教學效果好或壞,水平高或低,不能僅憑大學生的評分,而應將領導評價、學生評價和同行評價綜合起來考察。因為大學生還不成熟,他們對于教師的評價還很難做到客觀、公正。大學生在校時對教師的評價和畢業(yè)后對教師的評價可能會大相徑庭。影響高校教師教學水平評價的因素是多方面的,不僅是評價者,可能還包括班級、場合、項目、課程和專業(yè)等其它影響因素。概化分析過程中需要注意隱藏側面(hidden facets)對測量目標的影響,忽視隱藏側面可能會夸大概化系數(shù)(Brennan, 2001)[10],需探測出主要的影響因素,可構建若干設計,如i×(s: t)、i×(s: t: c)、s×t|c、i×[s: (t ×c)]等,考察因素在不同設計中的影響效果,若影響效應較小,則可忽略不計,若影響效應較大,則是主要影響因素,可認為是影響教師教學評價的主要因素。
(二)編制適合國內(nèi)高校統(tǒng)一使用的評教問卷(量表)。目前各高校通常是根據(jù)一定的評估體系自編問卷在網(wǎng)上或現(xiàn)場發(fā)放由學生對教師教學水平進行評價,然后由教務處根據(jù)各個指標的分值求取平均分來表示教師的教學水平。缺乏統(tǒng)一的問卷(量表),既不能保證數(shù)據(jù)的可靠性有效性,也不能比較各校教師之間的分數(shù),量化數(shù)據(jù)的功能性和適用性大大削弱。因此,開發(fā)一套科學的經(jīng)過標準化的“高校教師教學水平評價量表”勢在必行。根據(jù)不同情境對問卷(量表)進行可靠性分析,有利于問卷編制,也能保證編制出的問卷(量表)的信效度,并給出具體指標。在找出主要因素的基礎上,編制適合國內(nèi)高校統(tǒng)一使用的評教問卷(量表)。問卷(量表)需考慮多個維度和高校的實際情況,區(qū)分不同的分問卷,如教師用、同事用、上級用、文科用等。
(三)考察學生評價教師教學水平的最佳時間。通過分析場合(occasion)這個因素對概化理論方差分量模型的貢獻,探討評估場合和評估時間是否可以根據(jù)實際情況進行調整。設置四個時間段來考察學生評價教師教學水平的時間效果,分別是開學初(time1)、學期中期(time2)、學期結束(time3)和下一開學初(time4)。將四個時間段的數(shù)據(jù)結果進行比較,主要參考指標為無效問卷百分比、學生實際愿意作答的態(tài)度以及教師評價分數(shù)效果的差異。這里面還要進行一個“教育實驗”,即考察不同時間段學生評價教師教學水平的效果差異。
(四)確定評價教師教學水平的最少學生參評人數(shù)。通過構建不同研究設計,在保證誤差一定條件下,預測出在減少學生人數(shù)的條件下多少學生數(shù)就能保證一般評估的可靠性。樣本水平數(shù)的改變不僅會影響評價的局部可靠性,也影響評估的整體可靠性。為了保證0.80的信度,在不降低可靠性的基礎上,確定評價教師教學水平的最少學生參評人數(shù)。另外,是否需要所有學生都參與評分,是隨機抽取選擇學生還是全部學生都參與評價,目前的研究尚沒有明確的結論。如果一定數(shù)量的學生就可以滿足評價要求,那么所有學生參與評價,就顯得多余。在保證一定評價效果之下,如果能夠減少學生數(shù)量,那么就可以大大節(jié)省高校教師教學評價的資源,不用浪費大量的人力、物力和財力,給高校減負,節(jié)約成本。
(五)探索評價分數(shù)的合成方法。運用多元概化理論可以對問卷評估指標的權重作出最佳估計,克服人為規(guī)定權重的做法,并給出對應的合成分數(shù)。評價問卷有若干個維度,如教學態(tài)度、教學內(nèi)容、教學方法和教學效果等。是相等權重好,還是不等權重好,需要進行探討。當然,可以通過改變權重計算合成的可靠性Φc,找出Φc最大值,得出對應的各維度權重,即為最佳權重。然后,根據(jù)最佳權重合成分數(shù),并使用最后合成的評價教師教學水平的分數(shù),標定教師教學水平,并作相互比較。這種合成分數(shù),不同于目前采用的“簡單”相加的方法(有些學校采用每門課程的最終結果是去掉評價分數(shù)高分的10%和低分的10%后的平均分),原因是不同班級不同課程不同專業(yè),教師所得分數(shù)統(tǒng)一于一個量綱之下。根據(jù)心理與教育測量學可知,處于同一量綱之下的分數(shù),其單位是一樣的,能進行加、減、乘、除等數(shù)學運算。誠然,若不能加、減、乘、除等數(shù)學運算,就不能給出高校教師一個合成的可供比較的分數(shù),那么比較高校教師教學水平的高低只是無稽之談。
使用概化理論,從科學的視角可以探究出哪些主要因素影響了學生對教師的教學水平評價,能夠為決策者提供參考。在探討高校教師教學水平評價概化理論研究設計中,分析信度或其它指標,能夠給出一個最優(yōu)方案,從而完善高校內(nèi)部質量保障體系,更好地推動高校教師教學改革。
目前,國內(nèi)高校尚無統(tǒng)一的有關教師教學測評的標準化量表,現(xiàn)實的情況是每個高校所采用的教學測評問卷各不相同。這也就是說,各個高校用不同的教學測評問卷來評價教師的教學水平。所施測的問卷不同,評價的方式和過程也不一樣,在學生人數(shù)和評價時間上就不能作出一個科學的規(guī)定,這對高校教師教學水平評價的實施帶來了嚴重影響。然而,對于高校教師教學水平評價中出現(xiàn)的這些問題,基于概化理論的優(yōu)勢,大多能夠得到良好的解決。概化理論能夠為高校教師教學水平評價提供借鑒、有效建議及改進措施。
[1][4]黎光明,張敏強.用概化理論分析高校教師教學水平評估[J].高教發(fā)展與評估,2009,(2):68-73.
[2]羅發(fā)友, 王記志, 劉友金.概化理論在教學水平測評中的應用[J]. 理工高教研究, 2002,(4):61-63.
[3]楊志明, 張 雷. 測評的概化理論及其應用[M]. 北京: 教育科學出版社,2003.
[5]Kane, M. T., Gillmore, G. M., & Crooks, T. J. Student Evaluations of Teaching: The Generalizability of Class Means. Journal of Educational Measurement, 1976.13(3):171-183.
[6]Crooks, T. J., & Kane, M. T. The generalizability of student rating of instructors: Item specificity and section effects. Research in Higher Education,1981.15: 305-313.
[7]Pratt, D. D. Reconceptualizing the evaluation of teaching in higher education. Higher Education,1997.34:23-44.
[8]Chang, L., & Hocevar, D. Models of generalizability theory in analyzing existing faculty evaluation data. Applied Measurement in Education,2000.13(3):255-275.
[9]Dolmans, D. J., Wolfhagen, H. P., Scherpbier, A. J., & van der Vleuten,C.P.Development of an Instrument to Evaluate the Effectiveness of Teachers in Guiding Small Groups. Higher Education,2003.46(4):431-446.
[10]Brennan,R.L.Generalizability theory.New York:Springer-Verlag.2001.
(責任編輯顧冠華)
G642
1003-8418(2014)06-0087-03
A
10.13236/j.cnki.jshe.2014.06.024
黎光明(1977—),男,江西廣昌人,華南師范大學心理學院副教授、博士;張敏強(1955—),男,廣東河源人,華南師范大學心理學院教授、博士生導師;劉曉瑜(1958—),女,海南??谌?,華南師范大學副教授。
2014年國家自然科學基金面上項目(31470050);教育部人文社會科學研究青年基金項目(12YJC190016);廣東省教育科學“十二五”規(guī)劃2011年度研究項目(2011TJK161)。