黃敏
(西南大學 外國語學院,重慶 400715)
全球知名咨詢公司麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素?!?郭曉科,2013)自2009年維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》問世以來,大數(shù)據(jù)成了各行各業(yè)的流行詞匯。一般認為,大數(shù)據(jù)具有四大特征,分別為數(shù)據(jù)體量浩大(Volumn)、數(shù)據(jù)多元(Variety)、生成快速(Velocity)、價值回報高(Value),俗稱4V特征(Mayer-Schonberger et al., 2013)。根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心IDC(Internet Data Centre)的定義:至少要有超過100TB可供分析的數(shù)據(jù)才叫大數(shù)據(jù)。大數(shù)據(jù)種類繁多,具有異構和多樣性,包括文本、網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等。大數(shù)據(jù)的意義在于對多種類型數(shù)據(jù)構成的“數(shù)據(jù)集”進行分析和研究,提取有價值的信息,獲得某種洞見或規(guī)律,從而幫助人們在解決問題時作出科學的決策或預測。大數(shù)據(jù)將給社會帶來的三大變化有:(1)海量數(shù)據(jù)甚至“全部數(shù)據(jù)”將使人們不再依賴小樣本的推斷統(tǒng)計; (2)為了獲取更好的洞察力,不再熱衷于追求精確度,但并不是就此放棄;(3)不再熱衷于追求因果關系,而更注重相關關系。這三條將徹底改變我們科研和教學的本體論、認識論和方法論(劉潤清,2014)。
在教育領域,以信息化帶動教育現(xiàn)代化已然上升為國家戰(zhàn)略。隨著教育信息化的深入,對大數(shù)據(jù)的利用成為學者、教師和管理人員共同面臨的新課題。教育大數(shù)據(jù)作為大數(shù)據(jù)的一個子集,是整個教育活動過程中所產(chǎn)生的以及根據(jù)教育需要采集到的,一切用于教育發(fā)展并可創(chuàng)造巨大潛在價值的數(shù)據(jù)集合(楊現(xiàn)民 等,2015)。教育大數(shù)據(jù)從戰(zhàn)略高度被定位為推動教育變革的新型戰(zhàn)略資產(chǎn)、推進教育領域綜合改革的科學力量以及發(fā)展智慧教育的基石,其最終價值體現(xiàn)在與教育主流業(yè)務的深度融合以及持續(xù)推動教育系統(tǒng)的智慧化變革上(楊現(xiàn)民 等,2016)。外語教育作為我國教育體系重要組成部分在大數(shù)據(jù)時代也同樣面臨著機遇與挑戰(zhàn)。正如劉潤清教授(2014)所言,現(xiàn)在教育經(jīng)歷“結構性調整”,不僅要更換結構,更重要的是革新理念和生產(chǎn)方式。雖然利用大數(shù)據(jù)能幫助我們更加清楚地認識外語教育的真實面貌和客觀規(guī)律,找準理念和實踐創(chuàng)新的突破口,提升教學效率,但外語教育領域卻十分缺乏基于大數(shù)據(jù)的學習分析研究。因此,本文試圖回答以下三個問題:(1)外語教學中大數(shù)據(jù)究竟能產(chǎn)生怎樣的價值?(2)外語教育中的大數(shù)據(jù)有哪些重要的來源?(3)我們對收集到的大數(shù)據(jù)又該進行怎樣的技術分析呢?
大數(shù)據(jù)能為外語教學帶來怎樣的價值呢?總的來說,大數(shù)據(jù)能優(yōu)化外語學習過程、助力個性化教學的實現(xiàn),深化對外語學習者特征的分析,精準反映教學要素之間的互動,簡化外語教學評價方式、克服經(jīng)驗式評價弊端。
國內外研究表明個性化教學能最大限度發(fā)揮學生潛能、提高學生學習動力、維持良好的學習習慣,對提升學習效果具有積極的意義(Creed, 2010;Kalivoda, 2010)。個性化教學一直是我國外語教育領域的不懈追求;從教育部頒布的《大學英語課程教學要求(試行)》(2004年)到《大學英語教學指南》(2017年)都把確立多元教學目標、體現(xiàn)個性化教學理念、提供多種學習選擇作為其核心觀點和任務(王海嘯,2004;蔡基剛,2016)。但受制于傳統(tǒng)教學模式的局限,個性化指導和評價機會有限,個性化教學效果不理想(文秋芳, 2006, 2012)。信息技術新時代,教學模式以學生為中心,使其成為學習過程數(shù)據(jù)的生產(chǎn)者、使用者和受益者。通過學習過程大數(shù)據(jù),可以完善個性化學習者檔案、分析和預測個性化學習行為、進行以數(shù)據(jù)驅動的教學決策和個性化學習輔導;自適應學習系統(tǒng)能根據(jù)學生學習數(shù)據(jù)預測其性格特點和喜好,推送符合學生興趣愛好和級別的學習材料,構建個性化的知識和能力體系。如在慕課或精品資源公開課中,平臺可以收集學生的所有學習數(shù)據(jù),大數(shù)據(jù)與云計算的結合使教師可以通過對數(shù)據(jù)的分析掌握學生在教育資源庫上的操作痕跡,如點擊流(Clickstream ),了解學生學習動態(tài)需求,了解不同學生的學習風格,提供不同的學習支持,進行及時、有針對性的干預和幫助(Gao, et al., 2019;Deng, et al., 2020)。如姜強等(2018)基于AprioriAll算法,挖掘分析相同或相近學習偏好和知識水平的學習群體的軌跡,并以學習者特征與學習對象媒體類型、理解等級、難度級別的匹配計算為基礎,生成精準化個性學習路徑,為差異化教學提供新思路。陳長勝、孟祥增等(2020)以中國大學MOOC平臺中7967名學習者的學習行為記錄為對象研究了慕課學習者的時間分配,發(fā)現(xiàn)慕課學習者在線學習行為時間序列呈現(xiàn)非平穩(wěn)特征,課程周期內學習者學習時間分配存在三段式節(jié)奏,學習者資源交互行為的時間分配存在顯著差異,不同成績等級的學習者群體資源交互行為與學習時間分配存在顯著差異。因此提出了課程運行中及時關注“低訪問頻次低時間投入”和“高訪問頻次低時間投入”學習者的分類教學建議。
根據(jù)第二語言習得理論,學生個體差異,如年齡、學習風格、動機、學習目標、元認知等會影響語言學習的成效(Stephen, 1981;Rod, 1997;Dornyei, 2005)。傳統(tǒng)的教學研究只能利用獲取的隨機抽樣數(shù)據(jù),用統(tǒng)計手段進行推斷,過程復雜,研究結果存在誤差,影響后續(xù)教學干預的準確性。信息網(wǎng)絡技術可以采集微觀的學習過程數(shù)據(jù),包括學生的基本信息(姓名、性別、年齡、專業(yè)等)、學習行為日志數(shù)據(jù)信息(如學生在哪段視頻上停留了多少時間、閱讀某篇文章花了多少時間、先后瀏覽順序、作文寫作經(jīng)歷了怎樣的修改過程等細顆粒度的行為)、興趣偏好信息(語言技能類、文化類、應試類等)、認知行為信息(視覺型、聽覺型、沖動型、穩(wěn)重型等)、學習結果信息(作業(yè)成績、測試成績、自評成績、互評成績等);教學過程由以前不可量化到可量化(Cantabella et al., 2019; Shen et al., 2020)。如劉三女牙等(2016)以哈佛大學和麻省理工學院在edX平臺上的課程學習數(shù)據(jù)為樣本,從學習者類型、性別、學歷、年齡、課程等五個維度對學習者學習行為進行差異性分析,其研究結果深化了對外語學習者特征的了解。趙慧瓊等(2017)利用多元回歸分析方法判定影響學生學習績效的預警因素,在此基礎上建構了干預模型,并將其應用于教學實踐,對產(chǎn)生的學習數(shù)據(jù)進行二元Logistic回歸分析,結果表明基于大數(shù)據(jù)的學習分析能及時發(fā)出預警信號并提供個性化干預對策,增強學習動機,培養(yǎng)學習者毅力。喬璐、江豐光(2020)選取“學堂在線”平臺上參與慕課學習的1068名學習者進行研究,以視頻觀看比例、平時作業(yè)得分率、期末考試得分率、課程得分率四個變量來表征學習者的學習行為特征,并運用凝聚層次聚類分析、K-Means聚類算法、相關性分析和邏輯回歸分析處理課程數(shù)據(jù),研究結果把學習者分成了積極學習者、一般學習者和單純注冊者三類,并討論了四個變量在三類學習者群體之間存在的差異。
互動是外語學習的普遍特征,也一直是國內外研究者和教師關注的熱點(Stoch, 2008; Oxford, 2011; Sato , 2013;徐錦芬 等,2018; 徐錦芬 等, 2019)。大數(shù)據(jù)時代,以社交媒體為特征的技術能記錄學生與學習內容、環(huán)境(包括虛擬環(huán)境和AI 機器人)、同伴和教師之間復雜交互過程產(chǎn)生的大量數(shù)據(jù)。例如在慕課平臺上選擇同一門“跨文化交際”課程的數(shù)以萬計的學生可以通過網(wǎng)絡社交平臺進行積極的討論,教師也可加入引導討論的方向和內容,交流的廣度和深度前所未有。其產(chǎn)生的龐大數(shù)據(jù)可以通過社交分析軟件(如Ucinet、Gephi)、內容分析等精準掌握互動的模式、頻率、范圍、內容等 (Chen et al., 2019; Fang et al., 2019; Lu et al., 2020)。如李艷、張慕華(2015)采用質性研究的方法,利用質性研究分析軟件NVivo 8對收集的231條在線學習日志進行編碼,圍繞學習者、教師、課程、技術、環(huán)境五個維度進行內容分析。發(fā)現(xiàn)學生在與他人互動方面,相比在線交流,偏好面對面的交流討論,而教師對學習者的指導與鼓勵非常重要,多元評價方式能讓學習者體驗到學習過程比最后得分更為重要。
在傳統(tǒng)教學中,對學生學習過程情況的收集復雜、低效。而教育技術新時代,學習者在學習平臺上的學習過程數(shù)據(jù)能被終端記錄并存儲下來,為教師評價提供了最直接、最客觀、最準確的依據(jù)。同時,基于大數(shù)據(jù)建立的考試網(wǎng)絡空間能使學生在虛擬環(huán)境中與AI機器人進行對話,系統(tǒng)根據(jù)設定的評價指標給出評價分數(shù),改變了以往教師靠經(jīng)驗和主觀判斷評分的局限性(Engwall et al., 2020; Engwall et al., 2020; Hass, Vogt et al., 2020)。
2013年被媒體稱為中國的大數(shù)據(jù)元年,從這一年起,國內教育技術領域掀起了基于大數(shù)據(jù)技術促進教育改革和創(chuàng)新發(fā)展相關研究的浪潮,大數(shù)據(jù)教育應用迅速發(fā)展起來。2014年3月,教育部辦公廳印發(fā)的《2014年教育信息化工作要點》中指出:加強對動態(tài)監(jiān)控、決策應用、教育預測等相關數(shù)據(jù)資源的整合與集成,為教育決策提供及時和準確的數(shù)據(jù)支持,推動教育基礎數(shù)據(jù)在全國共享。大數(shù)據(jù)與教育領域的深度融合成為當代教育事業(yè)發(fā)展的必然趨勢。2016年,教育部印發(fā)的《教育信息化“十三五”規(guī)劃》中提出要積極利用云計算、大數(shù)據(jù)等新技術,創(chuàng)新資源平臺、管理平臺的建設、應用模式;要依托網(wǎng)絡學習空間逐步實現(xiàn)對學生日常學習情況的大數(shù)據(jù)采集和分析,優(yōu)化教學模式。2018年,教育部印發(fā)的《教育信息化2.0行動計劃》指出要利用大數(shù)據(jù)技術采集、匯聚互聯(lián)網(wǎng)上豐富的教學、科研、文化資源,為各級各類學校和全體學習者提供海量、適切的學習資源服務,實現(xiàn)從“專用資源服務”向“大資源服務”的轉變。
Piety等(2014)認為教育大數(shù)據(jù)可以圍繞教學、學習者、教育機構、基于數(shù)據(jù)的決策四個方面收集。Cope和Kalantzis (2014) 認為大數(shù)據(jù)可以來自過程性、場景性和課堂評價,以技術為中介的心理測量,自主學習和其他一些更為復雜的學習表現(xiàn)。為了滿足外語學習者的需求,基于技術增強型的學習方式也是多種多樣,如正式學習與非正式學習,同步學習與異步學習,現(xiàn)實世界、虛擬世界與混合世界的學習,移動學習、無縫化學習和特定場景的學習,常規(guī)課堂學習、MOOC學習和開放式課程軟件學習(Lan et al., 2017)?;诖?,我們歸納出外語教學大數(shù)據(jù)的幾個主要來源:(1)外語真實課堂活動中直接產(chǎn)生的數(shù)據(jù),如學生考勤、課堂回答問題頻次、課堂測試、參與討論互動情況等。這些數(shù)據(jù)的采集可以用問卷、課堂觀察、錄視頻、訪談的方式獲得,也可以通過如QQ學習平臺上的簽到、搶答等功能記錄。(2)外語學習平臺產(chǎn)生的學習數(shù)據(jù),如學習進度、正確率、發(fā)帖情況、測試成績等。北京外語教學與研究出版社Unipus學習平臺、清華大學大學英語數(shù)字化互動教學平臺等,能提供學生每單元每一部分的學習時間、成績以及學生在平臺上參與互動討論等的顯性結構化數(shù)據(jù)。(3)慕課學習平臺,包括中國外語MOOC平臺、學堂在線、超星慕課平臺、各級精品開放課程平臺等。因為這些平臺是面向公眾開放,數(shù)據(jù)量都比較龐大,一線教師不容易獲取,需要與慕課運營平臺進行溝通。(4) 移動設備端自主學習數(shù)據(jù)。例如學生學習詞匯的百詞斬、扇貝單詞、拓詞等能自動記錄學生詞匯記憶的時長和進度情況。(5)教學管理活動中通過數(shù)字化校園平臺、智慧校園平臺采集到的數(shù)據(jù),如學生基本信息、圖書館借閱書目情況、借閱時間長短、大型考試成績情況等。
面對不同來源的大數(shù)據(jù),只有對數(shù)據(jù)進行有效的處理,才能使其變成有價值的信息,為教學決策、教學過程和評價提供有價值的參考。近年來,以云計算、數(shù)據(jù)挖掘與分析等為基礎的大數(shù)據(jù)技術為教育研究帶來了數(shù)據(jù)獲取、存儲、分析和決策等方面的支持。
大數(shù)據(jù)的發(fā)展促進了大數(shù)據(jù)分析方法的發(fā)展,包括機器學習、數(shù)據(jù)挖掘、預測模型、數(shù)據(jù)的可視化等。在教育領域,學習分析(Learning analytic)非常重要;學習分析是對“學習者和學習環(huán)境的數(shù)據(jù)測量、收集、分析和匯報”,它能為教師、研究者和政策制定者提供有用的信息,改進教學,改善教學結果。Greller 和Drachsler(2012) 提出了一個系統(tǒng)全面的定義,從六大關鍵維度來定義學習分析。這六大關鍵維度分別是內部限制、外部限制、工具、數(shù)據(jù)、目標和關益者。內部限制指學生的能力和對相關知識的接受度;外部限制包括平臺的規(guī)范及與學生、教師的約定;工具有技術、算法、理論等;數(shù)據(jù)主要是來自學生的公開數(shù)據(jù)和隱私數(shù)據(jù);目標是反思教育模式和預測學生發(fā)展前景;關益者包括機構、教師、學生等。Ferguson 和 Buckingham (2012)歸納了五種學習分析方法:社交網(wǎng)絡分析、話語分析、內容分析、性格分析和情境分析。近年來,隨著人工智能和自然語言處理等領域技術的突破和整合,學習分析工具也更加多樣和先進。如支持對原始帖子進行標注或編碼、交叉引用和簡短評論的工具Nvivo和Atlasti;支持基于詞典的文本分析工具CATPAC和LIWC;智能化內容分析工具VINCA;社會網(wǎng)絡分析工具Ucinet;預測學生學習參與的實時模型工具Solutionpath StREAM;分析計算機輔助合作學習的工具Meerkat-ED;為教師提供學生情況實時反饋的工具LOCO-Analyst;用于系統(tǒng)建模的工具Coordinator;專門的數(shù)據(jù)挖掘工具,SQL SERVER Analysis Service (SSAS)、Weka、SPSS 等(張濃芳,2010; 魏順平,2013; Romero et al., 2020)。除此之外,還有Degrees of Reading Power(DRP)、DRA1+,Pearson’s Ordinate Technology Coh-Metrix、Point of Originality、OpenEssayist和Asiya等分析工具(甘容輝 等,2016)。大數(shù)據(jù)的算法也為分析大數(shù)據(jù)提供了支持,例如運用邏輯斯諦回歸方法和支持向量機算法對成績進行預測(賀超凱 等,2016;呂品 等,2019),利用決策樹算法對學生在線學業(yè)成就影響因素或學生教學滿意度進行分析(舒忠梅 等,2014;孫發(fā)勤 等,2019),基于Apriori 算法對學習群體行為進行分析(姜強 等,2018),利用adaboost 算法構建預測干預模型(韓梅梅,2018)等。
依靠現(xiàn)代教育技術產(chǎn)生的大數(shù)據(jù)對外語教學價值凸顯,為外語科研人員和教師帶來了機遇,但擁有大數(shù)據(jù)絕不是取代科研人員和教師的作用(Mayer-Schonberger et al.,2013)。在實踐中,我們仍然需要注意幾個問題。
(1)大數(shù)據(jù)能提供小數(shù)據(jù)時代不能想象的海量數(shù)據(jù),幾乎能實現(xiàn)“樣本=總體”,是一種新的研究范式,但在數(shù)據(jù)分析和解釋上仍然需要教師和研究者結合語言習得理論和教學實踐進行判斷、分析、歸納和總結。(2)高效、科學的學習管理數(shù)據(jù)收集平臺和管理系統(tǒng)(Learning Management System)需要研究人員、教師、編程人員的共同研發(fā)。根據(jù)知網(wǎng)CNKI的檢索結果,我們注意到,目前研究者的興趣普遍集中在英語寫作教學平臺大數(shù)據(jù)的收集和分析上,缺乏對語言教學其他技能學習平臺的開發(fā)和學習過程的研究。(3)質性研究方法,如訪談、問卷、有聲思維,仍是支撐大數(shù)據(jù)分析的有效三角驗證方法。(4)大數(shù)據(jù)分析本身具有數(shù)據(jù)、計算和系統(tǒng)復雜性的特點,研究人員和教師要充分估計大數(shù)據(jù)收集、儲存和分析中出現(xiàn)的挑戰(zhàn),找出應對之策。