鄭隆威 馮園園 顧小清
[摘 ? 要] 學(xué)習(xí)成果(Learning Outcome)描述了期望學(xué)習(xí)者在完成課程后所習(xí)得的知識(shí)、技能和能力。眾多研究呼吁課程管理者需要依照布魯姆分類學(xué)制定學(xué)習(xí)成果,從而使學(xué)習(xí)成果在認(rèn)知維度上是“可測(cè)量的”,但很少有研究關(guān)注學(xué)習(xí)成果的描述與所測(cè)量的結(jié)果之間是否匹配。本文試圖借助學(xué)習(xí)分析方法對(duì)這一問(wèn)題進(jìn)行探究。本文利用自然語(yǔ)言處理方法測(cè)試動(dòng)詞、情境信息等能否有效地標(biāo)示學(xué)習(xí)成果的認(rèn)知類型。研究發(fā)現(xiàn),動(dòng)詞依然是布魯姆分類學(xué)中最關(guān)鍵的特征,當(dāng)該特征與學(xué)習(xí)內(nèi)容、情境信息結(jié)合時(shí),能夠更準(zhǔn)確地標(biāo)示學(xué)習(xí)成果的認(rèn)知類型。此外,本文討論了學(xué)習(xí)成果在布魯姆分類學(xué)中存在的不明確性,發(fā)現(xiàn)這種不明確性能夠帶來(lái)更多的上下文信息,從而更全面地輔助學(xué)習(xí)成果的制定。
[關(guān)鍵詞] 學(xué)習(xí)分析; 學(xué)習(xí)成果; 布魯姆分類學(xué); 自然語(yǔ)言處理; 詞向量
[中圖分類號(hào)] G434 ? ? ? ? ? ?[文獻(xiàn)標(biāo)志碼] A
[作者簡(jiǎn)介] 鄭隆威(1989—),男,回族,江蘇揚(yáng)州人。博士研究生,主要從事學(xué)習(xí)分析與教育數(shù)據(jù)挖掘研究。E-mail:lwzheng@dec.ecnu.edu.cn。
一、引 ? 言
學(xué)習(xí)分析(Learning Analytics)在理解學(xué)習(xí)需求和預(yù)測(cè)學(xué)習(xí)表現(xiàn)中的作用已被廣泛認(rèn)同。學(xué)習(xí)分析同樣能夠支持課程的開(kāi)發(fā)和教學(xué)的設(shè)計(jì)[1],比如具體到為教學(xué)目標(biāo)的設(shè)計(jì)提供支持。在教學(xué)實(shí)踐中,教學(xué)的目標(biāo)常常體現(xiàn)為規(guī)定出一系列要完成的學(xué)習(xí)成果(learning outcome)。對(duì)學(xué)習(xí)成果的規(guī)定(以下簡(jiǎn)稱學(xué)習(xí)成果)指的是學(xué)生在完成一個(gè)特定的學(xué)習(xí)經(jīng)歷之后,通過(guò)課程學(xué)習(xí)所掌握的特定知識(shí)、技能和能力。學(xué)習(xí)成果常常以陳述的方式規(guī)定學(xué)習(xí)者完成課程時(shí)所表現(xiàn)出的能力[2],以便讓學(xué)習(xí)者能夠更精確、更全面地預(yù)測(cè)到參與學(xué)習(xí)所帶來(lái)的成就,并根據(jù)學(xué)習(xí)成果的規(guī)定制定相應(yīng)的學(xué)習(xí)策略[3]。學(xué)習(xí)成果另外一個(gè)關(guān)鍵作用是作為教師設(shè)計(jì)課程活動(dòng)和評(píng)價(jià)方式的依據(jù)[4]。學(xué)習(xí)成果大多以陳述性的文本形式出現(xiàn),但是由于其承載著對(duì)學(xué)習(xí)目標(biāo)的規(guī)定,需要具有對(duì)目標(biāo)達(dá)成度的測(cè)量能力[4]。布魯姆分類學(xué)(Bloom's Taxonomy)為“測(cè)量”學(xué)習(xí)成果提供了認(rèn)知層面的“量尺”。經(jīng)過(guò)修訂的布魯姆分類學(xué)以6種動(dòng)詞描述學(xué)習(xí)成果[5]:記憶(Remembering)、理解(Understanding)、應(yīng)用(Applying)、分析(Analyzing)、評(píng)價(jià)(Evaluating)和創(chuàng)造(Creating)。伴隨著布魯姆分類學(xué)的是描述6種認(rèn)知類型的動(dòng)詞詞匯表,它們是各認(rèn)知類型在語(yǔ)言表達(dá)中的投射,學(xué)習(xí)成果撰寫(xiě)者可以根據(jù)相應(yīng)的認(rèn)知期望從詞匯表中選擇更準(zhǔn)確的表達(dá)方式。在改進(jìn)版的布魯姆分類學(xué)中,也包含一個(gè)用于描述學(xué)習(xí)內(nèi)容的知識(shí)維度。與認(rèn)知維度類似,知識(shí)維度描述了不同層級(jí)的知識(shí)類型[5-6]:事實(shí)性知識(shí)(Factual)、概念性知識(shí)(Conceptual)、程序性知識(shí)(Procedural)、原則性知識(shí)(Principles)和元認(rèn)知知識(shí)(Metacognitive)。眾多學(xué)習(xí)成果分類法的存在,都體現(xiàn)出學(xué)習(xí)成果不僅僅需要關(guān)注動(dòng)作,還需要考慮動(dòng)作之外的情境信息[4]。
但是,操作型動(dòng)作、學(xué)習(xí)內(nèi)容以及其他情境信息對(duì)制定學(xué)習(xí)成果的影響究竟有怎樣的差異,目前還沒(méi)有研究給出明確的結(jié)論。此外,如前文所述,作為認(rèn)知
維度的“標(biāo)尺”,布魯姆分類學(xué)能否促使學(xué)習(xí)成果的區(qū)分度增強(qiáng),使學(xué)習(xí)成果文本更易于“測(cè)量”,還有待進(jìn)一步研究。我們發(fā)現(xiàn),該領(lǐng)域的研究普遍試圖通過(guò)提出措辭規(guī)則、詞匯字典、分類方法等形式的指南來(lái)幫助人們制定學(xué)習(xí)成果,卻很少對(duì)其提出的倡議進(jìn)行驗(yàn)證。本文試圖從學(xué)習(xí)分析的角度對(duì)這一問(wèn)題進(jìn)行探究。我們收集了真實(shí)課程中的學(xué)習(xí)成果數(shù)據(jù)以及由專家標(biāo)記的認(rèn)知類型,提出以下研究問(wèn)題:
(1)動(dòng)詞是否是區(qū)分學(xué)習(xí)成果的認(rèn)知領(lǐng)域的有效特征?
(2)學(xué)習(xí)成果的情境信息(如學(xué)習(xí)內(nèi)容、制定背景)是否是區(qū)分學(xué)習(xí)成果的認(rèn)知領(lǐng)域的有效特征?
(3)基于以上兩個(gè)問(wèn)題的研究結(jié)果,探究如何利用布魯姆分類法輔助教育工作者制定更有效的學(xué)習(xí)成果。
為了探究以上研究問(wèn)題,本文將利用自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù)和機(jī)器學(xué)習(xí)技術(shù)進(jìn)行數(shù)據(jù)分析。本研究將利用當(dāng)前NLP領(lǐng)域中應(yīng)用較為廣泛的詞向量(Word Embeddings)技術(shù)生成學(xué)習(xí)成果的文本特征,并通過(guò)構(gòu)建機(jī)器學(xué)習(xí)分類器對(duì)不同的特征進(jìn)行測(cè)試,同時(shí),利用詞移距離技術(shù)對(duì)文本的區(qū)分度進(jìn)行測(cè)量。
二、研究方法
(一)數(shù)據(jù)
本研究從澳大利亞某大學(xué)的課程數(shù)據(jù)庫(kù)中收集了13189個(gè)學(xué)習(xí)成果,這些學(xué)習(xí)成果的文本數(shù)據(jù)將作為本研究的語(yǔ)料來(lái)源。其中,8115個(gè)學(xué)習(xí)成果來(lái)自本科生課程,5074個(gè)學(xué)習(xí)成果來(lái)自研究生課程。這些學(xué)習(xí)成果由該校各個(gè)學(xué)科中的專家針對(duì)具體課程進(jìn)行制定,專家們對(duì)該校開(kāi)設(shè)的每一門課程都會(huì)制定1~10個(gè)學(xué)習(xí)成果(平均為4.12個(gè))。在課程管理部門的引導(dǎo)下,學(xué)科專家還根據(jù)布魯姆分類法對(duì)每一個(gè)學(xué)習(xí)成果的認(rèn)知類型進(jìn)行了標(biāo)記,標(biāo)記方法采納了2001年修訂版的布魯姆分類學(xué),從低階認(rèn)知到高階認(rèn)知類型分別為:“記憶”“理解”“應(yīng)用”“分析”“評(píng)價(jià)”和“創(chuàng)造”。但需要指出的是,專家在制定學(xué)習(xí)成果時(shí),并未被要求嚴(yán)格遵循布魯姆分類學(xué)的用詞。圖1展示了所有學(xué)習(xí)成果在6種布魯姆認(rèn)知類型上的分布,從中可以看出,處于相對(duì)低階的“記憶”(144個(gè),占總體1.1%)和“理解”(1207個(gè),占總體9.2%)的學(xué)習(xí)成果相對(duì)較少,大部分學(xué)習(xí)成果被標(biāo)記為相對(duì)高階的認(rèn)知類型。其中,本科生課程的學(xué)習(xí)成果被標(biāo)記為“應(yīng)用”的頻率最高(1996個(gè),占本科目標(biāo)的24.6%),研究生課程的學(xué)習(xí)成果被標(biāo)記為“創(chuàng)造”(1598個(gè),占研究生總體31.3%)和“評(píng)價(jià)”(1533個(gè),占研究生目標(biāo)的30.2%)的頻率最高。從認(rèn)知類型的分布可以看出,學(xué)科專家對(duì)不同學(xué)習(xí)階段的成果期望存在明顯差異,相對(duì)而言,本科生課程更加面向應(yīng)用層面,而研究生課程則更關(guān)注學(xué)生的高階認(rèn)知能力。
布魯姆分類中的分布
(二)利用詞性標(biāo)注獲得詞匯語(yǔ)料
由于本研究將文本語(yǔ)料作為研究資料,因此,本研究需要將非結(jié)構(gòu)化的學(xué)習(xí)成果文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的結(jié)構(gòu)化的數(shù)據(jù)。這一結(jié)構(gòu)化的流程使用了自然語(yǔ)言處理中常見(jiàn)的技術(shù):分詞(Token)、n元組模型(n-Grams)、詞干提?。╓ord Stemming)、停頓詞清洗等。為了探究本文的研究問(wèn)題之一——布魯姆詞匯表有效性,本研究還利用詞性標(biāo)注(Parts of Speech Tagging)技術(shù)對(duì)所有學(xué)習(xí)成果的文本進(jìn)行了詞性標(biāo)注,從而得到所有單詞的詞性(例如動(dòng)詞、名詞和形容詞)。例如,學(xué)習(xí)成果 “Analyze the Business Data.(分析商業(yè)數(shù)據(jù))”會(huì)被標(biāo)注為“Analyze(分析,及物動(dòng)詞)| the(停頓詞)|Business(商業(yè),名詞)|Data(數(shù)據(jù),名詞)|(標(biāo)點(diǎn))”,我們將“Analyze(分析)”歸入動(dòng)詞類別,將“Business(商業(yè))”和“Data(數(shù)據(jù))”歸入名詞類別,停頓詞和標(biāo)點(diǎn)被清洗。本研究采用Stanford Log-linear Part-Of-Speech Tagger工具[7]來(lái)對(duì)所有文本中的單詞進(jìn)行詞性標(biāo)注。
(三)利用詞向量技術(shù)獲取學(xué)習(xí)成果特征
本文使用詞向量技術(shù)(Word Embedding)將文本轉(zhuǎn)化為表征語(yǔ)義的特征向量。在詞向量法出現(xiàn)之前,較為常見(jiàn)的NLP方法是詞袋模型(Bag-of-words Model)、包括擴(kuò)展自該模型的n元組模型(n-Gram Model)和詞頻—逆文檔頻率(Term Frequency-inverse Document Frequency,TF-IDF)技術(shù),這些方法將文本以基于詞頻的編碼來(lái)表示,但由于每個(gè)文檔出現(xiàn)的單詞通常只是整個(gè)詞袋中單詞總量很小的一個(gè)子集,這就使得特征向量較為稀疏(Sparse)。這種稀疏使得單
個(gè)詞語(yǔ)的特征向量所攜帶的信息有限,從而難以有效地表征單詞語(yǔ)義。
詞向量技術(shù)可以有效地解決文本的語(yǔ)義表征問(wèn)題。近年來(lái),詞向量已經(jīng)成為NLP中廣泛采用的特征處理技術(shù),這一技術(shù)突破始于Mikolov與其同事提出的一種利用非監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的詞向量方法——Word2vec[8]。Mikolov和他的同事提出,可以通過(guò)訓(xùn)練一個(gè)三層的神經(jīng)網(wǎng)絡(luò)模型來(lái)實(shí)現(xiàn)高維空間嵌入單個(gè)詞語(yǔ),它將每個(gè)單個(gè)詞語(yǔ)從稀疏的編碼映射到一個(gè)高維的向量空間,從而利用每個(gè)詞語(yǔ)的上下文信息作為詞語(yǔ)的特征向量。這樣的處理方式也使得詞向量能夠表征單個(gè)詞語(yǔ)的語(yǔ)義信息,由于相似的單詞的上下文信息是相近的,因此,相近的詞語(yǔ)在高維空間中的位置也是相近的。
由于詞向量繼承了向量的特性,這允許我們能夠像向量運(yùn)算一樣操作文本信息。例如,在詞向量空間中,(中國(guó))-(北京)≈(澳大利亞)-(堪培拉),在這個(gè)案例中,由于“北京”和“堪培拉”分別作為“中國(guó)”和“澳大利亞”的首都,它們?cè)谠~向量空間上具有相似的距離,因此,可以通過(guò)向量運(yùn)算的方法實(shí)現(xiàn)。本研究將試圖利用詞向量來(lái)表征學(xué)習(xí)成果中的文本信息,我們將學(xué)習(xí)成果中的每一個(gè)單詞轉(zhuǎn)化為單個(gè)詞向量,通過(guò)特定的運(yùn)算后將結(jié)果向量視為學(xué)習(xí)成果文本在高維空間中的映射結(jié)果。這一思路如圖2所示:首先,將學(xué)習(xí)成果文本中特定的詞語(yǔ)轉(zhuǎn)化為對(duì)應(yīng)的詞向量;隨后,對(duì)詞向量進(jìn)行運(yùn)算(圖2中直接進(jìn)行了累加);最后,將詞向量的運(yùn)算結(jié)果進(jìn)行標(biāo)準(zhǔn)化(圖2中采用了均值法),以作為學(xué)習(xí)成果的向量。
詞向量可以通過(guò)訓(xùn)練語(yǔ)料庫(kù)獲得,或者直接使用已訓(xùn)練好的詞向量字典。筆者通過(guò)比對(duì)這兩種方法后發(fā)現(xiàn),由于語(yǔ)料量有限,基于本文數(shù)據(jù)的詞向量質(zhì)量略低于開(kāi)源的詞向量字典,因此,本文采用了谷歌公司發(fā)布的詞向量字典word2vec-GoogleNews。該字典訓(xùn)練自英文新聞文本數(shù)據(jù),具有300個(gè)維度,包含300萬(wàn)個(gè)英文詞匯。由于本研究的學(xué)習(xí)成果部分文本中存在大量未收錄在字典中的低頻詞,無(wú)法準(zhǔn)確地表達(dá)語(yǔ)義,因此,這些學(xué)習(xí)成果未被納入最終的分析數(shù)據(jù)。最終,本研究保留了13003個(gè)學(xué)習(xí)成果作為分析數(shù)據(jù)。
(四)利用WMD算法測(cè)量詞移距離
詞向量的另一個(gè)優(yōu)勢(shì)是能夠測(cè)量不同文本之間的距離。由于基于詞袋模型的文本向量通常存在正交性(Orthogonality),難以測(cè)量?jī)蓚€(gè)句子之間的差異,例如圖3所示,“Discuss the financial questions(討論財(cái)經(jīng)問(wèn)題)”和“Communicate the economic issues(交流經(jīng)濟(jì)學(xué)問(wèn)題)”是兩個(gè)非常相似的句子,但由于兩者并不共享關(guān)鍵的單詞,因此,難以測(cè)量其間的相似度。Kusner等基于詞向量的特性,提出了一種能夠測(cè)量?jī)蓚€(gè)句子之間距離的技術(shù)——詞移距離(Word Movers Distance,簡(jiǎn)稱WMD)[9],從而能夠從一定程度上展現(xiàn)出兩個(gè)句子在語(yǔ)義層面上的非相似度(Dissimilarity)。具體來(lái)說(shuō),WMD派生自“地動(dòng)距離(Earth Mover's Distance)”方法,從而將文本之間的距離計(jì)算轉(zhuǎn)化為一種運(yùn)輸問(wèn)題的最優(yōu)化求解,最終通過(guò)搜尋一個(gè)累積移動(dòng)代價(jià)最低的移動(dòng)方式來(lái)計(jì)算文檔距離。如圖3所示,雖然兩個(gè)句子沒(méi)有一個(gè)非停頓單詞是相同的,但是通過(guò)WMD算法,每個(gè)單詞會(huì)分別尋找到語(yǔ)義上最短的移動(dòng)路徑:動(dòng)詞“Discuss(分析)”尋找到了“Communicate(交流)”,“Financial(財(cái)務(wù)的)”尋找到了“Economic(經(jīng)濟(jì)學(xué)的)”,“Questions(問(wèn)題)”尋找到了“Issues(問(wèn)題)”。最終,將所有移動(dòng)路徑的累積作為距離結(jié)果。
習(xí)成果1的動(dòng)詞“Discuss(討論)”與學(xué)習(xí)成果3的動(dòng)詞“Collaborate(合作)”“Communicate(溝通)”之間具有類似的含義,因此,詞距僅有1.01;但是它們與學(xué)習(xí)成果2的動(dòng)詞“Develop(開(kāi)發(fā))”“Align(結(jié)合)”的含義相差較遠(yuǎn),因此,兩者之間詞移距離就分別為1.32和1.27。
(五)基于自然語(yǔ)言處理的分類器
本研究將利用機(jī)器學(xué)習(xí)來(lái)探究不同類型的特征對(duì)布魯姆類型的區(qū)分能力。首先,在文本預(yù)處理和詞向量基礎(chǔ)上,我們分別基于不同的分類方法或輸入不同的數(shù)據(jù)構(gòu)建了6種不同的分類器;隨后,以正確率作為分類器表現(xiàn)指標(biāo),比較分類器對(duì)布魯姆認(rèn)知類型的分類能力,從而探究不同類型的語(yǔ)料信息對(duì)標(biāo)記認(rèn)知類型的作用;最后,根據(jù)分類器的表現(xiàn)結(jié)果,結(jié)合詞移距離方法,深入探究文本之外的情境信息對(duì)于認(rèn)知類型的影響。
1. 分類器1:動(dòng)詞詞匯表查找法
分類器1是作為參照的基線分類器(Baseline),該分類器模擬了人工鑒別布魯姆認(rèn)知類型的“常規(guī)”方法,即在沒(méi)有機(jī)器學(xué)習(xí)的幫助下,通過(guò)查表、匹配動(dòng)詞詞匯來(lái)確定認(rèn)知類型。首先,該分類器會(huì)提取每一個(gè)學(xué)習(xí)成果文本中所有被標(biāo)記出的動(dòng)詞單詞;隨后,分類器分別將每個(gè)單詞與Stanny整理的詞匯表[4]中的詞匯進(jìn)行比對(duì),由于Stanny的詞匯表中存在一個(gè)詞匯具有多個(gè)認(rèn)知類型的情況,因此,該分類器還會(huì)利用Stanny詞匯表中詞匯在各類型中的記錄的頻次作為評(píng)判依據(jù);最終,通過(guò)比較每一個(gè)類型中累計(jì)的頻次,選擇頻次總數(shù)最高的類型作為分類的結(jié)果。
2. 分類器2:n-元組詞袋模型法
分類器2是另一個(gè)作為參照的基線分類器,該分類器代表了傳統(tǒng)的自然語(yǔ)言處理方法,與分類器1不同的是,分類器2會(huì)考慮所有文本,而不是僅僅考慮動(dòng)詞文本。該分類器基于詞袋模型,將學(xué)習(xí)成果文本以數(shù)值特征向量的形式進(jìn)行表示,并利用n-元組模型對(duì)文檔進(jìn)行分割(n={1,2,3})以獲得特征,最后選擇了前3000個(gè)頻率最高的特征。此外,學(xué)習(xí)成果中的動(dòng)詞、名詞、形容詞和副詞的頻率也作為訓(xùn)練數(shù)據(jù)輸入機(jī)器學(xué)習(xí)模型。
3. 分類器3:平均詞向量法
分類器3采用了最“樸素”的平均詞向量法來(lái)獲取學(xué)習(xí)成果的特征向量,該分類器將學(xué)習(xí)成果中的所有文本信息融合到一個(gè)詞向量當(dāng)中,用單個(gè)的詞向量代表該學(xué)習(xí)成果在高維空間中的位置。首先,該分類器將每一個(gè)學(xué)習(xí)成果中所有非停頓詞進(jìn)行提取;隨后,從詞向量字典中獲得所有詞的詞向量;最后,對(duì)所有詞向量進(jìn)行均值處理,從而將一個(gè)由300個(gè)維度構(gòu)成的訓(xùn)練數(shù)據(jù)輸入機(jī)器學(xué)習(xí)模型。
4. 分類器4:動(dòng)詞平均詞向量法
分類器4與分類器3處理相似,唯一不同的是分類器4只提取動(dòng)詞文本而忽略其他詞性的文本,最終的訓(xùn)練數(shù)據(jù)依然是一個(gè)由300個(gè)維度構(gòu)成的特征向量,但該向量?jī)H僅包含學(xué)習(xí)成果文檔中的動(dòng)詞文本信息。
5. 分類器5:名詞平均詞向量法
分類器5與分類器4處理相似,唯一不同的是分類器5將只提取名詞文本而忽略其他詞性的文本。
6. 分類器6:動(dòng)、名詞平均詞向量法
分類器6綜合了分類器4和5的設(shè)置,該分類器分別提取了動(dòng)詞文本和名詞文本的平均詞向量,隨后再將兩者進(jìn)行求平均值。分類器6試圖通過(guò)兩種文本的詞向量來(lái)構(gòu)造信息更完整的學(xué)習(xí)成果,排除了其他詞性文本對(duì)于詞向量的干擾。
本研究分別利用邏輯回歸(Logistic Regression)、支持向量機(jī)(Support Vector Machine)和隨機(jī)森林(Random Forest)對(duì)以上分類器進(jìn)行了訓(xùn)練,在每次訓(xùn)練過(guò)程中,采用了5折交叉驗(yàn)證(Cross-validation)的方式來(lái)測(cè)試模型的預(yù)測(cè)能力。需要指出的是,本研究并未對(duì)任何一個(gè)模型進(jìn)行超參數(shù)尋優(yōu)或特征篩選。
三、分析結(jié)果
(一)詞性標(biāo)注結(jié)果
我們從所有文本中共獲得了7902個(gè)單詞,這些單詞的詞性信息將用于構(gòu)造部分分類器的特征。表1展示了詞性標(biāo)注結(jié)果中,各認(rèn)知類型中的高頻動(dòng)詞(前8個(gè))以及在相應(yīng)層級(jí)中的覆蓋率。此外,我們還將高頻詞與Stanny[4]整理的詞匯表進(jìn)行了比對(duì),并將比對(duì)結(jié)果在表中標(biāo)示出來(lái)。
從表1中可以看出,相鄰認(rèn)知類型之間的關(guān)系較為密切,例如,“記憶”與“理解”之間有6個(gè)共同的高頻動(dòng)詞,“評(píng)價(jià)”和“創(chuàng)作”之間有5個(gè)共同的高頻動(dòng)詞,“理解”與“應(yīng)用”“分析”和“評(píng)價(jià)”之間有4個(gè)共同的高頻動(dòng)詞。對(duì)比Stanny的元分析結(jié)果,本文的數(shù)據(jù)中有很多高頻動(dòng)詞與Stanny詞匯表差異較大,例如,Stanny詞匯表中屬于“應(yīng)用”的“Explain(解釋)”“Interpret(說(shuō)明)”和“Demonstrate(展示)”,在本文的數(shù)據(jù)中反而在“分析”中較為頻繁,同樣的現(xiàn)象也包括在“評(píng)價(jià)”中出現(xiàn)較為頻繁的“Analyze(分析)”和“Develop(開(kāi)發(fā))”。
在“創(chuàng)造”中,可以發(fā)現(xiàn)動(dòng)詞的運(yùn)用較為多樣化,排名最高的“Evaluate(評(píng)價(jià))”的覆蓋率僅為15%。我們還可以發(fā)現(xiàn),一些單詞在多個(gè)類型中出現(xiàn)的頻率都很高,例如,“Apply(應(yīng)用)”出現(xiàn)在所有類型高頻單詞中,“Use(使用)”出現(xiàn)在5個(gè)類型中,可能的解釋是,這些動(dòng)詞會(huì)以作為引導(dǎo)句子的首個(gè)單詞在語(yǔ)料中被使用到。例如:“Apply key theoretical concepts to understandings of place(運(yùn)用關(guān)鍵的理論概念來(lái)理解地點(diǎn))”,但這一學(xué)習(xí)成果的重點(diǎn)并不在于“Apply(運(yùn)用)”,而在“Concepts(概念)”和“Understandings(理解)”,因此,該學(xué)習(xí)成果被專家標(biāo)記為“理解”而非“應(yīng)用”。相似的問(wèn)題還包括“記憶”中的單詞“Include(包含)”,這些詞所承載的含義較為有限,其頻率可能無(wú)法代表它在相應(yīng)認(rèn)知類型中的重要性。
(二)基于自然語(yǔ)言處理布魯姆學(xué)習(xí)成果分類器結(jié)果
表2描述了6個(gè)分類器對(duì)布魯姆認(rèn)知類型的表現(xiàn)性能。結(jié)果顯示,傳統(tǒng)的查表法正確率較低,僅有38.19%的學(xué)習(xí)成果被正確分類,而14.05%(N=1827)的學(xué)習(xí)成果文本由于無(wú)法在Stanny的詞匯表中找到任何一個(gè)匹配的動(dòng)詞,而無(wú)法被分類,在去除了這些無(wú)法識(shí)別的文本后,其正確率也只能提升到44.39%,這說(shuō)明人工收集的詞匯表對(duì)布魯姆分類學(xué)的支持是較為有限的。分類器2體現(xiàn)了傳統(tǒng)的NLP方法在認(rèn)知分類中的表現(xiàn),它的正確率已經(jīng)能夠達(dá)到50%以上。分類器3采用了整個(gè)學(xué)習(xí)成果的均值詞向量作為輸入數(shù)據(jù),其在采用支持向量機(jī)中的表現(xiàn)最好,正確率達(dá)到52.23%,但相較于分類器2,分類器3的表現(xiàn)提升較為微弱,僅僅提升了約1%。分類器4采用了學(xué)習(xí)成果中動(dòng)詞的均值詞向量作為輸入數(shù)據(jù),它的正確率是分類器1-6中最高的,在使用支持向量機(jī)進(jìn)行訓(xùn)練時(shí),其準(zhǔn)確度達(dá)到了58.79%,并且在使用邏輯回歸模型和隨機(jī)森林模型時(shí),其準(zhǔn)確度也在57%以上,相較于同樣使用動(dòng)詞作為特征的分類器1,分類器4的準(zhǔn)確度提高了14.40%,相較于使用了全部文本的詞向量作為訓(xùn)練數(shù)據(jù)的分類器3,分類器4的準(zhǔn)確率提高了6.56%。分類器5僅采用了學(xué)習(xí)成果中名詞的均值詞向量作為數(shù)據(jù)來(lái)源,結(jié)果發(fā)現(xiàn),該分類器表現(xiàn)不佳,正確率僅有30.23%。分類器6的訓(xùn)練數(shù)據(jù)在動(dòng)詞詞向量均值的基礎(chǔ)上,還增加了名詞詞向量均值,盡管增加了向量中的信息,但結(jié)果卻明顯弱于僅關(guān)注動(dòng)詞的分類器4,其最高準(zhǔn)確度為53.18%,比分類器4降低了5.61%。
(tuning)步驟的前提下,將詞向量作為識(shí)別認(rèn)知分類的特征要優(yōu)于動(dòng)詞查表法和基于詞袋模型的NLP技術(shù)。此外,動(dòng)詞似乎依然是用于鑒別布魯姆認(rèn)知類型的最有效的特征,在增加名詞詞向量之后,反而會(huì)降低分類器的預(yù)測(cè)能力。為了探索這一問(wèn)題,我們?cè)噲D利用詞移距離技術(shù)對(duì)同詞性文本之間的距離,以推測(cè)導(dǎo)致模型能力下降的原因。
通過(guò)計(jì)算詞移距離,我們發(fā)現(xiàn),即使在相同的課程內(nèi),學(xué)習(xí)成果中名詞詞向量間的差異(dn=1.48)通常要高于動(dòng)詞詞向量的差異(dv=1.02),這可能是導(dǎo)致模型“過(guò)擬合(Overfitting)”的原因之一。相較于復(fù)用較為頻繁的動(dòng)詞,代表學(xué)習(xí)內(nèi)容的名詞之間存在更大差異。為了平衡這一差異,我們創(chuàng)建了分類器7,該分類器采用動(dòng)、名詞加權(quán)平均詞向量法,將對(duì)差異較大的名詞詞向量進(jìn)行懲罰:在合成文檔的詞向量之前,我們首先計(jì)算了每個(gè)學(xué)科中所有名詞之間的詞移距離,將詞移距離均值作為該名詞的“特殊度”,這一“特殊度”將轉(zhuǎn)化為名詞詞向量的權(quán)重。其原理是,當(dāng)某一名詞在該學(xué)科領(lǐng)域中很特殊時(shí),它與其他名詞的距離就會(huì)較遠(yuǎn),該距離將會(huì)對(duì)其在詞向量運(yùn)算時(shí)降低其權(quán)重,從而對(duì)其進(jìn)行懲罰。結(jié)果顯示,分類器7在驗(yàn)證過(guò)程中得到了高于分類器4的準(zhǔn)確度,達(dá)到了60.96%(增加了2.17%),這說(shuō)明,當(dāng)以一種合適的方式提供教學(xué)內(nèi)容信息后,該分類器能夠從代表教學(xué)內(nèi)容的名詞中獲得更多有效的信息用于對(duì)認(rèn)知類型的分類。
(三)情境信息對(duì)布魯姆學(xué)習(xí)成果分類器的影響
本節(jié)將探索教學(xué)情境的差異性對(duì)認(rèn)知領(lǐng)域分類的影響。本研究的數(shù)據(jù)中存在兩種潛在的情境差異:一種是學(xué)習(xí)階段的差異,學(xué)習(xí)成果的受眾包括本科生和研究生兩種類型;另一種是學(xué)科的差異,不同學(xué)科在目標(biāo)行為的期望和學(xué)習(xí)內(nèi)容上可能是存在差異的。為了驗(yàn)證這兩種差異的存在,我們利用詞移距離技術(shù)對(duì)不同類型的學(xué)習(xí)成果之間的動(dòng)詞進(jìn)行了測(cè)距。在學(xué)習(xí)階段差異方面,我們對(duì)同一個(gè)學(xué)科中的本科生與研究生的學(xué)習(xí)成果進(jìn)行測(cè)距,并對(duì)同一個(gè)學(xué)科中各學(xué)段內(nèi)部的學(xué)習(xí)成果進(jìn)行測(cè)距。在學(xué)科差異方面使用了類似的方法,我們對(duì)同一個(gè)學(xué)段中的不同學(xué)科的學(xué)習(xí)成果進(jìn)行測(cè)距,并對(duì)同一個(gè)學(xué)段中各學(xué)科內(nèi)部的學(xué)習(xí)成果進(jìn)行測(cè)距。
表3展示了學(xué)習(xí)成果在不同教學(xué)情境下的詞移距離的均值??梢钥闯觯谒姓J(rèn)知類型中,不同學(xué)段間的動(dòng)詞詞距均值皆大于相同學(xué)段內(nèi)部的動(dòng)詞詞距均值,其中,“記憶”層級(jí)(0.91和0.70)和“分析”層級(jí)(0.96和0.88)最為明顯,這說(shuō)明針對(duì)不同學(xué)段的學(xué)習(xí)者,專家會(huì)采用不同的詞匯來(lái)描述學(xué)習(xí)成果。同樣的結(jié)果也出現(xiàn)在學(xué)科的差異中,在所有認(rèn)知類型中,以學(xué)科進(jìn)行分組的組間詞距同樣都大于組內(nèi)的詞距,其中,“記憶”(0.95和0.73)、“理解”(0.99和0.90)和“創(chuàng)作”(1.15和1.08)的差異最為明顯,這說(shuō)明,在同一個(gè)認(rèn)知類型中,不同的學(xué)科具有不同的行為目標(biāo)。綜上所述,學(xué)習(xí)情境的差異性會(huì)影響學(xué)習(xí)成果的制定,如果不考慮情境因素,認(rèn)知類型標(biāo)記結(jié)果是一種偏離數(shù)據(jù)(bias data),可能會(huì)影響分類結(jié)果的正確率。
基于以上分析,我們將學(xué)習(xí)階段特征和學(xué)科特征依次添加到分類器7的輸入數(shù)據(jù)當(dāng)中重新進(jìn)行訓(xùn)練,結(jié)果如表4所示。對(duì)比分類器7,在分別增加了學(xué)習(xí)階段和學(xué)科的特征后,模型的正確率都得到了一定的提升,分類器7的正確率從60.96%增加到了62.09%,這說(shuō)明,在提供了更多情境信息后,分類器能夠“學(xué)習(xí)”到學(xué)習(xí)階段或?qū)W科的差異。
四、討 ? 論
(一)情境信息在布魯姆分類中的作用
本文用自然語(yǔ)言處理方法測(cè)試了計(jì)算機(jī)能否根據(jù)相關(guān)的文本特征來(lái)界定學(xué)習(xí)成果的認(rèn)知分類,研究結(jié)果顯示,相較于代表整體上下文信息的平均詞向量和代表學(xué)習(xí)內(nèi)容信息的名詞詞向量,代表操作型信息的動(dòng)詞詞向量能更好地幫助機(jī)器界定學(xué)習(xí)成果的認(rèn)知類型。不過(guò),當(dāng)我們針對(duì)詞向量技術(shù)的特性對(duì)詞向量特征進(jìn)行適當(dāng)調(diào)整后,在操作型信息和學(xué)習(xí)內(nèi)容信
息的協(xié)同作用下,計(jì)算機(jī)可以更準(zhǔn)確地界定學(xué)習(xí)成果的認(rèn)知類型。
為了探究學(xué)習(xí)內(nèi)容信息對(duì)于提升分類能力的作用,我們研究了在分類器4中分類錯(cuò)誤,而在分類器7中被更正的學(xué)習(xí)成果。我們發(fā)現(xiàn),一些高頻的名詞具有指示認(rèn)知類型的能力,當(dāng)使用分類器7后,包含這些名詞的學(xué)習(xí)成果更有可能被正確分類。例如:某一個(gè)學(xué)習(xí)成果被描述為“Develop understanding of the concepts of electronic devices and circuits(理解電子設(shè)備和電路概念)”,在課程系統(tǒng)中,它被標(biāo)記為“理解”,但由于詞性解析器識(shí)別出該句子的動(dòng)詞是“Develop(開(kāi)發(fā))”,在分類器4中被劃分為“創(chuàng)造”,而分類器7除了考慮動(dòng)詞,還會(huì)考慮“Understanding(理解)”和“Concepts(概念)”等高頻名詞,從而對(duì)其進(jìn)行了正確的分類。我們統(tǒng)計(jì)了在分類器7中分類被更正的樣本,與上述案例類似的還包括含有“Research(研究)”“Practice(實(shí)踐)”和“Report(報(bào)告)”等相關(guān)名詞的學(xué)習(xí)成果,這一類單詞往往都是英文中同時(shí)具有動(dòng)詞和名詞的含義,或者是以動(dòng)名詞的形式存在于句子中(如“Understanding(理解)”和“Applying(應(yīng)用)”),當(dāng)它們作為操作型行為時(shí),就具有一定的辨析能力,而作為學(xué)習(xí)內(nèi)容時(shí),同樣能夠具有指示認(rèn)知類型的能力,從而幫助分類器提升分類準(zhǔn)確度。
除了來(lái)自文本本身的學(xué)習(xí)內(nèi)容信息,本研究還在數(shù)據(jù)中加入了學(xué)習(xí)階段和學(xué)科兩個(gè)特征,以提供更多的情境信息。結(jié)果顯示,在考慮情境因素之后,一些原本被錯(cuò)誤分類的學(xué)習(xí)成果得以更正。例如:“Explain causes and consequences of Takeovers(解釋收購(gòu)的原因和后果)”被專家標(biāo)記為“分析”,但在分類器7中被錯(cuò)誤地劃分為“理解”。在加入學(xué)習(xí)階段和學(xué)科信息之后,該學(xué)習(xí)成果增加了“研究生”和“商學(xué)”兩個(gè)特征,根據(jù)邏輯回歸模型的訓(xùn)練結(jié)果可以發(fā)現(xiàn),這兩個(gè)特征的系數(shù)在“理解”類型上呈現(xiàn)負(fù)值,而在“分析”類型上呈現(xiàn)正值,這說(shuō)明分類器“學(xué)習(xí)”到“研究生”和“商學(xué)”兩種特征更傾向于高階認(rèn)知類型,因此,在“理解”和“分析”兩個(gè)層次上存在著“位移(Shift)”,此消彼長(zhǎng)之后,分類器計(jì)算出該學(xué)習(xí)成果在“分析”上的概率最大,最終使其得到了正確的分類。相似的情況,也存在于其他情境特征中。例如,“本科”特征在“記憶”和“理解”以及“應(yīng)用”上的系數(shù)高于“研究生”特征的系數(shù),此外,“計(jì)算機(jī)學(xué)科”特征在“創(chuàng)造”的系數(shù)就遠(yuǎn)高于其他學(xué)科。
但是,作為本研究中表現(xiàn)最優(yōu)的分類器,依然僅有約六成的準(zhǔn)確率,我們探究了分類錯(cuò)誤的學(xué)習(xí)成果,從中發(fā)現(xiàn),在多個(gè)認(rèn)知類型重復(fù)出現(xiàn)的動(dòng)詞詞匯可能導(dǎo)致分類的錯(cuò)誤。例如:“Identify(識(shí)別)”在6個(gè)類型中的分布較為均衡5%(N=37)、25%(N=180)、16%(N=116)、20%(N=144)、17%(N=120)和16%(N=115),分類器7將大部分僅有“Identify”一個(gè)動(dòng)詞的學(xué)習(xí)成果識(shí)別為“理解”。例如:“Identify key issues in gender theory(確定性別理論中的關(guān)鍵問(wèn)題)”和“Identify the key features of classical test theory and modern measurement theory(識(shí)別經(jīng)典測(cè)試?yán)碚摵同F(xiàn)代測(cè)量理論的關(guān)鍵特征)”分別被專家標(biāo)記為“記憶”和“分析”,雖然這兩個(gè)學(xué)習(xí)成果在動(dòng)詞和名詞上都很相似,但前者指的是事實(shí)知識(shí)的掌握,后者是對(duì)不同對(duì)象的比較分析。然而,計(jì)算機(jī)無(wú)法解析這一深層語(yǔ)義,這兩者都被錯(cuò)誤地識(shí)別為“理解”層次。類似的深層語(yǔ)義問(wèn)題也出現(xiàn)在包含“Explain(解釋)”“Examine(調(diào)查)”和“Apply(應(yīng)用)”等詞匯的學(xué)習(xí)成果中。
Stanny在研究中提出,動(dòng)詞查表法的最大挑戰(zhàn)是語(yǔ)言存在靈活性,最顯著的問(wèn)題是上下文情境的改變會(huì)改變?cè)~語(yǔ)的意思[4],在一個(gè)特定的上下文情境中,單一的動(dòng)詞的確可以具有一個(gè)明確的意義,但是脫離這個(gè)情景之后,這一動(dòng)詞就可能喪失了其原有的特性,其不確定性被暴露出來(lái)。其他研究者包括Paul[10]和Adelman[11]也提出了相似的問(wèn)題,這些研究者都強(qiáng)調(diào),上下文信息需要在布魯姆分類學(xué)中更多地被考慮到。本研究使用自然語(yǔ)言處理法來(lái)增強(qiáng)這些上下文信息,在提供更多的學(xué)習(xí)內(nèi)容信息之后,確實(shí)能使一些表達(dá)不夠明確的學(xué)習(xí)成果的分類結(jié)果得到修正。但是,學(xué)習(xí)成果文本中的深層語(yǔ)義以及英文語(yǔ)言的不明確性(Ambiguity)的問(wèn)題依然未被有效地解決,潛在的解決方向是訓(xùn)練更復(fù)雜的詞向量模型,從而使詞向量能夠表征更復(fù)雜的語(yǔ)義,并且在數(shù)據(jù)中提供更多情境特征,但這一類問(wèn)題屬于NLP的技術(shù)性領(lǐng)域,已經(jīng)超出了本文的研究范疇。
(二)布魯姆分類法在學(xué)習(xí)成果中的區(qū)分度
在本研究中,導(dǎo)致認(rèn)知類型分類器表現(xiàn)不佳的另一個(gè)原因是數(shù)據(jù)本身存在一定的偏差。除了學(xué)習(xí)階段和學(xué)科造成的偏差以外,領(lǐng)域?qū)<以谧珜?xiě)學(xué)習(xí)成果時(shí),并沒(méi)有嚴(yán)格地按照布魯姆分類學(xué)進(jìn)行措辭,從而使不同認(rèn)知類型之間的區(qū)分度較低。一個(gè)最典型的現(xiàn)象就是單個(gè)學(xué)習(xí)成果中融合了多個(gè)子學(xué)習(xí)成果,同時(shí),這些子學(xué)習(xí)成果又可能屬于多個(gè)不同的認(rèn)知領(lǐng)域,而專家只能從中選擇一個(gè)他認(rèn)為最貼切的認(rèn)知類型標(biāo)記整個(gè)學(xué)習(xí)成果。根據(jù)對(duì)詞性標(biāo)記結(jié)果的統(tǒng)計(jì),13003個(gè)學(xué)習(xí)成果中,平均每個(gè)學(xué)習(xí)成果包含2.24個(gè)
動(dòng)詞短語(yǔ),只有約30%的學(xué)習(xí)成果僅有一個(gè)明確的動(dòng)詞。此外,我們發(fā)現(xiàn),隨著認(rèn)知階段的提高,動(dòng)詞短語(yǔ)的個(gè)數(shù)會(huì)逐層增加,6個(gè)認(rèn)知類型的平均動(dòng)詞短語(yǔ)個(gè)數(shù)分別為1.78、1.94、2.12、2.20、2.30和2.44個(gè),這說(shuō)明越高階的學(xué)習(xí)成果往往越復(fù)雜,專家需要整合更多的操作型信息來(lái)滿足描述復(fù)雜性的需要。
針對(duì)這一問(wèn)題,我們利用詞移距離技術(shù)對(duì)各課程中所有學(xué)習(xí)成果之間的動(dòng)詞詞距進(jìn)行測(cè)量,再根據(jù)比較的認(rèn)知類型進(jìn)行分組。圖5為各認(rèn)知類型之間的動(dòng)詞詞距矩陣,矩陣中每一格代表兩個(gè)類型之間的動(dòng)詞平均詞距,位于對(duì)角軸上的每一格代表相同類型的學(xué)習(xí)成果之間的動(dòng)詞平均詞距,背景顏色越深的格子代表詞距越遠(yuǎn)。當(dāng)僅考慮不同類型之間的詞距時(shí),詞距均值為1.05。
可以從圖5中看出,同一認(rèn)知類型內(nèi)的動(dòng)詞平均詞距是很接近的,都小于0.90。其中,由于“記憶”和“理解”的樣本較少、用詞更加相似,其動(dòng)詞平均詞距較小,分別為0.23和0.56。“評(píng)價(jià)”和“創(chuàng)造”的樣本較多、用詞更加多樣化,其動(dòng)詞平均詞距較大,分別為0.84和0.83。很顯然,不同認(rèn)知類型之間的詞距要明顯大于內(nèi)部的詞距,詞距越大代表描述學(xué)習(xí)成果的措辭區(qū)分度越高,我們可以看出,“記憶”和“理解”之間的詞距為0.97,小于平均詞距,這說(shuō)明學(xué)習(xí)成果制定者對(duì)這兩者的認(rèn)識(shí)較為接近,與表1的高頻詞統(tǒng)計(jì)結(jié)果相同。相較于其他5個(gè)認(rèn)知類型,“分析”的區(qū)分度最低,它與“記憶”“理解”“應(yīng)用”和“評(píng)價(jià)”之間的詞距分別為0.95、0.98、1.00和1.03,皆小于認(rèn)知類型間的平均詞距。一方面,這說(shuō)明學(xué)習(xí)成果制定者對(duì)“分析”類學(xué)習(xí)成果的描述存在較多更低階的子學(xué)習(xí)成果,相對(duì)于展示課程的基礎(chǔ)性知識(shí),教育者可能更傾向于向?qū)W習(xí)者展現(xiàn)課程的高階學(xué)習(xí)內(nèi)容;另一方面,“分析”認(rèn)知類型學(xué)習(xí)成果可能需要依賴于對(duì)低階認(rèn)知類型的描述。例如,某一被專家標(biāo)記為“分析”的學(xué)習(xí)成果被描述為“identify, interpret and analyze standard and common clauses in business contracts and apply them to business scenarios(識(shí)別、說(shuō)明和分析業(yè)務(wù)合同中的標(biāo)準(zhǔn)和通用條款,并將其應(yīng)用于業(yè)務(wù)場(chǎng)景)”,其中,“Identify(識(shí)別)”“Interpret(說(shuō)明)”和“Apply(應(yīng)用)”都是低于“分析”認(rèn)知類型的詞匯,它們的存在都是為了提供“Analyze(分析)”的前置和后繼操作型信息,從而為學(xué)生提供一個(gè)更完整的上下文,如果刪去這些額外的信息,盡管使其更加明確地指向“分析”認(rèn)知,但也會(huì)喪失有意義的操作型信息。
學(xué)習(xí)成果制定者被要求需要提供明確且具體的行為[4],用清晰且沒(méi)有術(shù)語(yǔ)的語(yǔ)言為學(xué)習(xí)者描述可觀測(cè)的行為和學(xué)習(xí)成果[11]。但基于真實(shí)數(shù)據(jù)的實(shí)際觀察,單個(gè)學(xué)習(xí)成果的“跨域”現(xiàn)象雖然增加了學(xué)習(xí)成果在一個(gè)認(rèn)知領(lǐng)域的不明確性,但是它能夠?qū)⑴c其聯(lián)系最密切的學(xué)習(xí)內(nèi)容整合在一起,從而為學(xué)習(xí)者提供更多具有邏輯性的上下文信息。同時(shí),教學(xué)是否需要在事實(shí)性知識(shí)和高階知識(shí)之間做出清晰的劃分依然具有爭(zhēng)論,Agarwal在其研究中發(fā)現(xiàn),單純的基礎(chǔ)知識(shí)學(xué)習(xí)無(wú)法提升高階認(rèn)知能力,但混合了低階和高階的學(xué)習(xí)內(nèi)容反而能夠更好地提升學(xué)生的高階認(rèn)知能力[12]。
(三) “學(xué)習(xí)分析”時(shí)代如何更有效地利用布魯姆分類學(xué)
基于上述論述,我們認(rèn)為學(xué)習(xí)成果的制定需要在理論和實(shí)際需求之間找到一個(gè)平衡點(diǎn)。學(xué)習(xí)成果的質(zhì)量有必要從實(shí)際情境出發(fā),而不是僅僅通過(guò)認(rèn)知類型的明確程度來(lái)判斷。由于布魯姆分類學(xué)產(chǎn)生的初衷就是簡(jiǎn)化認(rèn)知領(lǐng)域,但如果再進(jìn)一步強(qiáng)制每個(gè)學(xué)習(xí)成果匹配單一的認(rèn)知類型,就可能使其喪失一些有效的信息,例如上述的多重學(xué)習(xí)成果的案例,但如果為其標(biāo)記多個(gè)認(rèn)知領(lǐng)域的標(biāo)簽,可能更利于學(xué)習(xí)者理解學(xué)習(xí)成果的上下文。利用人工完成這項(xiàng)任務(wù)可能過(guò)于煩瑣,但在當(dāng)今的“大數(shù)據(jù)”時(shí)代,NLP技術(shù)已日新月異,它可以作為啟發(fā)式工具來(lái)輔助課程制定者提升學(xué)習(xí)成果的質(zhì)量,例如本文利用的詞向量技術(shù)。
學(xué)習(xí)分析領(lǐng)域的研究者Andrew Gibson和其同事已經(jīng)利用NLP技術(shù)幫助人們通過(guò)反思性寫(xiě)作(Reflective Writing)開(kāi)發(fā)學(xué)習(xí)者的元認(rèn)知[13]。在他們開(kāi)發(fā)的平臺(tái)中,系統(tǒng)利用NLP技術(shù)從學(xué)習(xí)者的文字中自動(dòng)識(shí)別出潛意識(shí)的隱含元認(rèn)知(Non-Conscious Implicit Metacognition),并通過(guò)高亮、標(biāo)注和統(tǒng)計(jì)的方式將元認(rèn)知信息直觀地展現(xiàn)給學(xué)習(xí)者,使其產(chǎn)生反思性學(xué)習(xí)。我們認(rèn)為可以采用類似的方式輔助專家撰寫(xiě)
輔助專家完成符合其期望的學(xué)習(xí)成果
利用本文所訓(xùn)練的最優(yōu)分類器(邏輯回歸版本),我們可以為輸入的學(xué)習(xí)成果以及情境信息(學(xué)習(xí)階段和學(xué)科)進(jìn)行認(rèn)知領(lǐng)域的概率預(yù)測(cè),同時(shí),通過(guò)詞向量技術(shù),將所有與各認(rèn)知類型最相近的關(guān)鍵詞標(biāo)示出來(lái)。該界面原型如圖6所示,當(dāng)專家輸入學(xué)習(xí)成果文本后,該學(xué)習(xí)成果被分類器劃分到“應(yīng)用”類型,同時(shí),也提供了所有認(rèn)知類型的概率分布,從而將分類結(jié)果的不確定性直觀地體現(xiàn)出來(lái),一些關(guān)鍵字被標(biāo)記出所指向的可能性最大的認(rèn)知領(lǐng)域。專家可以根據(jù)反饋的圖示來(lái)修改文本,這為專家制定學(xué)習(xí)成果提供了一個(gè)可選擇的空間:既可以選擇撰寫(xiě)認(rèn)知類型明確的學(xué)習(xí)成果,也可以根據(jù)需要通過(guò)調(diào)整措辭來(lái)得到高低階混合的學(xué)習(xí)成果。最終,學(xué)習(xí)成果符合專家對(duì)認(rèn)知領(lǐng)域分布的要求。而對(duì)于學(xué)習(xí)者來(lái)說(shuō),從學(xué)習(xí)成果中得到的信息不再是單一的認(rèn)知類型標(biāo)簽,而是認(rèn)知領(lǐng)域的概率分布,從而提供更完整的信息。此外,從技術(shù)角度來(lái)說(shuō),這樣處理的另一個(gè)優(yōu)勢(shì)是降低了維護(hù)詞匯表的成本,將維護(hù)詞向量作為替代,管理者可以不斷地收集語(yǔ)料來(lái)促使詞向量表征更準(zhǔn)確、更復(fù)雜的語(yǔ)義,同時(shí),根據(jù)反思性寫(xiě)作工具的使用記錄不斷提升分類器的準(zhǔn)確度。
五、結(jié)論與展望
隨著學(xué)習(xí)分析研究的深入,對(duì)學(xué)習(xí)成果的研究得益于最新的學(xué)習(xí)分析方法。本文利用學(xué)習(xí)分析技術(shù)中的NLP技術(shù)對(duì)一萬(wàn)多個(gè)學(xué)習(xí)成果進(jìn)行了分析,研究發(fā)現(xiàn):在利用機(jī)器學(xué)習(xí)進(jìn)行識(shí)別學(xué)習(xí)成果認(rèn)知類型的任務(wù)中,動(dòng)詞依然是關(guān)鍵的特征;除了代表操作型行為的動(dòng)詞之外,學(xué)習(xí)成果中的學(xué)習(xí)內(nèi)容也蘊(yùn)含著認(rèn)知層面的信息,當(dāng)作為名詞加入之后,計(jì)算機(jī)能夠更準(zhǔn)確地識(shí)別出學(xué)習(xí)成果的認(rèn)知類型;學(xué)習(xí)成果制定者在為不同背景的學(xué)習(xí)者制定學(xué)習(xí)成果時(shí)存在差異,這種差異不僅僅存在于認(rèn)知類型的分布上,還表現(xiàn)為在同一類型的認(rèn)知領(lǐng)域中,不同學(xué)段或不同學(xué)科的學(xué)習(xí)者被寄予不一樣的期望。這說(shuō)明單一的布魯姆動(dòng)詞詞匯表難以覆蓋多樣的教學(xué)情境,如果選擇繼續(xù)以提供詞匯表的方式輔助專家制定學(xué)習(xí)成果,我們需要考慮詞匯表的階段性和領(lǐng)域性。學(xué)習(xí)成果制定的要求之一是提供明確的信息,但本研究發(fā)現(xiàn),大量單個(gè)學(xué)習(xí)成果會(huì)同時(shí)混合多個(gè)認(rèn)知領(lǐng)域信息,這種現(xiàn)象在“分析”認(rèn)知類型中最顯著,屬于高階認(rèn)知的“分析”類型會(huì)融入低階認(rèn)知的信息。這些額外的信息雖然增加了辨析認(rèn)知類型的不確定性,但也提供了更多的上下文信息。本文提出,利用基于NLP的反思性寫(xiě)作可以輔助專家制定符合其認(rèn)知期望的學(xué)習(xí)成果,這為專家在認(rèn)知類型的明確性和信息充分性之間提供了一個(gè)可選擇的空間,因?yàn)椤皩W(xué)習(xí)成果的制定并不存在絕對(duì)正確的方法[2,4]”。此外,本文在數(shù)據(jù)分析中使用了詞向量技術(shù),這種技術(shù)簡(jiǎn)潔且高效,尤其提供了詞匯的語(yǔ)義信息,從而幫助我們?cè)趯W(xué)習(xí)分析研究中迅速建立具有語(yǔ)義特征的文本數(shù)據(jù)。
本文存在一定的局限性:首先,本文的數(shù)據(jù)存在偏差,由于專家們對(duì)布魯姆分類學(xué)的認(rèn)識(shí)程度和觀點(diǎn)不一,部分學(xué)習(xí)成果的認(rèn)知類型存在被錯(cuò)誤標(biāo)記的情況,在未來(lái)的研究中有待進(jìn)一步更正;其次,本文只分析了名詞在認(rèn)知分類中的作用,缺乏對(duì)其他詞性的考慮(如形容詞和副詞),這些語(yǔ)料可能也蘊(yùn)藏著認(rèn)知層面的信息;最后,本文的分類器的表現(xiàn)還較弱,在實(shí)際應(yīng)用中,我們需要進(jìn)一步對(duì)其進(jìn)行特征篩選和模型調(diào)諧,或使用其他機(jī)器學(xué)習(xí)模型以提高其分類能力。在未來(lái)的研究中,我們將實(shí)現(xiàn)學(xué)習(xí)成果的反思性寫(xiě)作工具,并對(duì)其實(shí)際效果進(jìn)行測(cè)試,此外,我們還將收集中文學(xué)習(xí)成果進(jìn)行相關(guān)的研究。
[3] VAN ROSSUM E J,SCHENK S M. The relationship between learning conception,study strategy and learning outcome[J]. British journal of educational psychology,1984,54(1):73-83.
[4] STANNY C J. Reevaluating bloom's taxonomy:what measurable verbs can and cannot say about student learning[J]. Education sciences,2016,6(4):1-12.
[5] KRATHWOHL D R. A revision of bloom's taxonomy:an overview[J]. Theory into practice,2002,41(4):212-218.
[6] CLARK,D.R. Bloom's taxonomy of learning domains[EB/OL].(2015-01-12)[2018-09-28]. http://www.nwlink.com/~donclark/hrd/bloom.html.
[7] TOUTANOVA K,KLEIN D,MANNING C D,et al. Feature-rich part-of-speech tagging with a cyclic dependency network [EB/OL]. (2003-06-01)[2018-09-28]. https://aclanthology.info/pdf/N/N03/N03-1033.pdf
[8] MIKOLOV T,CORRADO G,CHEN K,et al. Efficient estimation of word representations in vector space [EB/OL].(2013-09-07) [2018-09-28]. https://arxiv.org/pdf/1301.3781.pdf.
[9] KUSNER M J,SUN Y,KOLKIN N I,et al. From word embeddings to document distances [EB/OL].[2018-01-28]. http://proceedings.mlr.press/v37/kusnerb15.pdf.
[10] PAUL R. Critical thinking:how to prepare students for a rapidly changing world[M]. Santa Rosa:foundation for critical thinking, 1995:519-526.
[11] ADELMAN C. To Imagine a Verb:the language and syntax of learning outcomes statements[EB/OL].(2015-02-10)[2018-9-28]. http://learningoutcomesassessment.org/documents/OccasionalPaper24.pdf.
[12] AGARWAL P K. Retrieval practice & Bloom's taxonomy:do students need fact knowledge before higher order learning?[EB/OL]. (2018-03-07)[2018-09-28]. http://pdf.poojaagarwal.com/Agarwal_2018_JEdPsych.pdf
[13] GIBSON A,KITTO K,BRUZA P. Towards the discovery of learner metacognition from reflective writing[J]. Journal of learning analytics,2016,3(2):22-36.
[14] GOSLING D,MOON J. How to use learning outcomes and assessment criteria[M]. London:SEEC,2002.