姜大志,黃瑞香
(汕頭大學(xué)工學(xué)院計(jì)算機(jī)系,廣東 汕頭 515063)
高等教育的專業(yè)人才培養(yǎng)目標(biāo)[1-2]是一個(gè)專業(yè)對其所要培養(yǎng)人才的總體要求與期待,它既是國家及學(xué)校人才培養(yǎng)總目標(biāo)的具體體現(xiàn),又是專業(yè)培養(yǎng)方案和課程設(shè)置的基本依據(jù).因此,專業(yè)人才培養(yǎng)目標(biāo)在高等教育教學(xué)過程中占有重要地位.培養(yǎng)目標(biāo)作為人才培養(yǎng)的綱領(lǐng)和根本,它的構(gòu)建與測評[3]自然成為高等教育中一個(gè)重中之重的環(huán)節(jié).但是,人才培養(yǎng)目標(biāo)實(shí)現(xiàn)過程涉及到眾多問題,下面列舉其中的一些問題:
專業(yè)人才培養(yǎng)過程中,是否落實(shí)培養(yǎng)目標(biāo),落實(shí)了哪些培養(yǎng)目標(biāo)?
針對具體專業(yè)課程,教授了哪些知識,培養(yǎng)了哪些能力,對能力的要求等級是什么?
學(xué)生作為教育的受體,他們認(rèn)為人才培養(yǎng)目標(biāo)或者課程培養(yǎng)目標(biāo)實(shí)現(xiàn)了嗎?
專業(yè)人才培養(yǎng)過程中,能力培養(yǎng)方面的能級發(fā)展有沒有體現(xiàn)出由低到高自然規(guī)律?
僅依上述問題,可以發(fā)現(xiàn)這些問題都是圍繞著目標(biāo)達(dá)成而展開的思考,而培養(yǎng)目標(biāo)達(dá)成的判斷則是當(dāng)前專業(yè)評估與認(rèn)證的重點(diǎn).對人才培養(yǎng)目標(biāo)達(dá)成的考量[4-5],目前主要采用的方法是“成績分析法”和“評分表分析法”[6].成績分析法依據(jù)培養(yǎng)目標(biāo),形成畢業(yè)要求,逐條分解指標(biāo)點(diǎn)到各門核心課程,以保證學(xué)生畢業(yè)時(shí)所學(xué)的知識達(dá)到畢業(yè)要求,從而保證達(dá)到本專業(yè)的培養(yǎng)目標(biāo).而“評分表分析法”評價(jià)學(xué)生特定能力表現(xiàn)的簡單有效方法,但是它的適應(yīng)性有限,通常對主觀性較強(qiáng)的任務(wù)進(jìn)行評價(jià).
我們認(rèn)為“成績分析法”和“評分表分析法”在人才培養(yǎng)目標(biāo)測評上具有一定的作用.但是他們都是對目標(biāo)達(dá)成的結(jié)果進(jìn)行測量[7],缺乏對目標(biāo)達(dá)成的形成過程進(jìn)行有效探測.作為教育管理者和實(shí)施者,需要在更高的層次匯聚培養(yǎng)目標(biāo)、以立體的角度觀視培養(yǎng)目標(biāo)的實(shí)現(xiàn)過程、以漸進(jìn)入微的方式測量培養(yǎng)目標(biāo)的達(dá)成,以此來有效實(shí)現(xiàn)教育的內(nèi)省與持續(xù)改進(jìn).
基于此目的,本文提出一套科學(xué)、規(guī)范、操作性強(qiáng)的方法框架實(shí)現(xiàn)專業(yè)培養(yǎng)目標(biāo)的可觀可測.一般而言,培養(yǎng)目標(biāo)的構(gòu)建與實(shí)施,均是通過文本信息來傳播的,而文本挖掘這個(gè)工具正好可以對含有特定功能的文本進(jìn)行深入而科學(xué)的分析[8].從主觀本文中探究特定規(guī)律和特征,找出與培養(yǎng)目標(biāo)指標(biāo)相關(guān)的文本特征,通過文本分析可以為培養(yǎng)目標(biāo)跟蹤提供一智能化方法.我們不認(rèn)為本文提出的方法可以取代“成績分析法”或“評分表分析法”,而是對培養(yǎng)目標(biāo)評價(jià)的一個(gè)重要補(bǔ)充,借助現(xiàn)代信息化技術(shù),可更嚴(yán)謹(jǐn)、客觀地審視專業(yè)人才的培養(yǎng).
我們以汕頭大學(xué)計(jì)算機(jī)系的課程為例來闡釋基于文本挖掘的課程培養(yǎng)目標(biāo)的智能化觀測方法.其方法框架如圖1所示:
圖1 基于文本挖掘的課程培養(yǎng)目標(biāo)的觀測方法框架
各個(gè)部分的工作具體描述如下.
1)準(zhǔn)備階段
在本文挖掘的準(zhǔn)備階段,主要的工作是建立各類字典.本研究中主要建立了三種字典,分別是專業(yè)知識體系字典、CDIO[9-10]能力字典和Bloom[11]能力等級字典.CDIO大綱覆蓋了一個(gè)現(xiàn)代工程師應(yīng)該具有的能力、素質(zhì)和態(tài)度,主要包括技術(shù)知識和推理(主要包括由具體專業(yè)確定的相關(guān)科學(xué)知識、核心工程基礎(chǔ)知識和高級工程基礎(chǔ)知識,即專業(yè)知識體系字典中所包含的關(guān)于本專業(yè)的各類知識點(diǎn));個(gè)人能力、職業(yè)能力和態(tài)度;人際交往能力;在企業(yè)和社會環(huán)境下構(gòu)思、設(shè)計(jì)、實(shí)現(xiàn)和運(yùn)作系統(tǒng).
Bloom認(rèn)知領(lǐng)域分類法把教學(xué)目標(biāo)分類六個(gè)等級,從低級到高級分別為:認(rèn)知、理解、應(yīng)用、分析、綜合、評判.我們建立了Bloom能力等級字典,用來實(shí)現(xiàn)對能力進(jìn)行有效的分級.
2)運(yùn)行階段
運(yùn)行階段的工作主要包括兩個(gè)部分,分別為文本預(yù)處理和文本分析.文本預(yù)處理的目的主要是使詞語轉(zhuǎn)換成程序能夠分析識別的語言.本文的預(yù)處理的過程包括文本數(shù)據(jù)的清洗[12],過濾干擾性數(shù)據(jù)信息,得到對文本分析有意義的句子[13],然后對過濾之后的文本進(jìn)行分詞處理[14],主要運(yùn)用動態(tài)規(guī)劃的方法,找到最大概率的詞語切分組合,這一部分的目的是為了能夠更好的提取有用信息來表示當(dāng)前文本,為后續(xù)的文本表示和文本挖掘提供基本的元信息.之后根據(jù)分詞的結(jié)果和分析的需要選擇不同的文本的表達(dá)方法.根據(jù)后續(xù)的實(shí)驗(yàn)結(jié)果顯示,本文使用的是實(shí)用效果更好的one hot representation模式的(BOW模型(bag of words))得到詞向量.
將文本轉(zhuǎn)化成詞向量之后,輸入的值是離散的高維的向量矩陣,為了使文本分析計(jì)算的效率更高和結(jié)果更加準(zhǔn)確,還需要對生成的詞向量進(jìn)行特征選擇和特征提取.根據(jù)特征項(xiàng)權(quán)重的計(jì)算,結(jié)合信息增益的方法提取最能表示文本信息的向量.后續(xù)相似度的計(jì)算就是使用得到的文本向量來計(jì)算教學(xué)大綱、學(xué)生報(bào)告等教學(xué)資料與之前構(gòu)建的字典之間的相似度,根據(jù)相似度提取出教學(xué)大綱的知識點(diǎn)和能力范圍分布,學(xué)生報(bào)告的能力等級等.
本文選擇了基于向量空間模型和基于層次結(jié)構(gòu)的樹的結(jié)構(gòu)來對文本進(jìn)行相似度的計(jì)算[15].因?yàn)閱为?dú)使用基于向量空間的相似度計(jì)算,并沒有考慮到文本之間的語義相似度,所以引入了語義結(jié)構(gòu),即本體結(jié)構(gòu),根據(jù)本體結(jié)構(gòu)來構(gòu)造文本特征項(xiàng)的本體集合,綜合本體集合來計(jì)算相似度.最后再借助潛在語義分析算法把對文本主題不相關(guān)的特征項(xiàng)剔除,降低詞向量的維度,來加快程序的運(yùn)行速率.
本文的相似度計(jì)算主要用到三個(gè)方法,分別為:TF-IDF,LSI和doc2vec[16-18].前兩種方法不用訓(xùn)練詞向量,最后一種方法用到了深度學(xué)習(xí)[19-20]的思想去訓(xùn)練詞向量,使得詞向量為低維實(shí)數(shù)向量[21],根據(jù)訓(xùn)練的結(jié)果來計(jì)算向量之間的相似度.但是這種深度學(xué)習(xí)的方法需要大量的語料庫來訓(xùn)練文本的詞向量模型,而少量的文本進(jìn)行訓(xùn)練的話,得到的詞向量并不能很好的表示原來的文本信息.根據(jù)實(shí)驗(yàn)結(jié)果顯示,在當(dāng)前文本數(shù)據(jù)量下,前兩種方法的結(jié)合要比doc2vec的結(jié)果要好得多.前兩種方法TF-IDF,LSI用的是簡單的one hot representation文本表示方法,通過TF-IDF計(jì)算文本的詞頻矩陣和逆文檔頻率來表示文本的特征,然后計(jì)算文本特征的權(quán)重得到實(shí)數(shù)向量矩陣.為了擴(kuò)展語義的豐富性,加入了大量的詞匯本體集合[22-23],對龐大的詞向量,最后使用LSI、SVD(奇異值分解)方法進(jìn)行降維和語義的轉(zhuǎn)換[24],使得結(jié)果更加準(zhǔn)確.
3)輸出階段
輸出階段主要的組成部分有:教學(xué)大綱知識視圖、教學(xué)大綱能力視圖、學(xué)生報(bào)告能力視圖和專業(yè)能力發(fā)展視圖.教學(xué)大綱知識視圖是針對某一門課程的教學(xué)大綱,結(jié)合專業(yè)知識體系字典,從大綱中挖掘出該課程所預(yù)設(shè)的教學(xué)知識點(diǎn).教學(xué)大綱能力視圖則是大綱培養(yǎng)目標(biāo)中所包含的各類能力.學(xué)生報(bào)告能力視圖則是從學(xué)生的視角,來分析學(xué)生在其報(bào)告中對能力培養(yǎng)的反思.專業(yè)能力發(fā)展視圖是從能力形成性的角度出發(fā),刻畫專業(yè)課程對能力要求的發(fā)展變化曲線.其主要結(jié)果將在下一節(jié)詳細(xì)介紹.
首先,本文根據(jù)汕頭大學(xué)工學(xué)院計(jì)算機(jī)系開設(shè)的《智能系統(tǒng)》課程的教學(xué)大綱,我們用上述提到的方法框架提取了課程的知識點(diǎn).由于我們提出的方法是具有通用性、系統(tǒng)性的方法,因此提取出來的數(shù)據(jù)相對來說略顯雜亂,需要后續(xù)完善程序來進(jìn)一步清洗數(shù)據(jù).
通過去重,我們提取了《智能系統(tǒng)》包含的12個(gè)知識點(diǎn),表1中的第二列“類別”,是我們?yōu)榱朔奖惚硎銎鹨娛謩犹砑拥?,目前我們的方法框架還沒有處理對知識點(diǎn)進(jìn)行歸類的能力.通過手動歸類后發(fā)現(xiàn),《智能系統(tǒng)》課程設(shè)計(jì)四個(gè)大的模塊,分別為搜索、知識表和知識推理、智能算法和數(shù)據(jù)科學(xué).
表1 教學(xué)大綱知識視圖
根據(jù)各門課的教學(xué)大綱和CDIO大綱提取該門課程所涉及的能力,若大綱句子所描述的能力與CDIO中的某個(gè)能力的相似度大于某一個(gè)閾值時(shí),則提取出該能力,并根據(jù)該能力的分組標(biāo)記(在構(gòu)建能力字典時(shí)已經(jīng)標(biāo)定)輸出其對應(yīng)的具體能力.針對《智能系統(tǒng)》的教學(xué)大綱,加入本體詞集合后的提取結(jié)果如表2所示.
表2 教學(xué)大綱能力視圖
通過上表發(fā)現(xiàn),本文的方法提取了《智能系統(tǒng)》課程教學(xué)大綱中的與CDIO能力對應(yīng)的9條能力,換言之,該課程擬在9個(gè)方面對學(xué)生進(jìn)行能力培養(yǎng),所涉及的一級能力3條,二級能力7條,三級能力有9條.
可以根據(jù)Bloom分類法對教學(xué)大綱中所涉及能力表述進(jìn)行能力分級.具體做法是,首先遍歷大綱中的所有句子,然后逐句地與bloom分類法的能力等級詞語計(jì)算相似度,提取出大綱描述的能力,并根據(jù)其所在的分組的標(biāo)記輸出其能力等級.能力等級的提取結(jié)果更加精確,也能更好的區(qū)分出哪些能力強(qiáng)調(diào)的強(qiáng)度更大.表3是加入本體集合前后能力等級的比較.
表3 教學(xué)大綱能力等級視圖
上表中,看似在方法框架中未加本體集合和加入本體集合,兩種做法的結(jié)果相差不大,但是在我們進(jìn)行廣泛計(jì)算與分析時(shí)發(fā)現(xiàn),缺乏本體集合的方法,會使得課程大綱的能力等級偏高.因?yàn)锽loom分類法是一個(gè)基于語言表述的模糊分類法,教師在制定教學(xué)大綱時(shí),很難嚴(yán)格地按照Bloom的用詞來規(guī)范能力表述,此外,有些非謂語詞也會干擾能力的等級劃分.加入本體集合,可以有效弱化由于用于的模糊性和歧義性造成的能力等級標(biāo)定不準(zhǔn)確.比喻說上表中的“撰寫論文陳述計(jì)算機(jī)誕生歷史背景、進(jìn)程及計(jì)算機(jī)軟硬件和網(wǎng)絡(luò)技術(shù)發(fā)展歷程”,該句中,與Bloom分類法用詞相關(guān)的只有“發(fā)展”,因此未加本體集合的方法把該句定為非常高的五級:綜合,這顯然是不恰當(dāng)?shù)?,但是該句的核心謂語詞為陳述,在Bloom分類法中,并沒有陳述二字,在Bloom的Level1認(rèn)知中,有“Recite(詳述)”,如果把陳述劃定為詳述類,把該句定為Level1,又明顯拉低了能力等級.通過加入本體集合,我們對這句話綜合評定,定為Level2理解.
由于學(xué)生課程報(bào)告的文檔內(nèi)容比較多,漢語語言的語義復(fù)雜性比較高,并且報(bào)告所使用的語言描述會比較多樣化,不規(guī)范等因素,就會使得在學(xué)生的課程報(bào)告對CDIO能力的提取嚴(yán)重缺乏準(zhǔn)確性,因此本文引入本體的概念,擴(kuò)大了能力的本體集合,加入了知網(wǎng)上的同義詞、近義詞等,減小了漢語語義的復(fù)雜性對句子、段落和文本相似度的影響.表4是對學(xué)生《智能系統(tǒng)》課程報(bào)告進(jìn)行分析,評判其相關(guān)用詞與CDIO能力的相似度,通過設(shè)定相似度的閾值(0.28),提取出學(xué)生報(bào)告比較有可能包含的能力如表4所示.
表4 學(xué)生報(bào)告能力視圖
通過預(yù)設(shè)的閾值,我們在學(xué)生的報(bào)告中獲取了7條能力,與大綱中提取的能力相比少了2條,而且能力點(diǎn)有一些不同,比喻說“解決方法和建議”,在教師教學(xué)大綱中沒有,而在學(xué)生報(bào)告中有涉及.對于個(gè)人能力和態(tài)度,學(xué)生認(rèn)為在“求知欲和終身學(xué)習(xí)”方面有培養(yǎng),而教學(xué)大綱中是期望在“創(chuàng)造性思維”方面有培養(yǎng),但是這并不表明學(xué)生課程報(bào)告中沒有涉及到“創(chuàng)造性思維”的能力,而是相似度太低(0.0892).究其原因,我們認(rèn)為有以下幾種可能性:
1)教師可能有花精力培養(yǎng)某一能力,但是學(xué)生沒有認(rèn)真書寫報(bào)告,應(yīng)付交差,造成報(bào)告千篇一律,沒有針對性和差異性,造成在報(bào)告中難以發(fā)現(xiàn)該能力的蹤跡;
2)課程大綱雖然預(yù)設(shè)了該能力目標(biāo),但是卻沒有設(shè)計(jì)相關(guān)的教學(xué)環(huán)節(jié)對該能力培養(yǎng),自然也就很難體現(xiàn)到學(xué)生的報(bào)告中;
3)該能力的體現(xiàn)與課程報(bào)告不相關(guān).
但是無論如何,該結(jié)果視圖對能力的刻畫還是有不少的參考價(jià)值,雖然不能全面囊括能力,但是對于一些重要的能力,均能提取出來,尤其是在二級能力上準(zhǔn)確性相對較高,對教師的教學(xué)總結(jié)與反思起到了很好的借鑒作用.
我們選擇計(jì)算機(jī)專業(yè)三門核心基礎(chǔ)課程來檢驗(yàn)專業(yè)能力發(fā)展的變化,選擇的課程分別為“程序設(shè)計(jì)基礎(chǔ)”(第一學(xué)年第一學(xué)期專業(yè)基礎(chǔ)課程)、“計(jì)算機(jī)組織與體系”(第二學(xué)年第一學(xué)期專業(yè)必修課程)和“操作系統(tǒng)原理”(第三學(xué)年第一學(xué)期專業(yè)必修課程).對其進(jìn)行能力提取并進(jìn)行能力等級劃分,構(gòu)建在不同能力的數(shù)量的變化曲線,如圖2所示.
圖2 專業(yè)能力的發(fā)展視圖
上圖中第一排的是各門課程未加入本體集合的能力等級分布,第二排是加入本體集合的能力等級分布.圖中第一列是第一學(xué)年課程的能力等級分布圖,第一學(xué)年的等級應(yīng)該分布在三等級往下較多,加入本體集合后分布趨勢更明顯,把原來誤判為第五等級的糾正為第三等級及以下.同理,圖中第二列是第二學(xué)年課程的能力等級分布圖,第二學(xué)年能力等級側(cè)重在三級到五級,三級的稍多一些,有四五級的能力,但不是特別多,符合趨勢分布.圖中第五列是最后一學(xué)年課程的能力等級分布圖,能力等級應(yīng)該更側(cè)重于第三等級及以上,而本文使用了本體集合后,分布效果更好.圖二和圖四比較也能看出能力等級分布有了改變,對能力的要求由低等級往高等級發(fā)展.因此橫向縱向比較均可以看出隨著學(xué)習(xí)年度的增加,能力等級分布的等級也逐漸升高,而這種變化趨勢在本文加入本體集合后更加明顯.
本文的基本思想是通過相似度的計(jì)算,提取出文本中與標(biāo)準(zhǔn)相似的知識點(diǎn)或者能力.對課程大綱知識點(diǎn)的提取主要是根據(jù)知識體系的標(biāo)準(zhǔn)進(jìn)行提取,對大綱能力范圍的提取主要是根據(jù)CDIO能力大綱提取,對大綱能力等級的提取主要是根據(jù)Bloom等級分類法的標(biāo)準(zhǔn)進(jìn)行提取.在處理過程中加入本體集合對相似度進(jìn)行計(jì)算,相似度計(jì)算是為了降低本體集合的巨大性造成的復(fù)雜性,我們利用LSI技術(shù)進(jìn)行降維,轉(zhuǎn)換成語義上的相似度,增加了結(jié)果的準(zhǔn)確性.最后我們形成了四類視圖供教學(xué)管理者和實(shí)施者進(jìn)行參考,分別是教學(xué)大綱知識視圖、教學(xué)大綱能力視圖、學(xué)生報(bào)告能力視圖和專業(yè)能力發(fā)展視圖.通過該智能化分析,初步實(shí)現(xiàn)課程培養(yǎng)目標(biāo)的可觀與可測性,其結(jié)果不僅可以給教師提供有價(jià)值信息和反饋,亦可為教育評估、認(rèn)證提供必要的參考性指標(biāo).
當(dāng)然,本文提出的模型還有待進(jìn)一步完善提升.在后續(xù)工作方面,我們一方面需要建立語料庫技術(shù),通過語料庫技術(shù),提升能力和能級的處理與分析能力,使得能力分析變得更準(zhǔn)確.此外,我們的能力提取和能力等級分析還沒有真正關(guān)聯(lián)起來,后續(xù)可以對能力語句進(jìn)行標(biāo)注分類,形成能力類別庫,采用模型訓(xùn)練的方法對這能力范圍和能力等級建立關(guān)聯(lián),使得本文的方法不僅能夠提取教學(xué)大綱中的能力,還能夠分析出每一條能力所涉及的能力等級信息.