梁寶華 岳俊輝
(1 巢湖學(xué)院,安徽 巢湖 238000)(2 合肥學(xué)院,安徽 合肥 230601)
隨著信息時代的發(fā)展,多數(shù)高校已采用網(wǎng)上教務(wù)管理系統(tǒng)管理日常教務(wù)工作。在教務(wù)工作中,會產(chǎn)生大量的教學(xué)數(shù)據(jù)。而這海量的信息中,隱藏著很多有益于培養(yǎng)高素質(zhì)人才的知識,可以輔助高校制定合理的培養(yǎng)方案、探討靈活多變的教學(xué)方法、多樣實用的教材改革等,更好地培養(yǎng)綜合能力強、專業(yè)素質(zhì)高的應(yīng)用型人才。如何挖掘并利用這些有價值的信息,是目前多數(shù)高校教務(wù)管理的新課題。
數(shù)據(jù)挖掘(Data Mining)是從海量的、模糊的、有干擾的、無規(guī)律的數(shù)據(jù)中提取隱藏一些用戶未知的、有潛在價值的信息和知識的過程[1-2]。隨著信息技術(shù)快速發(fā)展,各領(lǐng)域的行業(yè)數(shù)據(jù)量呈指數(shù)級增長,市場的發(fā)展、商業(yè)機密等重要信息都匿身其中,誰占有先機,誰就占有市場。所以,當(dāng)務(wù)之急是如何從海量數(shù)據(jù)中快速發(fā)現(xiàn)商業(yè)行情,數(shù)據(jù)挖掘就是順應(yīng)這種形式下產(chǎn)生的一種數(shù)據(jù)處理技術(shù)。目前,數(shù)據(jù)挖掘技術(shù)已廣泛應(yīng)用于購物籃工程、銀行業(yè)、保險業(yè)、各類輔助決策系統(tǒng)等[3-5]。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的研究熱點之一,最早由 Agrawal、Imielinski和 Swami等人于 1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題[6]。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)已成功應(yīng)用于購物籃工程,經(jīng)典的案例是啤酒與尿不濕的故事。關(guān)聯(lián)規(guī)則可以輔助管理人員規(guī)劃貨架排放,采取何種促銷方式。若能夠?qū)㈥P(guān)聯(lián)規(guī)則挖掘技術(shù)應(yīng)用于教學(xué)管理,勢必會發(fā)現(xiàn)一些有利于提高教學(xué)管理效率的方式和手段。
所謂關(guān)聯(lián)規(guī)則,是指兩個或兩個以上變量的取值之間表現(xiàn)的規(guī)律性[7]。設(shè)關(guān)聯(lián)規(guī)則挖掘?qū)ο蠹洖镈,D中所包含的實例數(shù)為。每個交易的實例記為T,T是由若干個項item組成的集合,所有 T的 item 組成項集 I,則T?I。為了區(qū)分,每個事務(wù)賦予唯一的標(biāo)識TID。若 X?I,且由稱集合X為k項集。若X與交易實例T中某項相符,則T包含X。關(guān)聯(lián)規(guī)則是一形如X?Y的蘊涵式,其中X?I,Y?I,且X∩Y=φ,一般稱A為前項,B為后項。
關(guān)聯(lián)規(guī)則發(fā)現(xiàn)過程中,通常會伴隨以下現(xiàn)象:1)任何兩項均可能有相關(guān)性,若這些相關(guān)的項均構(gòu)成關(guān)聯(lián)規(guī)則,則導(dǎo)致規(guī)則災(zāi)難,實際有用的規(guī)則只有少數(shù)幾條;2)大量冗余規(guī)則的存在,如 X?Y,Z?Y,且 Z被包含在 X中,表明規(guī)則Z?Y相對規(guī)則X?Y是多余的;3)矛盾規(guī)則同時出現(xiàn),如X?Y,Z?Y且Z?,表明規(guī)則Z?Y與X?Y是相互矛盾的。
在數(shù)據(jù)分析時,由于存在上述不足,對整個決策過程有害無益。為了避免冗余規(guī)則的出現(xiàn),Apriori算法在挖掘時設(shè)置了支持度和置信度閾值,但不能有效處理矛盾規(guī)則。
關(guān)聯(lián)規(guī)則度量的幾個參數(shù):
支持度(Support):規(guī)則 X?Y 的 support表示項集X與Y同時出現(xiàn)的的實例數(shù)占總樣本數(shù)的比例,記 Support(X∪Y)。
置信度(Confidence):在X出現(xiàn)的實例中,Y也出現(xiàn)的實例所占的比例,記Confidence(X?Y),即Y相對 X 的條件概率 Support(X∪Y)/Support(X)。
只要設(shè)置適當(dāng)?shù)淖钚≈С侄群妥钚≈眯哦?,就可快速篩選出用戶感興趣的規(guī)則。
為了有效地獲得強關(guān)聯(lián)規(guī)則,Agrawal等人于1994年首先提出經(jīng)典的Apriori算法。該算法首先是利用support參數(shù)尋找頻繁1項集,再在頻繁1項集基礎(chǔ)上尋找頻繁2項集,依此類推,直至找不到頻繁項集;在找到所有頻繁項基礎(chǔ)上,利用置信度參數(shù)產(chǎn)生強關(guān)聯(lián)規(guī)則。
該算法是利用廣度優(yōu)先逐層迭代搜索的方法,先找出所有頻繁項集。運用Apriori算法挖掘時,會產(chǎn)生大量的頻繁項候選集,算法不能有效剪枝。另外,重復(fù)掃描數(shù)據(jù)庫全部記錄,也是算法存在不足的表現(xiàn),增加系統(tǒng)I/O開銷,降低算法的效率,具體改進(jìn)算法可參考相關(guān)文獻(xiàn)。
Apriori算法只有支持度和置信度這兩個參數(shù)還不夠,有些矛盾規(guī)則無法剔除。在實際挖掘過程中,還有一些相互抑制出現(xiàn)的因素存在,這些規(guī)則被稱為負(fù)關(guān)聯(lián)規(guī)則,但傳統(tǒng)的關(guān)聯(lián)規(guī)則算法無法挖掘出負(fù)關(guān)聯(lián)規(guī)則。所謂負(fù)關(guān)聯(lián)規(guī)則,即X不發(fā)生導(dǎo)致Y發(fā)生的規(guī)則,可表示為﹁X?Y。為此,還引用另一參數(shù),對比影響度[8]cont_int:①當(dāng) corrX,Y?1,sup port(X)?sup port(Y),cont_int②當(dāng) corrX,Y?1,sup port (X)?sup port(Y)時③當(dāng) corrX,Y≥1,sup port (X)?sup port (Y) 時,cont_int=1-④當(dāng) corrX,Y≥1,sup port(X)?sup port(Y)時其中 corrX,Y為 X,Y 的相關(guān)性, 即當(dāng)一條關(guān)聯(lián)規(guī)則的對比影響度corrX,Y大于0時為正相關(guān),當(dāng)corrX,Y小于0時為負(fù)相關(guān),且值越接近1則正相關(guān)性越強,越接近-1負(fù)相關(guān)性越強,越接近0相關(guān)性越弱。
隨著當(dāng)代經(jīng)濟的蓬勃發(fā)展,就業(yè)壓力的加劇,學(xué)生多數(shù)選擇應(yīng)用性強的課程,導(dǎo)致很多課程很少人選修,甚至不選。本文以英美文學(xué)學(xué)習(xí)為例,為加強國際合作,人們已習(xí)慣用英語作為國際化的溝通工具。但為了追求實用性,學(xué)生多數(shù)選擇商務(wù)、外貿(mào)、旅游等應(yīng)用型課程英語,導(dǎo)致英美文學(xué)課程越來越邊緣化,學(xué)生學(xué)習(xí)興趣也越發(fā)淡薄。為了激發(fā)學(xué)生學(xué)習(xí)英美文學(xué)課程的興趣,文章建立關(guān)聯(lián)規(guī)則挖掘模型,試圖找到一些能夠激發(fā)英美文學(xué)課程學(xué)習(xí)動力的相關(guān)因素。
關(guān)聯(lián)規(guī)則挖掘模型通常分四步進(jìn)行:數(shù)據(jù)收集、數(shù)據(jù)挖掘、規(guī)則解釋、實踐應(yīng)用。在實際工作中,這四步往往循環(huán)進(jìn)行。
4.1.1 原始數(shù)據(jù)收集
原始數(shù)據(jù)的收集渠道關(guān)系到數(shù)據(jù)的客觀性、有效性。由于涉及到英美文學(xué)學(xué)習(xí)興趣的因素,關(guān)系到的人員主要有教師和學(xué)生,他們也是數(shù)據(jù)分析模型的基礎(chǔ)。在設(shè)計調(diào)查問卷時,他們也自然成為主導(dǎo)。問卷的主要問題通過文獻(xiàn)搜索、學(xué)生訪談、教師專訪方法完成,在收集到相關(guān)信息后,進(jìn)行數(shù)據(jù)分析并設(shè)計調(diào)查問卷、發(fā)布問卷,然后通過web端或QQ收集已作答的調(diào)查問卷,形成原始數(shù)據(jù)。
4.1.2 數(shù)據(jù)清理并挖掘
由于被調(diào)查對象在進(jìn)行問卷答題時,可能存在部分信息的不確定性及數(shù)據(jù)的錯錄或漏錄現(xiàn)象,會產(chǎn)生一些不合理的數(shù)據(jù),這對后期的挖掘效果產(chǎn)生影響,所以要進(jìn)行數(shù)據(jù)清理、去噪。清理工作完成后,依據(jù)算法對數(shù)據(jù)格式的要求,進(jìn)行必要的數(shù)據(jù)轉(zhuǎn)換。
原始數(shù)據(jù)可能存在以下不足,要用相應(yīng)技術(shù)處理,具體如下:
A、數(shù)據(jù)缺失:學(xué)生填表或錄入員在錄入數(shù)據(jù)時,可能對部分選項遺漏,可以適當(dāng)填充缺失數(shù)據(jù)。一般用均值代替,或用回歸技術(shù)進(jìn)行處理。B、噪聲數(shù)據(jù):有效范圍外的數(shù)據(jù)、重復(fù)數(shù)據(jù)等,可借助相關(guān)數(shù)據(jù)分析工具檢測。C、數(shù)據(jù)轉(zhuǎn)換:不同算法對數(shù)據(jù)的類型、格式要求不同,要做相應(yīng)處理。對于數(shù)值類型的字段,是連續(xù)值的,可以分成若干段;是離散值的,若類別較多,也可分成若干類型。對于字符型字段,用不同數(shù)值取代,如學(xué)校名稱,每個學(xué)校用一個數(shù)值代碼。
4.1.3 知識解釋
經(jīng)過算法挖掘出的規(guī)則雖然很多,但實際有用的規(guī)則卻不多,還有一些矛盾規(guī)則要過濾,否則會影響判斷結(jié)果。另外,Apriori算法只能得到正相關(guān)規(guī)則,無法獲取起抑制作用的因素。所以,要計算規(guī)則的“對比影響度”,得到正、負(fù)關(guān)聯(lián)規(guī)則,這樣可充分了解一個因素的出現(xiàn)會對另外哪些因素的出現(xiàn)起促進(jìn)作用,哪些起阻礙作用,更有利于輔助決策。
4.1.4 知識應(yīng)用
結(jié)合歷史數(shù)據(jù)的分析結(jié)果及相關(guān)經(jīng)驗,預(yù)測將來行為,指導(dǎo)用戶對未來工作方向的把握。當(dāng)然,挖掘結(jié)果也不完全是正確的,更需要拿到實踐中去檢驗。現(xiàn)實生活中的數(shù)據(jù)是客觀、真實、多變的,要不斷的、反復(fù)的檢驗知識,得到的知識也是不斷變化的,只有適應(yīng)現(xiàn)實生活,才是對我們最有價值的。
關(guān)聯(lián)規(guī)則在教學(xué)管理過程中的應(yīng)用較為廣泛[9-10],本文就英美文學(xué)學(xué)習(xí)興趣進(jìn)行挖掘。
調(diào)查問卷從教材選用、教學(xué)方法、課程興趣、不同題材閱讀體驗、考核方式等五個方面設(shè)計并收集數(shù)據(jù)。問卷設(shè)計重點以“教材選用”為主,涉及到 “文體的類型”“內(nèi)容的包含”“教材的偏好”“教材的編排線索”“教學(xué)方法”“課堂語言選擇”“教學(xué)方式選擇”等多個子問題。數(shù)據(jù)搜集主要來自巢湖學(xué)院、合肥學(xué)院、銅陵學(xué)院、安徽理工大學(xué)、東華大學(xué)、湘潭大學(xué)等高等院校英語專業(yè)的學(xué)生參與,通過QQ或Web技術(shù)獲取問卷結(jié)果,共產(chǎn)生有效問卷341份,將收集來的數(shù)據(jù)導(dǎo)入sql server2010,完成數(shù)據(jù)收集工作。
將所有數(shù)據(jù)數(shù)值化,對缺失數(shù)據(jù)補全,對噪聲數(shù)據(jù)用均值(或以出現(xiàn)頻率高的屬性值代替),將有多選項的問題進(jìn)行組合并編號,對部分問題以滿意度打分的離散化……
處理后的數(shù)據(jù)如表1所示。問卷共有30個子問題,所以數(shù)據(jù)表除了序號列外還有30列,共有341行有效數(shù)據(jù),每行數(shù)據(jù)表示每個被調(diào)查者對問卷作答的答案。
西雙說這還不是什么問題,大不了這三萬塊錢我不要了,可是,假如我們真的又成為夫妻,你說我是應(yīng)該希望她好起來還是希望她好不起來?萬一真的出現(xiàn)奇跡,萬一她的病治好了,死不了了,兩個人一起面對婚后的漫長生活,怎么辦?繼續(xù)疙疙瘩瘩湊和著過?肯定不行。還得離!那么,不希望她好起來?希望她結(jié)了婚就馬上死掉?那還是一個正常人的想法嗎?那我就喪盡天良了。
表1 預(yù)處理后的數(shù)據(jù)表
系統(tǒng)是以最小支持度為0.2,最小置信度為0.80進(jìn)行規(guī)則篩選,共產(chǎn)生203條規(guī)則。這些規(guī)則中,有部分相關(guān)性不強的、有相互包含規(guī)則等。
規(guī)則A:選讀內(nèi)容還應(yīng)包括:非經(jīng)典、非文學(xué)作品 ^課堂語言選擇:用英語教學(xué)為主、漢語為輔 ==>作家最好是:兩者結(jié)合,以英國為主[0.289,0.836,0.199]。
規(guī)則B:選讀內(nèi)容還應(yīng)包括:非經(jīng)典、非文學(xué)作品==>作家最好是:兩者結(jié)合,以英國為主[0.314,0.833,0.395]
很明顯,規(guī)則A的前項包括了規(guī)則B,但規(guī)則A、B的后項相同,規(guī)則B屬于冗余規(guī)則,應(yīng)剔除。
規(guī)則C:認(rèn)為這教材:湊合,興趣不大 ^作家最好是:兩者結(jié)合,以英國為主==>課堂語言選擇:用英語教學(xué)為主、漢語為輔[0.327,0.839,0.041],雖然支持度、置信度均達(dá)要求,但由于對比影響度為0.041接近0,所以相關(guān)性不強,也應(yīng)剔除。
刪除這些相關(guān)性不強、冗余規(guī)則后,剩下61條有用規(guī)則,最后選擇對比影響度接近0.5或-0.5的部分規(guī)則如表2所示:
表2 挖掘部分結(jié)果
規(guī)則2:認(rèn)為選讀文體類型最好是:各種類型應(yīng)兼顧的學(xué)生,同時也不喜歡傳統(tǒng)教學(xué)方式支持度為35.4%,其中,認(rèn)為文體應(yīng)用各種類型兼顧的學(xué)生中82.3%不喜歡傳統(tǒng)教學(xué)方式,對比影響度為-0.562,說明此規(guī)則是強負(fù)相關(guān)規(guī)則。
規(guī)則3:認(rèn)為課堂語言選擇“英語為主,漢語為輔”且 授課重點“文學(xué)的社會、歷史背景”的學(xué)生中有87.5%只讀自己感興趣的部分。英語結(jié)合漢語的方式,能夠用學(xué)生了解的文化背景來體會作者的感受,使文化背景理解更透徹、更準(zhǔn)確。
規(guī)則4:認(rèn)為“新教材以日常生活為話題”且“授課重點:文學(xué)作品選讀”的學(xué)生中有89.1%最喜歡的教學(xué)方式為 “課本+多媒體輔助 (包括電影、視頻、電視劇等)”,對比影響度為0.67,屬于強正相關(guān)規(guī)則,因為日常生活話題有很多借助于多媒體方式,更易表達(dá)作者的情感,且作者有豐富的想象空間。
規(guī)則5:認(rèn)為“新教材以日常生活為話題”的學(xué)生中,有84.2%認(rèn)為“閱讀體驗不感興趣主要因素:離生活太遠(yuǎn),用處不明顯”,說明現(xiàn)在的教材有很多過時的文化,離我們的生活太遠(yuǎn),學(xué)生迫切希望以日常生活話題注入新教材。
規(guī)則6:認(rèn)為“對文學(xué)課程感興趣”且 “不喜歡以期末考試或課程論文的評價方式”同時“對于選讀內(nèi)容只讀自己感興趣”的學(xué)生中有86.1%認(rèn)為評價體系主要問題在于“傳統(tǒng)評價方式忽略了彈性評價方式”。對文學(xué)課程感興趣的學(xué)生,他們認(rèn)為期末考試或課程論文評價方式不能客觀評價一個學(xué)生的學(xué)習(xí)效果及喜歡程度,多數(shù)建議用“課堂討論、與合作貢獻(xiàn)程度”等彈性評價方式。
1)影響學(xué)生學(xué)習(xí)英美文學(xué)課程興趣的因素很多,本文就關(guān)聯(lián)規(guī)則工具挖掘的知識,應(yīng)用于提高英美文學(xué)課程學(xué)習(xí)興趣,提出幾點關(guān)于課程改革建議:教材的作家不要局限于英語國家,還要補充其他作家的作品,廣泛吸取他國文化。
2)課堂語言選擇最好以英語為主,漢語為輔,用母語來說明語境更充分體現(xiàn)作家的感受。
3)授課重點在于文學(xué)的社會、歷史背景介紹,兼顧文學(xué)作品選讀。文學(xué)選讀最好是以日常生活為話題,以詩歌、短篇小說等形式為主,對于篇幅較長的要節(jié)選部分。若遠(yuǎn)離生活,學(xué)生對文學(xué)背景、環(huán)境無法理解,影響學(xué)習(xí)效果。
4)教學(xué)方式以“最喜歡的教學(xué)方式:課本+多媒體輔助(包括電影、視頻、電視劇等)”為主,此方式能擴大學(xué)生的知識面,對場景的理解有身臨其境的感覺,效果更好。
評價方式要靈活彈性,不能僅以期末考試或課程論文方式。多采用課堂討論參與度、回答問題積極度、與同學(xué)合作貢獻(xiàn)度等方式。
關(guān)聯(lián)規(guī)則目前已得到廣泛應(yīng)用,但多數(shù)應(yīng)用未考慮負(fù)關(guān)聯(lián)規(guī)則的影響。本文針對正、負(fù)關(guān)聯(lián)規(guī)則挖掘建立決策模型,從數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)挖掘、知識應(yīng)用等環(huán)節(jié)著手,詳細(xì)描述每個關(guān)鍵點的設(shè)計模型,并將挖掘模型應(yīng)用于對學(xué)生學(xué)習(xí)“英美文學(xué)興趣”相關(guān)因素的挖掘,分別從教學(xué)方法、教材改革、選讀內(nèi)容等方面闡述知識的應(yīng)用。同時,也為類似教務(wù)管理中輔助決策提供了很好的開發(fā)模型。