張晶
摘要:數(shù)據(jù)挖掘是指在海量數(shù)據(jù)中挖掘出潛在有用的信息,并智能找出內(nèi)在關聯(lián)且客觀有效地提取有價值信息。在藝術類院校計算機能力考核成績分析中運用數(shù)據(jù)挖掘技術對考核成績進行數(shù)據(jù)優(yōu)化處理,研究表明,利用該技術可得到計算機能力考核成績的好壞與哪些因素有關,為提升計算機教學質(zhì)量有一定的指導意義。
關鍵詞:數(shù)據(jù)挖掘;計算機能力考核;成績分析;關聯(lián)規(guī)則
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2017)07-0197-03
1前沿
數(shù)據(jù)挖掘是數(shù)據(jù)庫研究、開發(fā)和應用最活躍的技術之一。數(shù)據(jù)挖掘是采用人工智能的方法對數(shù)據(jù)庫中的數(shù)據(jù)進行分析、獲取知識的過程。它們的結合能更好地為企業(yè)或有關部門不同范圍的決策分析提供有力的依據(jù)。
當前,計算機技術和網(wǎng)絡應用在大多數(shù)高校,所有高校都在進行校園數(shù)字化建設。所以,勢必有大量的原始數(shù)據(jù),并且要建立龐大的數(shù)據(jù)庫來存儲數(shù)據(jù),其主要用途是基于簡單的查詢和統(tǒng)計報表,沒有對這些數(shù)據(jù)進行深層次的挖掘和規(guī)律查找,所以這樣的數(shù)據(jù)信息沒有充分利用起來。我們應該思考利用目前最前端最科學的技術來發(fā)現(xiàn)高校各類數(shù)據(jù)中的重要信息,并為管理部門決策提供重要依據(jù)。這就是數(shù)據(jù)挖掘技術。
大學計算機基礎課是藝術院校大一學生的必須課,以中國美術學院的入學新生為例,大約有1200人,龐大的學生數(shù)量如何有效的開展計算機教學值得思考,就需要充分掌握學生的學習興趣、學生的能力所在及對教師的期望等相關參數(shù)進行正確分析。由于大學計算機基礎課程是機考,成績存儲在服務器上,其中每個模塊的成績也獨立保存,如基礎單選題、word操作題、Excel操作題、PPT操作題等。在《大學計算機基礎》課程的成績管理工作中,會有大量的學生成績原始數(shù)據(jù),但對這些數(shù)據(jù)的處理還停留在簡單的數(shù)據(jù)備份、查詢和簡單統(tǒng)計階段,沒有對這些成績數(shù)據(jù)進行深入的分析,找到有利于提高計算機能力的信息,這是對教學信息資源的浪費。所以,將這些成績數(shù)據(jù)分離出來進行數(shù)據(jù)挖掘是可行的。
通過對數(shù)據(jù)挖掘技術的研究,抽取中國美術學院《大學計算機基礎》課程的成績信息數(shù)據(jù),利用決策樹算法生成決策樹分析學生成績優(yōu)良與哪些因素有關,并對決策樹進行修剪,產(chǎn)生分類規(guī)則,完成成績分析決策樹模型的建立。
2數(shù)據(jù)挖掘
2.1基本概念
數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫中提取隱含的、未知的、非平凡的極有潛在應用價值的信息或模式,是數(shù)據(jù)庫中一個很有應用價值的新領域。融合了數(shù)據(jù)庫、人工智能、機器學習、統(tǒng)計學等多個領域的理論和技術。數(shù)據(jù)挖掘要經(jīng)過數(shù)據(jù)采集、預處理、數(shù)據(jù)分析、結果表示等一系列過程。數(shù)據(jù)挖掘發(fā)現(xiàn)的知識通常是以概念、規(guī)則、模式、約束、可視化等形式表現(xiàn)。
2.2數(shù)據(jù)挖掘方法
數(shù)據(jù)挖據(jù)通過預測未來趨勢及行為,做出前瞻性的決策。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有價值的知識。主要有以下三類功能:
(1)關聯(lián)分析
數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。如計算機能力考核成績階段,教師可以根據(jù)學生的學習情況做進一步關聯(lián)性分析,弄清影響學生學習成績的具體因素,從而為教師的教學改革提供科學指導意見。
(2)聚類分析
數(shù)據(jù)庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類技術主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學。如對不同層次學生的考核可采用層次發(fā)進行分析。
(3)概念描述
概念描述就是對某類對象的內(nèi)涵進行描述,并概況這類對象的有關特征。分為特征性描述和區(qū)別性描述。如進行計算機能力考核成績分析時,可以對學生的姓名、性別、年級等基本信息進行詳細描述,讓老師在最短時間內(nèi)了解被考核學生的具體情況。
(4)檢測功能
數(shù)據(jù)挖掘技術得到進一步優(yōu)化,其中偏差檢測是數(shù)據(jù)挖掘功能中的一種新的應用形式。當所有數(shù)據(jù)挖掘結束后,用戶可以通過偏差檢測對挖掘結果加以檢查發(fā)現(xiàn)數(shù)據(jù)結果中存在的不足。如計算機能力考核成績分析遇到不同的考試分數(shù)偏差、學生信息偏差,不及時糾正就會導致考核成績評定結果誤差。
3計算機能力考核成績分析數(shù)據(jù)的采集
基于本文的研究,基本數(shù)據(jù)的獲?。和ㄟ^Excel設計問卷調(diào)查形式,調(diào)查表的學生信息包括:學號、姓名、性別、系別、專業(yè)、考試成績;調(diào)查表的課程信息包括:興趣愛好、課堂講解、課堂作業(yè)、上機時數(shù);調(diào)查表的學生考試相關信息包括:單選題、文字錄入、word操作、Excel操作、PPT操作、網(wǎng)絡應用操作。
通過數(shù)據(jù)收集,進行整體匯總,存于數(shù)據(jù)庫SOL數(shù)據(jù)庫中,以數(shù)據(jù)庫表的形式進行存儲,將學生調(diào)查信息數(shù)據(jù)表與本學期計算機能力考核成績生產(chǎn)學生成績分析表。
4計算機能力考核成績的數(shù)據(jù)處理
學生參加考試過程中遇到的機器故障、電腦系統(tǒng)問題等都會間接造成學生考試成績數(shù)據(jù)重復或不完整性,因此需要對成績數(shù)據(jù)進行預處理。
1)數(shù)據(jù)清洗;處理空缺數(shù)據(jù):忽略或用默認值代替。一是學生缺考,需要將這些記錄刪除;二是某題沒做,默認為0,這些記錄不可刪除。
2)數(shù)據(jù)集成:刪除重復記錄來解決數(shù)據(jù)冗余問題。因機器故障,學生會在不同考場參加多次考試,導致一個學生成績數(shù)據(jù)多條,便要將成績最高保留,刪除其他。因?qū)W生不及格參加補考或重修,也可能造成冗余的成績記錄,也要刪除重復數(shù)據(jù)。
3)數(shù)據(jù)轉(zhuǎn)換
構造屬性;將考核模塊六個方面添加到數(shù)據(jù)集中,用原有的數(shù)據(jù)屬性構造新屬性。具體方法是按照圖的分類將每個考察部分的成績累加得到分數(shù),并計算獲得各個考察的總分。如分為理論基礎類、office操作類、網(wǎng)絡運用類使用三個屬性值:20、70、10
數(shù)據(jù)規(guī)范化:我們需要對數(shù)據(jù)進行標準化處理以便更好進行分析。將各考察方面的得分與該考察的總分相除,總成績與試卷總分相除,得到一個[0,1]范圍數(shù)據(jù)。具體處理為:理論基礎類:實際分數(shù)/20;office操作類:實際分數(shù)/70;網(wǎng)絡運用類:實際分數(shù)/10。例如原始數(shù)據(jù)格式:學號3160200018,理論基礎類15,office操作類65,網(wǎng)絡運用類9;其標準化后的數(shù)據(jù)格式為:學號316020018,理論基礎類0.60,office操作類0.85,網(wǎng)絡運用類1.00。
4)數(shù)據(jù)規(guī)約
數(shù)據(jù)離散化:考慮到關聯(lián)規(guī)則算法對數(shù)據(jù)形式的要求,將學生的總成績離散化。把學生成績分類等級,即優(yōu)秀、良好、合格、不合格四種。并且也將各個題型的成績也進行離散化處理,三個考察方面的成績也離散化三類,即優(yōu)秀、良好、不合格。例如各題型的離散化處理為:標準化0.8-1.0為優(yōu)秀表示A,0.6-0.8為良好表示B,0.6以下為合格表示C。成績離散化處理為:實際成績90-100,等級為優(yōu)秀表示A,80-90等級為良好表示B,60-80等級為合格表示C,60以下等級為不合格表示D。
5計算機能力考核成績分析的關聯(lián)數(shù)據(jù)挖掘
Apriori算法是研究關聯(lián)規(guī)則的最具代表性的方法。主要是兩步:得到所有的頻繁項集;由頻繁項集得到強關聯(lián)規(guī)則。參與關聯(lián)規(guī)則挖掘的學生成績數(shù)據(jù)屬性有10個,根據(jù)文獻,現(xiàn)在以2014、2015和2016年大一新生的《大學計算機基礎》的考試成績?yōu)闃颖?,實現(xiàn)設計的Apriori算法并應用在考試成績上。經(jīng)過多次試驗,在保證既不會產(chǎn)生大量的無用規(guī)則也不會漏掉重要規(guī)則的前提下,最終設定最小支持度minsup=15%,最小置信度minconf=50%,部分關聯(lián)規(guī)則如表1:
學生還有一個屬性是專業(yè)屬性,對專業(yè)屬性和總成績進行關聯(lián)規(guī)則挖掘,設置信度和支持度的設置為minsup=15%和minconf=30%,最終產(chǎn)生的關聯(lián)規(guī)則如表2:
挖掘?qū)I(yè)、各題型成績與學生總成績之間的關聯(lián)規(guī)則,支持度=10%,置信度=60%,如表3所示;
實驗結果分析:
由表1得到的關聯(lián)規(guī)則發(fā)現(xiàn);單選優(yōu),Word優(yōu),學生成績56%可以達到80到90之間,但Excel優(yōu),學生成績58%可以達到90-100之間;如果單選優(yōu),網(wǎng)絡運用優(yōu),54%的學生成績可以達到80-90之間;如果單選差,網(wǎng)絡運用合格,則60%的學生成績可以達到60-80之間。
由表2可知,如果學生專業(yè)是設計藝術類,45%以上學生成績的概率達到優(yōu)秀水平,如果學生專業(yè)是造型類,40%以上的學生成績達到80-90之間。
由表3得到的關聯(lián)規(guī)則發(fā)現(xiàn):專業(yè)是書法的學生在Word操作方面表現(xiàn)良的概率達到了56%,造型類的學生在Word操作方面表現(xiàn)優(yōu)秀的概率達到了70%。
通過對關聯(lián)規(guī)則的解釋分析,得到以下結論:
(1)總體加強學生計算機理論知識,強化實踐操作能力的應用。
(2)對于傳統(tǒng)藝術類和設計藝術類的學生,當學生是設計藝術類,office操作模塊成績表現(xiàn)為優(yōu)秀的要比傳統(tǒng)藝術類高很多,原因是他們平時經(jīng)常接觸電腦,在大一就開設相關設計軟件課程,電腦使用頻率較高;而學生是傳統(tǒng)藝術類,他們的理論知識成績卻優(yōu)于設計類學生,所以要加強對傳統(tǒng)藝術類學生的實踐操作能力,多開設課時數(shù)量,對于設計類學生要加強基礎知識的理解和掌握。
(3)網(wǎng)絡運用這個模塊,學生整體的考核成績都趨于優(yōu)秀,這說明互聯(lián)網(wǎng)時代下學生頻繁接觸網(wǎng)絡,能夠熟練駕馭基本的網(wǎng)絡運用,如電子郵件收發(fā),網(wǎng)頁文件保存等。
(4)PPT操作題,學生整體的考核成績都趨于良好以上,這說明學生對圖文并茂的課件制作在課堂教學的效果不錯,通過查閱學生的獨立的ppt課后作業(yè),也反映出對這個軟件有了較強的掌握。所以總體這個模塊的成績80分以上。
(5)Excel操作題,35%的學生考核成績在合格(60分-80分),學生對于excel中的公式的運用、圖表制作等理解較弱,對數(shù)理邏輯這塊思維訓練較不理想,一方面和他們的專業(yè)有關,因為是藝術生,所以對數(shù)學這塊的知識就欠缺。另一方面要加強對軟件的使用課時,學會舉一反三,靈活應用。
6總結
—般的問卷調(diào)查只是片面的看到一個統(tǒng)計結果,并沒有解釋這份問卷出現(xiàn)的問題,分析的對象只是單個屬性,忽視了不同屬性之間的相關性,其結果往往只是比例分布、平均差或方差等表面情況。希望借助數(shù)據(jù)挖掘技術,尋找“計算機文化基礎”課程考試成績數(shù)據(jù)背后隱含的有價值的信息,提高學生的計算機能力,更好地為教師和教學管理部門提供決策支持,全面提升我院“計算機文化基礎”的教學質(zhì)量。為藝術院校計算機基礎課能高效、有重點、有針對性地開展教學帶來科學的數(shù)據(jù),對計算機課堂教學提供了相關的依據(jù)和指引。