張 莉
(中國石油大學(xué)勝利學(xué)院 信息與計算科學(xué)系,山東 東營257000)
學(xué)生在校成績是學(xué)校教學(xué)質(zhì)量和學(xué)生掌握知識程度的直觀體現(xiàn)。隨著社會的發(fā)展,外界因素對在校生成績在廣度和深度上影響越來越大。對影響因素分析,使用數(shù)據(jù)挖掘技術(shù)挖掘出影響成績的關(guān)鍵因素,將結(jié)果反饋到教學(xué)中,通過改善教學(xué)方法等手段提高教學(xué)質(zhì)量。
數(shù)據(jù)挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[1]。
數(shù)據(jù)挖掘方法是由人工智能、機器學(xué)習(xí)的方法發(fā)展而來,結(jié)合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學(xué)方法以及科學(xué)計算可視化技術(shù)等,以數(shù)據(jù)庫為研究對象,形成了數(shù)據(jù)挖掘的方法和技術(shù)。數(shù)據(jù)挖掘的方法和技術(shù)主要包括:統(tǒng)計分析方法、關(guān)聯(lián)規(guī)則方法、決策樹方法、神經(jīng)網(wǎng)絡(luò)法、粗糙集理論方法、遺傳算法、可視化技術(shù)等[2]。
聚類分析是數(shù)據(jù)挖掘中的一種分析方法,根據(jù)樣本對象關(guān)聯(lián)的標(biāo)準(zhǔn)相似性自動分為多類,同一類中的樣本對象有較高的相似度,類間的樣本對象相異。聚類的方法主要有:以劃分為基礎(chǔ)的K-means聚類算法,以層次為基礎(chǔ)的聚類算法,以密度為基礎(chǔ)的方法等[3],筆者將采用K-means聚類算法進行成績定性評價。
K-means算法即已知數(shù)據(jù)庫包含n個數(shù)據(jù)樣本,給定聚類個數(shù)k,對每個數(shù)據(jù)樣本計算其應(yīng)該屬于的類,得到滿足方差最小標(biāo)準(zhǔn)的k個聚類。
K-means算法是無監(jiān)督算法,一般使用性能評價函數(shù)對數(shù)據(jù)樣本的聚類結(jié)果進行有效性評價。若采用的評價函數(shù)不能準(zhǔn)確反映聚類質(zhì)量,則會在很大程度上影響算法的有效性和準(zhǔn)確性。針對樣本數(shù)據(jù)結(jié)構(gòu)特點,重新定義一種新的評價性能函數(shù)應(yīng)用到K-means算法中,對參數(shù)k進行優(yōu)化。
2.1.1 確定初始聚類中心
對K-means算法中的最初分類個數(shù)k設(shè)定為2,從樣本對象集合中抽取k個樣本點,計算出樣本數(shù)據(jù)的原始分類點。對樣本中心進行再計算直到樣本中心不再變化,然后對聚類結(jié)果進行評價計算。若計算結(jié)果增加則說明得到了更優(yōu)的聚類結(jié)果,讓k自增執(zhí)行循環(huán),直到二者成反比,即隨著k的增加得到負增加的計算結(jié)果,結(jié)束所有運算??梢酝ㄟ^計算數(shù)據(jù)分布相異值,防止類中出現(xiàn)樣本過多或過少的不平衡現(xiàn)象。數(shù)據(jù)分布相異值的計算公式為
式中,Ni、Nj為第i與第j類中含樣本數(shù)據(jù)的個數(shù);參數(shù)q為類的數(shù)量。
2.1.2 計算不同類間差異值
聚類的結(jié)果就是對數(shù)據(jù)集合進行劃分,劃分后保證不同類間的數(shù)據(jù)差異度高,而同一類中的數(shù)據(jù)相異度低,即具有較高的相象度??赏ㄟ^類間差異度和類內(nèi)差異度的計算對分類結(jié)果進行評價:
式中,xij為屬于j類的樣本點xi;ci和cj為類的中心值。
2.1.3 確定評定函數(shù)
通過計算評定值
可讓聚類的結(jié)果值達到最優(yōu),評定值與結(jié)果成反比,評定值越小聚類結(jié)果值越優(yōu)。
本文中隨機選取了某學(xué)校某教學(xué)班100名同學(xué)的相關(guān)學(xué)籍信息及某學(xué)期各門課的平均成績作為研究數(shù)據(jù)庫,對學(xué)生信息成績表的屬性字段“性別”、“上課出勤次數(shù)”、“四六級通過”、“生源地”進行無量綱化處理,優(yōu)化得到指標(biāo)值μi:
式中,νmax和νmin為特征值μi的最大值和最小值;指標(biāo)值μi位于0和1之間。
處理得到的學(xué)生信息成績表如表1所示,屬性間具有橫向可比性。對表中數(shù)據(jù)應(yīng)用聚類算法聚類后得到優(yōu)、良、中、差四種聚類結(jié)果,如圖1所示。
表1 學(xué)生信息成績表
圖1 聚類結(jié)果示意圖
ID3算法是決策樹算法中最常使用的一種,用信息增益作為屬性選擇度量。計算所有屬性的信息增益值,選擇值最高的屬性作為樹的節(jié)點進行分裂。
設(shè)有一數(shù)據(jù)集合,集合中有S個數(shù)據(jù)對象,將它們劃分成C個類,每一個類Ci中有Si個數(shù)據(jù)對象,每一類中樣本數(shù)據(jù)的期望信息值為
式中,參數(shù)Pi為任意樣本屬于類Ci的概率。
設(shè)屬性U具有m個不同值。根據(jù)不同的屬性值Ui將數(shù)據(jù)集合S劃分成m個數(shù)據(jù)子集。假定某一屬性Ui為一分裂屬性,數(shù)據(jù)子集{S1,S2,…,Sm}就是從某一屬性根節(jié)點生成的新葉節(jié)點。根據(jù)屬性U劃分得到的某一數(shù)據(jù)子集的熵或期望信息值:
數(shù)據(jù)集合S通過屬性U劃分后由下式計算信息增益值:
由ID3算法進行相關(guān)運算,得到不同屬性的信息增益值:
Gain(上課出勤次數(shù))=I(S1,S2,S3,S4)-E(上課出勤次數(shù))=1·972048-1·479893=0·492155
Gain(四六級通過情況)=I(S1,S2,S3,S4)-E(四六級通過情況)=1·972048-1·836696=0·315352
Gain(生源地)=I(S1,S2,S3,S4)-E(生源地)=1·972048-1·85877=0·113278
Gain(性別)=I(S1,S2,S3,S4)-E(性別)=1·972048-1·921978=0·05007
根據(jù)計算結(jié)果,選擇信息增益值最大的屬性“上課出勤次數(shù)”作為決策樹的根節(jié)點,其余屬性根據(jù)其相應(yīng)的增益值依此遞增最終形成一棵完整決策樹(圖2)。
圖2 決策樹分析模型
根據(jù)此決策樹進行分析,可見學(xué)生成績跟上課出勤情況關(guān)系最大,四六級通過情況、性別、生源地等雖然也會對成績有影響,但影響不大。針對決策樹的結(jié)果可以對屬性進行處理,去除對成績影響非常小或根本無關(guān)的屬性,挑選關(guān)聯(lián)大的屬性繼續(xù)分析,并可根據(jù)各屬性對成績的影響力進行排序,得到有價值的信息應(yīng)用于教學(xué)。
應(yīng)用數(shù)據(jù)挖掘技術(shù)對學(xué)生成績進行分析,首先通過聚類算法對學(xué)生成績數(shù)據(jù)進行分類,并對分類后的結(jié)果使用ID3算法建立決策樹深入分析,得到影響成績的關(guān)鍵因素是上課出勤,其他因素雖然對成績有影響,但影響得很小。通過聚類和決策樹算法對影響學(xué)生成績的因素進行分析,可將藏匿于海量數(shù)據(jù)中的有用信息挖掘出來,促進學(xué)校教學(xué)工作的進一步提升。
[1]范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2007:26.
[2]陳文偉.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2003:32.
[3]袁方,周志勇,宋鑫.初始聚類中心優(yōu)化的K-means算法[J].計算機工程,2007,33(3):65-66.