馬紅娟,趙秀蘭,孫亞萍,鄭喜英
(1.黃河科技學(xué)院 信息工程學(xué)院,鄭州 450063;2.鄭州城軌交通中等專(zhuān)業(yè)學(xué)校,鄭州 450000)
高速發(fā)展的信息技術(shù)產(chǎn)生了大量的數(shù)據(jù),人們收集這些數(shù)據(jù),在給我們生活提供方便的同時(shí),帶來(lái)一些問(wèn)題。由于收集的數(shù)據(jù)不斷增多,在對(duì)數(shù)據(jù)進(jìn)行挖掘的過(guò)程中對(duì)所隱藏的數(shù)據(jù)知道的方法比較少,使得數(shù)據(jù)囤積量增大,由于數(shù)據(jù)庫(kù)里的量,在以幾何形式不斷增長(zhǎng),要在數(shù)據(jù)庫(kù)中對(duì)信息去偽存真、去粗存精,靠傳統(tǒng)方法是不夠的,要想高效地組織、管理這些數(shù)據(jù)進(jìn)行分析和應(yīng)用,數(shù)據(jù)挖掘是對(duì)計(jì)算機(jī)系統(tǒng)提供更高層次數(shù)據(jù)分析的最有效的方法。數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的核心部分,從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的游泳信息的非平凡過(guò)程,表現(xiàn)形式為:概念、規(guī)則、模式及規(guī)律等。數(shù)據(jù)挖掘融合了統(tǒng)計(jì)學(xué)、模式識(shí)別、數(shù)據(jù)庫(kù)、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、空間數(shù)據(jù)、數(shù)據(jù)可視化、人工智能、信息檢索、高性能計(jì)算等多個(gè)領(lǐng)域的理論和技術(shù),是一門(mén)交叉學(xué)科。
在民辦高校概率論與數(shù)理統(tǒng)計(jì)教學(xué)實(shí)踐中,學(xué)生是主體,存在著教師對(duì)學(xué)生課程管理、成績(jī)管理、教學(xué)儀器管理、學(xué)生管理等各種數(shù)據(jù)系統(tǒng)。在這些數(shù)據(jù)庫(kù)中存儲(chǔ)了大量的數(shù)據(jù),隱藏在這些數(shù)據(jù)背后的信息一直未得到開(kāi)發(fā)應(yīng)用。學(xué)生是民辦高校的核心,學(xué)生的概率統(tǒng)計(jì)學(xué)習(xí)成績(jī)作為一種總結(jié)性評(píng)價(jià),能反映出他們的概率統(tǒng)計(jì)知識(shí)技能的獲得情況和相應(yīng)概率統(tǒng)計(jì)知識(shí)掌握情況,概率統(tǒng)計(jì)學(xué)習(xí)成績(jī)是一個(gè)加權(quán)的綜合數(shù)值,不僅包括概率統(tǒng)計(jì)書(shū)面的考試成績(jī),而且還包括一些人文的考核項(xiàng)目,比如出勤率、課題表現(xiàn)、各種活動(dòng)等。學(xué)生概率統(tǒng)計(jì)成績(jī)不僅對(duì)學(xué)生的概率統(tǒng)計(jì)學(xué)習(xí)效果和教師的概率統(tǒng)計(jì)教學(xué)效果具有檢驗(yàn)作用,而且還能反饋教學(xué)活動(dòng),反作用于學(xué)生的學(xué)和教師的教。一般對(duì)學(xué)生成績(jī)的評(píng)定分為兩種:一種是定性評(píng)價(jià),一種是定量評(píng)價(jià)。定性評(píng)價(jià)一般分為優(yōu)、良、中、差等四個(gè)級(jí)別,定量評(píng)價(jià)是概率統(tǒng)計(jì)課程考了多少分。僅僅從單獨(dú)一門(mén)概率統(tǒng)計(jì)課程進(jìn)行分析,很少關(guān)注到學(xué)生取得這些概率統(tǒng)計(jì)成績(jī)背后的影響因素和原因。數(shù)據(jù)庫(kù)是從定性分析的角度分析學(xué)生,缺點(diǎn)是結(jié)果不精確;數(shù)據(jù)倉(cāng)庫(kù)是從定量的角度分析,能精確得到各個(gè)方面的數(shù)據(jù)。使用數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)倉(cāng)庫(kù)對(duì)學(xué)生概率統(tǒng)計(jì)成績(jī)進(jìn)行深層的分析,挖掘出隱藏在數(shù)據(jù)背后的模式或規(guī)律,根據(jù)數(shù)據(jù)挖掘結(jié)果提出一些指導(dǎo)性建議,更好地指導(dǎo)概率統(tǒng)計(jì)教師的教學(xué),提高概率統(tǒng)計(jì)教學(xué)效率,有效地提高學(xué)生概率統(tǒng)計(jì)成績(jī)。
數(shù)據(jù)挖掘技術(shù)主要有遺傳算法、決策樹(shù)法、集合論法、神經(jīng)網(wǎng)絡(luò)法等。決策樹(shù)法分為CLS算法、ID3算法、IBLE算法等。ID3算法是由Quinlan首先提出的,該算法以信息論為基礎(chǔ),以信息增益度和信息熵為衡量標(biāo)準(zhǔn),從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的歸納分類(lèi)。
已知有C個(gè)結(jié)果的訓(xùn)練集S:
Entropy(S)=∑-p(I)log2p(I) (1)
這里:p(I)是屬于類(lèi)I的S的比例。∑是對(duì)C求和。log2以2為底的自然對(duì)數(shù)。
如果所有S屬于相同的類(lèi),熵為0(數(shù)據(jù)分類(lèi)完畢)。熵的范圍是0(分類(lèi)完畢)到1(完全隨機(jī))。
注意:S不但是屬性而且也是整個(gè)樣本集(這一點(diǎn)剛開(kāi)始可能有點(diǎn)混淆)。
Entropy(S,A)=∑(|Sv|/|S|)*Entropy(Sv) (2)
這里:∑是屬性A的所有可能的值v;Sv=屬性A有v值的S的子集;|Sv|=Sv中元素個(gè)數(shù);|S|=S中元素個(gè)數(shù)。
Gain(S,A)是屬性A在集S上的信息增益,定義為:
Gain(S,A)=Entropy(S)-Entropy(S,A) (3)
Gain(S,A)是指已知屬性A的值后導(dǎo)致熵的減少。Gain(S,A)越大,說(shuō)明選擇檢測(cè)屬性A對(duì)分類(lèi)提供的信息越多。
通過(guò)對(duì)概率統(tǒng)計(jì)課程學(xué)生成績(jī)?cè)u(píng)定的典型案例,說(shuō)明數(shù)據(jù)挖掘的步驟和決策樹(shù)方法在概率統(tǒng)計(jì)教學(xué)實(shí)踐中的應(yīng)用。
概率論與數(shù)理統(tǒng)計(jì)課程每學(xué)年考核一次,考核分為三個(gè)部分:一是概率統(tǒng)計(jì)課內(nèi)教學(xué);二是概率統(tǒng)計(jì)課后作業(yè);三是每學(xué)年期末概率統(tǒng)計(jì)考核。整個(gè)概率統(tǒng)計(jì)課程主要依據(jù)在規(guī)定時(shí)間內(nèi)完成的概率統(tǒng)計(jì)課后作業(yè)的質(zhì)量和期末概率統(tǒng)計(jì)考核成績(jī)來(lái)決定,概率統(tǒng)計(jì)實(shí)驗(yàn)課作為較次要的考核內(nèi)容。上述概率統(tǒng)計(jì)教學(xué)內(nèi)容之間的關(guān)系,可以建立一個(gè)數(shù)據(jù)模型:學(xué)生狀況數(shù)據(jù)庫(kù),包含學(xué)號(hào)、性別、作業(yè)、實(shí)驗(yàn)課、期末考核、平均成績(jī)、名次等項(xiàng)目。
選擇兩個(gè)不同的班,每班30人,兩班60人,對(duì)學(xué)生狀況數(shù)據(jù)庫(kù)進(jìn)行如下的量化、轉(zhuǎn)換、清理、集成等處理工作,得到相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)(如表1所示),方便下一步數(shù)據(jù)挖掘的工作。
表1 學(xué)生狀況數(shù)據(jù)庫(kù)
學(xué)號(hào)字段定義為1—60;性別字段定義為:男或女;作業(yè)加分定義為:0表示作業(yè)錯(cuò)誤,0.5表示作業(yè)正確一部分,1表示作業(yè)全部正確;實(shí)驗(yàn)加分定義為:0表示基本不上概率統(tǒng)計(jì)實(shí)驗(yàn)課,0.5表示適當(dāng)上實(shí)驗(yàn)課,1表示按期上實(shí)驗(yàn)課;期末加分定義為:0表示基本不參加概率統(tǒng)計(jì)期末考核,0.5表示參加期末考核取得了較好的成績(jī);平均分定義為:學(xué)習(xí)成績(jī)總體情況,字段值為0-100(%);名次定義為1-60,且記錄按名次從高到低排列。
應(yīng)用ID3算法建立相應(yīng)的決策樹(shù),確定正例個(gè)數(shù)p和反例個(gè)數(shù)n。將名次排在前20名成績(jī)好的學(xué)生定義為正例,后40名成績(jī)不好的學(xué)生定義為反例,即p=20,n=40。
∴gain(作業(yè)加分)=I(p,n)-E(作加)=0.881-0.616=0.265同理,gain(實(shí)驗(yàn)加分)=I(p,n)-E(課加)=0.881-0.801=0.08 gain(期末加分)=I(p,n)-E(測(cè)加)=0.881-0.879=0.002通過(guò)計(jì)算可知,作業(yè)加分具有最大的信息增益,故將作業(yè)加分選為根節(jié)點(diǎn)并向下擴(kuò)展,最終生成決策樹(shù)(如圖1所示)。
圖1 成績(jī)分析決策樹(shù)
結(jié)合上頁(yè)圖1決策樹(shù),經(jīng)過(guò)分析可以得到以下結(jié)論:
(1)學(xué)生上完概率統(tǒng)計(jì)課后,如按期并且獨(dú)立保質(zhì)保量按時(shí)完成概率統(tǒng)計(jì)作業(yè),成績(jī)均較好。
(2)學(xué)生概率統(tǒng)計(jì)作業(yè)完成的較好的,也就是在概率統(tǒng)計(jì)課堂上思考能力較強(qiáng),善于思考和分析,可以看出他們?cè)诟怕式y(tǒng)計(jì)的基礎(chǔ)上較為重視歸納和總結(jié),均沒(méi)有過(guò)重的課內(nèi)壓力,其中概率統(tǒng)計(jì)課內(nèi)安排適度的學(xué)生學(xué)習(xí)成績(jī)也好。
(3)對(duì)于剛通過(guò)概率統(tǒng)計(jì)測(cè)評(píng)的學(xué)生,情況較為復(fù)雜,具體情況具體分析,一方面學(xué)生的概率統(tǒng)計(jì)作業(yè)、課內(nèi)實(shí)驗(yàn)、期末考核安排合理時(shí)學(xué)習(xí)成績(jī)也好,另一方面,如果學(xué)生經(jīng)常不參加概率統(tǒng)計(jì)課程講授或不參加概率統(tǒng)計(jì)期末考核時(shí),也會(huì)影響到學(xué)習(xí)成績(jī),造成學(xué)習(xí)成績(jī)不好。
根據(jù)P221表1和圖1,對(duì)學(xué)生情況數(shù)據(jù)庫(kù)所建決策樹(shù)進(jìn)行分析,可以初步判別:概率統(tǒng)計(jì)作業(yè)、概率統(tǒng)計(jì)實(shí)驗(yàn)課、概率統(tǒng)計(jì)期末考核是相輔相成的,相互影響和制約,一般來(lái)說(shuō),學(xué)習(xí)成績(jī)較好的學(xué)生,也是概率統(tǒng)計(jì)實(shí)驗(yàn)課和期末考試積極參加者。
這樣,教概率統(tǒng)計(jì)的老師可以針對(duì)不同的學(xué)生,對(duì)學(xué)生進(jìn)行事先概率統(tǒng)計(jì)輔導(dǎo),使教學(xué)內(nèi)容在時(shí)間上得到延伸,學(xué)生能夠提前預(yù)習(xí)和掌握概率統(tǒng)計(jì)教學(xué)內(nèi)容,可以減輕學(xué)生在上概率統(tǒng)計(jì)課的壓力,既緊張又輕松完成預(yù)期概率統(tǒng)計(jì)課程。同時(shí),也要看到,如果僅重視上概率統(tǒng)計(jì)課和參加期末考試而不重視概率統(tǒng)計(jì)作業(yè)同樣也會(huì)影響到自身的學(xué)習(xí)成績(jī),對(duì)于概率統(tǒng)計(jì)這門(mén)課程,學(xué)習(xí)成績(jī)好的學(xué)生,他們的上進(jìn)心、責(zé)任心也相對(duì)較強(qiáng),能夠很好地處理上述三者之間的關(guān)系;反之,對(duì)自己約束能力較差,經(jīng)常不上概率統(tǒng)計(jì)課,或不認(rèn)真完成概率統(tǒng)計(jì)作業(yè)的學(xué)生,學(xué)習(xí)成績(jī)自然就較差。
隨著越來(lái)越多的業(yè)務(wù)需求被不斷開(kāi)拓,除上述在高等民辦院校概率統(tǒng)計(jì)課程教學(xué)實(shí)踐中的應(yīng)用外,數(shù)據(jù)挖掘技術(shù)已成功地應(yīng)用于醫(yī)學(xué)、商業(yè)、科學(xué)研究等領(lǐng)域,有很多成功的應(yīng)用案例。多種理論與方法的合理整合式大多數(shù)研究者采用的有效技術(shù),下面是數(shù)據(jù)挖掘技術(shù)發(fā)展趨勢(shì):(1)數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化描述:標(biāo)準(zhǔn)的數(shù)據(jù)挖掘語(yǔ)言有助于數(shù)據(jù)挖掘的系統(tǒng)化開(kāi)發(fā)。改進(jìn)多個(gè)數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作,促進(jìn)在企業(yè)和社會(huì)中的應(yīng)用。
(2)尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法:可視化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中不可少的技術(shù)。通過(guò)人機(jī)界面可以在發(fā)現(xiàn)知識(shí)的過(guò)程中進(jìn)行很好的人機(jī)交互。數(shù)據(jù)的可視化推動(dòng)人們主動(dòng)進(jìn)行知識(shí)發(fā)現(xiàn)的作用。
(3)與特定數(shù)據(jù)存儲(chǔ)類(lèi)型的適應(yīng)問(wèn)題:根據(jù)不同的數(shù)據(jù)存儲(chǔ)類(lèi)型的特點(diǎn),進(jìn)行針對(duì)性的研究是必須面對(duì)的問(wèn)題。
(4)網(wǎng)絡(luò)與分布式環(huán)境下的KDD問(wèn)題:隨著網(wǎng)絡(luò)不斷發(fā)展,網(wǎng)絡(luò)資源日漸豐富,需要獨(dú)立的技術(shù)人員各自獨(dú)立地處理分離數(shù)據(jù)庫(kù)的工作??紤]適應(yīng)分布式與網(wǎng)絡(luò)環(huán)境的關(guān)系,技術(shù)及系統(tǒng)將是數(shù)據(jù)挖掘中一個(gè)最為重要和繁榮的子領(lǐng)域。
(5)應(yīng)用的探索:隨著數(shù)據(jù)挖掘的日益普通,應(yīng)用范圍日益擴(kuò)大,如電信業(yè)、零售業(yè)、生物醫(yī)學(xué)等領(lǐng)域。由于數(shù)據(jù)挖掘在處理特定應(yīng)用問(wèn)題時(shí)存在局限性,目前的研究趨勢(shì)是開(kāi)發(fā)針對(duì)于特定應(yīng)用的數(shù)據(jù)挖掘系統(tǒng)。
(6)數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)系統(tǒng)以及Web數(shù)據(jù)庫(kù)系統(tǒng)的集成:數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)已經(jīng)成為信息處理系統(tǒng)的主流。數(shù)據(jù)挖掘系統(tǒng)的理想體系結(jié)構(gòu)是與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的緊密結(jié)合。
數(shù)據(jù)挖掘技術(shù)作為一種新興的數(shù)據(jù)分析技術(shù),經(jīng)過(guò)了十幾年的充實(shí)和發(fā)展,到目前為止已經(jīng)成功地運(yùn)用在各個(gè)不同的領(lǐng)域。伴隨著科學(xué)技術(shù)的不斷發(fā)展和信息量的海量增加,比如依靠傳統(tǒng)的方法要在龐大的數(shù)據(jù)庫(kù)中找到具有科學(xué)決策的信息是非常困難的,數(shù)據(jù)挖掘技術(shù)就是從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)和線索,借助于數(shù)據(jù)挖掘本身的技術(shù)去挖掘蘊(yùn)藏在數(shù)據(jù)庫(kù)中的客觀規(guī)律,從而為科學(xué)合理的決策提供有力的支持。將數(shù)據(jù)挖掘技術(shù)引入到概率統(tǒng)計(jì)教學(xué)中,有助于在日常概率統(tǒng)計(jì)教學(xué)管理中不斷獲得有規(guī)律的信息,為民辦高校管理層提供決策依據(jù),從而不斷提高概率統(tǒng)計(jì)教學(xué)質(zhì)量。本文通過(guò)對(duì)概率統(tǒng)計(jì)課程學(xué)生成績(jī)的評(píng)定的案例分析,闡述了數(shù)據(jù)挖掘技術(shù)在分析影響學(xué)生學(xué)習(xí)成績(jī)因素中的重要意義,目的是推廣數(shù)據(jù)挖掘技術(shù)在民辦高校教學(xué)實(shí)踐中的應(yīng)用,使數(shù)據(jù)挖掘技術(shù)在民辦高校得到進(jìn)一步發(fā)展。
[1]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(jì):4版[M].北京:高等教育出版社,2010.
[2]譚旭,王麗珍,卓明.利用決策樹(shù)挖掘分類(lèi)規(guī)則的算法研究[J].云南大學(xué)學(xué)報(bào),2000,(6):415-419.
[3]路延.數(shù)據(jù)挖掘技術(shù)在高等學(xué)校教學(xué)中的應(yīng)用研究[J].科技教育,2013,(13):201.
[4]朱迪茨.實(shí)用數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2004:77-79.