王路芳, 郭金玲
(1.山西財經(jīng)大學實驗教學中心, 山西 太原 030006; 2.山西大學信息工程系, 山西 太原 030031)
目前,我國每年參加高考的人數(shù)越來越多.據(jù)教育部統(tǒng)計,2009年全國普通高校招生報名人數(shù)約比2008年增加了60萬名,高考信息系統(tǒng)也愈加龐大,其包括了各種子系統(tǒng)和各類數(shù)據(jù)庫,如成績管理、招生管理等,積累了大量的數(shù)據(jù).在教育考試領域,隨著計算機的普及與發(fā)展,越來越多的考試信息使用了計算機進行處理和存放,大大減少了手工處理的工序,減少了存儲的空間,提高了存儲的安全和便捷性.但是管理人員只能通過簡單的統(tǒng)計或排序等功能獲得表面的信息,由于缺乏信息意識和技術,隱藏在這些大量數(shù)據(jù)中的信息一直沒有得到應用.如何對這些數(shù)據(jù)進行重新利用,將現(xiàn)有的管理數(shù)據(jù)轉(zhuǎn)化為可供使用的知識,提高高中教育管理水平和辦學質(zhì)量,是很多教育部門正在考慮的問題.
粗糙集理論是針對不確定性問題提出的[1,2],它的特點是不需要預先給定某些特征或?qū)傩缘臄?shù)量描述,如統(tǒng)計學中的概率分布,模糊集理論中的隸屬函數(shù)或隸屬度等,而是直接從給定問題的描述集合出發(fā),通過不可分辨關系和不可分辨類確定給定問題的近似域,從而找出該問題的內(nèi)在規(guī)律.其基本思想[3-5]是將數(shù)據(jù)庫中的屬性分為條件屬性和決策屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性的不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集的上下近似關系生成判定規(guī)則.
采用粗糙集理論作為知識發(fā)現(xiàn)的工具具有很多優(yōu)點[6].首先,粗糙集理論提供了一套數(shù)學方法來從數(shù)學上嚴格的處理數(shù)據(jù)分類問題,尤其是當數(shù)據(jù)具有噪音、不完全性或不精確性時;其次,粗糙集僅僅分析隱藏在數(shù)據(jù)中的事實,并沒有校正數(shù)據(jù)中所表現(xiàn)的不一致性,而是一般將所生成的規(guī)則分為確定與可能的規(guī)則;第三,粗糙集理論包括了知識的一種形式模型,這種模型將知識定義為不可區(qū)分關系的一個集族,就使得知識具有了一種清晰的定義的數(shù)學意義,并且可以使用數(shù)學方法來分析處理;第四,粗糙集運算可以進行并行運算,適合大規(guī)模數(shù)據(jù)庫知識發(fā)現(xiàn)的需要;最后,粗糙集不需要關于數(shù)據(jù)的任何附加信息.
針對以上高考信息系統(tǒng)數(shù)據(jù)管理過程中的不足,本文將粗糙集理論應用到該系統(tǒng)的數(shù)據(jù)管理當中[7],找出影響考生成績潛在的因素[8,9],以加強高中教學科學化、規(guī)范化管理,提高教學質(zhì)量和效果[10].
表1 修正數(shù)據(jù)表
利用粗糙集理論中的屬性重要性分析方法對山西省2009年高考某高中班學生的英語成績進行分析.實驗數(shù)據(jù)集來自高考信息系統(tǒng)中的成績數(shù)據(jù)庫,具體見圖1.對這張成績表進行數(shù)據(jù)預處理,即采用離散歸一化方法把每個大題得分分成3段(排序后從高到低按30%(優(yōu)良),40%(中等),30%(中等以下)分別用1,2,3表示,得表1.
設C表示條件屬性集合,由u,v,a,r,t構(gòu)成,它們分別表示聽力、閱讀、選擇、詞匯和作文各條件屬性;D表示決策屬性,即總成績.我們將決策屬性值取5個值,把全體同學分成成5大類,第一類為優(yōu)秀的同學(125分以上),第二類為良好的同學(112~124),第三類為中等的同學(97~111),第四類為及格的同學(90~96),第五類為不及格同學(90分以下),分別取值為1,2,3,4和5,這樣C={u,v,a,r,t},D={1,2,3,4,5}.本實驗的目的是分析出條件屬性中哪些屬性最大程度地改變了決策屬性和分類,以此來確定哪些條件屬性最重要.為了找出某些屬性的重要性,我們的方法是從表中去掉一個屬性,再來考察沒有該屬性后決策分類會發(fā)生怎樣變化.若去掉該屬性,導致分類變化大,則說明該屬性的強度大,反之說明該屬性的強度小,即重要性小.為方便起見,括號中的數(shù)字代表同學的考號,按照各屬性進行分類,按D即{1,2,3,4,5}分類如下:記POSc(D)為D的C正域,(D)cγ=POSc(D)/|U|,U為論域.
圖1 高考成績數(shù)據(jù)庫中某高中班學生的英語成績
(1)總分類.U/D={{1},{6,12,18,14},{2,3,5,7,8,10,11,15,20,21}, {4,9,16,17,19,23,28},{13,22,24,26,27,31}}
共5大類即優(yōu)﹑良﹑中﹑及格和不及格.
按C即C={u,v,a,r,t}分類如下:
U/C={{1,18},{2,9,13},{3,4,21},{5,7,10,20},{6,11,19},{8},{12},{14},{15},{27,16},{17,25,29},{22},{23},{24},{26},{28},{30},{31}}
POSc(D)={{5,7,10,20},{8},{12},{14},{15},{22},{23},{24},{26},{28},{30},{31}}
γc(D)=12/31
(2)按C-{u}即{v,a,r,t}分類如下:U/C-{u}={{1,18},{2,5,7,20,22,9,10,13},{3,4,6,11,19,21},{8},{12},{14},{15},{16,17,25,27, 2,9},{23},{24},{26},{28},{30},{31}}
POSc-{u}(D)={{8},{12},{14},{15},{23},{24},{26},{28},{30},{31}}
γc-{u}(D)=10/31,屬性u∈C關于D的重要性為:σCD(u)=γc(D)-γc-{u}(D) =12/31-10/31=2/31
(3)按C-{v}即{u,a,r,t}分類如下:U/C-{v}={{1,18},{2,9,13},{3,4,21},{5,7,10,12,20}, {6,11,19},{8},{14},{15},{16,27},{17,25,28,29},{22},{23},{24},{26},{30},{31}
POSc-{v}(D)={{8},{14},{15}{22},{23},{24},{26},{30},{31}}
γc-{v}(D)=9/31,屬性v∈C關于D的重要性為:
σCD(v)=γc(D)-γc-{v}(D)=12/31-9/31=3/31
(4)按C-{a}即{u,v,r,t}分類如下:
U/C-{a}={{1,14,18},{2,9,13,17,25,29},{3,4,21},{5,7,10,20},{6,11,19},{8},{12},{15},{16,22,27},{23},{24},{26},{28},{30},{31}}
POSc-{a}(D)={{5,7,10,20},{8},{12},{15},{23},{24},{26},{28},{30},{31}}
γc-{a}(D)=10/31,屬性a∈C關于D的重要性為:
σCD(u)=γc(D)-γc-{a}(D)=12/31-10/31=2/31
(5)按C-{r}即{u,v,a,t}分類如下:
U/C-{r}={{1,18},{2,3,4,9,13,21},{5,6,7,10,11,19},{8},{12},{14,15},{16,24,26,27},{17,25,29},{20},{22},{23},{28,30},{31}}
POSc-{r}(D)={{8},{12},{20},{22},{23}{31}}
γc-{r}(D)=6/31,屬性r∈C關于D的重要性為:
σCD(u)=γc(D)-γc-{r}(D)=12/31-6/31=6/31
(6)按C-{t}即{u,v,a,r}分類如下:
U/C-{t}={{1,2,3},{4},{5},{6,7,8},{9},{10},{11},{12},{13},{14,15,16},{17},{18},{19},{20,21,22,23},{24},{25},{26},{27,28,29},{30,31,32},{33,34,35}}
POSc-{t}(D)={{5,7,10,20},{14},{15},{22},{23},{24},{26},{28},{30},{31}}
γc-{t}(D)=10/31,屬性t∈C關于D的重要性為:
σCD(u)=γc(D)-γc-{t}(D)=12/31-10/31=2/31
由此可見,相對而言“詞匯”這一部分最大程度地改變了考試等級的分類.從整體來看,該高中在今后的英語教學中應該對學生提高學習詞匯的要求.
利用粗糙集理論中的屬性重要性分析方法,對學生英語考試成績中的各個部分進行了分析.分析表明,“詞匯”部分的得分高低,對該校學生整體高考成績的影響最大.由于粗糙集理論是在沒有任何先驗假設的情況下對數(shù)據(jù)進行分析,因此所得出的結(jié)論更符合實際情況.當然,我們給出的只是一個學校的例子,其結(jié)論一般情況下也只適合于該校學生,如果將此法用于對其它學校進行考生相關成績的分析,則可能得出其它部分對整體成績影響最重要的因素.利用粗糙集的算法,借助于計算機,可以對于更大量的數(shù)據(jù)(有時稱為海量數(shù)據(jù))進行分析,從而可以進行更為全面和客觀的預測與決策.在高考信息系統(tǒng)中,擁有許多重要的數(shù)據(jù),利用粗糙集理論對這些數(shù)據(jù)進行處理和分析,分析的結(jié)果將會對高中教學提供大量有用的信息,從而促進教學質(zhì)量的提高.
參考文獻
[1] Ming Syan Chen, Jiawei Han, Philip S Yu. Data mining:an overview from a database perspective[J].IEEET Transactions on Knowledge and Data Engineering,1996,8(6):866-883.
[2] 王國胤. Rough集理論與知識獲取[M].西安:西安交通大學出版社,2001:115-131.
[3] 石 紅, 沈 毅,劉志言,等.關于粗糙集理論及應用問題的研究[J].計算機工程,2003,29(3):14-19.
[4] 曾黃麟.粗集理論及其應用(修訂版)[M]. 重慶:重慶大學出版社,1998:120-125,176-189.
[5] Miao Duoqian, Wang Jue.An information-based algorithm for reduction of knowledge[J]. IEEE ICIPS′97,1997:1 155-1 158.
[6] [美]Han J.數(shù)據(jù)挖掘:概念和技術[M]. 北京:高等教育出版社, 2001:319-322.
[7] 李 勇,徐振寧,張維明. Internet 個性化信息服務研究綜述[J]. 計算機工程與應用,2002,38(19):187-189.
[8] 符江東,柏文陽,蔣 明. 基于關鍵字的Web頁面摘要生成技術[J]. 計算機應用研究,2003,20(2) :137-139.
[9] 徐 潔. 基于Java平臺MVC模式的流程企業(yè)分析檢測數(shù)據(jù)管理系統(tǒng)[J]. 計算機工程與應用, 2005, 41(15) : 215-217, 220.
[10] 于曉慧. J2EE架構(gòu)下數(shù)據(jù)庫訪問的性能優(yōu)化研究[J]. 計算機應用研究, 2005, 22(4): 90-92.