肖知亮
摘 ?要: 針對(duì)教育資源數(shù)據(jù)量龐大,教育信息處理耗時(shí)長(zhǎng)、資源消耗大的問題,文中提出一種基于智能數(shù)據(jù)采集與處理的教育信息融合方法。該方法將不同的教育信息表示為元數(shù)據(jù),構(gòu)建元數(shù)據(jù)關(guān)系映射表,實(shí)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)與映射,并最終使用Protege軟件來自動(dòng)構(gòu)建教育信息的本體庫。通過對(duì)教育信息本體進(jìn)行規(guī)范化表示與操作,使用語義本體對(duì)不同教育信息進(jìn)行融合,得到精簡(jiǎn)后的教育資源本體庫?;跇闼刎惾~斯的數(shù)據(jù)推薦算法的數(shù)據(jù)測(cè)試驗(yàn)證結(jié)果表明,文中所提方法能保證教育信息的準(zhǔn)確性。
關(guān)鍵詞: 教育信息; 智能數(shù)據(jù)采集; 元數(shù)據(jù); 本體庫構(gòu)建; 數(shù)據(jù)融合; 數(shù)據(jù)測(cè)試
中圖分類號(hào): TN919?34; TP273 ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)24?0140?04
Research on educational information fusion method based on intelligent
data collection and processing
XIAO Zhiliang
(Fujian Agriculture and Forestry University, Fuzhou 350002, China)
Abstract: In allusion to the problems such as huge amount of educational resource data, the long time consumption in the educational information processing, and large resource consumption, an educational information fusion method based on intelligent data collection and processing is proposed. In this method, the different education information is represented as metadata, and the relational mapping table of metadata is constructed to realize the association and mapping between data. The ontology base of education information is constructed automatically by using the Protege software. According to the standardized representation and operation of educational information ontology, the semantic ontology is used to fuse different educational information to obtain the simplified educational resource ontology base. The data testing verification results of data recommendation algorithm based on Naive Bayes show that the proposed method can ensure the accuracy of education information.
Keywords: educational information; intelligent data collection; metadata; ontology base construction; data fusion; data testing
0 ?引 ?言
隨著互聯(lián)網(wǎng)技術(shù)與信息技術(shù)的快速發(fā)展,教育領(lǐng)域也逐漸開始結(jié)合網(wǎng)絡(luò)技術(shù)與信息技術(shù)開展教學(xué)和課程管理工作[1]。將教師信息、學(xué)生信息與教學(xué)活動(dòng)信息等以電子表格、文檔與多媒體的形式進(jìn)行發(fā)布和管理,從而有效地解決復(fù)雜且大量的教育信息重復(fù)使用與統(tǒng)一管理的問題[2?4]。
目前,教育信息主要包含題庫、網(wǎng)絡(luò)課件、文獻(xiàn)資料與網(wǎng)絡(luò)課程等數(shù)據(jù),這些數(shù)據(jù)的屬性大致可以分為必須數(shù)據(jù)元素、可選數(shù)據(jù)元素與分類數(shù)據(jù)元素三類[5?7]。必須數(shù)據(jù)元素為各類型數(shù)據(jù)必須具備的屬性標(biāo)注;可選數(shù)據(jù)元素為各種教育資源所具有的普適性屬性的集和,此類數(shù)據(jù)可根據(jù)用戶需求選擇性地進(jìn)行使用;分類數(shù)據(jù)元素是在教育資源分類需求基礎(chǔ)上,構(gòu)建的能突出各類數(shù)據(jù)自身特點(diǎn)的屬性。
針對(duì)這些數(shù)據(jù)屬性,可以對(duì)各種教育信息使用統(tǒng)一的編碼與存儲(chǔ)格式,包括TXT、CAJ、PDF、HTML等[8?10]。然而在實(shí)際操作過程中,越來越多的教育信息存儲(chǔ)在教學(xué)管理系統(tǒng)中,導(dǎo)致對(duì)教學(xué)數(shù)據(jù)的查詢與檢索困難[11]。如在圖書館大量購進(jìn)新文獻(xiàn)與新書等情況下,由于系統(tǒng)存儲(chǔ)量增加與使用頻率急劇增長(zhǎng)而導(dǎo)致的系統(tǒng)崩潰和故障頻發(fā)等問題,嚴(yán)重影響著圖書管理工作的進(jìn)度和效率[12?14];在教育信息管理系統(tǒng)中包含了大量以網(wǎng)頁與表格形式存儲(chǔ)的教育信息,存在諸多的重復(fù)與冗余數(shù)據(jù)[15?16]。
針對(duì)上述問題,本文提出一種基于本體的異構(gòu)數(shù)據(jù)融合方法。該方法通過智能地采集與處理教育信息來實(shí)現(xiàn)大量教育數(shù)據(jù)的共享與復(fù)用,從而提高教育信息管理的質(zhì)量與效率。仿真測(cè)試與實(shí)驗(yàn)結(jié)果表明,所提出的方法能有效地降低數(shù)據(jù)與數(shù)據(jù)間的關(guān)聯(lián)性,提高數(shù)據(jù)處理的質(zhì)量與速度。
1 ?教育信息本體和元數(shù)據(jù)構(gòu)建
由于教育資源數(shù)據(jù)量較大,因此文中使用元數(shù)據(jù)來描述教育信息資源的基本特征與各數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,以便于各教育信息能被計(jì)算機(jī)系統(tǒng)識(shí)別與編碼。元數(shù)據(jù)通過加入更多的約束條件以求更準(zhǔn)確、更具體地描述數(shù)據(jù)信息,即各數(shù)據(jù)信息包含了各種元數(shù)據(jù),數(shù)據(jù)本體可以根據(jù)相關(guān)數(shù)據(jù)的抽取來獲得多種元數(shù)據(jù)。因此,使用元數(shù)據(jù)可以方便地實(shí)現(xiàn)不同教育信息間數(shù)據(jù)通信。本文使用“五步法”構(gòu)建教育資源本體并建立元數(shù)據(jù)間的聯(lián)系,具體包括元數(shù)據(jù)抽取、元數(shù)據(jù)關(guān)系構(gòu)建與本體構(gòu)建3個(gè)步驟。
1) 元數(shù)據(jù)抽取。教育信息元數(shù)據(jù)的屬性由屬性名稱、屬性定義域與屬性值域三種內(nèi)容構(gòu)成。本文根據(jù)教育部在2017年頒布的《基礎(chǔ)教育教學(xué)資源元數(shù)據(jù)》標(biāo)準(zhǔn)設(shè)定了20種元數(shù)據(jù),包括:教學(xué)資源名稱(Title)、揭示教學(xué)資源內(nèi)容關(guān)鍵意義的名稱(Proper Title)、教育資源編目方案名稱(Catalog)、學(xué)習(xí)對(duì)象標(biāo)識(shí)符(Entry)、資源名代替寫法(Alternative Title)、資源所使用的語言(Language)、資源簡(jiǎn)介(Kescription)、資源所包含的關(guān)鍵詞(Deywords)、資源與教材的對(duì)應(yīng)關(guān)系(Code)、專題討論的題目(Special Subject)、資源所設(shè)計(jì)的地理、文化與時(shí)間范圍(Coverage)、資源的數(shù)據(jù)類型(Format)、資源對(duì)技術(shù)的需求(Technical)、資源的實(shí)際大?。⊿ize)、資源所需的軟硬件技術(shù)(Requirement)、資源在系統(tǒng)中的存儲(chǔ)位置(Location)、資源的種類、聚類層次和一般功能范疇(Resource Type)、能體現(xiàn)學(xué)生合作性、探究性與自主性的學(xué)習(xí)行為(Learning Mode)、資源的適用范圍(Applicability)。
2) 元數(shù)據(jù)關(guān)系構(gòu)建。在得到教育資源的本體表示后,需要建立不同資源間的關(guān)系來組織各教育資源。根據(jù)實(shí)際需求,本文使用對(duì)象屬性建立元數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。由教育資源的特點(diǎn)可知,不同教育資源存在版本關(guān)系、參考關(guān)系與部分包含關(guān)系。因此,本文抽取出了表1所示的對(duì)象關(guān)系屬性及其對(duì)應(yīng)的公理。
由表1可知,對(duì)于教育資源a、b與c,及其對(duì)應(yīng)的屬性p與q,當(dāng)p具有傳遞性,p與q互逆,則根據(jù)傳遞性規(guī)則有教育資源a與c均具有屬性p。當(dāng)教育資源a與b以及b與c均為包含關(guān)系時(shí),教育資源a與c也具有包含關(guān)系;教育資源a與b具有同義關(guān)系時(shí),教育資源b與a也具有同義關(guān)系。
3) 本體構(gòu)建。教育資源本體構(gòu)建即通過對(duì)該教育數(shù)據(jù)的屬性及其層次關(guān)系進(jìn)行分析與組織,來提高數(shù)據(jù)的處理效率。文中使用步驟1)與步驟2)所介紹的元數(shù)據(jù)的屬性及其關(guān)系來構(gòu)建教育資源本體,通過語義屬性與不同語義間的相似性進(jìn)行關(guān)聯(lián)匹配,實(shí)現(xiàn)教育信息本體間的映射,最終構(gòu)建出教育信息本體。本文使用Protege軟件來自動(dòng)構(gòu)建教育信息本體庫。例如,對(duì)于計(jì)算機(jī)原理課程,本文使用Protege軟件構(gòu)建出的信息本體將課程信息分為概論、硬件結(jié)構(gòu)、CPU與控制單元4個(gè)類別,且在各個(gè)類別下又包含不同數(shù)量的子類。
2 ?教育信息融合
信息融合即對(duì)不同數(shù)據(jù)進(jìn)行統(tǒng)一處理與操作,得到其規(guī)范化表示。本文將教育信息規(guī)范化處理為元數(shù)據(jù),經(jīng)知識(shí)映射后統(tǒng)一存儲(chǔ)在本體庫,形成知識(shí)資源。本文使用這些元數(shù)據(jù)對(duì)教育信息進(jìn)行融合,具體過程如圖1所示,包括數(shù)據(jù)采集、數(shù)據(jù)抽象與數(shù)據(jù)融合3個(gè)步驟:
1) 數(shù)據(jù)采集即通過人工獲取與外部數(shù)據(jù)庫轉(zhuǎn)入的方式采集教育信息;
2) 數(shù)據(jù)抽象即采用第1節(jié)介紹的元數(shù)據(jù)標(biāo)準(zhǔn)與屬性提取方法將教育信息表示為元數(shù)據(jù);
3) 數(shù)據(jù)融合即通過對(duì)元數(shù)據(jù)進(jìn)行語義分析與本體映射,實(shí)現(xiàn)不同數(shù)據(jù)的融合。
由于不同教育信息通常具有不同的格式與數(shù)據(jù)結(jié)構(gòu),難以實(shí)現(xiàn)數(shù)據(jù)本體間的互操作,從而制約了不同領(lǐng)域教育信息的關(guān)聯(lián)性。使用語義本體對(duì)不同教育信息進(jìn)行融合,則可實(shí)現(xiàn)不同知識(shí)間的映射?;诮逃畔⒄Z義本體的資源融合過程,如圖2所示,主要包括以下3個(gè)步驟:
1) 語義標(biāo)注。針對(duì)教育資源多源異構(gòu)的特點(diǎn),需要對(duì)其進(jìn)行規(guī)范化表示,如使用關(guān)鍵屬性表示網(wǎng)絡(luò)課件;使用文本數(shù)據(jù)表示文獻(xiàn)資料。
2) 構(gòu)建元數(shù)據(jù)庫。本文充分考慮到不同教育領(lǐng)域間的關(guān)系、約束與屬性來消除信息間的同名二義性。文中通過提取各教育資源的屬性來標(biāo)注元數(shù)據(jù),并將其存入教育資源本體庫中,形成具體知識(shí)點(diǎn)本體到教育資源的映射。本文提出的知識(shí)映射關(guān)系如下:
[E=(Me,R,Sm)] (1)
式中:Me為元數(shù)據(jù);R為具體知識(shí)點(diǎn)本體到教育資源的映射;Sm為映射函數(shù)。
3) 構(gòu)建教育資源本體庫。本文通過合并相似關(guān)系與概念來構(gòu)建初始本體,并計(jì)算這些本體中關(guān)系與概念的關(guān)聯(lián)度來形成層次化的教育資源本體。
雖然上述步驟能構(gòu)建大部分教育資源的本體庫,但仍存在數(shù)據(jù)轉(zhuǎn)換失敗的問題,文中使用人工校驗(yàn)的方式處理這一問題。在數(shù)據(jù)預(yù)處理階段,對(duì)轉(zhuǎn)化后的數(shù)據(jù)進(jìn)行邏輯校驗(yàn),并手動(dòng)將校驗(yàn)失敗的數(shù)據(jù)存入本體庫中,使用人工校驗(yàn)的方式將半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為系統(tǒng)可以處理的結(jié)構(gòu)化數(shù)據(jù)。本文提取出的某教學(xué)信息的XML文檔程序?yàn)椋?/p>
人工將該資源信息存入教育資源書庫后,可以得到如表2所示的數(shù)據(jù)庫字段表。
[12] XIA J, FENG Y Q, LIU L N, et al. An information fusion model of innovation alliances based on the Bayesian network [J]. Tsinghua Science and Technology, 2018, 23(3): 127?136.
[13] RAM?REZ Correa, PATRICIO Esteban, ROND?N Catalua, et al. Student information system satisfaction in higher education: the role of visual aesthetics [J]. Kybernetes, 2018(11): 297?308.
[14] SCHOLTZ B, CALITZ A, HAUPT R. A business intelligence framework for sustainability information management in higher education [J]. International journal of sustainability in higher education, 2018, 19(2): 266?290.
[15] SUSILAWATI R, CHRISTINE D K. Application of qualified accounting information system in higher education: viewed from the finance section perspective to anticipate environmental uncertainty [M]. Moskove: Social Science Electronic Publishing, 2018.
[16] SOUZA M R, VEADO L, MOREIRA R T, et al. A systematic mapping study on game?related methods for software engineering education [J]. Information and software technology, 2018, 95(3): 201?218.