李慧
摘 ?要: 基于Pentaho BI的信息綜合處理平臺(tái)未對(duì)高校信息進(jìn)行有效抽取和轉(zhuǎn)換,存在高校信息處理速率低和錯(cuò)誤率高的弊端,為此設(shè)計(jì)基于大數(shù)據(jù)的智能高校信息綜合處理平臺(tái)。硬件設(shè)計(jì)中,ETL管理模塊將高校信息數(shù)據(jù)從來源端進(jìn)行抽取、交互轉(zhuǎn)換和加載,加快高校信息抽取速率,實(shí)現(xiàn)源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的變換;智能信息處理模塊采用數(shù)據(jù)挖掘技術(shù)對(duì)高校信息進(jìn)行大數(shù)據(jù)分析,實(shí)現(xiàn)對(duì)高校信息的有效處理。軟件設(shè)計(jì)采用嵌入式Linux內(nèi)核技術(shù)設(shè)計(jì)平臺(tái)的軟件開發(fā)流程,實(shí)現(xiàn)智能高校信息的綜合處理。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)平臺(tái)在提升高校信息處理效率方面有較強(qiáng)的應(yīng)用效果,且平臺(tái)可將信息處理錯(cuò)誤率控制在5%以下,對(duì)高校信息的處理結(jié)果可靠性高。
關(guān)鍵詞: 大數(shù)據(jù); 高校信息; 綜合處理平臺(tái); 智能信息處理; 數(shù)據(jù)挖掘技術(shù); 軟件開發(fā)
中圖分類號(hào): TN919?34; TP311.13 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)10?0031?04
Design of intelligent university information integrated processing
platform based on big data
LI Hui
(Yancheng Teachers University, Yancheng 224007, China)
Abstract: The information integrated processing platform based on Pentaho BI cannot conduct effective extraction and conversion of university information, and has the disadvantages of low processing rate and high error rate of university information. Therefore, an intelligent university information integrated processing platform based on big data is designed. In the hardware design, the ETL management module is used to extract, interconvert and load the university information data from the source terminal, so as to accelerate the university information extraction rate and realize transformation of source data to target data. In the intelligent information processing module, the data mining technology is used to conduct big data analysis of university information, so as to realize effective processing of university information. In the software design, the software development process of the embedded Linux kernel technology design platform is adopted to realize comprehensive processing of intelligent university information. The experimental results show that the designed platform has a strong application effect in improving the processing efficiency of university information, can control the error rate of information processing below 5%, and has a high reliability for university information processing results.
Keywords: big data; university information; comprehensive processing platform; intelligent information processing; data mining technology; software development
0 ?引 ?言
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,高校的信息化發(fā)展進(jìn)程也逐漸加快,隨之產(chǎn)生海量的信息數(shù)據(jù)。信息類型由過去的單一化的結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)變?yōu)榘ㄒ曨l信息在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù),因此傳統(tǒng)的信息處理平臺(tái)無法高效處理現(xiàn)有的非結(jié)構(gòu)化數(shù)據(jù)。此外,采用以業(yè)務(wù)為管控核心、數(shù)據(jù)為驅(qū)動(dòng)的管理模式容易導(dǎo)致信息處理平臺(tái)與數(shù)據(jù)間的耦合性加強(qiáng),無法體現(xiàn)出高校信息的價(jià)值意義。
以往相關(guān)人員研究出的高校信息處理方法,如文獻(xiàn)[1]中信息處理平臺(tái)著重于業(yè)務(wù)忽視了高校信息的價(jià)值,對(duì)信息的深度加工和解讀不足,因此平臺(tái)處理結(jié)果不具有代表意義;文獻(xiàn)[2]中信息平臺(tái)利用Pentaho BI的集成工具來收集和分析來自高校的各個(gè)學(xué)科不同管理部門的信息,從而構(gòu)建高校信息綜合處理平臺(tái),但該平臺(tái)由于缺少綜合的信息抽取與轉(zhuǎn)換過程,無法直接利用學(xué)科建設(shè)信息,信息處理過程較復(fù)雜。為解決上述問題,設(shè)計(jì)基于大數(shù)據(jù)的智能高校信息綜合處理平臺(tái)。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)平臺(tái)的高校信息處理效率較高,錯(cuò)誤處理率得到有效降低。
1 ?基于大數(shù)據(jù)的智能高校信息綜合處理平臺(tái)設(shè)計(jì)
基于大數(shù)據(jù)的智能高校信息綜合處理平臺(tái),核心在于將大數(shù)據(jù)的應(yīng)用效果與機(jī)器學(xué)習(xí)以及人工智能等先進(jìn)技術(shù)結(jié)合[3],使信息處理平臺(tái)在智能處理高校信息的同時(shí)實(shí)現(xiàn)自我學(xué)習(xí),并在運(yùn)行過程中對(duì)故障進(jìn)行自我檢測(cè),打破傳統(tǒng)高校信息管理的壁壘,視數(shù)據(jù)和業(yè)務(wù)為一個(gè)單獨(dú)整體[4]。圖1為平臺(tái)的總體結(jié)構(gòu)圖。
圖1 ?平臺(tái)總體結(jié)構(gòu)圖
1.1 ?硬件設(shè)計(jì)
1.1.1 ?ETL管理模塊設(shè)計(jì)
ETL用來描述將高校信息數(shù)據(jù)從來源端經(jīng)過抽取、交互轉(zhuǎn)換和加載至目的端的過程。任意一個(gè)信息處理平臺(tái)的核心均為數(shù)據(jù)抽取和轉(zhuǎn)換[5],尤其是在海量數(shù)據(jù)的處理中,數(shù)據(jù)抽取和轉(zhuǎn)換的好壞決定處理平臺(tái)的成敗。圖2為ETL技術(shù)體系結(jié)構(gòu)圖。
圖2 ?ETL技術(shù)體系結(jié)構(gòu)
ETL管理模塊作為平臺(tái)的核心,其功能主要分為數(shù)據(jù)處理和業(yè)務(wù)控制兩部分,負(fù)責(zé)進(jìn)行數(shù)據(jù)的清洗以及實(shí)現(xiàn)源數(shù)據(jù)與目標(biāo)數(shù)據(jù)間的映射轉(zhuǎn)換。ETL模塊在功能設(shè)計(jì)上分為控制、服務(wù)以及應(yīng)用三部分,功能間相互銜接,結(jié)構(gòu)劃分清楚,能夠完全實(shí)現(xiàn)平臺(tái)的需求[6]。其應(yīng)用架構(gòu)邏輯結(jié)構(gòu)如圖3所示。
圖3所示的邏輯結(jié)構(gòu)能夠在高校信息的數(shù)據(jù)抽取過程中,依照不同的抽取條件實(shí)現(xiàn)動(dòng)態(tài)配置,提升ETL的靈活性和實(shí)用性,以滿足不同平臺(tái)使用者的需求,降低平臺(tái)的再次開發(fā)工作量。數(shù)據(jù)抽取環(huán)節(jié)主要進(jìn)行增量抽取[7],其次進(jìn)行全量抽取,提升對(duì)高校信息的抽取速率,實(shí)現(xiàn)源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的變換。
圖3 ?ETL應(yīng)用架構(gòu)邏輯結(jié)構(gòu)圖
1.1.2 ?智能信息處理模塊設(shè)計(jì)
智能信息處理模塊作為主控模塊,實(shí)現(xiàn)高校信息的智能分析。該模塊采用大數(shù)據(jù)挖掘技術(shù)對(duì)高校信息進(jìn)行大數(shù)據(jù)分析和信息處理,采用安卓操作系統(tǒng)將信息處理指令發(fā)送給相關(guān)的I/O引腳,同時(shí)采用字節(jié)為單位與上層ETL管理模塊進(jìn)行無線信息包交互[8],與此同時(shí)在MVB的總線控制下完成進(jìn)程管理與文件配置過程。通過在TinyOS 2.x中調(diào)用Task Basic.posTask()任務(wù)的某個(gè)事件來激發(fā)智能高校信息管理平臺(tái)的Task Basic接口程序,確保語義生命網(wǎng)絡(luò)協(xié)議數(shù)據(jù)庫(kù)開發(fā)的過程在標(biāo)準(zhǔn)TinyOS調(diào)用程序下完成。智能信息處理模塊體系結(jié)構(gòu)包括高校信息資源庫(kù)、核心庫(kù)、協(xié)議庫(kù)以及通信庫(kù)[9]。智能信息處理模塊邏輯結(jié)構(gòu)如圖4所示。
圖4 ?智能信息處理模塊邏輯結(jié)構(gòu)
1.2 ?軟件設(shè)計(jì)
在上述平臺(tái)硬件模塊設(shè)計(jì)的基礎(chǔ)上,進(jìn)行智能高校信息綜合處理平臺(tái)的軟件設(shè)計(jì)。智能高校信息綜合處理軟件建立在嵌入式Linux內(nèi)核技術(shù)上,包括網(wǎng)絡(luò)通信模塊、交叉編譯模塊、數(shù)據(jù)存儲(chǔ)模塊以及程序加載模塊的設(shè)計(jì)。構(gòu)建通信信息數(shù)據(jù)庫(kù),得到rootfs.yaffs文件,通過對(duì)s3c2440_adc_read()函數(shù)進(jìn)行調(diào)用,實(shí)現(xiàn)程序的加載和高校信息的嵌入式控制。設(shè)計(jì)程序加載模塊時(shí),在Linux內(nèi)核中的引導(dǎo)加載程序按照地址指針指向VIX的數(shù)據(jù),連續(xù)不斷地將數(shù)據(jù)傳輸?shù)街醒胗?jì)算機(jī)中,實(shí)現(xiàn)對(duì)高校信息的特征采集[10]。將FLASH設(shè)備中的文件發(fā)送至數(shù)據(jù)硬盤并有效保存的過程是通過VISA接口實(shí)現(xiàn)。圖5為智能高校信息綜合處理平臺(tái)的軟件開發(fā)實(shí)現(xiàn)流程。
圖5 ?智能高校信息綜合處理平臺(tái)的軟件開發(fā)實(shí)現(xiàn)流程
2 ?實(shí)驗(yàn)分析
為了驗(yàn)證本文基于大數(shù)據(jù)的智能高校信息綜合處理平臺(tái)的有效性,對(duì)本文平臺(tái)進(jìn)行仿真實(shí)驗(yàn)。將該平臺(tái)用于南方某高校的教務(wù)系統(tǒng)中,驗(yàn)證所設(shè)計(jì)平臺(tái)的有效性。對(duì)本文平臺(tái)進(jìn)行測(cè)試的環(huán)境為Windows 8操作平臺(tái),平臺(tái)測(cè)試人員的移動(dòng)網(wǎng)絡(luò)終端的帶寬最低為20 Mb/s。平臺(tái)有效性的評(píng)價(jià)項(xiàng)目包括信息綜合處理效率、平臺(tái)的穩(wěn)定性以及平臺(tái)進(jìn)行信息交互的成功幾率。
實(shí)驗(yàn)時(shí)對(duì)本文平臺(tái)在不同并發(fā)人數(shù)使用下的反應(yīng)時(shí)間進(jìn)行測(cè)量。為使測(cè)試的時(shí)間具有較強(qiáng)的代表意義,在某天8:00—9:00進(jìn)行多次平臺(tái)反應(yīng)時(shí)間測(cè)試,測(cè)試結(jié)果如表1所示。
為突出比較本文設(shè)計(jì)平臺(tái)在處理高校教務(wù)信息的用時(shí)長(zhǎng)短,以傳統(tǒng)基于正交分解大數(shù)據(jù)的信息綜合處理平臺(tái)(方法1)和基于Pentaho BI的信息綜合處理平臺(tái)(方法2)對(duì)教務(wù)信息的處理結(jié)果作為實(shí)驗(yàn)參照,結(jié)果分別如表2和表3所示。
表1 ?本文平臺(tái)反應(yīng)用時(shí)
表2 ?基于正交分解大數(shù)據(jù)的信息綜合處理平臺(tái)反應(yīng)用時(shí)
表3 ?基于Pentaho BI的信息綜合處理平臺(tái)反應(yīng)用時(shí)
分析表1~表3可知,本文平臺(tái)在不同人數(shù)使用下的反應(yīng)用時(shí)均少于方法1和方法2。從表2可以看出,方法1反應(yīng)用時(shí)較本文平臺(tái)的用時(shí)要長(zhǎng)一些,在不同平臺(tái)使用人數(shù)下,本文平臺(tái)的用時(shí)均低一些;而方法2在不同的使用人數(shù)下的反應(yīng)用時(shí)最長(zhǎng),該平臺(tái)的高校信息綜合后處理效率最低;本文平臺(tái)在0~50,51~100,101~150以及151~200人的使用情形下的平均用時(shí)為1.42 s,2.94 s,5.04 s以及6.37 s,對(duì)應(yīng)的方法1的信息處理平臺(tái)反應(yīng)用時(shí)分別為2.67 s,4.66 s,7.57 s以及9.38 s,對(duì)比說明本文平臺(tái)在智能處理高校信息時(shí)具有較高的效率。
使用人數(shù)在200~300之間時(shí),本文平臺(tái)的反應(yīng)用時(shí)幾乎沒有發(fā)生變動(dòng),因此得出本文平臺(tái)的穩(wěn)定性較強(qiáng),而方法1和方法2在使用人數(shù)逐漸提升時(shí),平臺(tái)反應(yīng)時(shí)間不斷提升,平臺(tái)穩(wěn)定性較差。
實(shí)驗(yàn)在比較3種平臺(tái)的反應(yīng)用時(shí)的基礎(chǔ)上,通過比較3種平臺(tái)處理教務(wù)信息結(jié)果的錯(cuò)誤率的高低來驗(yàn)證本文平臺(tái)信息處理結(jié)果具有精度高的優(yōu)勢(shì)。高校信息包括多種類別,實(shí)驗(yàn)同樣以該高校為例,以該校管理營(yíng)銷系專業(yè)課的期末成績(jī)?yōu)樘幚韺?duì)象,對(duì)學(xué)生成績(jī)的綜合處理包括課堂成績(jī)和期末卷面成績(jī)兩部分,要求平臺(tái)對(duì)兩部分的信息綜合處理結(jié)果的錯(cuò)誤率低于5%,即說明該平臺(tái)是可以進(jìn)行智能高校信息綜合處理的。3種平臺(tái)對(duì)學(xué)生成績(jī)處理結(jié)果的錯(cuò)誤率如表4所示。
表4 ?三種平臺(tái)對(duì)學(xué)生成績(jī)的綜合處理結(jié)果錯(cuò)誤率
綜合分析表4數(shù)據(jù)可以看出,3種平臺(tái)在綜合處理不同科目成績(jī)時(shí)均有成績(jī)處理錯(cuò)誤的現(xiàn)象。本文平臺(tái)對(duì)不同科目的成績(jī)處理錯(cuò)誤率變化區(qū)間在0~5%之間,該數(shù)值符合平臺(tái)對(duì)高校信息綜合處理的錯(cuò)誤率區(qū)間,說明本文平臺(tái)可以應(yīng)用到智能處理高校信息中;而方法1平臺(tái)對(duì)各科成績(jī)的綜合處理錯(cuò)誤率在9%以下,超出正常平臺(tái)的錯(cuò)誤率要求,因此該平臺(tái)不適用在高校信息的綜合處理中;方法2平臺(tái)對(duì)不同科目的成績(jī)處理結(jié)果錯(cuò)誤率最高,最高在11%,說明該平臺(tái)最不適宜進(jìn)行高校信息的綜合處理。
3 ?結(jié) ?論
本文基于大數(shù)據(jù)的智能高校信息綜合處理平臺(tái),設(shè)計(jì)ETL管理模塊和智能信息處理模塊。通過將高校信息進(jìn)行抽取、交互轉(zhuǎn)換和加載至目的端的過程,實(shí)現(xiàn)對(duì)高校數(shù)據(jù)的高效抽取;智能信息處理模塊采用大數(shù)據(jù)挖掘技術(shù)對(duì)高校信息進(jìn)行大數(shù)據(jù)分析和信息處理,實(shí)現(xiàn)對(duì)高校信息的智能分析。根據(jù)實(shí)驗(yàn)結(jié)果分析可知,所設(shè)計(jì)平臺(tái)在提升高校信息處理效率方面有較強(qiáng)應(yīng)用性,處理高校信息的錯(cuò)誤率始終低于5%,因此說明所設(shè)計(jì)平臺(tái)是一種高質(zhì)量的智能高校信息綜合處理平臺(tái)。
參考文獻(xiàn)
[1] 向小佳,趙曉芳,劉洋,等.一種正交分解大數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)方法及實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2017,54(5):1097?1108.
XIANG Xiaojia, ZHAO Xiaofang, LIU Yang, et al. An orthogonal decomposition based design method and implementation for big data processing system [J]. Journal of computer research and development, 2017, 54(5): 1097?1108.
[2] 張長(zhǎng)恒,黃芳.高校學(xué)科建設(shè)數(shù)據(jù)信息平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].圖書情報(bào)工作,2015,59(8):111?117.
ZHANG Changheng, HUANG Fang. Design and research of university data platform for discipline construction [J]. Library and information service, 2015, 59(8): 111?117.
[3] 張倩.高校檔案物聯(lián)網(wǎng)大數(shù)據(jù)處理平臺(tái)的構(gòu)建方案研究[J].檔案與建設(shè),2016,33(2):39?43.
ZHANG Qian. Research on the construction scheme of IoT big data archival processing platform in colleges and universities [J]. Archives & construction, 2016, 33(2): 39?43.
[4] 鄧炳光,張林霞,張治中,等.基于數(shù)據(jù)倉(cāng)庫(kù)的旅游服務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].電視技術(shù),2015,39(20):26?30.
DENG Bingguang, ZHANG Linxia, ZHANG Zhizhong, et al. Research and implementation of travel services platform based on data warehouse [J]. Video engineering, 2015, 39(20): 26?30.
[5] 李建斌,劉小勇,王偉,等.企業(yè)安全生產(chǎn)大數(shù)據(jù)應(yīng)急平臺(tái)設(shè)計(jì)[J].武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版),2017,39(6):679?682.
LI Jianbin, LIU Xiaoyong, WANG Wei, et al. Design of big data emergency platform for safety production in enterprises [J]. Journal of Wuhan University of Technology (Information & management engineering), 2017, 39(6): 679?682.
[6] 金瑤,時(shí)明明,周潔,等.平面度誤差檢測(cè)平臺(tái)設(shè)計(jì)與數(shù)據(jù)處理[J].工具技術(shù),2016,50(11):103?106.
JIN Yao, SHI Mingming, ZHOU Jie, et al. Flatness error detection and data processing platform [J]. Tool engineering, 2016, 50(11): 103?106.
[7] 宋杰,孫宗哲,毛克明,等.MapReduce大數(shù)據(jù)處理平臺(tái)與算法研究進(jìn)展[J].軟件學(xué)報(bào),2017,28(3):514?543.
SONG Jie, SUN Zongzhe, MAO Keming, et al. Research advance on MapReduce based big data processing platforms and algorithms [J]. Journal of software, 2017, 28(3): 514?543.
[8] 趙玉聰,鐘志農(nóng),景寧,等.多維實(shí)體關(guān)聯(lián)信息綜合處理平臺(tái)[J].計(jì)算機(jī)應(yīng)用,2016,36(z1):213?216.
ZHAO Yucong, ZHONG Zhinong, JING Ning, et al. Multi?dimensional and comprehensive platform for entity?relation information managing [J]. Journal of computer applications, 2016, 36(S1): 213?216.
[9] 潘梅勇,宋偉奇.基于大數(shù)據(jù)的高職院校信息資源庫(kù)建設(shè)[J].職業(yè)技術(shù)教育,2016,37(5):24?26.
PAN Meiyong, SONG Weiqi. Construction of information resource database based on the big data in higher vocational colleges [J]. Vocational and technical education, 2016, 37(5): 24?26.
[10] 王永坤,羅萱,金耀輝.基于私有云和物理機(jī)的混合型大數(shù)據(jù)平臺(tái)設(shè)計(jì)及實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2018,40(2):191?199.
WANG Yongkun, LUO Xuan, JIN Yaohui. A hybrid big data platform based on private cloud VMs and bare metals [J]. Computer engineering & science, 2018, 40(2): 191?199.