吳梨梨
(福州英華職業(yè)學(xué)院,福建福州350007)
數(shù)據(jù)挖掘技術(shù)在學(xué)生專業(yè)傾向性分析中的應(yīng)用
吳梨梨
(福州英華職業(yè)學(xué)院,福建福州350007)
目前的社會被稱為信息大爆炸的社會,人們每天都能接收到大量的信息,但這些信息如果沒有經(jīng)過一定的篩選以及深度地挖掘,大部分人都無法了解這些信息中所蘊藏的知識點;而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù),已經(jīng)滿足不了這么龐大的數(shù)據(jù)挖掘分析的要求,通過數(shù)據(jù)挖掘技術(shù)與云計算技術(shù)結(jié)合,極大程度地彌補了傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)的不足之處;設(shè)計了一個基于云計算技術(shù)的數(shù)據(jù)挖掘平臺,用于發(fā)現(xiàn)影響學(xué)生專業(yè)學(xué)習(xí)的因素。
數(shù)據(jù)挖掘; 云計算; 專業(yè)傾向
通過專業(yè)傾向性分析,根據(jù)學(xué)生以往的表現(xiàn)發(fā)現(xiàn)最適合學(xué)生特點的專業(yè),避免了學(xué)生在求學(xué)過程中專業(yè)選擇錯誤等問題的發(fā)生。而云計算平臺下的數(shù)據(jù)挖掘技術(shù)將云計算技術(shù)與數(shù)據(jù)挖掘技術(shù)完美地結(jié)合,利用云計算的特點,使用數(shù)據(jù)挖掘技術(shù),從海量的互聯(lián)網(wǎng)數(shù)據(jù)中挖掘影響高職學(xué)生選擇專業(yè)的因素,指導(dǎo)學(xué)生的專業(yè)選擇。
(一) 云計算的定義
云計算是一種新型的商業(yè)計算模型,由網(wǎng)絡(luò)計算、并行處理、分布式計算發(fā)展而來。目前對于云計算的定義有非常多種,在本文中引用的是中國云計算專家劉鵬的定義:云計算將計算任務(wù)發(fā)布在大量計算機構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計算力、存儲空間和各種軟件服務(wù)。這種資源池就是所謂的“云”,用戶按照需求來獲取網(wǎng)絡(luò)服務(wù),云計算在廣義上被認(rèn)為是服務(wù)的交付和使用模式。
(二) 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)就是從大量的、不完全的、隨機的、有噪聲的以及模糊的數(shù)據(jù)中,對隱含其中的、預(yù)先未知的但具有潛在價值的知識和信息進行提取的過程。在以往的數(shù)據(jù)挖掘中,面臨的數(shù)據(jù)量比較小,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)完全滿足需求。但是隨著海量數(shù)據(jù)的快速增長,數(shù)據(jù)挖掘的個性化需求越來越凸顯出來。云計算因為自身的海量的存儲能力以及強大的計算能力,成為了數(shù)據(jù)挖掘的最有效的解決方式。
(三) 云計算平臺下進行數(shù)據(jù)挖掘的顯著優(yōu)勢
首先,云計算平臺有效解決了海量數(shù)據(jù)的存儲與數(shù)據(jù)丟失問題。云計算改變了數(shù)據(jù)存儲的一般模式,將網(wǎng)絡(luò)上的海量數(shù)據(jù)經(jīng)過合并,轉(zhuǎn)換和篩選,存儲在云計算平臺的各個存儲節(jié)點上。其次,利用云計算平臺的分布式并行計算的特點,可以有效地降低數(shù)據(jù)處理的成本,并且也擺脫了對機器性能的依賴。第三,利用云計算技術(shù),可以提升處理海量數(shù)據(jù)的能力與速度,在控制好系統(tǒng)的容錯性的同時,也可以增加系統(tǒng)的節(jié)點。
云計算技術(shù)的實現(xiàn)主要是建立在網(wǎng)絡(luò)平臺上,利用虛擬技術(shù)和分布式存儲技術(shù)來實現(xiàn)對海量數(shù)據(jù)的存儲與計算,云計算技術(shù)與數(shù)據(jù)挖掘技術(shù)相結(jié)合的框架圖如圖1所示。用戶通過不同的終端,利用瀏覽器以及相應(yīng)的賬號登陸到系統(tǒng)中,通過Iaas服務(wù)可以訪問服務(wù)器群和數(shù)據(jù)庫群,通過Daas服務(wù)進入數(shù)據(jù)管理子系統(tǒng),進行平臺與數(shù)據(jù)服務(wù)之間的數(shù)據(jù)交換,也可以通過Paas服務(wù)進入數(shù)據(jù)挖掘子系統(tǒng),選擇合適的挖掘算法,還可以利用Saas服務(wù)調(diào)用數(shù)據(jù)挖掘子系統(tǒng),完成數(shù)據(jù)挖掘任務(wù)。在這個系統(tǒng)中,數(shù)據(jù)挖掘平臺是核心。
本系統(tǒng)的主要目的是利用與學(xué)生信息相關(guān)的海量數(shù)據(jù)來分析,找出影響學(xué)生專業(yè)傾向性的主要因素,從而達到指導(dǎo)專業(yè)選擇的目的。系統(tǒng)的部分功能如下:
(一) 主界面設(shè)計
良好的人機交互界面是系統(tǒng)成功的第一步。本系統(tǒng)采用側(cè)面導(dǎo)航欄的模塊結(jié)構(gòu),便于用戶選擇功能區(qū)域。
(二) 數(shù)據(jù)管理子系統(tǒng)
數(shù)據(jù)管理子系統(tǒng)主要提供給用戶的查詢操作。用戶在使用中,使用信息查詢類,向數(shù)據(jù)庫群和服務(wù)器群提出查詢請求,數(shù)據(jù)庫系統(tǒng)按照用戶需求關(guān)鍵字組織符合的數(shù)據(jù)組裝到數(shù)組中返回給數(shù)據(jù)查詢類,并顯示在用戶臨時數(shù)據(jù)表中。
(三) 數(shù)據(jù)挖掘子系統(tǒng)
數(shù)據(jù)挖掘子系統(tǒng)是全系統(tǒng)中功能最重要的模塊。在該模塊中,用戶可以通過先選擇數(shù)據(jù)庫,再以專業(yè)傾向為目標(biāo),選擇輸入的字段進行分析。默認(rèn)的目標(biāo)是專業(yè)傾向,也可以按下拉鍵選擇其他屬性。數(shù)據(jù)挖掘子系統(tǒng)的用戶界面如圖2所示。在該模塊中,數(shù)據(jù)挖掘分析是通過數(shù)據(jù)挖掘算法來實現(xiàn)的。對使用用戶而言,所進行的操作只是選擇數(shù)據(jù)庫表、選擇目標(biāo)選項、選擇輸入條件等;對數(shù)據(jù)挖掘子模塊而言,這里要求自主選擇挖掘的支持度、置信度等信息參數(shù),并根據(jù)用戶的條件選擇來連接數(shù)據(jù)庫,讀取數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘算法進行數(shù)據(jù)挖掘操作,并根據(jù)得到的最小支持度和置信度參數(shù)來過濾符合條件的數(shù)據(jù),最終返回決策樹圖形與規(guī)則集。
(四) 系統(tǒng)管理模塊
在系統(tǒng)管理模塊中,主要實現(xiàn)用戶權(quán)限管理。由于專業(yè)傾向性分析數(shù)據(jù)涉及多個部門,各有其數(shù)據(jù)敏感性。因此針對數(shù)據(jù)倉庫里每個數(shù)據(jù)項應(yīng)做安全分級管理,對應(yīng)的則是用戶應(yīng)據(jù)此有不同的訪問權(quán)限。按照不同的用戶類別,劃分不同的使用權(quán)限。系統(tǒng)超級管理員可以把權(quán)限分配給普通用戶,可以添加、刪除用戶的權(quán)限,管理員同時具有數(shù)據(jù)備份的權(quán)限;數(shù)據(jù)備份是系統(tǒng)重要的功能之一,外力造成的不可控因素有可能導(dǎo)致數(shù)據(jù)崩潰性的破壞,因此需要有規(guī)律地進行數(shù)據(jù)備份,以便把數(shù)據(jù)損失挽回到最小;除了對用戶權(quán)限的設(shè)置以外,系統(tǒng)的超級管理員還擁有定時備份數(shù)據(jù)或手動備份數(shù)據(jù)的功能,同樣也可以從頁面上“后臺首頁”處點擊進入。普通用戶的界面不顯示“后臺首頁”功能的登陸入口,保證敏感數(shù)據(jù)得到分級保護,也盡可能地避免誤操作。管理界面的數(shù)據(jù)備份如圖3所示,管理頁面的內(nèi)容包括了更改密碼,用戶權(quán)限與數(shù)據(jù)備份。其中“定時設(shè)置”是對定時備份頻率的設(shè)置,默認(rèn)30天自動備份。管理員可以隨時手動開啟備份功能。除了常規(guī)的系統(tǒng)默認(rèn)備份外,管理員可以點擊“手動備份”,操作隨時可以進行。系統(tǒng)在備份時會暫時停止對外數(shù)據(jù)交互。當(dāng)需要設(shè)置備份文件存放的物理路徑與格式,或?qū)С鰝浞輸?shù)據(jù)時,可以選擇“高級設(shè)置”。最后,當(dāng)系統(tǒng)數(shù)據(jù)遭遇無可挽回的損失時,管理員可以點擊“數(shù)據(jù)導(dǎo)入”,使用備份數(shù)據(jù)替換被破壞的數(shù)據(jù)。為了避免頻繁導(dǎo)入數(shù)據(jù)造成數(shù)據(jù)混亂,導(dǎo)入數(shù)據(jù)功能每天最多使用兩次。
(五) 報表打印
為了能夠隨時將查詢的結(jié)果以圖文并排的形式打印為紙質(zhì)文本,在報表打印模塊中,設(shè)置了打印報表的功能。使用者可以在執(zhí)行任意查詢功能之后,除了在網(wǎng)頁上列表顯示查詢的結(jié)果外,也可以點擊橫功能欄上的“打印報表”,生成報表格式并聯(lián)通實體的打印機,以紙質(zhì)文本的形式打印出來,打印報表的運行界面如圖4所示。
云計算平臺下的數(shù)據(jù)挖掘平臺為實現(xiàn)高職生源專業(yè)傾向性分析提供了解決方案,系統(tǒng)使用B/S架構(gòu),滿足了多種終端用戶的訪問,實現(xiàn)了用戶群的廣泛性;系統(tǒng)管理模塊實現(xiàn)了用戶的權(quán)限管理,數(shù)據(jù)管理子系統(tǒng)中用戶根據(jù)自己的賬號和密碼就可以訪問服務(wù)器群和數(shù)據(jù)庫群;數(shù)據(jù)挖掘子系統(tǒng)中用戶可以根據(jù)自己的需求選擇數(shù)據(jù)挖掘算法來完成對數(shù)據(jù)的深度挖掘。
[1] 王鵬,王健安,郭暢,巴濟慈.基于云計算及數(shù)據(jù)挖掘技術(shù)的海量數(shù)據(jù)處理研究[J].長春理工大學(xué)學(xué)報(自然科學(xué)版),2013(6):157-160.
[2] 尹雪婷,程強,許惠惠.基于云計算的數(shù)據(jù)挖掘技術(shù)[J].信息與電腦,2015(21):60-63.
[3] 吳銳,孫銀香.云計算平臺下的Web數(shù)據(jù)挖掘研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(8):67-68.
2017-04-07
2015年福建省中青年教師教育科研項目“云計算平臺下的數(shù)據(jù)挖掘技術(shù)在高職學(xué)生專業(yè)傾向性分析中應(yīng)用”(項目編號:JA15872)
吳梨梨(1983-),女,福建福州人,碩士,講師,研究方向為數(shù)據(jù)挖掘,電話:13960822663。
G712.3;TP311.13
A
1671-4733(2017)04-0106-02