汪政
(湖南第一師范學(xué)院 信息科學(xué)與工程學(xué)院,湖南 長沙410205)
基于教育數(shù)據(jù)倉庫查詢?nèi)罩镜膬?nèi)容分析
汪政
(湖南第一師范學(xué)院 信息科學(xué)與工程學(xué)院,湖南 長沙410205)
通過對于不同用戶在一個教育數(shù)據(jù)倉庫大量的SQL查詢進(jìn)行系統(tǒng)分析,可更好地發(fā)現(xiàn)用戶興趣所在,實(shí)現(xiàn)性能的改善。前期通過利用數(shù)據(jù)挖掘方法,之后的進(jìn)一步研究,數(shù)據(jù)挖掘不再成為主要的研究手段。這里具體研究考慮的對象是教育數(shù)據(jù)倉庫,教育數(shù)據(jù)倉庫是一個已知的教育行業(yè)的數(shù)據(jù)倉庫,它包括數(shù)以百萬計的查詢?nèi)罩拘畔ⅰ?/p>
數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;教育數(shù)據(jù)挖掘;教育數(shù)據(jù)倉庫
教育數(shù)據(jù)倉庫是數(shù)據(jù)倉庫在垂直領(lǐng)域上的一個行業(yè)細(xì)分,通過使用數(shù)據(jù)倉庫的技術(shù)匯集不同來源的各種教育數(shù)據(jù)資源,形成覆蓋教育各領(lǐng)域的、綜合的、面向各種教育主題的教育數(shù)據(jù)資源中心。教育數(shù)據(jù)倉庫不只是具備數(shù)據(jù)倉庫的面向主題、集成、非易失的和隨時間變化這四個最重要的特征,還應(yīng)該具備友好的表現(xiàn)形式。
(一)面向主題
它是對應(yīng)應(yīng)用的過程中某一個宏觀分析領(lǐng)域所涉及的分析對象,是針對某一決策問題而設(shè)置的,采用了一種在較高層次上對分析對象數(shù)據(jù)的一個完整統(tǒng)一并一致的描述面向主題的數(shù)據(jù)組織方式。
(二)集成
原有各個系統(tǒng)中存儲的數(shù)據(jù)經(jīng)過提取、整合、計算、去噪(拋棄分析處理中不需要的數(shù)據(jù)項(xiàng),消除不一致和錯誤之處)和補(bǔ)充(增加一些可能涉及的外部數(shù)據(jù))。
(三)非易失
從數(shù)據(jù)倉庫設(shè)計原理和訪問的機(jī)制出發(fā),數(shù)據(jù)一旦進(jìn)入教育數(shù)據(jù)倉庫,在數(shù)據(jù)沒有轉(zhuǎn)換成為歷史數(shù)據(jù)的這一段時間間隔內(nèi)是不會丟失的。
(四)隨時間變化
數(shù)據(jù)隨時間變化定期更新,也就是說在每隔一段固定的時間間隔后,會抽取運(yùn)行各個系統(tǒng)中產(chǎn)生的數(shù)據(jù),轉(zhuǎn)換后集成到教育數(shù)據(jù)倉庫中。而之前的數(shù)據(jù)會以過去的版本的形式仍然保留在數(shù)據(jù)倉庫中;
(五)友好的表現(xiàn)形式
一個友好、方便的使用界面設(shè)計面向教育行政部門的管理人員也是非常重要的。查詢是教育數(shù)據(jù)倉庫服務(wù)的最基本、最主要的內(nèi)容。教育數(shù)據(jù)倉庫系統(tǒng)中每天產(chǎn)生著大量的查詢?nèi)罩?,通過對查詢?nèi)罩镜膬?nèi)容進(jìn)行分析,可以得出各類用戶的查詢習(xí)慣、傾向,而使用者的這些特征決定了教育數(shù)據(jù)倉庫的結(jié)構(gòu)、算法是否合理,對于教育數(shù)據(jù)倉庫(如圖1)建設(shè)和維護(hù)有很強(qiáng)的指導(dǎo)作用。如何對大量的查詢?nèi)罩具M(jìn)行內(nèi)容分析,目前比較有效地就是通過數(shù)據(jù)挖掘技術(shù)。
圖1 教育數(shù)據(jù)倉庫結(jié)構(gòu)體系
用戶對于教育數(shù)據(jù)倉庫的每一次查詢都會被記錄下來,記錄的內(nèi)容包括ID、URL、用戶的IP地址、訪問日期、時間、以及查詢的類型等信息。隨著數(shù)據(jù)技術(shù)的進(jìn)一步發(fā)展和時間的積累,查詢?nèi)罩久繒r每刻都在迅速增大。如何充分的利用查詢?nèi)罩局杏涗浀臄?shù)據(jù),從中發(fā)現(xiàn)用戶的行為習(xí)慣、系統(tǒng)接受查詢之后的反應(yīng)效率、改進(jìn)系統(tǒng)的設(shè)計也是一個新的研究領(lǐng)域。
數(shù)據(jù)預(yù)處理是日志挖掘中最重要階段,是后續(xù)數(shù)據(jù)挖掘和分析能否順利進(jìn)行的前提和關(guān)鍵。數(shù)據(jù)預(yù)處理是為了將日志文件轉(zhuǎn)換成數(shù)據(jù)庫文件而進(jìn)行的工作,其目的是把教育數(shù)據(jù)倉庫的日志數(shù)據(jù)轉(zhuǎn)換為適合進(jìn)行數(shù)據(jù)挖掘的精確數(shù)據(jù)[2]。
用戶查詢教育數(shù)據(jù)倉庫時會自動創(chuàng)建查詢?nèi)罩拘畔?,包括各類日志等文件以微軟的IIS產(chǎn)生的訪問日志文件為例,其日志文件包含數(shù)據(jù)形式為:“2009-3-2 08:26:25 127.0.0.1 GET/vv/10 -01.xml 200”,其中以空格為分隔符標(biāo)識,日志文件使用的是一種非關(guān)系模型的結(jié)構(gòu)。首先對于日志文件進(jìn)行預(yù)處理,才能進(jìn)一步實(shí)現(xiàn)挖掘。查詢?nèi)罩驹次募鐖D2所示。
目前,數(shù)據(jù)挖掘技術(shù)作為整個教育數(shù)據(jù)倉庫挖掘過程的基礎(chǔ)和實(shí)施有效挖掘算法的前提,數(shù)據(jù)預(yù)處理的目的就是將原始查詢?nèi)罩居涗浗?jīng)過處理形成會話文件,為挖掘算法實(shí)施階段作好數(shù)據(jù)準(zhǔn)備。當(dāng)前教育數(shù)據(jù)倉庫查詢?nèi)罩镜臄?shù)據(jù)預(yù)處理一般包括以下3個階段[3]:數(shù)據(jù)收集及數(shù)據(jù)清洗、用戶識別、建立查詢?nèi)罩玖⒎襟w。
1.數(shù)據(jù)收集及數(shù)據(jù)清洗
數(shù)據(jù)收集可以分為數(shù)據(jù)與管理層數(shù)據(jù)收集、OLAP與數(shù)據(jù)集市層數(shù)據(jù)收集。
圖2 查詢?nèi)罩驹次募?/p>
(1)數(shù)據(jù)與管理層數(shù)據(jù)收集:在數(shù)據(jù)與管理層查詢?nèi)罩局杏涗浟嗣看尾樵兘逃龜?shù)據(jù)倉庫進(jìn)行的每一次請求的信息,全面地記錄用戶的詳細(xì)信息,比如:時間、日期、IP地址、訪問的頁面等等,并可通過記錄Cookies和CGI的查詢參數(shù)來描述各個不同用戶的行為。使用數(shù)據(jù)與管理層查詢?nèi)罩緛韺?shí)現(xiàn)數(shù)據(jù)采集是有效的,能方便地分析出查詢的行為習(xí)慣。
(2)OLAP與數(shù)據(jù)集市層數(shù)據(jù)收集:利用OLAP與數(shù)據(jù)集市層收集到的信息,系統(tǒng)管理員可以獲取有價值的數(shù)據(jù),從而有助于優(yōu)化性能,有助于實(shí)現(xiàn)使用挖掘效率。
數(shù)據(jù)清洗是指根據(jù)需求對查詢?nèi)罩疚募M(jìn)行去噪處理,包括刪除無關(guān)緊要的數(shù)據(jù)、合并某些記錄、對用戶請求頁面時發(fā)生錯誤的記錄進(jìn)行適當(dāng)?shù)奶幚淼鹊取?/p>
2.用戶識別
用戶識別,是從查詢?nèi)罩疚募械拿恳粭l記錄中識別出查詢的用戶。一般通過三條規(guī)則,結(jié)合用戶提交的查詢信息便可以給不同的用戶賦予不同的用戶ID號。規(guī)則如下[4]:
(1)如果用戶的IP地址不同,則認(rèn)為是不同的用戶;
(2)如果IP地址相同,而代理agent日志中表明用戶的瀏覽器或操作系統(tǒng)改變了,則可以假設(shè)為兩個不同的用戶;
(3)將訪問日志、引用日志和站點(diǎn)拓?fù)浣Y(jié)構(gòu)相結(jié)合構(gòu)造用戶的瀏覽路徑。如果當(dāng)前請求的頁面同用戶已瀏覽的頁面間沒有鏈接關(guān)系,則認(rèn)為存在IP地址相同的多個用戶。
通過對各種查詢?nèi)罩疚募占?,之后進(jìn)行清洗過濾,消除查詢?nèi)罩局腥哂?、不正確和無用的數(shù)據(jù),整合成為關(guān)系數(shù)據(jù)模型(如表1所示)[5],到現(xiàn)在已經(jīng)可以開始建立查詢?nèi)罩玖⒎襟w。
3.建立查詢?nèi)罩玖⒎襟w
表1 部分導(dǎo)入到關(guān)系數(shù)據(jù)模型的查詢?nèi)罩?/p>
查詢?nèi)罩玖⒎襟w的核心是由事實(shí)表和維度表組成。事實(shí)表不只是可以使用數(shù)據(jù)的匯總,而且包括與相關(guān)聯(lián)的維度表的外鍵;維度表通過不同角度觀察分析事實(shí)表的記錄來描敘事實(shí)表中記錄的特性,如某一時間訪問的次數(shù)、來至某域名的查詢次數(shù)。查詢?nèi)罩玖⒎襟w中主要參照以下4種維度:
(1)時間維:反映查詢的日期和時間。
(2)頁面維:反映查詢了教育數(shù)據(jù)倉庫中的哪些目錄及頁面
(3)用戶維:反映查詢的域名信息
(4)工具維:反映使用什么方式訪問教育數(shù)據(jù)倉庫。
查詢?nèi)罩玖⒎襟w的結(jié)構(gòu)如圖3所示。
圖3 查詢?nèi)罩玖⒎襟w結(jié)構(gòu)
對于教育數(shù)據(jù)倉庫查詢?nèi)罩玖⒎襟w通過數(shù)據(jù)挖掘進(jìn)行內(nèi)容分析,能夠發(fā)現(xiàn)隱藏在查詢?nèi)罩局械脑L問規(guī)律,了解使用者查詢模式及行為模式,從而做出預(yù)測性分析,得到有價值的信息。數(shù)據(jù)挖掘階段首先要根據(jù)內(nèi)容分析的目標(biāo)確定挖掘任務(wù),根據(jù)內(nèi)容分析的知識類型選擇合適的挖掘算法,最后實(shí)施數(shù)據(jù)挖掘操作,運(yùn)用選定的挖掘算法從查詢?nèi)罩玖⒎襟w中抽取所需的知識。整個流程如圖4所示。
查詢?nèi)罩玖⒎襟w數(shù)據(jù)挖掘有3個問題需要關(guān)注:
(1)要針對查詢和行為模式確定挖掘目標(biāo)。對于過寬泛的群會使我們在龐雜的數(shù)據(jù)中,很難發(fā)現(xiàn)任何有價值的信息。
(2)要圈定合理的時間段和制定合理的數(shù)據(jù)規(guī)模,可以保證數(shù)據(jù)挖掘工作的順利進(jìn)行。過大和過小的數(shù)據(jù)量都不能使內(nèi)容分析的結(jié)果接近正確值;過小的數(shù)據(jù)量很難說明普遍性的問題,容易使結(jié)果產(chǎn)生偏差;過大的數(shù)據(jù)量則會明顯增加挖掘的難度,降低計算的效率。
(3)實(shí)際過程中可根據(jù)規(guī)則產(chǎn)生的實(shí)際數(shù)量和預(yù)定的目標(biāo)對最小支持度和最小可信度標(biāo)準(zhǔn)作適當(dāng)?shù)恼{(diào)整,以界定邊界規(guī)則的規(guī)模。
圖4 查詢?nèi)罩緝?nèi)容分析的流程圖
如對于使用者查詢教育數(shù)據(jù)倉庫的次序進(jìn)行序列分析,預(yù)測今后的查詢模式,進(jìn)而對所需數(shù)據(jù)進(jìn)行高速緩沖存儲,以改善教育數(shù)據(jù)的流通狀況等。挖掘的知識可通過規(guī)則、圖表、圖形等可視化的形式表現(xiàn)出來,還可對教育數(shù)據(jù)倉庫查詢?nèi)罩局械臄?shù)據(jù)進(jìn)行分類、關(guān)聯(lián)、比較、預(yù)測、聚類及時序分析等,下面就幾種常用的分析加以簡單地討論[6]:
(1)時序分析側(cè)重于分析數(shù)據(jù)間的前后關(guān)系,分析數(shù)據(jù)間的相似性、周期性??梢园l(fā)現(xiàn)某一類教育數(shù)據(jù)的訪問模式和訪問趨勢,進(jìn)而調(diào)整教育數(shù)據(jù)倉庫的存儲結(jié)構(gòu)和緩沖區(qū)域,以提高教育數(shù)據(jù)倉庫查詢的服務(wù)。對于教育數(shù)據(jù)倉庫的查詢?nèi)罩径?,時間序列分析是最重要的一種分析方法,因?yàn)榻逃龜?shù)據(jù)倉庫的查詢?nèi)罩緮?shù)據(jù)是根據(jù)查詢時間來記錄的。
(2)關(guān)聯(lián)分析可挖掘出隱藏在查詢?nèi)罩緮?shù)據(jù)間的相互關(guān)系。在查詢?nèi)罩玖⒎襟w挖掘中,可以用來發(fā)現(xiàn)教育數(shù)據(jù)倉庫上查詢之間的相互關(guān)系,從而能合理安排教育數(shù)據(jù)倉庫數(shù)據(jù)的優(yōu)化,提高教育數(shù)據(jù)倉庫的易用性和查詢率.
(3)聚類分析是一種無指導(dǎo)的分類方法。在查詢?nèi)罩玖⒎襟w挖掘中,可以根據(jù)查詢?nèi)罩緦ふ也樵冃袨橄嗨频拇亟M。教育數(shù)據(jù)倉庫就能夠?yàn)椴煌靥峁┎煌亩ㄖ苾?nèi)容,推薦個性化的查詢服務(wù),為教育領(lǐng)域整合、優(yōu)化和完善更多的教育資源。
基于教育數(shù)據(jù)倉庫查詢?nèi)罩镜膬?nèi)容分析最終體現(xiàn)為對于挖掘結(jié)果的解釋和評價:查詢?nèi)罩玖⒎襟w內(nèi)容分析即挖掘階段發(fā)現(xiàn)的結(jié)果和解釋,經(jīng)過評估,可能存在冗余或無關(guān)的知識,這時需要將其剔除;也有可能結(jié)果和解釋不能滿足要求,需要重復(fù)上述挖掘過程重新進(jìn)行挖掘。另外,基于教育數(shù)據(jù)倉庫查詢?nèi)罩镜膬?nèi)容分析最后可以使用可視化方式描述和展示,以易于理解。
基于教育數(shù)據(jù)倉庫查詢?nèi)罩镜膬?nèi)容分析可以發(fā)現(xiàn)系統(tǒng)在使用的過程中的查詢模式和查詢喜好,同時,能夠發(fā)現(xiàn)龐雜的查詢?nèi)罩緮?shù)據(jù)中存在的隱含關(guān)系,將查詢需求從定性分析上升到定量分析,這無疑對教育數(shù)據(jù)倉庫的查詢服務(wù)工作起到很好的指導(dǎo)作用。它不僅是教育數(shù)據(jù)倉庫建設(shè)合理的教育資源保障體系的重要依據(jù),也是教育數(shù)據(jù)倉庫開展以查詢需求為導(dǎo)向的各項(xiàng)服務(wù)工作的基礎(chǔ)。
在教育數(shù)據(jù)資源數(shù)量和規(guī)??焖僭鲩L的情況下,把數(shù)據(jù)挖掘技術(shù)應(yīng)用于教育數(shù)據(jù)倉庫查詢?nèi)罩镜膬?nèi)容分析是一項(xiàng)富有挑戰(zhàn)性的研究任務(wù)。本文論述了利用數(shù)據(jù)挖掘技術(shù)對教育數(shù)據(jù)倉庫查詢?nèi)罩具M(jìn)行方法和過程研究的同時,提出了關(guān)于查詢?nèi)罩镜膬?nèi)容分析,設(shè)計和實(shí)現(xiàn)了一個查詢?nèi)罩玖⒎襟w對教育數(shù)據(jù)倉庫查詢?nèi)罩具M(jìn)行聯(lián)機(jī)分析處理(OLAP)及數(shù)據(jù)挖掘,能夠有效解決龐大的教育數(shù)據(jù)倉庫查詢?nèi)罩镜墓芾砗头治鎏幚韱栴},并對使用數(shù)據(jù)立方體對教育數(shù)據(jù)倉庫查詢?nèi)罩具M(jìn)行挖掘進(jìn)行了有益的探討和研究。
數(shù)據(jù)挖掘(Data Mining—DM)技術(shù)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的模式的過程。模式也就是所挖掘出的信息和知識[7]。本文中把查詢?nèi)罩究醋魇窃紨?shù)據(jù),查詢?nèi)罩臼欠墙Y(jié)構(gòu)化的,將來的研究可以把用戶在查詢時候的查詢過程、查詢結(jié)果等行為的流數(shù)據(jù)作為原始數(shù)據(jù)?;诮逃龜?shù)據(jù)倉庫查詢的內(nèi)容分析在以日志作為基礎(chǔ)的前提下,將來加入查詢的流數(shù)據(jù)作為補(bǔ)充,內(nèi)容分析的方法可以使數(shù)學(xué)的,也可以是非數(shù)學(xué)的;挖掘的方式可以是演繹的,也可以是歸納的。基于教育數(shù)據(jù)倉庫查詢的內(nèi)容分析可以被用于數(shù)據(jù)的存儲和管理、查詢的優(yōu)化、決策的支持以及過程的控制等,還可以用于教育數(shù)據(jù)自身的維護(hù)。借助查詢的內(nèi)容分析,可以及時發(fā)現(xiàn)查詢中出現(xiàn)的問題,提高了教育數(shù)據(jù)倉庫查詢的效率和質(zhì)量。同時借助教育數(shù)據(jù)倉庫查詢的各種日志記載每次查詢性能及評價,方便日后的查閱及教育數(shù)據(jù)倉庫狀態(tài)的評估。
[1]張維明.數(shù)據(jù)倉庫原理和應(yīng)用[M].北京:電子工業(yè)出版社,2002:15.
[2]Wong J S K,Nayar R.A framework for a world wild web based data mining system[J2000(21):163-185.
[3]Ezeife,Lu Yi.Mining Web Log Sequential Patterns with Position Coded Pre-Order Linked WAP-Tree[J].2005(10):5 38.
[4]方杰,朱京紅.日志挖掘中的數(shù)據(jù)預(yù)處理[J].,2010(20):18.
[5]席景科,張辰,謝紅俠.基于數(shù)據(jù)倉庫的Web日志挖掘技術(shù)研究[J].(24):5891-5892.
[6]宋愛波,胡孔發(fā),董逸生.Web日志挖掘[J].東南大學(xué)學(xué)報,2002(1):15-18.
[7]畢長泉,曹健,王朝陽.基于高校圖書館流通日志的數(shù)據(jù)挖掘[Z].CHINA SCIENCE ANDTECHNOLOGY INFORMATION,2011(4):125.
[責(zé)任編輯:胡偉]
Content Analysis Based on Educational Data Warehouse Query Log
WANG Zheng
(School of Information and Engineering,Hunan First Normal University,Changsha,Hunan 410205)
The paper aims to analyze the SQL query to an educational data warehouse by individual users,and figure out the interest of the users and achieve improvement.Data excavation is employed in the former phase.Education data warehouse is a well-known database,which includes millions of query log information.
data excavation;data warehouse;educational data excavation;educational data warehouse
TP311.13
A
1674-831X(2016)02-0100-05
2015-11-12
汪政(1975-),男,湖南益陽人,碩士,湖南第一師范學(xué)院教師,主要從事大數(shù)據(jù)研究。