巫莉莉,張波,李濤
遠程教育是計算機技術(shù)和網(wǎng)絡(luò)技術(shù)在遠程教育領(lǐng)域中的應(yīng)用。它是建立在現(xiàn)代信息技術(shù)平臺上的一種教學(xué)模式,是傳統(tǒng)教育的一種補充[1]。隨著當(dāng)今計算機網(wǎng)絡(luò)技術(shù)的發(fā)展,遠程教育正在逐步展示著它的優(yōu)勢。遠程教育可以建構(gòu)起一種理想的學(xué)習(xí)環(huán)境,在這種虛擬空間中學(xué)習(xí),學(xué)生可以根據(jù)自己的需要進行有選擇、有目的學(xué)習(xí)和提高。學(xué)生之間圍繞當(dāng)前學(xué)習(xí)的主題討論交流,形成各自的理解,并表達自己解決問題的不同思路,相互分享各自的思維,相互評價,充分發(fā)揮了學(xué)生學(xué)習(xí)的能動性和自主性,也體現(xiàn)了教師在教學(xué)過程中的指導(dǎo)性。
遠程教育作為一種學(xué)習(xí)手段,使用于高等教育、職業(yè)教育和成人教育,它更是一種提供終身教育的良好手段。其教育對象存在著極大的差異性,主要體現(xiàn)在:個人學(xué)習(xí)目標不同、學(xué)習(xí)能力不同、認識風(fēng)格不同。這就必然決定了遠程教育必然是一種個別化的教育,遠程教學(xué)也必須是一種適應(yīng)個別化學(xué)習(xí)需求的個性化教學(xué)[2]。
然而,現(xiàn)有的遠程教育教學(xué)系統(tǒng)中仍然存在教學(xué)模式單一、動態(tài)交互能力不強、個人學(xué)習(xí)缺乏有效的引導(dǎo)等問題?,F(xiàn)有的遠程教育平臺大多不能解決個別化學(xué)習(xí)的需求,所以也就無法對學(xué)習(xí)者實施個性化的遠程學(xué)習(xí)服務(wù)。
我們可以將Web數(shù)據(jù)挖掘一般地定義為:從與WWW相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息。一般地,Web數(shù)據(jù)挖掘可分為三類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘[3]。
Web內(nèi)容挖掘是對Web頁面內(nèi)容進行挖掘。主要包括:
(1)從WWW上智能地提取信息的搜索工具;
(2)數(shù)據(jù)庫方法:把半結(jié)構(gòu)化的Web信息重構(gòu)得更結(jié)構(gòu)化一些,然后就可以使用標準化的數(shù)據(jù)庫查詢機制和數(shù)據(jù)挖掘方法進行分析。
(3)對HTML頁面內(nèi)容進行挖掘,對頁面中的文本進行文本挖掘,對頁面中的多媒體信息進行多媒體信息挖掘。包括對頁面內(nèi)容進行分類、聚類以及關(guān)聯(lián)規(guī)則發(fā)現(xiàn)。
Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘研究的是Web文檔的鏈接結(jié)構(gòu),揭示蘊含在這些文檔結(jié)構(gòu)中的有用模式,處理的數(shù)據(jù)是Web結(jié)構(gòu)數(shù)據(jù)。文檔間的超鏈接反映了文檔間的某種聯(lián)系,如包含、從屬、引用等[4]。其中比較有代表性的工具是Page Rank和CLEVER ,它們正是利用了文檔間的鏈接信息查找相關(guān)的Web 頁[5]。
Web使用挖掘
Web使用挖掘是對用戶訪問Web時在服務(wù)器留下的訪問記錄進行挖掘,即對用戶訪問Web站點的存取方式進行挖掘。挖掘的對象是在服務(wù)器上包括Server Log Data等日志。挖掘的手段是:①路徑分析;②關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn);③聚類和分類。
Web使用挖掘可以從Web服務(wù)器那里自動發(fā)現(xiàn)用戶存取Web頁面的模式,得出群體用戶或單個用戶的訪問模式和興趣[6]。
基于Web的數(shù)據(jù)挖掘一般流程經(jīng)過數(shù)據(jù)的采集、預(yù)處理、模式發(fā)現(xiàn)、模式的分析及其應(yīng)用幾個過程[7],見圖1所示。
圖1 Web數(shù)據(jù)挖掘流程
遠程教育站點能提供大量有用的信息。在遠程學(xué)習(xí)中,學(xué)生以學(xué)號登錄系統(tǒng),系統(tǒng)根據(jù)學(xué)號記錄學(xué)習(xí)行為,信息包括網(wǎng)絡(luò)日志(學(xué)習(xí)者登錄IP、學(xué)習(xí)者訪問URL、訪問時間、資源類型等)和相應(yīng)的學(xué)習(xí)記錄(學(xué)習(xí)者的學(xué)號、訪問的課程、訪問時間、停留時間等)[8]。
對數(shù)據(jù)進行預(yù)處理,去除原始數(shù)據(jù)中的無關(guān)信息,并識別用戶,對用戶的訪問進行會話識別和事務(wù)識別,為數(shù)據(jù)挖掘做準備。
(1)濾掉多余的記錄,合并相關(guān)數(shù)據(jù)并將不恰當(dāng)?shù)幕蛉哂嗟臄?shù)據(jù)項從數(shù)據(jù)集里清除。將Web服務(wù)器日志文件中記錄的網(wǎng)頁請求按照IP地址和訪問時間排列,可以過濾掉對圖形、圖象、聲音文件的訪問,這可以通過判斷文件的擴展名來實現(xiàn),或者是將圖形、圖象等文件轉(zhuǎn)換成可以進行分析的數(shù)據(jù)格式。其中要注意Web日志中status域的值是200才表明訪問成功,可以只取這個值的記錄;
(2)識別會話,標簽通過惟一的會話ID關(guān)聯(lián)點擊流記錄,驗證事件次數(shù)與描述該會話的記錄是否保持邏輯一致性。在對Web日志記錄掃描過程中,對于每一個來自不同IP地址的請求,都分配在一個表中,不同的IP地址表明不同的用戶。為了生成會話,我們可以設(shè)置一個閾值,例如,半個小時,如果對同一個IP地址,一條日志記錄同下一條記錄之間的時間間隔不大于該閾值,則認為這兩條記錄屬于同一個會話;
(3)根據(jù)用戶在每個頁面停留的時間,依據(jù)一個時間閾值,小于20秒或者大于600秒就表示對訪問的當(dāng)前頁面沒有興趣,大于20秒或者小于600秒就表示有興趣,保留有興趣的記錄。
(1)統(tǒng)計分析。通過分析學(xué)習(xí)者日志文件以及服務(wù)器數(shù)據(jù)庫中的數(shù)據(jù),讀出各種統(tǒng)計分析描述,如學(xué)習(xí)者在某頁面上停留的平均時間,學(xué)生作業(yè)及考試統(tǒng)計信息等等。
(2)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)。通過關(guān)聯(lián)規(guī)則對學(xué)生學(xué)習(xí)行為和學(xué)習(xí)記錄進行挖掘,計算出它們之間的關(guān)聯(lián)程度,發(fā)現(xiàn)各門學(xué)科之間以及學(xué)習(xí)者興趣知識點之間潛在的聯(lián)系,并動態(tài)地呈現(xiàn)給學(xué)生。
(3)分類聚類。對用戶進行分類聚類,根據(jù)聚類結(jié)果,可以將學(xué)生劃分成不同的類型,將學(xué)習(xí)興趣和學(xué)習(xí)習(xí)慣相似度大的學(xué)生劃分為一組,教師可根據(jù)每組學(xué)生的具體明確的情況,對教學(xué)做出適當(dāng)?shù)恼{(diào)整,真正做到因材施教。
(4)序列模式。序列是指在時間戳有序的事務(wù)集中挖掘訪問Web網(wǎng)頁的先后順序的模式,可以尋找用戶頻繁出現(xiàn)的序列,預(yù)測學(xué)習(xí)者行為,主動提供其需要的資源。
通過模式發(fā)現(xiàn)之后,生成的規(guī)則數(shù)目龐大,表達晦澀,得不到很好的利用,這就需要對模式進行分析評價,通過模式分析和應(yīng)用技術(shù)處理,選擇學(xué)習(xí)者易于理解和接受的方式顯現(xiàn)出來,在學(xué)習(xí)者學(xué)習(xí)過程中以可指導(dǎo)其學(xué)習(xí)和個性化的發(fā)展,具體應(yīng)用如下:
(1)構(gòu)建學(xué)習(xí)者個性特征庫。根據(jù)學(xué)習(xí)者不同的特征參數(shù),對學(xué)生學(xué)習(xí)活動進行跟蹤,記錄與學(xué)習(xí)相關(guān)的信息。包括經(jīng)常訪問的 URL、停留時間、訪問次數(shù)等等,建立個性特征庫,為不同的學(xué)習(xí)者提供個性化服務(wù);
(2)為學(xué)習(xí)者提供個性化的學(xué)習(xí)資源。針對不同類型的學(xué)習(xí)者,在個性特征庫的基礎(chǔ)上,通過調(diào)整遠程教育系統(tǒng)的網(wǎng)頁結(jié)構(gòu),過濾與學(xué)習(xí)者無關(guān)及不感興趣的資源。利用統(tǒng)計分析技術(shù)的可以根據(jù)學(xué)習(xí)者經(jīng)常訪問的頁面來預(yù)測其進一步的學(xué)習(xí)行為,主動提供其需要的學(xué)習(xí)資源,減少學(xué)習(xí)者的等待時間;
(3)個性化學(xué)習(xí)指導(dǎo)。不同的學(xué)習(xí)者其個人學(xué)習(xí)能力、興趣和學(xué)習(xí)習(xí)慣、努力程度等,都存在著一定的差異。對于每一個學(xué)習(xí)者,比如可以根據(jù)平時在學(xué)習(xí)某門課程時經(jīng)常訪問的知識點做出統(tǒng)計,然后定期或在考試前主動將這些知識點提供給學(xué)習(xí)者,增強其對該知識點的記憶,做到個性化的學(xué)習(xí)指導(dǎo)。
基于遠程教育平臺,結(jié)合Web數(shù)據(jù)挖掘技術(shù),了解和掌握學(xué)生學(xué)習(xí)的興趣、瀏覽模式、學(xué)習(xí)狀況、需要的導(dǎo)航幫助等,獲得有利于遠程教育的新鮮模式和規(guī)則,指導(dǎo)教學(xué)材料的安排、課件的設(shè)計和改進,提高遠程教育的質(zhì)量,構(gòu)建一個完善的網(wǎng)上虛擬教學(xué)系統(tǒng),使學(xué)生的遠程教育學(xué)習(xí)模式更加智能化、個性化。
設(shè)計目標
設(shè)計個性化的學(xué)習(xí)模式,優(yōu)化現(xiàn)有遠程教育平臺。主要設(shè)計目標如下:
1.根據(jù)學(xué)生的瀏覽模式重構(gòu)頁面之間的超鏈接,根據(jù)訪問流量情況,發(fā)現(xiàn)學(xué)生的需要和興趣,對需求強烈的網(wǎng)頁提供優(yōu)化,將更快、更有效的訪問方式展現(xiàn)給學(xué)生;
2.根據(jù)關(guān)聯(lián)分析可挖掘出隱藏在數(shù)據(jù)之間的關(guān)聯(lián)性,比如某些課程之間隱藏的某種相關(guān)性。教師以及教育管理者可根據(jù)這些重要信息來指導(dǎo)教學(xué)、修正試題難度系數(shù)等;
3.針對不同的學(xué)生,由聚類分析得知不同類型學(xué)生的興趣和愛好,向?qū)W生動態(tài)提供瀏覽的建議,提供遠程教育個性化服務(wù)。
體系結(jié)構(gòu)設(shè)計
從設(shè)計目標來分析,個性化的遠程教育平臺在邏輯上可以分為三個層次,即數(shù)據(jù)獲取/管理層、數(shù)據(jù)存儲層與數(shù)據(jù)分析/應(yīng)用層。
系統(tǒng)框架結(jié)構(gòu)設(shè)計框圖如圖2所示:
圖2 系統(tǒng)框架結(jié)構(gòu)
1.?dāng)?shù)據(jù)獲取/管理層
數(shù)據(jù)獲取/管理層主要是是應(yīng)用的用戶接口部分,它擔(dān)負著用戶與應(yīng)用間的對話功能以及實現(xiàn)對Web服務(wù)器的管理功能。通過用戶訪問遠程教育系統(tǒng),獲取用戶信息、Web日志信息等,實現(xiàn)數(shù)據(jù)采集功能;同時,系統(tǒng)管理員也可以通過Web服務(wù)器對系統(tǒng)進行管理。
2.?dāng)?shù)據(jù)存儲層
數(shù)據(jù)存儲層是進行Web數(shù)據(jù)挖掘的主體,用于存儲用戶信息庫、Web日志庫、試題庫等數(shù)據(jù)。這些數(shù)據(jù)根據(jù)目標進行抽取,經(jīng)清理、轉(zhuǎn)換等預(yù)處理,并按主題組織存放。
3.?dāng)?shù)據(jù)分析/應(yīng)用層
數(shù)據(jù)分析/應(yīng)用層是面向系統(tǒng)的管理者,運用數(shù)據(jù)挖掘算法對已經(jīng)預(yù)處理的數(shù)據(jù)進行分析,發(fā)現(xiàn)有利于優(yōu)化遠程教育以及學(xué)習(xí)個性化的模式,并對模式進行分析評價,應(yīng)用于遠程教育系統(tǒng)。
應(yīng)用模型設(shè)計
根據(jù)系統(tǒng)設(shè)計目標,應(yīng)用模型設(shè)計結(jié)構(gòu)如圖3所示。
圖3 應(yīng)用模型設(shè)計結(jié)構(gòu)
根據(jù)設(shè)計目標數(shù)據(jù)來源于知識庫,經(jīng)過數(shù)據(jù)采集后,在將這些數(shù)據(jù)經(jīng)過數(shù)據(jù)清理、轉(zhuǎn)換等預(yù)處理,并結(jié)合Web數(shù)據(jù)挖掘技術(shù)進行模式發(fā)現(xiàn),并分析和評價。再選取合適的規(guī)則應(yīng)用到遠程教育系統(tǒng)中,構(gòu)建個性化的遠程教育模式。其中與Web數(shù)據(jù)挖掘的結(jié)合研究是該模型實現(xiàn)的重點。
將Web數(shù)據(jù)挖掘技術(shù)和遠程教育充分的結(jié)合,利用現(xiàn)有的數(shù)據(jù)資源,運用數(shù)據(jù)挖掘算法找到課程之間、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計等之間的聯(lián)系。通過研究獲得有利的規(guī)則并應(yīng)用到現(xiàn)有遠程教育平臺中,完善遠程教育模式中出現(xiàn)的不足,使學(xué)生的學(xué)習(xí)從單純的被動信息索取轉(zhuǎn)變?yōu)橹鲃有畔@取,讓遠程教育更加個性化、智能化,發(fā)揮出遠程教育更大的優(yōu)勢。
[1] 王開源.高?,F(xiàn)代遠程教育的發(fā)展現(xiàn)狀分析與探討[J] .科技教育創(chuàng)新,2009,(6):242.
[2] 劉彤.Web數(shù)據(jù)挖掘技術(shù)在個性化遠程教育平臺中的應(yīng)用[J] . 科技信息,2008,(21):62.
[3] 韓家煒,孟小峰,王靜,李盛恩. Web挖掘研究[J] . 計算機研究與發(fā)展, 2001,4(38):406-407.
[4] 宋愛波,董逸生,吳文明等.Web挖掘研究綜述[J] .計算機科學(xué),2001,11 (28):15.
[5] 李國慧.Web數(shù)據(jù)挖掘研究[J] . 電腦知識與技術(shù),2008,(4):592.
[6] 王實,高文,李錦濤.Web數(shù)據(jù)挖掘[J] . 計算機科學(xué), 2000,4(27):28-29.
[7] 張建宇,葉長青. 基于Web的數(shù)據(jù)挖掘在遠程教育個性化學(xué)習(xí)授導(dǎo)中的應(yīng)用[J] . 教育技術(shù)導(dǎo)刊,2005,(10):29.
[8] 邱曉輝. 基于Web數(shù)據(jù)挖掘的個性化遠程教育系統(tǒng)的構(gòu)建[J] . 中國教育技術(shù)裝備,2007,(12):82.