周清清 郭鑫
摘要:該文介紹了Web挖掘技術(shù)及其在校園教學(xué)資源共享系統(tǒng)中的典型應(yīng)用??梢酝ㄟ^(guò)Web數(shù)據(jù)挖掘高度自動(dòng)化地對(duì)校園教學(xué)資源共享系統(tǒng)中的海量信息進(jìn)行推理與挖掘,從而得到有價(jià)值的模式,并且預(yù)測(cè)用戶(hù)未來(lái)行為,有針對(duì)性地向他們推薦特定的教學(xué)資源。
關(guān)鍵詞:Web挖掘;教學(xué)資源;內(nèi)容挖掘
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)19-4364-02
如今這個(gè)信息化的時(shí)代,網(wǎng)絡(luò)已經(jīng)深入到我們的日常生活中了,通過(guò)網(wǎng)絡(luò)我們可以實(shí)現(xiàn)資源的共享,校園網(wǎng)教學(xué)資源共享系統(tǒng)就是一個(gè)資源共享平臺(tái),所有的校園網(wǎng)用戶(hù)可以通過(guò)這個(gè)系統(tǒng)訪(fǎng)問(wèn)各種教學(xué)資源,并且可以簡(jiǎn)單地獲取這些資源。但是,該系統(tǒng)的數(shù)據(jù)是海量的,所以如何從這么多的數(shù)據(jù)中找到對(duì)用戶(hù)有用的信息,是一個(gè)亟待解決的問(wèn)題,而Web挖掘技術(shù)正好為我們解決了這個(gè)問(wèn)題。
1 Web數(shù)據(jù)挖掘
1.1 Web數(shù)據(jù)挖掘概述
Web數(shù)據(jù)挖掘從數(shù)據(jù)挖掘發(fā)展而來(lái),都是在分析大量數(shù)據(jù)的基礎(chǔ)上,做出歸納性的推理,預(yù)測(cè)用戶(hù)的行為等。Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有它自身的特點(diǎn),首先Web挖掘的數(shù)據(jù)是數(shù)據(jù)量巨大,動(dòng)態(tài)性極強(qiáng)的,其次,Web上的數(shù)據(jù)是處于異構(gòu)數(shù)據(jù)庫(kù)中的,最后,Web挖掘的信息多樣性,根據(jù)web對(duì)象不一樣,可以分為三大類(lèi):web結(jié)構(gòu)挖掘、內(nèi)容挖掘與訪(fǎng)問(wèn)信息挖掘。
1) 內(nèi)容挖掘
指從Web內(nèi)容/數(shù)據(jù)/文檔中發(fā)現(xiàn)有用信息,Web上的信息五花八門(mén),傳統(tǒng)的Internet由各種類(lèi)型的服務(wù)和數(shù)據(jù)源組成,包括WWW、FTP、Telnet等,現(xiàn)在有更多的數(shù)據(jù)和端口可以使用,比如政府信息服務(wù)、數(shù)字圖書(shū)館、電子商務(wù)數(shù)據(jù),以及其他各種通過(guò) Web可以訪(fǎng)問(wèn)的數(shù)據(jù)庫(kù)。Web內(nèi)容挖掘的對(duì)象包括文本、圖象、音頻、視頻、多媒體和其他各種類(lèi)型的數(shù)據(jù)。其中針對(duì)無(wú)結(jié)構(gòu)化文本進(jìn)行的Web挖掘被歸類(lèi)到基于文本的知識(shí)發(fā)現(xiàn)(KDT)領(lǐng)域,也稱(chēng)文本數(shù)據(jù)挖掘或文本挖掘,是Web挖掘中比較重要的技術(shù)領(lǐng)域,也引起了許多研究者的關(guān)注。最近在Web多媒體數(shù)據(jù)挖掘方面的研究成為另一個(gè)熱點(diǎn)。
2) Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘是對(duì)Web頁(yè)面之間的鏈接結(jié)構(gòu)進(jìn)行挖掘。在整個(gè)Web空間里,有用的知識(shí)不僅包含在Web頁(yè)面的內(nèi)容之中,而且也包含在頁(yè)面的鏈接結(jié)構(gòu)之中。對(duì)于給定的Web頁(yè)面集合,通過(guò)結(jié)構(gòu)挖掘可以發(fā)現(xiàn)頁(yè)面之間的關(guān)聯(lián)信息,頁(yè)面之間的包含、引用或者從屬關(guān)系等。
3) Web訪(fǎng)問(wèn)信息挖掘
Web訪(fǎng)問(wèn)信息挖掘是對(duì)用戶(hù)訪(fǎng)問(wèn)Web時(shí)在服務(wù)器方留下的訪(fǎng)問(wèn)記錄進(jìn)行挖掘。通過(guò)分析日志記錄中的規(guī)律,可以識(shí)別用戶(hù)的忠實(shí)度、喜好、滿(mǎn)意度,可以發(fā)現(xiàn)潛在用戶(hù),增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。
1.2 校園網(wǎng)教學(xué)資源共享系統(tǒng)中Web數(shù)據(jù)挖掘的步驟
1) 首先要確定挖掘的對(duì)象,在校園網(wǎng)教學(xué)資源共享系統(tǒng)中主要的對(duì)象是校園網(wǎng)用戶(hù)。
2) 收集原始數(shù)據(jù)并將其作為數(shù)據(jù)源。
3) 進(jìn)行預(yù)處理,主要包括事務(wù)識(shí)別、數(shù)據(jù)清理、會(huì)話(huà)識(shí)別與格式化等過(guò)程,刪除掉無(wú)用的信息以提高挖掘效率。
4) 建立數(shù)據(jù)挖掘模型,利用數(shù)據(jù)模型進(jìn)行測(cè)試與模擬,得到相關(guān)的挖掘結(jié)果。
5) 進(jìn)行數(shù)據(jù)模式分析與挖掘,可以利用相關(guān)技術(shù)與驗(yàn)證方法來(lái)解釋挖掘結(jié)果,做出決策或豐富知識(shí)。
1.3 校園網(wǎng)教學(xué)資源共享系統(tǒng)中Web數(shù)據(jù)挖掘的數(shù)據(jù)源
① 服務(wù)器數(shù)據(jù):校園網(wǎng)用戶(hù)訪(fǎng)問(wèn)生成的web日志內(nèi)容,可以以文本形式存儲(chǔ)在web服務(wù)器上。
② 將圖片、圖像與文本數(shù)據(jù),特別是html內(nèi)容保存到服務(wù)器中。
③ 保存超鏈接數(shù)據(jù)。
④ 保存必要的用戶(hù)信息數(shù)據(jù)。
2 Web挖掘在校園網(wǎng)資源共享系統(tǒng)中應(yīng)用
2.1數(shù)據(jù)抽取方法在校園網(wǎng)資源共享系統(tǒng)中的應(yīng)用
利用數(shù)據(jù)抽取方法對(duì)零散的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行整理,得到有規(guī)則的知識(shí)與數(shù)據(jù),并且可以對(duì)數(shù)據(jù)進(jìn)行濃縮,把基本的與原始的數(shù)據(jù)從低層次轉(zhuǎn)化成高層次,為學(xué)生管理者提供決策依據(jù)。
2.2智能化搜索中進(jìn)行數(shù)據(jù)挖掘
如何滿(mǎn)足不同用戶(hù)的需求是我們亟待解決的一個(gè)很重要的問(wèn)題,所以我們?cè)谒阉饕嬷惺褂脭?shù)據(jù)技術(shù),構(gòu)建智能搜索引擎,從而提高搜索性能。
挖掘的方法主要包括文檔分類(lèi)、自動(dòng)生成、聚類(lèi)與分類(lèi)等,利用這些技術(shù)可以實(shí)現(xiàn)個(gè)性化的搜索引擎。使用戶(hù)能快速準(zhǔn)確地檢索到有價(jià)值的信息。通過(guò)對(duì)數(shù)據(jù)的聚類(lèi),可以將用戶(hù)的檢索結(jié)果合并在一起,縮小頁(yè)面的數(shù)量,提高搜索引擎的查準(zhǔn)率與查全率。
3 用戶(hù)關(guān)系管理中的數(shù)據(jù)挖掘技術(shù)應(yīng)用
1) 用戶(hù)關(guān)系管理概念
用戶(hù)關(guān)系管理是通過(guò)用戶(hù)與行為數(shù)據(jù)的收集,發(fā)現(xiàn)有用的潛在的用戶(hù),并不斷完善用戶(hù)服務(wù)和分析來(lái)滿(mǎn)足用戶(hù)的要求。
2) Web數(shù)據(jù)挖掘在用戶(hù)關(guān)系管理中的應(yīng)用
Web數(shù)據(jù)挖掘能夠幫助校園網(wǎng)教學(xué)資源共享系統(tǒng)確定用戶(hù)的特點(diǎn),使系統(tǒng)管理員能夠?yàn)橛脩?hù)提供有針對(duì)性的服務(wù)。
利用Web數(shù)據(jù)挖掘,可以理解訪(fǎng)問(wèn)者的動(dòng)態(tài)行為,據(jù)此優(yōu)化校園網(wǎng)教學(xué)資源共享系統(tǒng)的運(yùn)行。通過(guò)分類(lèi)技術(shù),對(duì)不同的用戶(hù)進(jìn)行個(gè)性化的服務(wù),以此來(lái)提高用戶(hù)的滿(mǎn)意度,挖掘出潛在的用戶(hù)信息,并提取出用戶(hù)的共用特征,幫助校園網(wǎng)教學(xué)資源共享系統(tǒng)更好地了解用戶(hù)的興趣,預(yù)測(cè)他們的需求,有針對(duì)性地向他們推薦特定的教學(xué)資源。
4 結(jié)論
本文對(duì)Web挖掘技術(shù)進(jìn)行了綜述,介紹了其在校園教學(xué)資源共享系統(tǒng)中的典型應(yīng)用。Web數(shù)據(jù)挖掘高度自動(dòng)化地對(duì)校園教學(xué)資源共享系統(tǒng)進(jìn)行有效的分析與挖掘,從中找出有用的信息,為管理者進(jìn)行服務(wù),有針對(duì)性地向他們推薦特定的教學(xué)資源。該技術(shù)已經(jīng)成為了數(shù)據(jù)挖掘領(lǐng)域中的熱點(diǎn)研究方向之一,利用該技術(shù)構(gòu)建校園教學(xué)資源共享系統(tǒng),可以得到很多有用信息,具有實(shí)際應(yīng)用價(jià)值,可以為高校的教學(xué)提供很大的幫助,對(duì)學(xué)生的自身發(fā)展也起了很大的作用,將Web挖掘應(yīng)用于一個(gè)基于Web服務(wù)技術(shù)的校園網(wǎng)教學(xué)資源系統(tǒng),整合這些教學(xué)資源,讓校園網(wǎng)內(nèi)用戶(hù)能夠透明的訪(fǎng)問(wèn),并為以后擴(kuò)展到互聯(lián)網(wǎng)訪(fǎng)問(wèn)做好技術(shù)準(zhǔn)備,服務(wù)于數(shù)字校園的建設(shè)服務(wù)于教學(xué)。
參考文獻(xiàn):
[1] 劉立軍,周軍,梅紅巖.Web使用挖掘的數(shù)據(jù)預(yù)處理[J].計(jì)算機(jī)科學(xué), 2009,34(5):200-201.
[2] 王海英,田志學(xué).Web使用挖掘在客戶(hù)關(guān)系管理中的應(yīng)用[J].計(jì)算機(jī)工程應(yīng)用,2008,23:200-223.
[3] 張偉.數(shù)據(jù)挖掘發(fā)展研究[J].計(jì)算機(jī)科學(xué),2008,28(7):79-81.
[4] 劉浪,王麗亞,黃海量.基于Web的數(shù)據(jù)倉(cāng)庫(kù)解決方案[J].計(jì)算機(jī)工程,2009,31(1):92-94.
[5] 馬宏偉,張光衛(wèi),李鵬.協(xié)同過(guò)濾推薦算法綜述[J].小型微型計(jì)算機(jī)系統(tǒng), 2012(7):1282-1288.
[6] 涂承勝,陸玉昌.Web使用挖掘技術(shù)研究[J].小型微型計(jì)算機(jī)系統(tǒng), 2011,25(7): 1177-1184.endprint