• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Web日志挖掘在個(gè)性化網(wǎng)站中的應(yīng)用初探

      2011-09-19 08:46:30肖宏飛
      關(guān)鍵詞:瀏覽者日志頁(yè)面

      肖宏飛

      (滁州職業(yè)技術(shù)學(xué)院,安徽滁州239000)

      Web日志挖掘在個(gè)性化網(wǎng)站中的應(yīng)用初探

      肖宏飛

      (滁州職業(yè)技術(shù)學(xué)院,安徽滁州239000)

      本文分析了傳統(tǒng)網(wǎng)站系統(tǒng)的現(xiàn)狀及其弊端,針對(duì)這些問(wèn)題提出使用web日志挖掘技術(shù),對(duì)網(wǎng)站瀏覽者的行為進(jìn)行分析,并在此基礎(chǔ)上對(duì)瀏覽者訪問(wèn)網(wǎng)站的行為進(jìn)行預(yù)測(cè),從而為瀏覽者提供個(gè)性化的訪問(wèn)頁(yè)面,提供訪問(wèn)者的檢索效率,同時(shí)根據(jù)對(duì)瀏覽者訪問(wèn)記錄的web日志挖掘結(jié)果,改進(jìn)網(wǎng)站結(jié)構(gòu)及功能設(shè)計(jì)。

      web日志挖掘;個(gè)性化;網(wǎng)站改進(jìn)

      一、概述

      隨著網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展和互聯(lián)網(wǎng)的廣泛應(yīng)用,網(wǎng)站的數(shù)量已經(jīng)數(shù)以億計(jì),各式各樣的網(wǎng)站系統(tǒng)也層出不窮,其功能也越來(lái)越多,但大多數(shù)網(wǎng)站系統(tǒng)卻不能真正完全適應(yīng)瀏覽者的要求。其原因主要是忽視了瀏覽者日志這一重要信息,沒(méi)有給出針對(duì)日志信息的個(gè)性化服務(wù),降低了瀏覽者的訪問(wèn)速率。

      所謂的個(gè)性化網(wǎng)站服務(wù),就是一種有針對(duì)性的網(wǎng)站服務(wù)方式,根據(jù)用戶瀏覽習(xí)慣來(lái)設(shè)定,依據(jù)web日志對(duì)瀏覽者的興趣愛(ài)好、瀏覽習(xí)慣、關(guān)注資訊等相關(guān)資源,向用戶提供和推薦相關(guān)信息,以滿足用戶的需求。從整體上說(shuō),個(gè)性化網(wǎng)站服務(wù)打破了傳統(tǒng)的讓用戶來(lái)適應(yīng)網(wǎng)站系統(tǒng)的模式,能充分利用各種網(wǎng)絡(luò)資源優(yōu)勢(shì),主動(dòng)開(kāi)展以滿足用戶個(gè)性化需求為目的的全方位的web服務(wù)。個(gè)性化網(wǎng)站服務(wù)是一種網(wǎng)絡(luò)信息服務(wù)的方式,開(kāi)展網(wǎng)站個(gè)性化服務(wù)是提供信息檢索和信息資源有效使用的重要手段,突出了網(wǎng)站信息服務(wù)的主動(dòng)性,開(kāi)拓了網(wǎng)站信息服務(wù)的新思路。

      二、w eb日志挖掘介紹

      隨著internet的飛速發(fā)展,大量的數(shù)據(jù)囤積在互聯(lián)網(wǎng)上,在數(shù)據(jù)背后隱含著重要的知識(shí)。如何從互聯(lián)網(wǎng)數(shù)據(jù)中提取有用的信息,已成為當(dāng)今計(jì)算機(jī)技術(shù)研究的一個(gè)熱點(diǎn)課題。按照挖掘?qū)ο蟮牟煌?,一般將web挖掘分為3大類:web內(nèi)容挖掘、web結(jié)構(gòu)挖掘和web日志挖掘。

      Web日志挖掘是對(duì)用戶訪問(wèn)web時(shí)在服務(wù)器上面留下的訪問(wèn)日志進(jìn)行挖掘,即對(duì)用戶訪問(wèn)web站點(diǎn)的存取方式進(jìn)行挖掘,發(fā)現(xiàn)用戶的訪問(wèn)模式和興趣愛(ài)好等信息和知識(shí)。挖掘的目的是在海量的網(wǎng)絡(luò)數(shù)據(jù)中自動(dòng)、快速地發(fā)現(xiàn)用戶的訪問(wèn)模式,如訪問(wèn)路徑、檢索信息、用戶聚類等。分析和探索web日志記錄中的規(guī)律,可以識(shí)別網(wǎng)站的潛在用戶,增強(qiáng)對(duì)用戶的信息服務(wù)質(zhì)量,并通過(guò)對(duì)web日志的分析改進(jìn)網(wǎng)站結(jié)構(gòu)。web日志挖掘過(guò)程如下圖1所示。

      圖1 w eb日志挖掘過(guò)程

      三、web日志挖掘在個(gè)性化網(wǎng)站中的應(yīng)用

      下面以一個(gè)《網(wǎng)站動(dòng)畫(huà)設(shè)計(jì)》課程網(wǎng)站為例來(lái)說(shuō)明web日志挖掘的應(yīng)用。該網(wǎng)站主要欄目有:教學(xué)課件、實(shí)例視頻、教學(xué)大綱、作品展示、素材下載、在線答疑等,訪問(wèn)者主要為滁州職業(yè)技術(shù)學(xué)院信息工程系08級(jí)圖形圖像專業(yè)學(xué)生,網(wǎng)站采用學(xué)號(hào)注冊(cè)方式進(jìn)行訪問(wèn)。根據(jù)學(xué)員的訪問(wèn)記錄,在學(xué)員下次再訪問(wèn)該網(wǎng)站時(shí),推薦學(xué)員感興趣的知識(shí)點(diǎn)和相關(guān)資訊,以滿足不同興趣、不同訪問(wèn)目的的學(xué)員的需求,從而實(shí)現(xiàn)主動(dòng)推薦的目的。網(wǎng)站結(jié)構(gòu)如下圖2所示。

      圖2 《網(wǎng)站動(dòng)畫(huà)設(shè)計(jì)》網(wǎng)站結(jié)構(gòu)圖

      (一)數(shù)據(jù)收集及預(yù)處理

      瀏覽者在訪問(wèn)網(wǎng)站時(shí)會(huì)留下很多信息,如訪問(wèn)IP、訪問(wèn)時(shí)間、離開(kāi)時(shí)間、所請(qǐng)求URL資源、訪問(wèn)的HTTP狀態(tài)碼、客戶端瀏覽軟件等。在網(wǎng)站服務(wù)器上的原始的web日志中,不是所有的訪問(wèn)日志記錄對(duì)于web日志使用數(shù)據(jù)挖掘都是有用的,進(jìn)行web日志挖掘只需要對(duì)包含有用信息的日志記錄進(jìn)行挖掘,因此要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理是Web日志挖掘的重要環(huán)節(jié),其任務(wù)是將原始日志數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘和模式發(fā)現(xiàn)所必需的格式,預(yù)處理可以直接簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程,使結(jié)果更具客觀性。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充四個(gè)步驟。

      1、數(shù)據(jù)凈化

      所謂數(shù)據(jù)凈化,是指將等待處理的web日志數(shù)據(jù)導(dǎo)入到相關(guān)的關(guān)系數(shù)據(jù)表中,刪除web日志數(shù)據(jù)中不正確的值或者缺失值等信息,同時(shí)把與web日志挖掘無(wú)關(guān)的變量和數(shù)據(jù)進(jìn)行清理,達(dá)到簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程的目的。在本例中我們只保留了用戶名、時(shí)間、瀏覽地址等信息。

      2、用戶識(shí)別

      用戶識(shí)別,是將瀏覽者和訪問(wèn)頁(yè)面相關(guān)聯(lián)的過(guò)程。從web日志數(shù)據(jù)信息中找出每個(gè)瀏覽者的訪問(wèn)信息,避免web日志挖掘的重復(fù)性。目前,由于本地緩存、代理服務(wù)器和防火墻的存在,使得識(shí)別用戶的過(guò)程變得復(fù)雜。由于學(xué)院內(nèi)部采用統(tǒng)一代理IP上網(wǎng),所以所有學(xué)員的IP地址都是一樣的,由于網(wǎng)站采用學(xué)號(hào)注冊(cè)登錄,因此識(shí)別學(xué)員信息非常簡(jiǎn)單。通過(guò)表1我們可以直觀的得出有三個(gè)學(xué)員在訪問(wèn)。訪問(wèn)路徑分別是首頁(yè)-視頻-習(xí)題-首頁(yè)-資源,首頁(yè)-在線答疑-首頁(yè)-資源和首頁(yè)-習(xí)題-首頁(yè)-資源。如下表1所示。

      表1 原始日志信息(截取部分信息)

      3、會(huì)話識(shí)別

      會(huì)話識(shí)別是指同一個(gè)瀏覽者在一段時(shí)間內(nèi)連續(xù)請(qǐng)求訪問(wèn)的頁(yè)面進(jìn)行分析所得到的用戶會(huì)話。例如,時(shí)間跨度超過(guò)了規(guī)定的界限,則認(rèn)為是新的會(huì)話開(kāi)始。會(huì)話識(shí)別的目的是將用戶的訪問(wèn)序列分成單個(gè)的訪問(wèn)序列,以便為web數(shù)據(jù)挖掘打下基礎(chǔ)。通過(guò)表1我們可以可將會(huì)話分為首頁(yè)-視頻-習(xí)題、首頁(yè)-在線答疑、首頁(yè)-習(xí)題-首頁(yè)-資源和首頁(yè)-資源四個(gè)會(huì)話。

      4、補(bǔ)充路徑

      補(bǔ)充路徑,指通過(guò)web日志數(shù)據(jù)推斷出讀取緩存網(wǎng)頁(yè)的情況。由于客戶端緩存和代理服務(wù)器緩存,使得服務(wù)器的日志通常會(huì)遺漏一些重要的頁(yè)面請(qǐng)求。用戶瀏覽頁(yè)面時(shí)很可能使用瀏覽器的前進(jìn)和后退按鈕,或者使用一個(gè)曾經(jīng)點(diǎn)擊過(guò)的鏈接,導(dǎo)致當(dāng)前請(qǐng)求的頁(yè)面與上一次請(qǐng)求的頁(yè)面直接沒(méi)有超級(jí)鏈接。此時(shí)應(yīng)該根據(jù)用戶訪問(wèn)路徑的前后頁(yè)進(jìn)行推斷,檢查引用web日志確定當(dāng)前請(qǐng)求來(lái)自哪一個(gè)頁(yè)面,并將遺漏的頁(yè)面補(bǔ)充在路徑里。通過(guò)表1的分析我們可以得出,資源頁(yè)面和習(xí)題頁(yè)面不能相互直接達(dá)到,而是通過(guò)了首頁(yè)作為中轉(zhuǎn),形成完整的用戶會(huì)話。

      (二)模式識(shí)別

      模式識(shí)別,是對(duì)預(yù)處理后的web日志數(shù)據(jù)用數(shù)據(jù)挖掘算法來(lái)分析處理數(shù)據(jù),也就是對(duì)用戶的每一次訪問(wèn)序列集合進(jìn)行語(yǔ)義分組,分割成多個(gè)邏輯單元,為每個(gè)用戶建立有意義的數(shù)據(jù)聚集,然后把處理結(jié)果轉(zhuǎn)化為適合web日志挖掘所需的形式。

      (三)模式分析與應(yīng)用

      模式分析的目的在于使用各種數(shù)據(jù)挖掘技術(shù),發(fā)掘出隱藏在數(shù)據(jù)背后的規(guī)律和通用的模式。通過(guò)對(duì)原始數(shù)據(jù)做分析,找出用戶的瀏覽規(guī)律,為網(wǎng)站的規(guī)劃和網(wǎng)站結(jié)構(gòu)的調(diào)整提供具體理論依據(jù)。通過(guò)對(duì)圖2和表1的分析,我們可以看到,學(xué)員在訪問(wèn)視頻頁(yè)面的同時(shí),大部分會(huì)同時(shí)訪問(wèn)習(xí)題頁(yè)面,這樣我們就可以在學(xué)員下次打開(kāi)視頻頁(yè)面的時(shí)候,同時(shí)推薦相應(yīng)的習(xí)題資源,以便更好的為學(xué)員的學(xué)習(xí)開(kāi)展針對(duì)性的教學(xué)。

      四、結(jié)束語(yǔ)

      現(xiàn)在web日志挖掘已經(jīng)成為網(wǎng)絡(luò)研究、數(shù)據(jù)挖掘、個(gè)性化推薦等領(lǐng)域的熱點(diǎn)問(wèn)題。研究web日志挖掘?qū)τ趦?yōu)化web站點(diǎn)、個(gè)性化學(xué)習(xí)、信息檢索等領(lǐng)域,都有著十分重要的意義。本文簡(jiǎn)要的介紹了web日志挖掘?qū)τ趥€(gè)性化網(wǎng)站建設(shè)中的應(yīng)用。如何將這些技術(shù)深入、完善,并盡快運(yùn)用到網(wǎng)絡(luò)中,還需要進(jìn)一步的研究。

      [1]王麗娜.Web日志挖掘技術(shù)研究.光盤(pán)技術(shù)[J].2008,(4).

      [2]高哲,魏海平,王福威,趙曉碧.基于Web日志挖掘的Web文檔聚類[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,(9).

      [3]Richard J.Roiger,Michael W.Geatz.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2003.

      [4]李珊,袁方.基于Web日志挖掘的頁(yè)面興趣度方法的改進(jìn)[J].計(jì)算機(jī)時(shí)代,2007,(3).

      TP393.18

      A

      1671-5993(2011)01-0065-02

      2010-03-08

      肖宏飛(1983-),男,安徽蚌埠人,合肥工業(yè)大學(xué)在讀研究生,滁州職業(yè)技術(shù)學(xué)院教師。

      猜你喜歡
      瀏覽者日志頁(yè)面
      大狗熊在睡覺(jué)
      刷新生活的頁(yè)面
      一名老黨員的工作日志
      淺析網(wǎng)頁(yè)設(shè)計(jì)中色彩的運(yùn)用
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      新媒體界面設(shè)計(jì)中視覺(jué)傳達(dá)的效率問(wèn)題研究
      游學(xué)日志
      淺析教學(xué)網(wǎng)站中視覺(jué)傳達(dá)設(shè)計(jì)的體現(xiàn)
      大眾文藝(2014年5期)2014-03-12 02:09:59
      一種基于粗集和SVM的Web日志挖掘模型
      Flash動(dòng)畫(huà)設(shè)計(jì)在網(wǎng)站中的應(yīng)用
      峨眉山市| 武强县| 郓城县| 霍林郭勒市| 开江县| 和龙市| 乌苏市| 沙雅县| 凌海市| 任丘市| 东宁县| 商都县| 南投县| 昌黎县| 克什克腾旗| 健康| 扬中市| 鄂州市| 噶尔县| 永善县| 封开县| 连平县| 旺苍县| 东安县| 赫章县| 越西县| 常宁市| 丹寨县| 彭泽县| 通化县| 翼城县| 富蕴县| 新化县| 新郑市| 进贤县| 舒兰市| 清原| 内乡县| 安图县| 穆棱市| 柯坪县|