• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Web日志挖掘技術(shù)在電子商務(wù)網(wǎng)站優(yōu)化中的應(yīng)用

      2009-09-19 05:36:14裴大容
      關(guān)鍵詞:日志頁(yè)面數(shù)據(jù)挖掘

      裴大容

      摘要:應(yīng)用Web日志挖掘技術(shù)獲取用戶(hù)訪(fǎng)問(wèn)模式,對(duì)于電子商務(wù)網(wǎng)站的生存發(fā)展是十分有利的。Web日志 挖掘可以幫助指導(dǎo)站點(diǎn)改進(jìn)服務(wù)、調(diào)整結(jié)構(gòu)和實(shí)施有針對(duì)性的、個(gè)性化的商業(yè)行為,以便更好的滿(mǎn)足訪(fǎng)問(wèn)者的需要,從而提高網(wǎng)站交易的成功率。本文通過(guò)對(duì)Web日志挖掘的分析,提出了Web日志挖掘應(yīng)用系統(tǒng)模型和相關(guān)的關(guān)鍵算法。實(shí)踐證明,該模型和方法能夠有效服務(wù)于網(wǎng)站優(yōu)化

      關(guān)鍵詞:Web日志挖掘;網(wǎng)站優(yōu)化

      中圖法分類(lèi)號(hào):F724.6文獻(xiàn)標(biāo)識(shí)碼:A

      1Web日志挖掘技術(shù)及應(yīng)用分析

      Internet是信息社會(huì)的重要標(biāo)志,它的爆炸式的發(fā)展已經(jīng)超出人們預(yù)期的想象,為了更好的分析Web的使用和Web的結(jié)構(gòu),Web日志挖掘作為數(shù)據(jù)挖掘[1]的一個(gè)重要分支,隨著Web的發(fā)展而出現(xiàn)。1997年R.Cooley首先提出Web使用(日志)挖掘這個(gè)概念,它通過(guò)挖掘Web站點(diǎn)的訪(fǎng)問(wèn)日志,分析Web日志中存在的規(guī)律,掌握用戶(hù)訪(fǎng)問(wèn)站點(diǎn)的模式;從而幫助網(wǎng)站管理者識(shí)別潛在的客戶(hù)、更好地開(kāi)展電子商務(wù)、改善Internet的信息服務(wù)質(zhì)量和提高Web服務(wù)器的系統(tǒng)性能。

      Web 日志挖掘[2]作為數(shù)據(jù)挖掘的一個(gè)重要分支,已經(jīng)成為國(guó)際上一個(gè)新興的重要研究領(lǐng)域。其中最有代表性的是 WEBKDD 會(huì)議,從 1999 年到現(xiàn)在,WEBKDD已經(jīng)涌現(xiàn)了豐碩的成果。比較有代表性的研究成果有:Simon Fraser 大學(xué)的Weblog Miner系統(tǒng),它將 Web 日志數(shù)據(jù)組織為數(shù)據(jù)立方體,然后在其上進(jìn)行聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘[3],用于發(fā)現(xiàn)用戶(hù)的訪(fǎng)問(wèn)模式。Minnesota 大學(xué)的 WEBMINER 系統(tǒng)提出一種通用的 Web 日志挖掘的體系結(jié)構(gòu),該系統(tǒng)能自動(dòng)從 Web 日志中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則和序列模式等。

      Web 日志挖掘的研究主要應(yīng)用于網(wǎng)站優(yōu)化的以下幾個(gè)領(lǐng)域。

      1.1頻繁訪(fǎng)問(wèn)模式挖掘,指的是從 Web 日志中找到頻繁被訪(fǎng)問(wèn)的網(wǎng)頁(yè)序列,對(duì)被頻繁訪(fǎng)問(wèn)的網(wǎng)頁(yè)路徑進(jìn)行挖掘可以改進(jìn) Web 站點(diǎn)的結(jié)構(gòu)設(shè)計(jì),也可以為網(wǎng)站經(jīng)營(yíng)者提供決策參考。

      1.2用戶(hù)聚類(lèi),指的是從 Web 日志中找到訪(fǎng)問(wèn)模式相似的網(wǎng)站用戶(hù)群,發(fā)現(xiàn)這些網(wǎng)站用戶(hù)的共同特點(diǎn)。

      1.3用戶(hù)訪(fǎng)問(wèn)預(yù)測(cè)的研究,指的是根據(jù)用戶(hù)當(dāng)前的訪(fǎng)問(wèn)路徑預(yù)測(cè)用戶(hù)將來(lái)的訪(fǎng)問(wèn)頁(yè)面。

      1.4優(yōu)化客戶(hù)訪(fǎng)問(wèn)體驗(yàn)和提高網(wǎng)站收益:通過(guò)對(duì)客戶(hù)的訪(fǎng)問(wèn)模式進(jìn)行挖掘,可以發(fā)現(xiàn)潛在客戶(hù),對(duì)于一個(gè)電子商務(wù)網(wǎng)站來(lái)說(shuō),盡可能從眾多的訪(fǎng)問(wèn)者中發(fā)現(xiàn)潛在客戶(hù)群體,就意味著交易可能性的大大增加;同時(shí)通過(guò)Web日志數(shù)據(jù)挖掘,增加網(wǎng)站對(duì)客戶(hù)的粘性,延長(zhǎng)客戶(hù)在自己網(wǎng)站上的駐留時(shí)間,就更容易掌握客戶(hù)的瀏覽行為,改進(jìn)站點(diǎn)的設(shè)計(jì),提高電子商務(wù)的效益。

      要在網(wǎng)站優(yōu)化中具體應(yīng)用Web日志挖掘技術(shù),有兩個(gè)重點(diǎn)問(wèn)題要解決,一個(gè)是建立Web日志挖掘應(yīng)用系統(tǒng)模型,一個(gè)是采用適當(dāng)?shù)乃惴▽?duì)海量數(shù)據(jù)進(jìn)行精確分析。本文將對(duì)這兩方面的問(wèn)題做一個(gè)闡述。

      2面向電子商務(wù)的Web日志挖掘應(yīng)用系統(tǒng)模型

      面向電子商務(wù)的 Web日志挖掘系統(tǒng)模型主要有三個(gè)部分:數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘集成工具和圖形用戶(hù)界面(GUI)模塊。整個(gè)系統(tǒng)的結(jié)構(gòu)如圖1所示。

      在該模型下,用相關(guān)的關(guān)系型數(shù)據(jù)源創(chuàng)建數(shù)據(jù)庫(kù),并通過(guò)圖形用戶(hù)界面進(jìn)行管理和維護(hù),在此基礎(chǔ)之上支持各種數(shù)據(jù)挖掘任務(wù)、為數(shù)據(jù)挖掘提供數(shù)據(jù)平臺(tái)。數(shù)據(jù)挖掘集成工具是一個(gè)挖掘驅(qū)動(dòng)引擎,它是一個(gè)規(guī)則集合,能夠集成多種數(shù)據(jù)挖掘算法,到Web數(shù)據(jù)挖掘算法庫(kù)中選擇最有效的挖掘算法處理數(shù)據(jù)挖掘和決策推理工作,完整的挖掘數(shù)據(jù)預(yù)處理過(guò)程包含:數(shù)據(jù)凈化、用戶(hù)識(shí)別、會(huì)話(huà)識(shí)別、路徑補(bǔ)充、事務(wù)識(shí)別等幾個(gè)步驟。圖形用戶(hù)界面(GUI)用于用戶(hù)與系統(tǒng)的交互,用戶(hù)通過(guò) GUI 建立和執(zhí)行任務(wù),完成各項(xiàng)數(shù)據(jù)挖掘任務(wù),一般執(zhí)行數(shù)據(jù)挖掘任務(wù)得到的結(jié)果往往是一些抽象的模型或者數(shù)據(jù),一般用戶(hù)較難理解,GUI可以幫助用戶(hù)直觀明了地理解挖掘結(jié)果,管理人員可以通過(guò)瀏覽器方式實(shí)現(xiàn)系統(tǒng)管理,對(duì)數(shù)據(jù)挖掘發(fā)現(xiàn)的模式進(jìn)行解釋和評(píng)價(jià),過(guò)濾出有用的知識(shí),利用可視化技術(shù)將有意義的模式以圖形或邏輯可視化的形式表示。

      在該模型下進(jìn)一步拓展,可以建立相關(guān)的專(zhuān)家方法驅(qū)動(dòng)系統(tǒng)。其主要功能是利用挖掘出來(lái)的高價(jià)值信息去進(jìn)行相應(yīng)的應(yīng)用。其中,頁(yè)面訪(fǎng)問(wèn)情況可以用來(lái)指導(dǎo)網(wǎng)頁(yè)的重構(gòu),分析出的客戶(hù)消費(fèi)行為模式可以作為反饋信息,以客戶(hù)關(guān)系管理的方式對(duì)客戶(hù)進(jìn)行直接的點(diǎn)到點(diǎn)促銷(xiāo);根據(jù)客戶(hù)的訪(fǎng)問(wèn)模式,還可以給出客戶(hù)的定制化頁(yè)面,針對(duì)不同的消費(fèi)需求制定不同的促銷(xiāo)模式等。

      3應(yīng)用于電子商務(wù)網(wǎng)站優(yōu)化的頻繁路徑挖掘算法

      對(duì)Web站點(diǎn)的優(yōu)化可從兩個(gè)方面來(lái)考慮:一是通過(guò)對(duì)Web日志的挖掘,發(fā)現(xiàn)用戶(hù)訪(fǎng)問(wèn)頁(yè)面的相關(guān)性,從而在密切聯(lián)系的頁(yè)面之間增加鏈接,方便用戶(hù)使用;二是通過(guò)對(duì)Web日志的挖掘,發(fā)現(xiàn)用戶(hù)的期望位置,如果在期望位置的訪(fǎng)問(wèn)頻率高于實(shí)際位置的訪(fǎng)問(wèn)頻率,可考慮在期望位置和實(shí)際位置之間建立導(dǎo)航鏈接,從而實(shí)現(xiàn)對(duì)Web站點(diǎn)的優(yōu)化。無(wú)論是出于哪方面的,都要通過(guò)Web日志挖掘,分析用戶(hù)訪(fǎng)問(wèn)路徑來(lái)獲取用戶(hù)的瀏覽模式,這部分工作主要依靠頻繁路徑的挖掘來(lái)完成??梢哉f(shuō),對(duì)網(wǎng)站頻繁路徑的挖掘是網(wǎng)站優(yōu)化工作的基礎(chǔ)。本文重點(diǎn)對(duì)網(wǎng)站頻繁路徑的挖掘算法做一分析。

      挖掘頻繁訪(fǎng)問(wèn)路徑的主要步驟可以概括如下:

      3.1從原始日志文件中獲得 MFP

      3.2從 MFP 中獲得頻繁引用序列

      3.3從所有頻繁引用序列中獲得最大引用序列

      其中MFP指的是最大前向路徑。由于用戶(hù)會(huì)話(huà)在遍歷路徑時(shí)存在兩個(gè)移動(dòng)方向,一個(gè)是前進(jìn),即請(qǐng)求頁(yè)面是此前用戶(hù)會(huì)話(huà)中從未訪(fǎng)問(wèn)過(guò)的頁(yè)面,另一個(gè)是后退,即請(qǐng)求頁(yè)面是用戶(hù)會(huì)話(huà)中已經(jīng)訪(fǎng)問(wèn)過(guò)的頁(yè)面。最大前向路徑是用戶(hù)在會(huì)話(huà)的第一頁(yè)到回退的前一頁(yè)組成的路徑。

      我們首先要獲得MFP,獲得MFP 算法的主要思想是:

      假設(shè){x1,x2,…,xm}表示一個(gè)用戶(hù)會(huì)話(huà),{y1,y2,…,yj-1}表示一個(gè)潛在的 MFP,初始為空。Flag標(biāo)識(shí)當(dāng)前的訪(fǎng)問(wèn)方向是前進(jìn)還是后退。每次檢查用戶(hù)會(huì)話(huà)中的xi,試圖將其擴(kuò)充到潛在MFP中。

      (1)若xi∈{y1,y2,…,yj-1},則xi將作為yj加入潛在MFP中,并且將flag標(biāo)記為前進(jìn);

      (2)否則有xi=yk,其中1≤k

      若在此之前,F(xiàn)lag 表明的移動(dòng)方向是前進(jìn)。則將{y1,y2,…,yj-1}作為一個(gè)MFP 加入到結(jié)果集合。然后從潛在 MFP 中刪除頁(yè)面{yk+1,…,yj-1}。并設(shè)Flag 為向后移動(dòng)標(biāo)志,進(jìn)入下一輪循環(huán)。

      若Flag 表明的移動(dòng)方向是后退時(shí),則此時(shí)的{y1,y2,…,yj-1}不是MFP,直接刪除頁(yè)面{yk+1,…,yj-1},進(jìn)入下一輪循環(huán)。

      3)如果循環(huán)到用戶(hù)會(huì)話(huà)中的最后一頁(yè),F(xiàn)lag 標(biāo)志仍表明向前,則此時(shí){y1,y2,…,yj-1}是一個(gè) MFP。

      MFP算法的偽代碼如下:

      for 每個(gè)用戶(hù)會(huì)話(huà)

      {

      y1=x1; j=2; i=2;

      Flag = true;

      while(i≤m)

      {

      Found = false;

      for 1≤k

      {

      if(xi=yk)

      {

      if(Flag = true) 將{y1,y2,…,yj-1}作為MFP 輸出;

      j=k+1;

      ++i;

      Flag=false;

      Found=true;

      }

      }

      if( !Found )

      {

      yj=xi;

      ++j;

      ++i;

      Flag=true;

      }

      }

      if(Flag=true) 將{y1,y2,…,yj-1}作為MFP輸出;

      }

      接下來(lái)我們需要從MFP中找出所有頻繁遍歷路徑,本文提供一種基于Apriori 算法的改進(jìn)方案,具體描述如下:

      #1C1={所有的包含一個(gè)頁(yè)面的引用}

      #2L1={c∈C1 |c.count≥min_sup}

      #3for(i=2;Li-1≠Φ;++i){

      #4Ci=Generate_C(Li-1,)

      #5for each MFPt∈D{

      #6 Ct=Generate_Subset(Ci, t)

      #7 for each c∈Ct

      #8 c.count++;

      #10}

      #11 Li={c∈Ci | c.count≥min_sup}

      #12result=result∪Li

      #13 }

      其中: D表示事務(wù)數(shù)據(jù)庫(kù);min_sup表示給定的最小支持度;result 表示所有的頻繁引用集;c.count表示引用c在事務(wù)數(shù)據(jù)庫(kù)D中被包含的次數(shù)。第一行#1是產(chǎn)生所有只含一個(gè)頁(yè)面的引用出現(xiàn)的次數(shù),第二行#2通過(guò)C1和最小支持度min_sup產(chǎn)生頻繁1引用集L1。#3-#13行通過(guò)一個(gè)大的循環(huán)完成頻繁引用的生成,直到某個(gè)頻繁引用集合為空。

      該算法非常有效而且快速,整個(gè)過(guò)程只要遍歷兩次數(shù)據(jù)庫(kù)。通過(guò)實(shí)際網(wǎng)站優(yōu)化的案例來(lái)看,其分析的聚類(lèi)結(jié)果是比較符合客觀事實(shí)的。

      4結(jié)束語(yǔ)

      通過(guò)Web數(shù)據(jù)挖掘,我們可以從數(shù)以?xún)|計(jì)的存儲(chǔ)大量多種多樣信息的Web頁(yè)面中提取出我們需要的有用的知識(shí),在對(duì)總的用戶(hù)訪(fǎng)問(wèn)行為、頻度、內(nèi)容等的分析基礎(chǔ)上,可以得到關(guān)于群體用戶(hù)訪(fǎng)問(wèn)行為和方式的普遍知識(shí),通過(guò)對(duì)這些用戶(hù)特征的理解和分析, 可以有助于開(kāi)展有針對(duì)性的電子商務(wù)活動(dòng), 給每個(gè)用戶(hù)個(gè)性化的界面,提供個(gè)性化的電子商務(wù)服務(wù)。

      本文提出了一種有效算法,該算法通過(guò)改進(jìn)經(jīng)典的關(guān)聯(lián)規(guī)則中的 Apriori 算法,實(shí)現(xiàn)了最大頻繁引用序列的挖掘過(guò)程。在挖掘最大頻繁引用序列的基礎(chǔ)上進(jìn)行電子商務(wù)網(wǎng)站優(yōu)化,不僅可以提高訪(fǎng)問(wèn)者的查詢(xún)速度, 節(jié)省了不必要的網(wǎng)絡(luò)開(kāi)銷(xiāo),而且對(duì)于提高網(wǎng)站自身的質(zhì)量和聲譽(yù)也是大有裨益的。

      參考文獻(xiàn):

      [1]J.Han and M. Kamber,Data Mining:concepts and techniques,2006.

      [2]韓家煒,孟小峰,李盛思.WEB挖掘研究.計(jì)算機(jī)研究與發(fā)展,2001,38(4):405-414.

      [3]林杰斌.數(shù)據(jù)挖掘與OLAP.清華大學(xué)出版社,2003(1).

      猜你喜歡
      日志頁(yè)面數(shù)據(jù)挖掘
      大狗熊在睡覺(jué)
      刷新生活的頁(yè)面
      一名老黨員的工作日志
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      游學(xué)日志
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      一種基于粗集和SVM的Web日志挖掘模型
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      光山县| 城口县| 抚远县| 龙陵县| 都江堰市| 临泉县| 始兴县| 平昌县| 娄烦县| 蓝山县| 翁牛特旗| 龙岩市| 城固县| 万盛区| 友谊县| 三江| 互助| 佳木斯市| 车险| 玉龙| 镇远县| 淳安县| 玉环县| 周口市| 永城市| 太湖县| 方山县| 龙川县| 鲁山县| 慈利县| 临高县| 赣州市| 读书| 万年县| 大城县| 周宁县| 海南省| 镇原县| 屯门区| 黔东| 新和县|