• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于GSP算法的Web用戶訪問序列模式挖掘

      2016-01-09 14:31:42王子卿樊楠
      電腦知識與技術 2015年30期

      王子卿+樊楠

      摘要: 該文以某電子商務網(wǎng)站的Web訪問日志為研究對象,利用SQL Server提供的SSIS服務和T-SQL語句進行數(shù)據(jù)預處理,得到序列數(shù)據(jù)庫,然后用java語言編程實現(xiàn)GSP算法對其進行序列模式的挖掘測試分析,通過對結果分析可以做出對該網(wǎng)站布局和內(nèi)容(或產(chǎn)品)調(diào)整提供參考,使其更好為其用戶提供針對性的服務。

      關鍵詞: Web日志; 序列模式挖掘; GSP算法

      中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2015)30-0217-02

      隨著網(wǎng)絡服務的迅速發(fā)展,互聯(lián)網(wǎng)上已有龐大數(shù)量的網(wǎng)站,且還在不斷的建設,通過對網(wǎng)站服務器的操作和訪問進行專業(yè)而詳細的分析,可以了解網(wǎng)站的運行情況并能進一步發(fā)現(xiàn)網(wǎng)站所存在的缺陷,為促使網(wǎng)站更好的運營與發(fā)展提供可靠的技術支持與決策依據(jù)。為了能夠促使網(wǎng)站更好的運營與提供針對性與個性化的服務,必須要了解電子商務網(wǎng)站以及其所展示的各產(chǎn)品模塊的具體訪問情況,而這些信息只能通過獲取對Web服務器上網(wǎng)站的相關運行日志文件,并對其包含的數(shù)據(jù)信息進行統(tǒng)計與分析得到。

      互聯(lián)網(wǎng)用戶具有多樣性的特點,全球大概有10億多個網(wǎng)站,網(wǎng)民數(shù)量接近30億,他們來自不同的民族,具有不同層次的經(jīng)濟收入水平,具備不同的教育背景與不同的個人興趣,他們訪問的目的也均不同,但他們在瀏覽Web頁面過程中均留下了訪問信息。特別是像淘寶、京東等大型的電子商務網(wǎng)站,它們每天都有數(shù)億的在線交易額,而這些交易以及用戶的瀏覽(指沒有交易的用戶)都產(chǎn)生可謂海量的Web訪問日志數(shù)據(jù)。Web日志挖掘是Web大數(shù)據(jù)應用領域或者電子商務商業(yè)智能應用中的一個最為重要的內(nèi)容。

      本文以某電子商務網(wǎng)站的Web訪問日志為研究對象,利用SQL Server提供的SSIS服務和T-SQL語句進行數(shù)據(jù)預處理,得到序列數(shù)據(jù)庫,然后用java語言編程實現(xiàn)GSP(Generalized Sequential Patterns)算法對其進行序列模式的挖掘測試分析,通過對結果的分析可以為改善該網(wǎng)站的布局以及產(chǎn)品展示方式的調(diào)整提供參考。

      1 基于Web日志的序列挖掘

      Web日志序列挖掘一般分三個步驟,即數(shù)據(jù)預處理、挖掘算法處理以及模式分析。

      數(shù)據(jù)預處理主要是對Web日志進行序列挖掘之前的對原始日志文件進行數(shù)據(jù)轉(zhuǎn)換、清洗等一系列的操作,最終形成可供序列模式挖掘算法所使用的規(guī)范化數(shù)據(jù)。其具體工作主要包含數(shù)據(jù)凈化、會話識別、用戶識別以及路徑補充等過程。數(shù)據(jù)凈化工作主要是對挖掘中不需要的相關數(shù)據(jù)進行刪除操作;會話識別主要是對每個用戶在某一段時間內(nèi)的所有請求頁面進行分解從而得到用戶會話;用戶識別是將用戶和請求的頁面進行相關聯(lián)的過程,其中主要是處理多個用戶通過防火墻或代理服務器訪問站點的情況。在用戶識別的過程中,不僅需要服務器日志,還需要知道站點的拓撲結構;路徑補充過程就是將本地或代理服務器緩存所造成的遺留請求也補充完整。執(zhí)行上面的操作后,就得到了序列模式挖掘算法所需要的輸入信息(用戶會話文件),該文件中包含訪問Web站點的用戶,用戶請求的頁面及請求發(fā)生的順序,每一頁瀏覽的時間等信息[1]。

      挖掘算法處理主要是指在基于數(shù)據(jù)預處理的基礎上,通過實現(xiàn)某種序列算法得到挖掘結果,這些結果主要包括如每頁的訪問數(shù),最頻繁的訪問的頁面,每頁的平均瀏覽時間等。序列模式算法主要有兩類:一類是類Apriori算法,以GSP算法為代表,這種算法基于一個事實:一個序列是頻繁的,它的所有子序列必然是頻繁的;另一種挖掘序列模式的思想是基于數(shù)據(jù)庫投影的序列模式生長技術的應用,如PrefixSpan算法。

      模式分析是依據(jù)挖掘算法所得到的模式集合,再結合實際所感興趣的模式進行篩選和分析,然后采用可視化技術對這些模式作為挖掘的最終結果進行直觀和個性化的展示。

      2 基于GSP算法的實現(xiàn)流程

      序列模式挖掘一般分為五個步驟,這些步驟分別為排序階段、大項集階段、轉(zhuǎn)換階段、序列階段以及選最長序列階段。

      GSP算法的主要流程如圖1所示:

      1)序列數(shù)據(jù)庫進行掃描,得到長度為1的序列模式L1,作為初始的種子集。

      2)根據(jù)長度為i的種子集Li通過連接操作和剪切操作生成長度為i+1的候選序列模式Ci+1;然后掃描序列數(shù)據(jù)庫,計算每個候選序列的支持數(shù),產(chǎn)生長度為i+1的序列模式Li+1,并將Li+1作為新的種子集。

      3)重復第二步,直到?jīng)]有新的序列模式或候選序列模式產(chǎn)生為止。

      3 網(wǎng)站日志挖掘?qū)嵗治?/p>

      本文采用ECML_PKDD 2005會議提供的公共點擊流數(shù)據(jù),它收集了380多萬條電子商務網(wǎng)站的服務器日志記錄,每個日志文件包含的是一個小時所收集的記錄,每個文件包含的信息有時間、IP、會話標識、請求頁面和引用頁面等相關信息。日志記錄形式如下:

      16;1074661208;212.209.160.2;09b611d2583514c458f 8946841f880a5;/ls/?id=139;http://www.shop6.cz/

      其主要結構如表1所示。

      本文通過取該站點上的一個服務器日志文件,共計353K字節(jié),2978條記錄,為了減少算法的計算量以及提高數(shù)據(jù)挖掘結果的準確性,利用T-SQ語句和SQL Server的SSIS服務功能將原始數(shù)據(jù)文件進行數(shù)據(jù)轉(zhuǎn)換凈化、代理訪問的處理、用戶識別、會話識別、鏈接規(guī)范化、排序等數(shù)據(jù)預處理,然后得到序列數(shù)據(jù)庫,總共是179條記錄,107個序列。

      通過java編寫的GSP算法對該電子商務網(wǎng)站的訪問日志進行數(shù)據(jù)挖掘測試,根據(jù)GSP算法,我們將最小支持度設為8,得到了該電子商務網(wǎng)站的頻繁訪問序列總共計9條,其序列模式挖掘的結果如圖2所示:

      從運行的結果我們可以很容易看出,用戶對該網(wǎng)站的這9種產(chǎn)品相對比較感興趣,其中最感興趣的是該網(wǎng)站的Digital cameras產(chǎn)品。

      4 結束語

      本文利用SQL Server對某電子商務網(wǎng)站的日志進行了數(shù)據(jù)預處理并產(chǎn)生序列數(shù)據(jù)庫,并通過java編程實現(xiàn)GSP序列模式挖掘算法對其進行測試分析,通過對結果分析可以做出對該網(wǎng)站布局和內(nèi)容(或產(chǎn)品)調(diào)整提供參考,使其更好為其用戶提供針對性的服務。

      參考文獻:

      [1]朱鶴祥.Web日志挖掘中數(shù)據(jù)預處理算法的研究[D].大連:大連交通大學,2009.

      [2]汪莉棟. Web日志挖掘中數(shù)據(jù)預處理算法的研究及實現(xiàn)[D].貴陽:貴州大學,2008.

      [3]趙暢,楊冬青,唐世渭.Web日志序列模式挖掘[J]. 計算機應用,2000,20(9):15-18.

      [4]李林,崔志明.用戶Web日志序列模式挖掘研究[J]. 微機發(fā)展,2005,15(5): 119-121.

      [5]朱琳玲,胡學鋼,穆斌.基于Web的數(shù)據(jù)挖掘研究綜述[J].電腦與信息技術,2002,20(6):45-48.

      [6]王璟. Web使用記錄挖掘技術綜述[J].四川經(jīng)濟管理學院學報,2008,20(1):49-50.

      [7]王新,馬萬青,潘文林.基于Web日志的用戶訪問模式挖掘[J].計算機工程與應用,2006,21(9):156-158.

      [8]劉沛騫,郭海儒,袁玲玲.Web日志挖掘中的用戶訪問模式識別[J].雁北師范學院學報,2006(2).

      [9]邵峰品,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水電水利出版社,2003.

      [10]毛國群. 數(shù)據(jù)挖掘原理與算法[M].北京:清華大學出版社,2005.

      台前县| 扶绥县| 青州市| 樟树市| 武宣县| 慈利县| 洮南市| 闽清县| 巩义市| 墨脱县| 宜都市| 孟津县| 株洲县| 麻城市| 延津县| 南靖县| 汪清县| 报价| 吉木乃县| 房产| 遵化市| 嘉峪关市| 苗栗市| 于田县| 秦安县| 昆明市| 赫章县| 双辽市| 玛曲县| 泊头市| 双流县| 寿光市| 东莞市| 辽宁省| 平昌县| 罗山县| 河北区| 荥阳市| 凤凰县| 阿瓦提县| 忻城县|