Web數(shù)據(jù)挖掘研究初探

2012-04-29 00:44:03倪靜

電腦知識與技術(shù) 2012年32期

倪靜

摘要：隨著大型數(shù)據(jù)庫的不斷涌現(xiàn)，不缺數(shù)據(jù)缺知識的矛盾日益突出。大量web信息中獲取有用的信息是web數(shù)據(jù)挖掘的關(guān)鍵問題。該文重點探討了Web挖掘的基本原理和關(guān)鍵技術(shù)，針對Web挖掘的分類進行了描述，論述了Web挖掘的挖掘流程、應(yīng)用領(lǐng)域及研究發(fā)展方向。

關(guān)鍵詞：數(shù)據(jù)挖掘；Web數(shù)據(jù)挖掘；Web內(nèi)容挖掘；Web使用挖掘；Web結(jié)構(gòu)挖掘

中圖分類號：TP311 文獻標識碼：A 文章編號：1009-3044（2012）32-7636-03

基于Internet的服務(wù)也飛速產(chǎn)生并發(fā)展起來，企業(yè)急需從Internet這個巨大的信息源中分析客戶行為，尋找商機。就是從這樣的商業(yè)角度考慮，在20世紀80年代末的時候數(shù)據(jù)挖掘（DataMining）技術(shù)被開發(fā)出來。Web數(shù)據(jù)挖掘就是在Web網(wǎng)絡(luò)基礎(chǔ)上引入數(shù)據(jù)挖掘的思想和方法。通過這一方法解決在Web網(wǎng)絡(luò)中遇到的一些問題，從而形成了Web數(shù)據(jù)挖掘?；赪eb網(wǎng)絡(luò)的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘領(lǐng)域的一個新的重要研究方向，它可以滿足電子商務(wù)未來發(fā)展趨勢的需要。

1Web數(shù)據(jù)挖掘的研究背景和國內(nèi)外現(xiàn)狀

有統(tǒng)計指出，我國境內(nèi)的Web站點已將近有200萬個，全國現(xiàn)有網(wǎng)民3億7千萬人。網(wǎng)上的信息量已經(jīng)遠遠超過人們的處理能力。Web站點每天都在發(fā)生著不斷的變化，網(wǎng)上的內(nèi)容在不斷的擴大和更新。龐大的快速增長的數(shù)據(jù)中一定有許多有價值的信息，如何發(fā)現(xiàn)并利用這些信息變成了擺在我們面前的一道難題?，F(xiàn)在利用數(shù)據(jù)挖掘技術(shù)與Web技術(shù)相結(jié)合形成Web挖掘，就是用來解決這個難題的有效方法。

2Web數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價值的信息或模式。數(shù)據(jù)挖掘是一種綜合了數(shù)據(jù)庫、人工智能以及統(tǒng)計學(xué)等多個學(xué)科技術(shù)的信息處理方法。通過對歷史積累的大量數(shù)據(jù)的有效挖掘，試圖從這些數(shù)據(jù)中提取出先前未知但有效和有用的知識[1-2]。

web挖掘是Web數(shù)據(jù)挖掘（WebDataMining）的簡稱，也可以被稱為Web知識發(fā)現(xiàn)（WebKnowledgeDiscovery），他是在數(shù)據(jù)挖掘的基礎(chǔ)上研究發(fā)展而來的，是數(shù)據(jù)挖掘技術(shù)在Web技術(shù)中應(yīng)用的體現(xiàn)。Web挖掘技術(shù)涉及眾多學(xué)科的知識，如數(shù)據(jù)庫技術(shù)、網(wǎng)絡(luò)技術(shù)、統(tǒng)計數(shù)學(xué)、人工智能等，是一個交叉性的研究領(lǐng)域。[7]

數(shù)據(jù)挖掘所需要的豐富的信息資源其實就蘊藏在Web中。Web中蘊藏了許多豐富和動態(tài)的超鏈接信息以及Web頁面的訪問和使用信息。而Web挖掘的主要工作就是從Web文檔和Web活動中發(fā)現(xiàn)并取得感興趣的潛在的有用模式和隱藏信息。

3Web數(shù)據(jù)挖掘的分類

Web數(shù)據(jù)挖掘可以被分為Web內(nèi)容挖掘（WebContentMining）、Web結(jié)構(gòu)挖掘（WebStructureMining）、Web使用記錄挖掘（WebUsageMining），這三大類。這三大類在實際使用過程中并不是獨立使用的，而是相互聯(lián)系、相互交叉和相互滲透的。關(guān)系如圖1所示。

（1）Web內(nèi)容挖掘

從Web頁面文檔內(nèi)容及后臺交易數(shù)據(jù)庫中發(fā)現(xiàn)有價值信息的過程稱為Web內(nèi)容挖掘。其實Web內(nèi)容挖掘我們可以理解為是從浩瀚無際的Web資源中發(fā)現(xiàn)信息、取得信息或資源的過程。Web內(nèi)容挖掘發(fā)現(xiàn)Web資源中的有效數(shù)據(jù)的方法是先對Web網(wǎng)頁上的內(nèi)容做資料挖掘，然后對Web的資源實行自動檢索。Web資源的形式是豐富多樣的，Web上的資源內(nèi)容主要包括網(wǎng)絡(luò)頁面上的內(nèi)容信息和頁面后臺在數(shù)據(jù)庫中發(fā)生的交易記錄等。頁面上的信息是非常豐富的，它包括文本、動畫、超鏈接、圖片、音頻／視頻之類的多媒體數(shù)據(jù)。Web內(nèi)容挖掘主要使用兩種方法：Web頁面內(nèi)容信息挖掘和搜索結(jié)果再次挖掘（即對初步搜索或挖掘的結(jié)果作進一步的改進挖掘處理）。

（2）Web結(jié)構(gòu)挖掘

WSM（WebStructureMining）是Web挖掘中的一個重要分類方向，它的主要工作方法是通過研究和分析各個網(wǎng)絡(luò)頁面之間的結(jié)構(gòu)信息，從而找到隱藏在頁面內(nèi)容之外有價值的信息的過程。

網(wǎng)頁正文，網(wǎng)頁所含的超文本標記以及網(wǎng)頁間的超鏈接，這三個部分組成了Web頁面中的有效信息。其實實際上，僅僅網(wǎng)頁之間的超鏈接，并不能代表Web的結(jié)構(gòu)：

從廣義上講，Web的結(jié)構(gòu)包含有：

①URL字符串中的目錄路徑結(jié)構(gòu)信息；

②網(wǎng)頁內(nèi)部內(nèi)容的可以用HTML、XML表示成的樹形結(jié)構(gòu)；

③網(wǎng)頁之間的超鏈接結(jié)構(gòu)。

Web結(jié)構(gòu)挖掘涉及到海量的計算信息數(shù)據(jù)，怎樣解決大量信息數(shù)據(jù)和有限的計算存儲空間之間的矛盾，怎樣提升數(shù)據(jù)挖掘算法的效率和實時性將是一個有待大家繼續(xù)深入探討研究的問題。

（3）Web使用記錄的挖掘[3]

網(wǎng)絡(luò)上的原始數(shù)據(jù)是Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘的對象。但是Web使用記錄的挖掘則卻和前兩者并不相同，它是對web上第二類數(shù)據(jù)即Web日志數(shù)據(jù)及相關(guān)數(shù)據(jù)的挖掘。Web使用記錄是通過挖掘Web訪問記錄發(fā)現(xiàn)有價值的數(shù)據(jù)，提取感興趣，有價值的模式。

通過分析這些信息數(shù)據(jù)，我們可以理解并且分析用戶的行為，從而發(fā)現(xiàn)電子商務(wù)的潛在客戶，幫助我們不斷地改善Web站點的結(jié)構(gòu)或為用戶提供個性化的服務(wù)，并且對Web服務(wù)器系統(tǒng)的性能進行改進。

Web使用記錄挖掘應(yīng)用的技術(shù)主要有路徑分析、關(guān)聯(lián)規(guī)則分析、序列模式分析、聚類分析、統(tǒng)計分析等。Web使用記錄挖掘可以發(fā)現(xiàn)潛在的用戶、改進電子商務(wù)網(wǎng)站的建設(shè)，增加個性化服務(wù)等。

這方面的研究主要有兩個方向：一般訪問模式挖掘和個性化的使用記錄挖掘。

4數(shù)據(jù)挖掘的主要技術(shù)

數(shù)據(jù)挖掘技術(shù)是多個不同學(xué)科領(lǐng)域的技術(shù)與成果結(jié)合的成果，現(xiàn)今的數(shù)據(jù)挖掘技術(shù)主要有人工智能、數(shù)據(jù)庫技術(shù)、概率與數(shù)理統(tǒng)計三個主要方面。以下是幾種比較常用的技術(shù)：

（1）關(guān)聯(lián)分析

關(guān)聯(lián)分析是指如果兩個或多個事物之間存在一定的關(guān)聯(lián)，那么其中一個事物就能通過其他事物進行預(yù)測[7]。它的目的是為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系。從大量的數(shù)據(jù)中發(fā)現(xiàn)其關(guān)聯(lián)知識在市場定位、決策分析和商業(yè)管理等領(lǐng)域是極為有用的。例如，網(wǎng)絡(luò)中的電子商店收集存儲了大量的客戶銷售數(shù)據(jù)，這些數(shù)據(jù)清晰地記錄了每個客戶的購買事務(wù)；比如交易的受理時間、顧客選擇購買的物品、物品的數(shù)量及金額等。商家可以通過利用這些數(shù)據(jù)使用關(guān)聯(lián)分析知道每個顧客進入電子商場購物時，商家想知道的是顧客會購買哪些商品？除了這個商品以外還會買什么，它們之間的聯(lián)系時什么？購買這些商品的顧客有什么共同的特點？通過得到的這些信息可以很好的幫助店家，制訂出針對商品和顧客管理的一系列商業(yè)決策，從而提高銷售額。

（2）聚類分析

數(shù)據(jù)庫中的數(shù)據(jù)可以規(guī)則分為一系列有意義的子集，稱為聚類。將由聚類所生成的一組數(shù)據(jù)對象的集合，他們之間的相似度比較高，每一個個體之間的；離得較近；不同組中的對象差異較大，個體之間距離則較遠。在實際情況的使用中，可以根據(jù)已有顧客的數(shù)據(jù)，可以利用聚類分析將掌握的客戶數(shù)據(jù)根據(jù)客戶之間的共同特點來細分的市場，比如追求相似利益的人群、具有相同愛好的人群、相同年齡層次的人群、相同收入水平的人群、相同職業(yè)特征的人群等等，制定正確的市場策略，使企業(yè)在如此激烈的競爭環(huán)境中取得有利位置。

（3）神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)的工作原理是對人類大腦思維系統(tǒng)的一個簡單的結(jié)構(gòu)模擬。人腦神經(jīng)元的基本功能是多個神經(jīng)元連接而成的多層網(wǎng)絡(luò)模仿而成。神經(jīng)網(wǎng)絡(luò)是仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)建立的非線性預(yù)測模型，通過學(xué)習(xí)進行模式識別。正是它的出現(xiàn)為許多傳統(tǒng)信息難以解決的問題提供了一種較為簡單有效的方法，所以近年來人工神經(jīng)網(wǎng)絡(luò)技術(shù)得到不斷成熟和發(fā)展。

（4）分類分析

數(shù)據(jù)挖掘中應(yīng)用比較頻繁的方法就是分類。分類是找出一組類別，能夠描述數(shù)據(jù)集合典型特征的模型，它具有此類數(shù)據(jù)的共同特點，可以用它來分類識別未知數(shù)據(jù)的歸屬或類別。

分類一般用于預(yù)測有限離散值。但某些情況下，需要預(yù)測某數(shù)值屬性的值（連續(xù)數(shù)值），在這種情況下分類就稱為預(yù)測。

（5）決策樹

決策樹從它的名字就不難發(fā)現(xiàn)它的結(jié)構(gòu)就像一棵樹。它利用樹的結(jié)構(gòu)將數(shù)據(jù)記錄進行分類，是一種預(yù)測模型。決策樹分類方法是一種通過構(gòu)造決策樹來發(fā)現(xiàn)訓(xùn)練集中分類知識的數(shù)據(jù)挖掘方法，其關(guān)鍵是能夠構(gòu)造出規(guī)模小、精度高的決策樹。例如，我們要分析一個公司的客戶接受某項新產(chǎn)品的情況，我們可以從中選取50個客戶，其中25個愿意接受并購買這個新產(chǎn)品的，25個不愿意接受并購買這個新產(chǎn)品的。我們通過建立決策樹的方法來來分析客戶的情況，并從中分析和尋找到一些潛藏的規(guī)則信息，然后幫助企業(yè)銷售。

5結(jié)束語

該文討論了Web數(shù)據(jù)挖掘的基本概念、基礎(chǔ)工作原理和所使用的關(guān)鍵技術(shù)。在未來隨著電子商務(wù)的迅速發(fā)展，Web數(shù)據(jù)挖掘有了更廣闊的舞臺。Web挖掘技術(shù)能夠幫助我們發(fā)現(xiàn)一些與用戶檢索的關(guān)鍵詞密切相關(guān)的有價值網(wǎng)頁，從而實現(xiàn)個性化檢索。它可以幫助商家發(fā)現(xiàn)和獲取客戶，對商家的市場策略進行調(diào)整和改進，并對其進行正確的決策指導(dǎo)，促進電子商務(wù)的發(fā)展。

參考文獻：

[1]LWu，P.S.Yu，A.Baliman.SpeedTracer：AWebusageminingandanalysist001.IBMSystemsJournal，37（1）：89-105，1998.

[2]N.Good，B.Schafer，J.Konstan，A.Borchers，B.Sarwar，J.Herlocker，andJ.Riedl，（1999）.CombiningCollaborativeFilteringWithPersonalAgentsforBetterRecommendations.InProceedingsoftheconference，439-446.

[3]韓家煒，孟小峰，王靜，等.Web挖掘研究[J].計算機研究與發(fā)展，2001，38（4）：405-414.

[4]JiaweiHanandMichelineKamber.DataMining：TechniqueandConcepts，MorganKaufmannPublishers，2001.

[5]李鳳慧.面向電子商務(wù)的web數(shù)據(jù)挖掘的研究[D].山東：山東科技大學(xué)，2004，6.

[6]JiaweiHan，MichelineKamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明，孟小峰，等，譯.北京：機械工業(yè)出版社，2001.

[7]Http：//blog.csdn.net/zhanghefu/archive/2007/03/25/1540495.aspx.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

Web數(shù)據(jù)挖掘研究初探