Web數(shù)據(jù)挖掘系統(tǒng)的設計及關鍵技術研究

2019-07-14 00:06:56

探索科學(學術版) 2019年12期

西南科技大學四川綿陽 621000

在Web上有著大量的信息，當前數(shù)據(jù)挖掘領域所面臨的新問題就是如何從非格式化的數(shù)據(jù)信息中挖掘出有用的信息，與數(shù)據(jù)庫中所存在的信息不同，Web上的數(shù)據(jù)信息，沒有統(tǒng)一的格式，因為他無法向數(shù)據(jù)庫一樣，有著規(guī)范的結構，另外，對于數(shù)據(jù)對象的處理，Web挖掘技術與傳統(tǒng)數(shù)據(jù)挖掘技術之間也完全不同，一些異質的非結構化信息是傳統(tǒng)數(shù)據(jù)挖掘技術的死角，但自從Web挖掘技術應用以后，大量的Web信息資源，不再能夠用數(shù)據(jù)模型來表示，因為這些數(shù)據(jù)大部分是非結構化，或者是半結構化，因此，必須以很多個數(shù)據(jù)倉庫挖掘技術來進行Web的數(shù)據(jù)挖掘，顯然，這挑戰(zhàn)性是非常強的。

一、Web挖掘的概念

眾所周知，Web挖掘是數(shù)據(jù)挖掘的過程，在這個挖掘過程中主要針對的內容是Web頁面內容，用戶訪問信息，用戶注冊信息以及電子商務交易信息等等，在數(shù)據(jù)挖掘方法下，Web挖掘能夠獲取到很多有用的知識，借助Web挖掘技術，人們可以對站點設計進行改進，確保個性化服務能夠得到有效提供。因此一般情況下加等不利弊挖掘分為三種，分別是內容挖掘使用挖掘以及結構挖掘。

1.1 Web內容挖掘所以Web內容挖掘指的就是對Web頁面的內容進行挖掘，Web頁面內容中包括以音頻數(shù)據(jù)，圖像數(shù)據(jù)或文本數(shù)據(jù)為主的非結構化的數(shù)據(jù)，另外還包括這些數(shù)據(jù)相融合的多媒體數(shù)據(jù)等。

文本挖掘是Web挖掘的基礎，因此，在內容挖掘上，這種方式也占據(jù)主導地位，通常情況下，平面文本挖掘功能和方法與之相類似，相對于數(shù)據(jù)庫中的結構化數(shù)據(jù)來說，Web文檔的結構是比較有限的，甚至有的Web文檔根本沒有結構，這些是文本信息資源的主要特征，現(xiàn)有的很多數(shù)據(jù)挖掘技術之所以無法在文本上進行預處理，都與這些文本信息源的特征有關，為了成為文檔，中間的表現(xiàn)形式可以在挖掘過程中抽取其特征，并采用結構化的形式進行保存。以文本特征表示為基礎，對特征子集進行提取，文檔特征在子集算法上一般會選取一個評價函數(shù)，針對特征進行獨立的評估，這樣確保每一個特征都會有一個屬于自己的評估分，按照評估分的大小進行排序，選擇預訂數(shù)目最佳的特征，作為最終的結果，當Web文本實現(xiàn)結構化以后，Web上的大量文檔內容都可以進行總結分類，這一系列的挖掘工作都能夠得以實現(xiàn)。

1.2 Web結構挖掘對web頁面內部或者是之間的結構進行挖掘的基本思想，指的就是Web結構挖掘，Web，結構挖掘實際上，可以將其看做一個有相圖，W頁面是它的頂點，有相圖的編制的就是頁面間的超鏈接，結合圖論，對Web的拓樸結構進行分析，Web，結構的基本算法是hs，它有兩部分構成，分別是構造紙圖和迭代計算，Web結構挖掘以一個網頁的歸類為基礎，展開不同頁面關聯(lián)度與像素信息的獲取。

總的來看，Web文本挖掘與Web結構挖掘的局限性還是比較大的，前者對于頁面的拓撲結構信息沒有進行充分的考慮，后者對于Web，數(shù)據(jù)挖掘的文本信息沒有得到充分考慮，因此，在使用過程中，Web文本挖掘和Web結構挖掘進行結合，可謂是最好的使用方法，兩者結合對于Web頁面能夠實現(xiàn)更好的評價。

1.3 Web日志挖掘從Web訪問日志中發(fā)現(xiàn)到用戶的訪問模式，從而對用戶的測覽行為進行預測，就是Web的日志玩具，雖然Web屬于一個比較龐大的信息，但是每一個Web服務器中，訪問日志都得以保留，而且Web服務器中的日志結構非常完，你要用戶訪問Web戰(zhàn)，間頁面用戶的相關信息都能夠在日志中有所記錄，因此，Web日志挖掘主要是挖掘Web用戶訪問時的痕跡。

二、基于數(shù)據(jù)挖掘的Web挖掘系統(tǒng)

2.1 Web挖掘系統(tǒng)的邏輯架構以數(shù)據(jù)挖掘為基礎的Web挖掘系統(tǒng)模型為Web挖掘提供了一個良好的集成環(huán)境，這環(huán)境中，整個挖掘系統(tǒng)的整體性能得到有效提高，Web挖掘系統(tǒng)原型Web MS的三個邏輯層次。數(shù)據(jù)獲取層的主要功能是對半結構化的Web數(shù)據(jù)進行模型抽取和調換，并用結構化的數(shù)據(jù)來表示，最終抽取和轉換的結果，利用結果建立起多層次的Web數(shù)據(jù)庫，采用預籌里的手段，對Web服務器的日志數(shù)據(jù)進行處理，這樣Web日志數(shù)據(jù)庫就形成了。在數(shù)據(jù)存儲層多層Web數(shù)據(jù)庫，以及Web日志數(shù)據(jù)庫都被稱作Web信息庫。

2.2 Web MS原型 Web MS是Web，數(shù)據(jù)挖掘系統(tǒng)的原型，WebMS的基本挖掘功能多面性更強，使Web內容挖掘和使用挖掘在整個系統(tǒng)中得得到集成，在Web MS中多種挖掘算法都實現(xiàn)了嵌入，并且與系統(tǒng)中的其他模塊之間實現(xiàn)了緊密配合，結合Web挖掘方法庫調用方法以及接口規(guī)范，使Web挖掘能夠共同完成。

在整個系統(tǒng)內部中各個模塊之間的功能是相對獨立的，他們在使用過程中又產生了一定的協(xié)同配合，用戶的需求下，數(shù)據(jù)采集對Web資源進行搜索，在相關處理器過濾器的處理下，形成數(shù)據(jù)存儲形式，挖掘綜合器并能夠對這些數(shù)據(jù)進行使用，結合挖掘要求，挖掘綜合器可以在方法庫中選擇恰當?shù)姆椒▽ζ溥M行挖掘，并輸出挖掘結果，用戶根據(jù)結果，來判定是否結束任務，如果用戶滿意，那么任務就會隨時截止，如果用戶不滿意，則會對挖掘要求進行調整，從而進行新的挖掘，可以在系統(tǒng)維護過程中實現(xiàn)新挖掘方法的加入，這樣系統(tǒng)并能夠實現(xiàn)升級。

總結

Web挖掘可謂是當今最熱門的研究領域，而且伴隨著信息技術的不斷發(fā)展，這么個領域的應用前景非常廣闊，無論是在技術上，還是在工具上Web挖掘都具有無限的潛力，因此，在Web的挖掘上還應該更深入。

Web數(shù)據(jù)挖掘系統(tǒng)的設計及關鍵技術研究

一、Web挖掘的概念

二、基于數(shù)據(jù)挖掘的Web挖掘系統(tǒng)

總結

一、Web挖掘的概念

二、基于數(shù)據(jù)挖掘的Web挖掘系統(tǒng)