• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Web數(shù)據(jù)挖掘系統(tǒng)的設計及關鍵技術研究

      2019-07-14 00:06:56
      探索科學(學術版) 2019年12期
      關鍵詞:日志結構化頁面

      西南科技大學 四川 綿陽 621000

      在Web上有著大量的信息,當前數(shù)據(jù)挖掘領域所面臨的新問題就是如何從非格式化的數(shù)據(jù)信息中挖掘出有用的信息,與數(shù)據(jù)庫中所存在的信息不同,Web上的數(shù)據(jù)信息,沒有統(tǒng)一的格式,因為他無法向數(shù)據(jù)庫一樣,有著規(guī)范的結構,另外,對于數(shù)據(jù)對象的處理,Web挖掘技術與傳統(tǒng)數(shù)據(jù)挖掘技術之間也完全不同,一些異質的非結構化信息是傳統(tǒng)數(shù)據(jù)挖掘技術的死角,但自從Web挖掘技術應用以后,大量的Web信息資源,不再能夠用數(shù)據(jù)模型來表示,因為這些數(shù)據(jù)大部分是非結構化,或者是半結構化,因此,必須以很多個數(shù)據(jù)倉庫挖掘技術來進行Web的數(shù)據(jù)挖掘,顯然,這挑戰(zhàn)性是非常強的。

      一、Web挖掘的概念

      眾所周知,Web挖掘是數(shù)據(jù)挖掘的過程,在這個挖掘過程中主要針對的內容是Web頁面內容,用戶訪問信息,用戶注冊信息以及電子商務交易信息等等,在數(shù)據(jù)挖掘方法下,Web挖掘能夠獲取到很多有用的知識,借助Web挖掘技術,人們可以對站點設計進行改進,確保個性化服務能夠得到有效提供。因此一般情況下加等不利弊挖掘分為三種,分別是內容挖掘使用挖掘以及結構挖掘。

      1.1 Web內容挖掘 所以Web內容挖掘指的就是對Web頁面的內容進行挖掘,Web頁面內容中包括以音頻數(shù)據(jù),圖像數(shù)據(jù)或文本數(shù)據(jù)為主的非結構化的數(shù)據(jù),另外還包括這些數(shù)據(jù)相融合的多媒體數(shù)據(jù)等。

      文本挖掘是Web挖掘的基礎,因此,在內容挖掘上,這種方式也占據(jù)主導地位,通常情況下,平面文本挖掘功能和方法與之相類似,相對于數(shù)據(jù)庫中的結構化數(shù)據(jù)來說,Web文檔的結構是比較有限的,甚至有的Web文檔根本沒有結構,這些是文本信息資源的主要特征,現(xiàn)有的很多數(shù)據(jù)挖掘技術之所以無法在文本上進行預處理,都與這些文本信息源的特征有關,為了成為文檔,中間的表現(xiàn)形式可以在挖掘過程中抽取其特征,并采用結構化的形式進行保存。以文本特征表示為基礎,對特征子集進行提取,文檔特征在子集算法上一般會選取一個評價函數(shù),針對特征進行獨立的評估,這樣確保每一個特征都會有一個屬于自己的評估分,按照評估分的大小進行排序,選擇預訂數(shù)目最佳的特征,作為最終的結果,當Web文本實現(xiàn)結構化以后,Web上的大量文檔內容都可以進行總結分類,這一系列的挖掘工作都能夠得以實現(xiàn)。

      1.2 Web結構挖掘 對web頁面內部或者是之間的結構進行挖掘的基本思想,指的就是Web結構挖掘,Web,結構挖掘實際上,可以將其看做一個有相圖,W頁面是它的頂點,有相圖的編制的就是頁面間的超鏈接,結合圖論,對Web的拓樸結構進行分析,Web,結構的基本算法是hs,它有兩部分構成,分別是構造紙圖和迭代計算,Web結構挖掘以一個網頁的歸類為基礎,展開不同頁面關聯(lián)度與像素信息的獲取。

      總的來看,Web文本挖掘與Web結構挖掘的局限性還是比較大的,前者對于頁面的拓撲結構信息沒有進行充分的考慮,后者對于Web,數(shù)據(jù)挖掘的文本信息沒有得到充分考慮,因此,在使用過程中,Web文本挖掘和Web結構挖掘進行結合,可謂是最好的使用方法,兩者結合對于Web頁面能夠實現(xiàn)更好的評價。

      1.3 Web日志挖掘 從Web訪問日志中發(fā)現(xiàn)到用戶的訪問模式,從而對用戶的測覽行為進行預測,就是Web的日志玩具,雖然Web屬于一個比較龐大的信息,但是每一個Web服務器中,訪問日志都得以保留,而且Web服務器中的日志結構非常完,你要用戶訪問Web戰(zhàn),間頁面用戶的相關信息都能夠在日志中有所記錄,因此,Web日志挖掘主要是挖掘Web用戶訪問時的痕跡。

      二、基于數(shù)據(jù)挖掘的Web挖掘系統(tǒng)

      2.1 Web挖掘系統(tǒng)的邏輯架構 以數(shù)據(jù)挖掘為基礎的Web挖掘系統(tǒng)模型為Web挖掘提供了一個良好的集成環(huán)境,這環(huán)境中,整個挖掘系統(tǒng)的整體性能得到有效提高,Web挖掘系統(tǒng)原型Web MS的三個邏輯層次。數(shù)據(jù)獲取層的主要功能是對半結構化的Web數(shù)據(jù)進行模型抽取和調換,并用結構化的數(shù)據(jù)來表示,最終抽取和轉換的結果,利用結果建立起多層次的Web數(shù)據(jù)庫,采用預籌里的手段,對Web服務器的日志數(shù)據(jù)進行處理,這樣Web日志數(shù)據(jù)庫就形成了。在數(shù)據(jù)存儲層多層Web數(shù)據(jù)庫,以及Web日志數(shù)據(jù)庫都被稱作Web信息庫。

      2.2 Web MS原型 Web MS是Web,數(shù)據(jù)挖掘系統(tǒng)的原型,WebMS的基本挖掘功能多面性更強,使Web內容挖掘和使用挖掘在整個系統(tǒng)中得得到集成,在Web MS中多種挖掘算法都實現(xiàn)了嵌入,并且與系統(tǒng)中的其他模塊之間實現(xiàn)了緊密配合,結合Web挖掘方法庫調用方法以及接口規(guī)范,使Web挖掘能夠共同完成。

      在整個系統(tǒng)內部中各個模塊之間的功能是相對獨立的,他們在使用過程中又產生了一定的協(xié)同配合,用戶的需求下,數(shù)據(jù)采集對Web資源進行搜索,在相關處理器過濾器的處理下,形成數(shù)據(jù)存儲形式,挖掘綜合器并能夠對這些數(shù)據(jù)進行使用,結合挖掘要求,挖掘綜合器可以在方法庫中選擇恰當?shù)姆椒▽ζ溥M行挖掘,并輸出挖掘結果,用戶根據(jù)結果,來判定是否結束任務,如果用戶滿意,那么任務就會隨時截止,如果用戶不滿意,則會對挖掘要求進行調整,從而進行新的挖掘,可以在系統(tǒng)維護過程中實現(xiàn)新挖掘方法的加入,這樣系統(tǒng)并能夠實現(xiàn)升級。

      總結

      Web挖掘可謂是當今最熱門的研究領域,而且伴隨著信息技術的不斷發(fā)展,這么個領域的應用前景非常廣闊,無論是在技術上,還是在工具上Web挖掘都具有無限的潛力,因此,在Web的挖掘上還應該更深入。

      猜你喜歡
      日志結構化頁面
      大狗熊在睡覺
      刷新生活的頁面
      一名老黨員的工作日志
      華人時刊(2021年13期)2021-11-27 09:19:02
      促進知識結構化的主題式復習初探
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      結構化面試方法在研究生復試中的應用
      計算機教育(2020年5期)2020-07-24 08:53:00
      游學日志
      基于圖模型的通用半結構化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      基于軟信息的結構化轉換
      一種基于粗集和SVM的Web日志挖掘模型
      郯城县| 梁山县| 顺义区| 沙雅县| 青浦区| 彩票| 汤原县| 长沙县| 通辽市| 宝丰县| 安国市| 新密市| 布尔津县| 博野县| 庐江县| 凤凰县| 五原县| 宽甸| 宜兰市| 客服| 财经| 梅州市| 甘肃省| 乡城县| 沅陵县| 高淳县| 革吉县| 枣阳市| 屏东市| 商南县| 偃师市| 三江| 布拖县| 章丘市| 海安县| 娄烦县| 开远市| 连江县| 化德县| 东兰县| 桃源县|