• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Web數(shù)據(jù)挖掘研究初探

      2012-04-29 00:44:03倪靜
      電腦知識與技術(shù) 2012年32期
      關(guān)鍵詞:數(shù)據(jù)挖掘

      倪靜

      摘要:隨著大型數(shù)據(jù)庫的不斷涌現(xiàn),不缺數(shù)據(jù)缺知識的矛盾日益突出。大量web信息中獲取有用的信息是web數(shù)據(jù)挖掘的關(guān)鍵問題。該文重點探討了Web挖掘的基本原理和關(guān)鍵技術(shù),針對Web挖掘的分類進行了描述,論述了Web挖掘的挖掘流程、應(yīng)用領(lǐng)域及研究發(fā)展方向。

      關(guān)鍵詞:數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘;Web內(nèi)容挖掘;Web使用挖掘;Web結(jié)構(gòu)挖掘

      中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2012)32-7636-03

      基于Internet的服務(wù)也飛速產(chǎn)生并發(fā)展起來,企業(yè)急需從Internet這個巨大的信息源中分析客戶行為,尋找商機。就是從這樣的商業(yè)角度考慮,在20世紀80年代末的時候數(shù)據(jù)挖掘(DataMining)技術(shù)被開發(fā)出來。Web數(shù)據(jù)挖掘就是在Web網(wǎng)絡(luò)基礎(chǔ)上引入數(shù)據(jù)挖掘的思想和方法。通過這一方法解決在Web網(wǎng)絡(luò)中遇到的一些問題,從而形成了Web數(shù)據(jù)挖掘?;赪eb網(wǎng)絡(luò)的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘領(lǐng)域的一個新的重要研究方向,它可以滿足電子商務(wù)未來發(fā)展趨勢的需要。

      1Web數(shù)據(jù)挖掘的研究背景和國內(nèi)外現(xiàn)狀

      有統(tǒng)計指出,我國境內(nèi)的Web站點已將近有200萬個,全國現(xiàn)有網(wǎng)民3億7千萬人。網(wǎng)上的信息量已經(jīng)遠遠超過人們的處理能力。Web站點每天都在發(fā)生著不斷的變化,網(wǎng)上的內(nèi)容在不斷的擴大和更新。龐大的快速增長的數(shù)據(jù)中一定有許多有價值的信息,如何發(fā)現(xiàn)并利用這些信息變成了擺在我們面前的一道難題?,F(xiàn)在利用數(shù)據(jù)挖掘技術(shù)與Web技術(shù)相結(jié)合形成Web挖掘,就是用來解決這個難題的有效方法。

      2Web數(shù)據(jù)挖掘概述

      數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價值的信息或模式。數(shù)據(jù)挖掘是一種綜合了數(shù)據(jù)庫、人工智能以及統(tǒng)計學(xué)等多個學(xué)科技術(shù)的信息處理方法。通過對歷史積累的大量數(shù)據(jù)的有效挖掘,試圖從這些數(shù)據(jù)中提取出先前未知但有效和有用的知識[1-2]。

      web挖掘是Web數(shù)據(jù)挖掘(WebDataMining)的簡稱,也可以被稱為Web知識發(fā)現(xiàn)(WebKnowledgeDiscovery),他是在數(shù)據(jù)挖掘的基礎(chǔ)上研究發(fā)展而來的,是數(shù)據(jù)挖掘技術(shù)在Web技術(shù)中應(yīng)用的體現(xiàn)。Web挖掘技術(shù)涉及眾多學(xué)科的知識,如數(shù)據(jù)庫技術(shù)、網(wǎng)絡(luò)技術(shù)、統(tǒng)計數(shù)學(xué)、人工智能等,是一個交叉性的研究領(lǐng)域。[7]

      數(shù)據(jù)挖掘所需要的豐富的信息資源其實就蘊藏在Web中。Web中蘊藏了許多豐富和動態(tài)的超鏈接信息以及Web頁面的訪問和使用信息。而Web挖掘的主要工作就是從Web文檔和Web活動中發(fā)現(xiàn)并取得感興趣的潛在的有用模式和隱藏信息。

      3Web數(shù)據(jù)挖掘的分類

      Web數(shù)據(jù)挖掘可以被分為Web內(nèi)容挖掘(WebContentMining)、Web結(jié)構(gòu)挖掘(WebStructureMining)、Web使用記錄挖掘(WebUsageMining),這三大類。這三大類在實際使用過程中并不是獨立使用的,而是相互聯(lián)系、相互交叉和相互滲透的。關(guān)系如圖1所示。

      (1)Web內(nèi)容挖掘

      從Web頁面文檔內(nèi)容及后臺交易數(shù)據(jù)庫中發(fā)現(xiàn)有價值信息的過程稱為Web內(nèi)容挖掘。其實Web內(nèi)容挖掘我們可以理解為是從浩瀚無際的Web資源中發(fā)現(xiàn)信息、取得信息或資源的過程。Web內(nèi)容挖掘發(fā)現(xiàn)Web資源中的有效數(shù)據(jù)的方法是先對Web網(wǎng)頁上的內(nèi)容做資料挖掘,然后對Web的資源實行自動檢索。Web資源的形式是豐富多樣的,Web上的資源內(nèi)容主要包括網(wǎng)絡(luò)頁面上的內(nèi)容信息和頁面后臺在數(shù)據(jù)庫中發(fā)生的交易記錄等。頁面上的信息是非常豐富的,它包括文本、動畫、超鏈接、圖片、音頻/視頻之類的多媒體數(shù)據(jù)。Web內(nèi)容挖掘主要使用兩種方法:Web頁面內(nèi)容信息挖掘和搜索結(jié)果再次挖掘(即對初步搜索或挖掘的結(jié)果作進一步的改進挖掘處理)。

      (2)Web結(jié)構(gòu)挖掘

      WSM(WebStructureMining)是Web挖掘中的一個重要分類方向,它的主要工作方法是通過研究和分析各個網(wǎng)絡(luò)頁面之間的結(jié)構(gòu)信息,從而找到隱藏在頁面內(nèi)容之外有價值的信息的過程。

      網(wǎng)頁正文,網(wǎng)頁所含的超文本標記以及網(wǎng)頁間的超鏈接,這三個部分組成了Web頁面中的有效信息。其實實際上,僅僅網(wǎng)頁之間的超鏈接,并不能代表Web的結(jié)構(gòu):

      從廣義上講,Web的結(jié)構(gòu)包含有:

      ①URL字符串中的目錄路徑結(jié)構(gòu)信息;

      ②網(wǎng)頁內(nèi)部內(nèi)容的可以用HTML、XML表示成的樹形結(jié)構(gòu);

      ③網(wǎng)頁之間的超鏈接結(jié)構(gòu)。

      Web結(jié)構(gòu)挖掘涉及到海量的計算信息數(shù)據(jù),怎樣解決大量信息數(shù)據(jù)和有限的計算存儲空間之間的矛盾,怎樣提升數(shù)據(jù)挖掘算法的效率和實時性將是一個有待大家繼續(xù)深入探討研究的問題。

      (3)Web使用記錄的挖掘[3]

      網(wǎng)絡(luò)上的原始數(shù)據(jù)是Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘的對象。但是Web使用記錄的挖掘則卻和前兩者并不相同,它是對web上第二類數(shù)據(jù)即Web日志數(shù)據(jù)及相關(guān)數(shù)據(jù)的挖掘。Web使用記錄是通過挖掘Web訪問記錄發(fā)現(xiàn)有價值的數(shù)據(jù),提取感興趣,有價值的模式。

      通過分析這些信息數(shù)據(jù),我們可以理解并且分析用戶的行為,從而發(fā)現(xiàn)電子商務(wù)的潛在客戶,幫助我們不斷地改善Web站點的結(jié)構(gòu)或為用戶提供個性化的服務(wù),并且對Web服務(wù)器系統(tǒng)的性能進行改進。

      Web使用記錄挖掘應(yīng)用的技術(shù)主要有路徑分析、關(guān)聯(lián)規(guī)則分析、序列模式分析、聚類分析、統(tǒng)計分析等。Web使用記錄挖掘可以發(fā)現(xiàn)潛在的用戶、改進電子商務(wù)網(wǎng)站的建設(shè),增加個性化服務(wù)等。

      這方面的研究主要有兩個方向:一般訪問模式挖掘和個性化的使用記錄挖掘。

      4數(shù)據(jù)挖掘的主要技術(shù)

      數(shù)據(jù)挖掘技術(shù)是多個不同學(xué)科領(lǐng)域的技術(shù)與成果結(jié)合的成果,現(xiàn)今的數(shù)據(jù)挖掘技術(shù)主要有人工智能、數(shù)據(jù)庫技術(shù)、概率與數(shù)理統(tǒng)計三個主要方面。以下是幾種比較常用的技術(shù):

      (1)關(guān)聯(lián)分析

      關(guān)聯(lián)分析是指如果兩個或多個事物之間存在一定的關(guān)聯(lián),那么其中一個事物就能通過其他事物進行預(yù)測[7]。它的目的是為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系。從大量的數(shù)據(jù)中發(fā)現(xiàn)其關(guān)聯(lián)知識在市場定位、決策分析和商業(yè)管理等領(lǐng)域是極為有用的。例如,網(wǎng)絡(luò)中的電子商店收集存儲了大量的客戶銷售數(shù)據(jù),這些數(shù)據(jù)清晰地記錄了每個客戶的購買事務(wù);比如交易的受理時間、顧客選擇購買的物品、物品的數(shù)量及金額等。商家可以通過利用這些數(shù)據(jù)使用關(guān)聯(lián)分析知道每個顧客進入電子商場購物時,商家想知道的是顧客會購買哪些商品?除了這個商品以外還會買什么,它們之間的聯(lián)系時什么?購買這些商品的顧客有什么共同的特點?通過得到的這些信息可以很好的幫助店家,制訂出針對商品和顧客管理的一系列商業(yè)決策,從而提高銷售額。

      (2)聚類分析

      數(shù)據(jù)庫中的數(shù)據(jù)可以規(guī)則分為一系列有意義的子集,稱為聚類。將由聚類所生成的一組數(shù)據(jù)對象的集合,他們之間的相似度比較高,每一個個體之間的;離得較近;不同組中的對象差異較大,個體之間距離則較遠。在實際情況的使用中,可以根據(jù)已有顧客的數(shù)據(jù),可以利用聚類分析將掌握的客戶數(shù)據(jù)根據(jù)客戶之間的共同特點來細分的市場,比如追求相似利益的人群、具有相同愛好的人群、相同年齡層次的人群、相同收入水平的人群、相同職業(yè)特征的人群等等,制定正確的市場策略,使企業(yè)在如此激烈的競爭環(huán)境中取得有利位置。

      (3)神經(jīng)網(wǎng)絡(luò)

      神經(jīng)網(wǎng)絡(luò)的工作原理是對人類大腦思維系統(tǒng)的一個簡單的結(jié)構(gòu)模擬。人腦神經(jīng)元的基本功能是多個神經(jīng)元連接而成的多層網(wǎng)絡(luò)模仿而成。神經(jīng)網(wǎng)絡(luò)是仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)建立的非線性預(yù)測模型,通過學(xué)習(xí)進行模式識別。正是它的出現(xiàn)為許多傳統(tǒng)信息難以解決的問題提供了一種較為簡單有效的方法,所以近年來人工神經(jīng)網(wǎng)絡(luò)技術(shù)得到不斷成熟和發(fā)展。

      (4)分類分析

      數(shù)據(jù)挖掘中應(yīng)用比較頻繁的方法就是分類。分類是找出一組類別,能夠描述數(shù)據(jù)集合典型特征的模型,它具有此類數(shù)據(jù)的共同特點,可以用它來分類識別未知數(shù)據(jù)的歸屬或類別。

      分類一般用于預(yù)測有限離散值。但某些情況下,需要預(yù)測某數(shù)值屬性的值(連續(xù)數(shù)值),在這種情況下分類就稱為預(yù)測。

      (5)決策樹

      決策樹從它的名字就不難發(fā)現(xiàn)它的結(jié)構(gòu)就像一棵樹。它利用樹的結(jié)構(gòu)將數(shù)據(jù)記錄進行分類,是一種預(yù)測模型。決策樹分類方法是一種通過構(gòu)造決策樹來發(fā)現(xiàn)訓(xùn)練集中分類知識的數(shù)據(jù)挖掘方法,其關(guān)鍵是能夠構(gòu)造出規(guī)模小、精度高的決策樹。例如,我們要分析一個公司的客戶接受某項新產(chǎn)品的情況,我們可以從中選取50個客戶,其中25個愿意接受并購買這個新產(chǎn)品的,25個不愿意接受并購買這個新產(chǎn)品的。我們通過建立決策樹的方法來來分析客戶的情況,并從中分析和尋找到一些潛藏的規(guī)則信息,然后幫助企業(yè)銷售。

      5結(jié)束語

      該文討論了Web數(shù)據(jù)挖掘的基本概念、基礎(chǔ)工作原理和所使用的關(guān)鍵技術(shù)。在未來隨著電子商務(wù)的迅速發(fā)展,Web數(shù)據(jù)挖掘有了更廣闊的舞臺。Web挖掘技術(shù)能夠幫助我們發(fā)現(xiàn)一些與用戶檢索的關(guān)鍵詞密切相關(guān)的有價值網(wǎng)頁,從而實現(xiàn)個性化檢索。它可以幫助商家發(fā)現(xiàn)和獲取客戶,對商家的市場策略進行調(diào)整和改進,并對其進行正確的決策指導(dǎo),促進電子商務(wù)的發(fā)展。

      參考文獻:

      [1]LWu,P.S.Yu,A.Baliman.SpeedTracer:AWebusageminingandanalysist001.IBMSystemsJournal,37(1):89-105,1998.

      [2]N.Good,B.Schafer,J.Konstan,A.Borchers,B.Sarwar,J.Herlocker,andJ.Riedl,(1999).CombiningCollaborativeFilteringWithPersonalAgentsforBetterRecommendations.InProceedingsoftheconference,439-446.

      [3]韓家煒,孟小峰,王靜,等.Web挖掘研究[J].計算機研究與發(fā)展,2001,38(4):405-414.

      [4]JiaweiHanandMichelineKamber.DataMining:TechniqueandConcepts,MorganKaufmannPublishers,2001.

      [5]李鳳慧.面向電子商務(wù)的web數(shù)據(jù)挖掘的研究[D].山東:山東科技大學(xué),2004,6.

      [6]JiaweiHan,MichelineKamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,等,譯.北京:機械工業(yè)出版社,2001.

      [7]Http://blog.csdn.net/zhanghefu/archive/2007/03/25/1540495.aspx.

      猜你喜歡
      數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      河南科技(2014年23期)2014-02-27 14:18:43
      數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
      河南科技(2014年19期)2014-02-27 14:15:26
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
      高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會議
      肃北| 池州市| 洪雅县| 梧州市| 泸定县| 大荔县| 渝中区| 广东省| 南川市| 五台县| 镇原县| 盐城市| 浪卡子县| 衡水市| 承德市| 桃源县| 宜都市| 都江堰市| 定陶县| 澄城县| 长子县| 上林县| 台南市| 杭州市| 尉犁县| 竹山县| 永泰县| 保山市| 新闻| 皋兰县| 塘沽区| 河北区| 宝坻区| 崇礼县| 东山县| 犍为县| 临武县| 安宁市| 宁晋县| 徐汇区| 松江区|