摘 要:文章對(duì)Web數(shù)據(jù)挖掘技術(shù)的簡要介紹、Web數(shù)據(jù)挖掘的過程、電子商務(wù)平臺(tái)中Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用情況以及Web數(shù)據(jù)挖掘在電子商務(wù)中的作用分析四個(gè)方面的內(nèi)容進(jìn)行了詳細(xì)的分析和探討,從而詳細(xì)的論述了我國電子商務(wù)平臺(tái)中的Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用情況。
關(guān)鍵詞:電子商務(wù)平臺(tái);Web數(shù)據(jù)挖掘技術(shù);應(yīng)用研究
1 Web數(shù)據(jù)挖掘技術(shù)的簡要介紹
1.1 Web數(shù)據(jù)挖掘的定義。所謂的Web數(shù)據(jù)挖掘就是指借助于數(shù)據(jù)挖掘技術(shù)在Web服務(wù)和Web文檔中獲取我們所需要的信息,其是一項(xiàng)結(jié)構(gòu)較為復(fù)雜的綜合性技術(shù),涵蓋了計(jì)算機(jī)語言學(xué)、人工智能、數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)庫、Web技術(shù)以及統(tǒng)計(jì)學(xué)等眾多的領(lǐng)域。與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)所不同的是,Web數(shù)據(jù)挖掘主要的研究對(duì)象是以非結(jié)構(gòu)化文檔或是半結(jié)構(gòu)化文檔為中心的Web,它們的內(nèi)容和表示是相互交織的,并且沒有統(tǒng)一的模式,用語義信息也無法精確的描述出這些數(shù)據(jù)內(nèi)容,要想在結(jié)構(gòu)上對(duì)這些數(shù)據(jù)進(jìn)行描述就必須依靠HEML語法。
1.2 Web數(shù)據(jù)挖掘的分類。(1)Web結(jié)構(gòu)挖掘。超文本文檔相互之間是有著緊密的聯(lián)系的,所以,WWW在可以顯示出文檔內(nèi)容的同時(shí),也可以顯示出它們之間的關(guān)聯(lián)關(guān)系所代表的內(nèi)容,對(duì)頁面進(jìn)行排序時(shí)如果能夠很好的應(yīng)用這些信息,就能夠找到有重要應(yīng)用價(jià)值的頁面。其根本的作用就是要發(fā)現(xiàn)Web結(jié)構(gòu)和頁面結(jié)構(gòu),這樣就能夠準(zhǔn)確的對(duì)頁面進(jìn)行聚類和分類,從而找到我們需要的頁面;(2)Web內(nèi)容挖掘。這類Web挖掘技術(shù)就是指對(duì)Web上富含的大量文檔信息進(jìn)行有效的總結(jié)、聚類和分類,對(duì)其關(guān)聯(lián)性進(jìn)行詳細(xì)的分析,并進(jìn)行相應(yīng)的趨勢預(yù)測,一直到最后獲得有價(jià)值信息的過程。Web上的數(shù)據(jù)可以有文本、圖形、視頻、圖像以及聲音等多種類型,也可以是結(jié)構(gòu)化的數(shù)據(jù)或是無結(jié)構(gòu)的自由文本,其主要有Web多媒體挖掘和Web文本挖掘兩類;(3)Web使用挖掘。此類挖掘技術(shù)是指分析用戶訪問過的Web的歷史記錄,掌握用戶的瀏覽習(xí)慣和興趣,預(yù)測用戶可能發(fā)生的瀏覽行為,從而為其提供個(gè)性化的網(wǎng)絡(luò)服務(wù)。
2 Web數(shù)據(jù)挖掘的過程
2.1 Web資源搜集。此過程就是借助于蜘蛛和爬蟲等網(wǎng)頁抓取工具來在電子商務(wù)網(wǎng)站上搜集用戶使用的頁面信息,用戶請求的頁面就是游覽頁面,其是由腳本、圖片和框架等部分組成的。
2.2 預(yù)處理。此過程就是在原始數(shù)據(jù)中集中的除去那些可能對(duì)挖掘效果帶來負(fù)面影響的或是與挖掘過程無關(guān)的數(shù)據(jù)的過程,另外也會(huì)適當(dāng)?shù)膭h除數(shù)據(jù)的屬性,最后應(yīng)留下與挖掘過程相關(guān)的數(shù)據(jù)屬性。
2.3 特征抽取。此過程就是指對(duì)Web文本的內(nèi)容進(jìn)行分析、聚類、分類和過濾的過程,其對(duì)知識(shí)發(fā)現(xiàn)以及準(zhǔn)確的發(fā)現(xiàn)用戶的瀏覽興趣模式都是有著重要的影響。
2.4 模式發(fā)現(xiàn)。采用這種技術(shù)所發(fā)現(xiàn)的知識(shí)模式以及自動(dòng)的發(fā)掘模式,既是對(duì)整個(gè)文檔集合的趨勢和結(jié)構(gòu)所進(jìn)行的藐視,同時(shí)也是對(duì)上一級(jí)文檔的含義所進(jìn)行的描述和概括。
2.5 模式評(píng)價(jià)。此過程就是對(duì)所產(chǎn)生的模式進(jìn)行質(zhì)量評(píng)價(jià)的過程,質(zhì)量過關(guān)時(shí),就應(yīng)將這一知識(shí)模式存儲(chǔ)下來,質(zhì)量不符合要求時(shí),就應(yīng)進(jìn)行新一輪的挖掘,直到改進(jìn)過關(guān)為止。
3 電子商務(wù)平臺(tái)中Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用情況
3.1 路徑分析技術(shù)。這是一項(xiàng)尋找用戶經(jīng)常訪問路徑的技術(shù),總體來說,其就是簡化路徑的過程,對(duì)Web服務(wù)器中文件和日志中的用戶訪問站點(diǎn)的次數(shù)進(jìn)行詳細(xì)的分析,從而找到經(jīng)常訪問的路徑,幫助使用用戶以最快的速度找到其所需要的產(chǎn)品或是信息。在用戶訪問某網(wǎng)站時(shí),過多的中間頁面勢必會(huì)降低消費(fèi)者的瀏覽興趣,也提高了網(wǎng)站的維護(hù)成本,而這項(xiàng)技術(shù)就是有效的分析超鏈接之間的聯(lián)系以及網(wǎng)站各個(gè)頁面之間的聯(lián)系,掌握訪問次數(shù)最多的頁面,將其它無太大使用價(jià)值的刪除。
3.2 聚類分析。在市場細(xì)分時(shí)經(jīng)常要用到聚類分析技術(shù),將市場有效細(xì)分的依據(jù)就是顧客特征模式和購買行為的相似性,細(xì)分后應(yīng)針對(duì)每一個(gè)市場都制定有針對(duì)性的營銷策略。在電子商務(wù)平臺(tái)上,我們應(yīng)將有相似特性的用戶數(shù)據(jù)和信息整理到一起,總結(jié)和歸納出他們的相似需求和喜好,為用戶提供個(gè)性化的電子商務(wù)平臺(tái)上的服務(wù),為他們提供有建設(shè)性的購買建議,既提高了網(wǎng)絡(luò)營銷的效果,同時(shí)也培養(yǎng)了用戶的忠誠度。
3.3 分類。此項(xiàng)技術(shù)既可以用于破產(chǎn)預(yù)測和劃分顧客類別的工作中,也可以用于預(yù)測哪些購買人群對(duì)于贈(zèng)券和郵寄產(chǎn)品信息等促銷手段是感興趣的。如果是商業(yè)性質(zhì)的網(wǎng)站,分析用戶的訪問模式和相應(yīng)的客戶信息,就可以總結(jié)出用戶所訪問網(wǎng)站的特征,分類完成后,我們就可以掌握每一類客戶的興趣愛好,也能夠發(fā)現(xiàn)潛在的購買客戶,從而為每一類提供個(gè)性化的網(wǎng)絡(luò)服務(wù),并開展有針對(duì)性的商務(wù)活動(dòng)。
3.4 關(guān)聯(lián)分析。這項(xiàng)技術(shù)是一類在海量的數(shù)據(jù)或網(wǎng)絡(luò)信息中找到項(xiàng)集之間關(guān)聯(lián)性、項(xiàng)集的頻繁模式以及因果結(jié)構(gòu)和相互關(guān)系的技術(shù),采用這項(xiàng)技術(shù)能夠清楚的掌握用戶的購買喜好和購買習(xí)慣,從而制定出電子商務(wù)網(wǎng)站上的商品擺放策略和捆綁營銷策略。舉例來說,在淘寶網(wǎng)站上的運(yùn)動(dòng)服裝的頁面上,既會(huì)有運(yùn)動(dòng)服裝和運(yùn)動(dòng)鞋,同時(shí)也會(huì)有襪子、手套和帽子等配套產(chǎn)品的圖片鏈接,消費(fèi)者就可能一起購買,這對(duì)提高網(wǎng)站的銷售量是有著明顯的作用的。而優(yōu)化網(wǎng)站結(jié)構(gòu)的關(guān)聯(lián)分析技術(shù)則能夠找到網(wǎng)站中各種文件之間的關(guān)聯(lián)性,也能夠找到隱藏?cái)?shù)據(jù)之間的相互聯(lián)系,簡化用戶的瀏覽信息,并且用戶當(dāng)前的購買行為提供推薦,挖掘出各類購買群體之間訪問頁面的關(guān)聯(lián)性,不斷的優(yōu)化設(shè)計(jì)電子商務(wù)網(wǎng)站。
4 Web數(shù)據(jù)挖掘在電子商務(wù)中的作用分析
4.1 提高用戶滿意度并發(fā)現(xiàn)潛在消費(fèi)者。采用Web數(shù)據(jù)挖掘技術(shù),通過對(duì)用戶Web日志的挖掘,就能夠準(zhǔn)確的掌握用戶訪問Web頁面的普遍模式,對(duì)Web日志的規(guī)律加以分析,就可以輕易的識(shí)別出用戶的滿意度、喜好、需求以及忠誠度,同時(shí)也能夠發(fā)現(xiàn)潛在的消費(fèi)者,增強(qiáng)了電子商務(wù)網(wǎng)站的服務(wù)競爭力,對(duì)提升站點(diǎn)的銷售業(yè)績也是有著積極的促進(jìn)作用的。
4.2 提供個(gè)性化的服務(wù),更加商務(wù)和智能。針對(duì)每一個(gè)用戶的瀏覽站點(diǎn)的歷史記錄,了解他們的瀏覽習(xí)慣和購買興趣,同時(shí)對(duì)每一個(gè)用戶進(jìn)行建模,記錄用戶的基本信息并分析其購買需求和使用習(xí)慣,這樣在電子商務(wù)網(wǎng)站中,為每一個(gè)用戶都提供更具針對(duì)性的個(gè)性化服務(wù)。在分析潛在消費(fèi)者已經(jīng)訪問過的商品頁面的內(nèi)容后,應(yīng)向用戶提供大量的同類產(chǎn)品的鏈接頁面,這樣方便用戶進(jìn)行對(duì)比和選擇,用戶各個(gè)層次購買需求都能夠得到很好的滿足。
4.3 優(yōu)化網(wǎng)站的結(jié)構(gòu)。采用Web數(shù)據(jù)挖掘技術(shù),對(duì)于提升所建設(shè)的網(wǎng)站以及所設(shè)計(jì)的服務(wù)器的合理性也是十分有利的,同時(shí)也可以更好的組織和設(shè)計(jì)Web主頁,比如幫助改進(jìn)分布式網(wǎng)絡(luò)系統(tǒng)的結(jié)構(gòu),提升其設(shè)計(jì)的性能,在有高度相關(guān)的網(wǎng)站之間提供更加有效并且快速的訪問渠道;另外,也可以幫助商家制定更準(zhǔn)確的市場營銷策略。
通過以上的論述,我們對(duì)Web數(shù)據(jù)挖掘技術(shù)的簡要介紹、Web數(shù)據(jù)挖掘的過程、電子商務(wù)平臺(tái)中Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用情況以及Web數(shù)據(jù)挖掘在電子商務(wù)中的作用分析四個(gè)方面的內(nèi)容進(jìn)行了詳細(xì)的分析和探討。作為一個(gè)擁有海量數(shù)據(jù)信息資源的大型數(shù)據(jù)庫,如果在電子商務(wù)平臺(tái)中能夠較好的應(yīng)用Web數(shù)據(jù)挖掘技術(shù),準(zhǔn)確的掌握其工作的規(guī)律和模式,對(duì)商家制定正確的商業(yè)策略會(huì)提供重要的支持和保證。當(dāng)然,我們也應(yīng)不斷的完善Web數(shù)據(jù)挖掘技術(shù),其在電子商務(wù)平臺(tái)上有著廣闊的發(fā)展前景,商家所建設(shè)的電子商務(wù)網(wǎng)站將更加的科學(xué)和合理,增強(qiáng)了商家的市場競爭力,并為消費(fèi)者提供更加個(gè)性化的服務(wù)。
參考文獻(xiàn)
[1]夏火松.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:北京科學(xué)出版社,2009.
[2]郭曉晨.電子商務(wù)中的Web數(shù)據(jù)挖掘應(yīng)用研究[J].長春理工大學(xué)學(xué)報(bào),2012.
[3]魯俊.基于電子商務(wù)應(yīng)用的Web數(shù)據(jù)挖掘技術(shù)研究[J].電腦知識(shí)與技術(shù),2009.
[4]張冬青.數(shù)據(jù)挖掘在電子商務(wù)中應(yīng)用問題研究[J].現(xiàn)代情報(bào),2007.
作者簡介:王芳(1982-),女,籍貫:安徽肥東,青島大學(xué)畢業(yè),助教,研究方向:數(shù)據(jù)挖掘,數(shù)據(jù)庫。