俞?,?/p>
(連云港職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,江蘇 連云港222006)
計算機Web數(shù)據(jù)挖掘技術(shù)在現(xiàn)代商業(yè)中的應(yīng)用探討
俞海瑩
(連云港職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,江蘇 連云港222006)
伴隨現(xiàn)代商業(yè)規(guī)模不斷的擴展以及信息化技術(shù)不斷的發(fā)展,在對大量商業(yè)信息進行處理之時,數(shù)據(jù)挖掘技術(shù)所起到的作用是巨大的.伴隨互聯(lián)網(wǎng)的不斷普及,使得數(shù)據(jù)挖掘技術(shù)也成為現(xiàn)代商業(yè)獲取市場信息極為重要的一個載體.文中就Web數(shù)據(jù)挖掘技術(shù)的挖掘過程以及特點進行了簡要介紹,并對Web數(shù)據(jù)挖掘技術(shù)在現(xiàn)代商業(yè)里的運用進行了重點研究,以期為我國Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用提供可供參考的意見和建議.
Web數(shù)據(jù)挖掘技術(shù);現(xiàn)代商業(yè);應(yīng)用
1.1 含義
從Web資源上面將知識或信息進行抽取的過程便是Web挖掘,它把傳統(tǒng)數(shù)據(jù)的挖掘方式和思想在Web中應(yīng)用,從Web活動或文檔中將感興趣、有用的、隱藏的、潛在的信息抽取出來.在許多方面Web技術(shù)都能發(fā)揮其作用,例如開發(fā)搜索引擎、挖掘引擎機構(gòu)、提高和改進搜索引擎的效率和質(zhì)量,以及確定權(quán)威頁面等.此項技術(shù)所覆蓋的范圍非常廣,包括統(tǒng)計學(xué)、信息獲取技術(shù)、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫技術(shù)等.尤其是在電子商務(wù)的領(lǐng)域中,它通過對用戶特征進行分析和理解,例如對用戶訪問內(nèi)容、頻率以及行為等進行分析,將用戶特征提取出來,進而為用戶指定較為個性的界面,從而幫助電子商務(wù)企業(yè)展開有目的性的活動.
1.2 Web數(shù)據(jù)挖掘的類別
Web數(shù)據(jù)挖掘技術(shù)最主要包括三大類:第一類是Web使用記錄的挖掘,也就是通過網(wǎng)絡(luò)將Web日志記錄挖掘出來,將潛在客戶和用戶訪問模式等信息查找出來,從而使此站點服務(wù)競爭力得以提升.第二類便是Web內(nèi)容的挖掘,也就是指從Web文檔里面將知識抽取出來的過程.第三類則是Web的結(jié)構(gòu)挖掘,它是指通過關(guān)聯(lián)分析、聚類、小結(jié)等形式對Web上面的文檔集合內(nèi)容進行處理,并從Web文檔的鏈接關(guān)系和組織結(jié)構(gòu)中將相關(guān)知識和信息預(yù)測出來.
2.1 Web數(shù)據(jù)挖掘技術(shù)流程
在電子商務(wù)里Web數(shù)據(jù)的挖掘過程最主要包括如下幾個階段:
2.1.1 發(fā)現(xiàn)資源
從目標Web文檔里,任務(wù)可將相應(yīng)數(shù)據(jù)得出,這里需要關(guān)注的一點是信息資源有時不僅局限在在線的Web文檔里面,同時還包括新聞組、電子文檔、電子郵件、網(wǎng)站日志數(shù)據(jù)以及交易數(shù)據(jù)庫中數(shù)據(jù)等.
2.1.2 選擇和預(yù)處理信息
從獲得的Web資源中,任務(wù)會將無用信息剔除,并對有用信息進行整理.比如,在Web文檔里將廣告鏈接、自動識別字段或段落、多余格式標記等予以剔除,并把數(shù)據(jù)進行組合,使之成為具有內(nèi)在邏輯性的關(guān)系表.
2.1.3 發(fā)現(xiàn)模式
自動的進行模式的發(fā)現(xiàn),可在多個站點或同一站點之內(nèi)進行.數(shù)據(jù)的發(fā)現(xiàn)主要是經(jīng)由模式識別里的數(shù)據(jù)挖掘算法來加工和分析用戶日志文件,從而將用戶訪問站點的習(xí)慣和流量模式予以掌握,進而方便企業(yè)進行決策的改進和市場目標的制定.在數(shù)據(jù)的發(fā)現(xiàn)階段所需進行的操作主要包括:先要決定怎樣產(chǎn)生假設(shè);然后對合適工具加以選擇;接著,要發(fā)掘知識的操作;最后,對發(fā)掘知識加以證實.
2.1.4 分析模式
此階段不僅需表述出結(jié)果,同時還需分析與選擇處理所提取信息,區(qū)分出最具價值的信息,并經(jīng)由決策支持工具將之上交給決策人,如果決策人不滿意,那么還需對上述操作過程加以重復(fù).最后,經(jīng)由可視化技術(shù)用圖形界面形式把挖掘成果顯示出來.
2.2 Web數(shù)據(jù)挖掘技術(shù)特點
此項技術(shù)的優(yōu)點非常多,例如,無需用戶將主觀評價意見提供出來;可對大規(guī)模數(shù)據(jù)量加以處理;可動態(tài)獲取用戶的訪問模式,永不過時;應(yīng)用起來非常方便等.但通常同數(shù)據(jù)倉庫相比,此技術(shù)是一個全球性、分布廣泛、巨大的信息服務(wù)點,它會涉及到電子商務(wù)、銷售、娛樂、廣告、新聞、文化、金融等許多信息,并且其內(nèi)容異常豐富,它最大的特點便在于數(shù)據(jù)的半結(jié)構(gòu)化;但傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)性非常強,也就是說它里面的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù).很明顯,Web數(shù)據(jù)挖掘相較于單個數(shù)據(jù)庫來說其數(shù)據(jù)挖掘更為復(fù)雜,并且在這過程中還會面臨許多問題,主要包括如下幾方面:
2.2.1 數(shù)據(jù)半結(jié)構(gòu)化
由于Web頁面以半結(jié)構(gòu)化的數(shù)據(jù)形式呈現(xiàn)在人們面前,它的數(shù)據(jù)結(jié)構(gòu)是不完整或不規(guī)則的,它的復(fù)雜程度相較于普通文檔要高出許多,并且它的數(shù)據(jù)結(jié)構(gòu)模式信息量非常大,而且模式變化的速度也非常快.絕大多數(shù)文檔都沒有排列次序,也沒有分類索引.
2.2.2 信息源動態(tài)分布
由于Web及其數(shù)據(jù)增長和更新的速度非常快,并且模式不規(guī)定,所以在Web上面的信息全都是潛在、未知和隱藏的.由Web上便能將這些有用模式和未知信息發(fā)掘出來,而采用傳統(tǒng)檢索方式是很難使之得以實現(xiàn)的,目前的搜索引擎還不具有此種功能.
2.2.3 用戶群廣泛
在進行Web網(wǎng)頁的訪問之時,不同用戶具有不同的愛好興趣以及使用目的,面對如此龐雜的用戶群,是否能按照用戶的愛好興趣來對網(wǎng)頁進行制定,又或者是否能通過所發(fā)現(xiàn)用戶,對用戶使用網(wǎng)頁進行智能化定制,從而為用戶提供個性化的查詢服務(wù)以及信息檢索服務(wù).
現(xiàn)如今,電子商務(wù)已經(jīng)變成經(jīng)濟發(fā)展潮流的引導(dǎo)者,在電子商務(wù)中采用新戰(zhàn)略部署和技術(shù)對策對于推動經(jīng)濟發(fā)展起到了一定的促進作用.在電子商務(wù)里應(yīng)用Web數(shù)據(jù)挖掘技術(shù)將使企業(yè)獲取信息的能力得到極大的提升,我們可由眾多存儲大量信息的Web鏈接及其頁面和用戶交易數(shù)據(jù)里將相關(guān)潛在用戶群和有價值的用戶訪問模式挖掘出來,并對用戶的信息數(shù)據(jù)加以分析、轉(zhuǎn)換、抽取和處理,從而將對商業(yè)決策具有關(guān)鍵性作用的數(shù)據(jù)提取出來,進而幫助站點改進設(shè)計,以便更好地為電子商務(wù)服務(wù).
3.1 對潛在客戶進行查找和分析
通過對Web日志記錄里的規(guī)律加以探究和分析,可先對已存訪問者加以分類,并將分類關(guān)鍵屬性及其相互間的關(guān)系加以明確.對新訪問者而言,可通過在進行Web分類之時發(fā)現(xiàn),進而將此客戶和已分類客戶公共描述識別出來,從而對此新客戶予以正確分類.接著根據(jù)它的分類來判斷是否將此新客戶當(dāng)做潛在客戶對待.假如是潛在客戶,便可向此客戶展示一些個性化、特殊化的頁面內(nèi)容,從而使用戶服務(wù)質(zhì)量得到提升.
3.2 保留客戶
在電子商務(wù)里,銷售商和傳統(tǒng)客戶之間已經(jīng)不存在空間距,通過網(wǎng)絡(luò),使得客戶眼中的銷售商都是一樣的.為使客戶延長其在網(wǎng)站上面的停留時間就需要對客戶瀏覽行為予以了解,進而指導(dǎo)客戶的需求及興趣點,并按照需求向客戶動態(tài)地進行頁面推薦,對Web頁面加以調(diào)整,提供一些特有的廣告和商品信息,讓客戶滿意,從而使客戶停留在這一網(wǎng)站上的時間得以延長.
3.3 客戶的聚類
在現(xiàn)代電子商務(wù)中有一個方面的內(nèi)容非常重要,那便是客戶聚類.通過將瀏覽行為非常相似的用戶加以分組處理,同時對組中客戶共同的特征進行分析,可讓商務(wù)組織人員對客戶有更進一步的了解,從而為客戶提供更全面、更合適的服務(wù).比如,某些客戶花費時間在某個頁面的瀏覽上,通過分析把這些客戶分在一組.按照分析得出的聚類信息,銷售商便可得知這是一組潛在客戶,在對他們的業(yè)務(wù)活動進行聚類之時便要與其他客戶有所區(qū)分.對頁面內(nèi)容和頁面進行及時調(diào)整,讓商務(wù)活動可以在某種程度上符合客戶要求,這對銷售商和客戶來說都具有非常重要的意義.
3.4 個性服務(wù)和交叉銷售
此種銷售形式是通過CRM了解顧客的不同需求,同時經(jīng)由滿足其需求來銷售與之相關(guān)的產(chǎn)品或服務(wù)的一種新型的營銷形式.簡而言之,就是將本公司的B產(chǎn)品推銷給已經(jīng)擁有本公司A產(chǎn)品的顧客.例如,某顧客在你這里買了一款游戲機,那么你就可以將電池或充電器銷售給他.交叉銷售策略之所以取得成功最為關(guān)鍵的要素便在于用戶對交叉產(chǎn)品感興趣.將數(shù)據(jù)挖掘應(yīng)用在交叉銷售中最主要是通過此種數(shù)據(jù)分析技術(shù)將商品銷售最合理的匹配找出.關(guān)聯(lián)規(guī)則、聚類分析、神經(jīng)網(wǎng)絡(luò)挖掘等數(shù)據(jù)挖掘方式都能將此問題予以很好的解決.例如,神經(jīng)網(wǎng)絡(luò)可用于細分客戶,而聚類分析則可對具備相似特征客戶加以劃分等.關(guān)聯(lián)分析技術(shù)則最適合分析購物籃,它能將經(jīng)常被用戶同時放于購物籃里面的商品信息挖掘出來,并向其他已經(jīng)購買其中某產(chǎn)品的客戶推薦其余產(chǎn)品,進而使交叉營銷得以實現(xiàn),從而使商品的銷售數(shù)量得以增加.除此之外,關(guān)聯(lián)規(guī)則還可通過分析對Web日志查找經(jīng)常被同時訪問的網(wǎng)頁,在情況必要時增加超鏈接,假如這些網(wǎng)頁做展示的商品信息不通,那么超鏈接便可在使商品交叉銷售中起到促進作用.
伴隨高速發(fā)展的計算機技術(shù)以及飛速增長的互聯(lián)網(wǎng)資源,尤其是電子商務(wù)不斷的崛起,Web數(shù)據(jù)挖掘技術(shù)已經(jīng)成為現(xiàn)如今人們研究的熱門領(lǐng)域之一,它的研究具有非常大的現(xiàn)實意義和極為廣闊的使用前景.經(jīng)由Web數(shù)據(jù)挖掘技術(shù),能讓企業(yè)從眾多繁雜的信息數(shù)據(jù)里面將具備潛在價值的信心挖掘出來,從而讓企業(yè)能對資源進行合理的利用和配置,進而為企業(yè)在進行商務(wù)決策之時提供可靠的支撐和保障,最終讓企業(yè)能在商業(yè)競爭中逐步提升自身的地位.現(xiàn)如今,國內(nèi)Web數(shù)據(jù)挖掘技術(shù)正處在學(xué)習(xí)、探索和跟蹤的階段,許多關(guān)于Web數(shù)據(jù)挖掘技術(shù)方面的知識還需要進行進一步的深化和研究.
〔1〕陳琳.基于Web數(shù)據(jù)挖掘的電子商務(wù)系統(tǒng)研究[D].武漢理工大學(xué),2008.
〔2〕靳明霞.數(shù)據(jù)挖掘在電子商務(wù)個性化服務(wù)中的應(yīng)用研究[D].華中科技大學(xué),2006.
〔3〕周朕.面向電子商務(wù)的WEB數(shù)據(jù)挖掘研究[D].中南大學(xué), 2011.
〔4〕辛海濤.Web數(shù)據(jù)挖掘技術(shù)及其在旅游電子商務(wù)的應(yīng)用[J].哈爾濱商業(yè)大學(xué)學(xué)報(自然科學(xué)版),2010,26(4):483-485,497.
〔5〕王改芬.Web挖掘技術(shù)在E-learning中的應(yīng)用研究[J].計算機教育,2008(12):154-158.
〔6〕劉麗珍,宋瀚濤,陸玉昌,等.Web使用挖掘的應(yīng)用研究[J].計算機科學(xué),2003,30(9):46-48.
〔7〕王飛.面向電子商務(wù)的web數(shù)據(jù)挖掘的研究與設(shè)計[D].四川大學(xué),2006.
〔8〕李娟.面向校園網(wǎng)日志分析的web數(shù)據(jù)控制技術(shù)研究[D].西安電子科技大學(xué),2010.
TP311
A
1673-260X(2013)10-0027-02