邰 宇(黑龍江省計算機軟件研究中心,黑龍江 哈爾濱 150028)
?
Web數(shù)據(jù)挖掘技術在電子商務中的應用研究
邰 宇
(黑龍江省計算機軟件研究中心,黑龍江哈爾濱150028)
摘要:大數(shù)據(jù)時代迅速增長的商業(yè)數(shù)據(jù)和信息之間的內(nèi)在聯(lián)系,備受電子商務經(jīng)營者的普遍關注。本文基于商業(yè)數(shù)據(jù)和信息之間的關聯(lián),較深入地探討了Web數(shù)據(jù)挖掘技術相關理論及其在電子商務中的具體應用。
關鍵詞:數(shù)據(jù)抽?。痪垲惙治?;Web數(shù)據(jù)挖掘技術
日常生活中時常會出現(xiàn)如下情況,商場經(jīng)營者總期望銷售量較大的商品放在同一區(qū)域以便于提高銷售額;銀行想了解具有何種特征的客戶需要申請購房貸款;保險公司精算師期望在眾多病歷中尋找到患某種疾病患者的同類特征,進而提高設計理賠條款的最合理性。針對上述問題,采用傳統(tǒng)數(shù)據(jù)分析工具難以達到實際需求。由于傳統(tǒng)信息管理系統(tǒng)采用的數(shù)據(jù)庫系統(tǒng)還是只有簡單處理數(shù)據(jù)功能,以實現(xiàn)對報表的查詢統(tǒng)計,而無法提取數(shù)據(jù)中蘊含內(nèi)在的深層關系。
隨著不斷增加的信息量及廣泛應用的信息管理系統(tǒng),更期望其具有更豐富的數(shù)據(jù)分析功能,進而提供出科學決策?;谠撔枨螅欣卮龠M了Web數(shù)據(jù)挖掘技術的迅速發(fā)展。數(shù)據(jù)挖掘主要是指將隱藏在大量數(shù)據(jù)中的有用信息提取出來,在大型數(shù)據(jù)庫中應用機器學習的綜合信息處理技術。它將各學科技術的信息處理方法進行綜合,主要有分類、聚類、關聯(lián)規(guī)則、預測及檢測偏差等功能。
數(shù)據(jù)挖掘作為新興技術,在處理數(shù)據(jù)方面具有的特征十分明顯。數(shù)據(jù)挖掘主要用于海量數(shù)據(jù),也是其產(chǎn)生的一個重要原因。數(shù)據(jù)一般都是不完全的,數(shù)據(jù)結構比較復雜,也具有較大維數(shù)。數(shù)據(jù)挖掘交叉了很多學科,采用信息、統(tǒng)計、數(shù)學等多個學科技術,在實際中最為常見和廣泛應用的有傳統(tǒng)統(tǒng)計方法、可視化技術、決策樹、神經(jīng)網(wǎng)絡、遺傳算法及關聯(lián)規(guī)則挖掘算法六種算法和模型。
隨著知識發(fā)現(xiàn)的影響日益增大,1995年國際知識發(fā)現(xiàn)組委會將專題討論會改為國際會議,并在加拿大召開世界第一屆知識發(fā)現(xiàn)國際學術會議,并形成年度國際會議。近年來,在知識發(fā)現(xiàn)方面開展了很多卓有成效的研究工作并得到快速發(fā)展,特別是應用于商業(yè)和銀行領域尤為迅速。
國外在數(shù)據(jù)挖掘方面比較關注于貝葉斯方法及Boosting方法的研究,在知識發(fā)現(xiàn)中應用傳統(tǒng)的統(tǒng)計學回歸法,并緊密結合數(shù)據(jù)庫。研發(fā)完成了很多知識發(fā)現(xiàn)軟件工具并日益完善,加強用于解決問題的整體系統(tǒng)的研發(fā),而過程并非孤立。
國內(nèi)主要是高校、科研機構等研究人員開展Web數(shù)據(jù)挖掘技術的研究,主要開展學習算法、數(shù)據(jù)挖掘相關理論及技術應用等很多方面的研究,國家也在自然基金、863計劃等對相關研究提供資助經(jīng)費。有關統(tǒng)計數(shù)據(jù)顯示,知識發(fā)現(xiàn)及人工智能等技術是未來對工業(yè)具有較重要影響的關鍵技術。充分說明數(shù)據(jù)挖掘的研究和應用備受社會關注,并已成為一個研究熱點。
在電子商務活動中主要是將客戶作為Web數(shù)據(jù)挖掘技術的研究對象,進而發(fā)現(xiàn)客戶具有個性和共性、必然和偶然、獨立和關聯(lián)及現(xiàn)實和預測等方面的知識。上述知識都可發(fā)現(xiàn)處于不同概念層次,從微觀分析到宏觀,客觀分析統(tǒng)計客戶的消費行為,為提高電子商務管理水平提供重要決策,以充分滿足各類客戶實際需求。
4.1 應用于電子商務的分類與預測
分類技術在電子商務中應用最多,也是電子商務中很重要的一項任務。主要用于采用統(tǒng)計、機器學習及神經(jīng)網(wǎng)絡等方法構造分類器,將數(shù)據(jù)庫中數(shù)據(jù)項向給定某類別中的一個進行映射,以利于預測未來數(shù)據(jù)。
4.2 應用于電子商務中的聚類分析
聚類就是根據(jù)相似性原則將一組個體歸為多個不同類別,在電子商務中主要采用客戶聚類實現(xiàn)對市場不同消費群體的細分。使同類別個體之間只有最小距離,而不同類別個體之間具有較大距離,利于提取聚類客戶特征,電子商務網(wǎng)站可采用統(tǒng)計、機器學習及神經(jīng)網(wǎng)絡等方法為客戶提供個性化服務。
4.3 應用于電子商務中的數(shù)據(jù)抽取
相對于傳統(tǒng)商務活動,電子商務具有諸如客戶購買動機、心理、欲望及能力等很多虛擬和不確定因素,采用何種方法在無規(guī)則的零散數(shù)據(jù)中尋找到具有價值和規(guī)則的數(shù)據(jù)是數(shù)據(jù)挖掘的主要任務。數(shù)據(jù)抽取就是其中的一個基本方法,主要是濃縮數(shù)據(jù),采用平均、求和及方差等統(tǒng)計值或直方、餅狀等圖形方式給出數(shù)據(jù)抽取的緊湊描述,最重要的是基于數(shù)據(jù)泛化對數(shù)據(jù)總結進行討論。數(shù)據(jù)泛化是將低層次的原始、基本的信息數(shù)據(jù)向高層次進行抽象的一個過程,在電子商務活動中,數(shù)據(jù)抽取通常采用多維數(shù)據(jù)分析方法,對客戶數(shù)據(jù)倉庫中的數(shù)據(jù)進行分析,以用于決策支持系統(tǒng)。
4.4 應用于電子商務中的關聯(lián)規(guī)則
事務型數(shù)據(jù)庫是用于關聯(lián)規(guī)則對主要對象進行發(fā)現(xiàn)。一個事務通常由處理時間、顧客標識及所購物品構成,因條形碼及Web技術的日益成熟,管理部門能夠將存儲的客戶資料與售貨數(shù)據(jù)進行收集,對其分析后并發(fā)現(xiàn)關聯(lián)規(guī)則,根據(jù)網(wǎng)購客戶的購買行為提供具有價值的信息。可用于對市場進行規(guī)劃,對商品種類、價格等進行確定。關聯(lián)規(guī)則一般分為有意義關聯(lián)規(guī)則和泛化關聯(lián)規(guī)則,前者主要是指對最小支持度和可信度提供界限的規(guī)則;后者對最小可信度提供界限,使最低可靠度在關聯(lián)規(guī)則上得到反應。泛化關聯(lián)規(guī)則更具有實用性,由于研究對象之間具有層次關系,對于更多有意義規(guī)則的發(fā)現(xiàn)更具有輔助意義。
綜上所述,現(xiàn)代信息技術有力促進了電子商務的發(fā)展,也在商業(yè)運作模式中不可或缺?;谌蚪?jīng)濟一體化,應對網(wǎng)絡基礎設施繼續(xù)加強建設,推進企業(yè)電子商務化進程,在電子商務方面健全安全立法并建設更加完善的物流配送體系,使電子商務具有良好的發(fā)展環(huán)境。并在文本、多媒體及網(wǎng)絡等方面深入Web數(shù)據(jù)挖掘技術研究,使存在于電子商務中的數(shù)據(jù)安全保密、數(shù)據(jù)質(zhì)量及集成其它商業(yè)軟件等問題得到妥善解決。充分利用數(shù)據(jù)挖掘等技術,使企業(yè)優(yōu)勢得到充分發(fā)揮,加快技術與管理創(chuàng)新,才能促進使企業(yè)在電子商務中的有序發(fā)展。
參考文獻
[1]李業(yè)麗.神經(jīng)網(wǎng)絡在數(shù)據(jù)挖掘中的應用研究[J].計算機工程與應用,2013(10).
[2]陳國萍,李巍,劉仲英.數(shù)據(jù)挖掘中概念樹的標準、生成和實現(xiàn)[J],計算機工程,2012(08).
中圖分類號:TP311
文獻標識碼:A