• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      用戶訪問(wèn)模式中數(shù)據(jù)挖掘的模型與算法

      2019-12-02 22:56:56王志俊
      電子技術(shù)與軟件工程 2019年13期
      關(guān)鍵詞:數(shù)據(jù)挖掘商家對(duì)象

      文/王志俊

      近年來(lái),電子商務(wù)的快速發(fā)展,使企業(yè)紛紛將目光投入到電子商務(wù)領(lǐng)域中,越來(lái)越多的企業(yè)開(kāi)始在Web中建立相應(yīng)的商品目錄,用戶可利用瀏覽器來(lái)隨時(shí)隨地的瀏覽這些商品目錄,并可在瀏覽器中進(jìn)行商品訂購(gòu)和網(wǎng)上支付。在Web服務(wù)器中存儲(chǔ)著大量用戶和商家的交互信息,這些信息包括用戶的瀏覽信息、用戶的登記信息等,這些交互信息是按照日志的形式存儲(chǔ)于數(shù)據(jù)庫(kù)中的,而商家需要從數(shù)據(jù)庫(kù)中對(duì)這些信息進(jìn)行挖掘,以此找出用戶的行為規(guī)律性,這對(duì)于提高商家的市場(chǎng)銷售量具有重大意義。本文便針對(duì)該問(wèn)題對(duì)用戶訪問(wèn)模式中數(shù)據(jù)挖掘模型及算法進(jìn)行研究,以便于幫助企業(yè)更加高效的從海量的顧客數(shù)據(jù)與日志數(shù)據(jù)中挖掘到所需的潛在客戶群體,使企業(yè)能夠根據(jù)這些知識(shí)來(lái)制定合理的促銷策略。

      1 用戶訪問(wèn)模式中的數(shù)據(jù)挖掘模型

      1.1 E-OEM模型

      為了使數(shù)據(jù)挖掘更加有效,需要對(duì)服務(wù)器的應(yīng)用邏輯、用戶瀏覽路徑乃至Web頁(yè)面的拓?fù)浣Y(jié)構(gòu)進(jìn)行全方位的考慮,并以此對(duì)OEM模型進(jìn)行擴(kuò)展,使其成為E-OEM模型。

      定義1.對(duì)于某個(gè)對(duì)象S來(lái)說(shuō),其包括標(biāo)識(shí)id與值val兩個(gè)組成部分,其中標(biāo)識(shí)id(S)能夠?qū)臻g中的對(duì)象進(jìn)行標(biāo)志,該標(biāo)志具有唯一性。而對(duì)象值val(S)則可采用原子形式與引用形式來(lái)表示,這兩種形式可分別表示為val (S)= {l 1 : d 1 ,… ,l m : d m }與val (S)= {l 1 : id(S1) ,… ,l n : id(Sn ) },在原子形式中,li與di分別表示屬性與基本數(shù)據(jù)類型的屬性值,而引用形式中,lj與Sj則分別表示屬性與對(duì)象,Sj對(duì)象的引用為id(Sj)。

      定義2,分別設(shè)定屬性與對(duì)象為li與Si,且i=0,1,...,n,如果i= 0,1,… ,n中的(l i : id(S i ) )∈ val (S i- 1 )值無(wú)論為多少均是成立的,則對(duì)象S0中的p為起始點(diǎn),而對(duì)象Sn中的p為終止點(diǎn),也就是說(shuō)Si中含有路徑p。可通過(guò)有向圖來(lái)表示E-OEM模型,其結(jié)點(diǎn)為對(duì)象標(biāo)識(shí),其值中各對(duì)象對(duì)(l i : id(Si))的引用均包括一條帶標(biāo)號(hào)的li的有向邊相對(duì)應(yīng)。當(dāng)圖中有環(huán)時(shí),則E-OEM圖有環(huán)。

      定義3 對(duì)象空間是由大量可訪問(wèn)且相互獨(dú)立的對(duì)象所構(gòu)成的,各個(gè)對(duì)象均可通過(guò)E-OEM模型來(lái)描述,因此可通過(guò)對(duì)對(duì)象空間內(nèi)的對(duì)象信息進(jìn)行構(gòu)造,以此充當(dāng)領(lǐng)域知識(shí)來(lái)為數(shù)據(jù)挖掘提供指導(dǎo)。

      1.2 E-OEM模型中的相關(guān)問(wèn)題

      在E-OEM模型中,其URL函數(shù)可指定為文檔對(duì)象或其對(duì)象標(biāo)識(shí),對(duì)象空間中的各個(gè)函數(shù)值均具有唯 一性,并且還可從中得到對(duì)象的元信息、拓?fù)湫畔⑴c一般信息。此外,考慮到各個(gè)用戶在瀏覽時(shí),其信息都是在日志表中進(jìn)行統(tǒng)一登記的,因此在應(yīng)用數(shù)據(jù)挖掘技術(shù)時(shí)必須要對(duì)商家和用戶間的事務(wù)標(biāo)定問(wèn)題進(jìn)行解決。

      2 用戶訪問(wèn)模式中數(shù)據(jù)挖掘算法研究

      2.1 頻繁訪問(wèn)模式挖掘算法

      相比于頻繁序列模式,頻繁訪問(wèn)模式有很多共通之處,但其不同之處在于用戶在瀏覽時(shí)存在的不確定性,這也造成不同用戶在訪問(wèn)模式上大致相同,但其內(nèi)部細(xì)節(jié)卻有所不同,因此如果采用頻繁序列模式,反而會(huì)因算法的敏感度過(guò)大而造成模式數(shù)量大幅增加,因此難以適用。為了使該問(wèn)題得到解決,需要將路徑相似度引入到用戶訪問(wèn)模式之中,考慮到序列眾多并且前綴存在許多重復(fù),因此需要采用與Hash樹(shù)相似的方法來(lái)對(duì)其序列進(jìn)行檢索與存儲(chǔ),通過(guò)在掃描事務(wù)數(shù)據(jù)庫(kù)時(shí)對(duì)Hash樹(shù)進(jìn)行建立與調(diào)成,然后對(duì)不同模式的支持度進(jìn)行計(jì)算,即可獲得頻繁訪問(wèn)模式的Hash樹(shù)結(jié)構(gòu)。為了避免匹配樹(shù)寬度過(guò)大,同時(shí)也為了便于并行處理數(shù)據(jù)分塊,還要在不同匹配樹(shù)中利用兩層Hash來(lái)散轉(zhuǎn)訪問(wèn)模式。

      2.2 潛在客戶群挖掘算法

      通常來(lái)說(shuō),可利用負(fù)事務(wù)數(shù)據(jù)庫(kù)D-的聚類及分類過(guò)程來(lái)描述潛在客戶群挖掘過(guò)程。可通過(guò)Kean聚類算法對(duì)特定模式下D-所具有的相似關(guān)系進(jìn)行計(jì)算,頻繁訪問(wèn)模式下的數(shù)據(jù)挖掘結(jié)果便是初始K個(gè)聚類中心,當(dāng)然業(yè)務(wù)人員可以自行指定,按照路徑相似關(guān)系來(lái)確定模式相似關(guān)系,當(dāng)模式為P1 = 〈p 11 - p12 … - p1n 〉及 P2 = 〈p 21 - p22 … - p2n 〉時(shí),可進(jìn)行以下定義,即

      Sim-Pattern(p1,p2)= |{pi |sim path( pi1 ,pi2)) ≥ min sim}|/n

      由此便可得到P1與P2這兩個(gè)模式的相似度,如果Sim-Pattern(p1,p2)超過(guò)自定義的閾值,自定義閾值為 MIN SIM [0,1],這時(shí)可認(rèn)為P1與P2模式具有相似關(guān)系。

      3 結(jié)語(yǔ)

      總而言之,商家在電子商務(wù)戰(zhàn)略制定中必須要運(yùn)用數(shù)據(jù)挖掘技術(shù)從海量的數(shù)據(jù)中找到潛在客戶群,以此探尋更加高效的用戶訪問(wèn)模式,這對(duì)于商家做出正確的商業(yè)決策具有重要意義。本文采用E-OEM模型,從服務(wù)器應(yīng)用邏輯、用戶瀏覽路徑和頁(yè)面拓?fù)浣Y(jié)構(gòu)等多個(gè)方面,對(duì)不同用戶訪問(wèn)模式下的數(shù)據(jù)挖掘模型及其算法進(jìn)行了研究,從而為企業(yè)在電子商務(wù)發(fā)展中提供了行之有效的數(shù)據(jù)挖掘技術(shù)手段。

      猜你喜歡
      數(shù)據(jù)挖掘商家對(duì)象
      The Thin Line
      神秘來(lái)電
      睿士(2023年2期)2023-03-02 02:01:09
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      商家出售假冒商品,消費(fèi)者獲十倍賠償
      公民與法治(2020年9期)2020-05-30 12:45:12
      攻略對(duì)象的心思好難猜
      意林(2018年3期)2018-03-02 15:17:24
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于熵的快速掃描法的FNEA初始對(duì)象的生成方法
      區(qū)間對(duì)象族的可鎮(zhèn)定性分析
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      春節(jié)黃金周陜西省商家攬金二百一十億元
      离岛区| 兴业县| 苏尼特右旗| 新田县| 康马县| 胶州市| 庆阳市| 天峻县| 景泰县| 麻阳| 安康市| 马公市| 峨边| 韶关市| 朝阳县| 白河县| 老河口市| 亳州市| 屏东县| 海宁市| 精河县| 萝北县| 崇左市| 高陵县| 盘锦市| 沅陵县| 偏关县| 石棉县| 长白| 舟曲县| 黄石市| 焦作市| 香格里拉县| 潜江市| 兰坪| 衡水市| 通州区| 桐庐县| 额尔古纳市| 定兴县| 岳阳市|