基于樸素貝葉斯網(wǎng)頁(yè)分類的用戶行為推衍*

2018-01-08 06:28:43曹天杰

沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào) 2018年1期

關(guān)鍵詞：行為特征

秦鵬，曹天杰

(1.六盤(pán)水師范學(xué)院計(jì)算機(jī)科學(xué)與信息技術(shù)系，貴州六盤(pán)水 553004；2.中國(guó)礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇徐州 221116)

基于樸素貝葉斯網(wǎng)頁(yè)分類的用戶行為推衍*

秦鵬1，曹天杰2

針對(duì)傳統(tǒng)網(wǎng)頁(yè)分類中存在的準(zhǔn)確率和查全率不高、分類效率低的情況，提出一種基于樸素貝葉斯分類的網(wǎng)頁(yè)預(yù)分類算法.算法根據(jù)用戶的網(wǎng)上活動(dòng)情況提取相關(guān)網(wǎng)址，分析網(wǎng)頁(yè)內(nèi)容和網(wǎng)頁(yè)關(guān)鍵詞，利用樸素貝葉斯分類算法進(jìn)行分類，根據(jù)用戶對(duì)各類網(wǎng)頁(yè)的瀏覽情況分析用戶的行為特征.采用改進(jìn)的文本權(quán)值計(jì)算方法，并引進(jìn)網(wǎng)址預(yù)分類機(jī)制，提高數(shù)據(jù)的處理效率以及分類的準(zhǔn)確率.結(jié)果表明，網(wǎng)址分類算法準(zhǔn)確，能夠充分發(fā)掘用戶的興趣喜好，可以作為用戶行為分析的數(shù)據(jù)算法進(jìn)行商業(yè)推廣和司法取證.

網(wǎng)頁(yè)關(guān)鍵詞；樸素貝葉斯；網(wǎng)頁(yè)分類；行為特征；權(quán)值計(jì)算方法；網(wǎng)址預(yù)分類；商業(yè)推廣；司法取證

信息化時(shí)代網(wǎng)絡(luò)產(chǎn)生海量數(shù)據(jù)，針對(duì)用戶網(wǎng)上行為數(shù)據(jù)挖掘成為數(shù)據(jù)分析的一大熱點(diǎn)話題.對(duì)于公司，可以通過(guò)發(fā)掘用戶行為習(xí)慣，推出相應(yīng)產(chǎn)品；對(duì)于社會(huì)，通過(guò)分析用戶數(shù)據(jù)，可以發(fā)現(xiàn)潛在的社會(huì)問(wèn)題，完善相關(guān)機(jī)制，打擊網(wǎng)絡(luò)犯罪；對(duì)于高校，可以分析學(xué)生的行為特征，提供個(gè)性化網(wǎng)站服務(wù).

國(guó)內(nèi)外眾多學(xué)者對(duì)網(wǎng)頁(yè)分類進(jìn)行了積極的探究，金一寧等[1]提出一種基于VSM模型的KNN分類算法，分別對(duì)基于標(biāo)題、正文、正文和鏈接結(jié)合及標(biāo)題和鏈接結(jié)合的分類結(jié)果進(jìn)行比較；許世明等[2]提出通過(guò)預(yù)置關(guān)鍵詞表進(jìn)行預(yù)分類的方法，極大地提高了分類的速度；江國(guó)薦等[3]基于網(wǎng)頁(yè)半結(jié)構(gòu)化特點(diǎn)，提出了一種基于稀疏自動(dòng)編碼和LBP神經(jīng)網(wǎng)絡(luò)的分類器，降低了文本訓(xùn)練時(shí)間，網(wǎng)址分類正確率得到了極大提高；代寬[4]等結(jié)合網(wǎng)頁(yè)半結(jié)構(gòu)化特征改進(jìn)TF-IDF算法，提高了網(wǎng)頁(yè)的召回率和準(zhǔn)確率；國(guó)外學(xué)者Lee等[5]提出一種簡(jiǎn)化群優(yōu)化SSO訓(xùn)練權(quán)重的方法，并采用Taguchi方法設(shè)置參數(shù)，充分發(fā)揮單詞權(quán)重的更新性；Hernndez等[6]提出一種基于URL自動(dòng)化網(wǎng)頁(yè)分類方案，根據(jù)URL模式區(qū)分網(wǎng)頁(yè)類別.

本文針對(duì)中文網(wǎng)頁(yè)結(jié)構(gòu)和URL特點(diǎn)，改進(jìn)TF-IDF權(quán)值計(jì)算方法，并基于樸素貝葉斯分類算法，引進(jìn)網(wǎng)址預(yù)分類機(jī)制，提出一種基于樸素貝葉斯的中文網(wǎng)頁(yè)預(yù)分類算法，根據(jù)分類結(jié)果分析用戶的興趣愛(ài)好.

1 分類一般過(guò)程

網(wǎng)頁(yè)分類一般包括網(wǎng)頁(yè)文本提取、構(gòu)建文本特征及文本分類三個(gè)過(guò)程.

1.1 網(wǎng)頁(yè)文本提取

要對(duì)網(wǎng)頁(yè)進(jìn)行分類，首先需要提取網(wǎng)頁(yè)文本，對(duì)網(wǎng)頁(yè)文本進(jìn)行預(yù)處理，提取body標(biāo)記中的文本數(shù)據(jù)、錨文本、Title標(biāo)記、Meta標(biāo)記、H1、H2等標(biāo)記內(nèi)容[7-8]，去除注釋標(biāo)記內(nèi)容和網(wǎng)頁(yè)通用內(nèi)容.

對(duì)處理后的文本進(jìn)行文本分詞，得到具有獨(dú)立信息的載體.文本分詞是網(wǎng)頁(yè)關(guān)鍵詞提取和文本分類的基礎(chǔ)，本文采用的文本分詞算法是在.NET環(huán)境中集成中科院的分詞技術(shù)ICTCLAS，該算法的優(yōu)點(diǎn)是支持用戶詞典接口擴(kuò)展以及分詞粒度可調(diào)[9].

文本表示方法主要有布爾模型、向量空間模型和統(tǒng)計(jì)語(yǔ)言模型，本文主采用向量空間模型VSM來(lái)表示具體的頁(yè)面，向量形式為(ti1，wi1，ti2，wi2，…，tij，wij)，其中，tij為頁(yè)面i的第j個(gè)特征詞，wij為頁(yè)面i的第j個(gè)特征詞的權(quán)值[10].

1.2 構(gòu)建文本特征項(xiàng)

在網(wǎng)頁(yè)文本分詞后，為了減少文本空間的向量維數(shù)，需要進(jìn)行關(guān)鍵詞提取，找出能夠代表整篇網(wǎng)頁(yè)主要內(nèi)容的詞語(yǔ)，構(gòu)建每個(gè)網(wǎng)頁(yè)的文本特征庫(kù).

1.2.1 計(jì)算詞條權(quán)重

傳統(tǒng)的TF-IDF單詞權(quán)重計(jì)算方法表示為

W=UTFfIDF

(1)

式中：UTF為詞頻，指單詞出現(xiàn)在給定文檔中的次數(shù)；fIDF為逆向文檔頻率，是反映單詞在文檔集中頻繁度的重要指標(biāo)，其計(jì)算公式為

fIDF=log2(N/n)

(2)

式中：N為總文檔數(shù)；n為包含詞條的文檔數(shù).

在HTML半結(jié)構(gòu)化網(wǎng)頁(yè)中，不同標(biāo)記中文本的重要程度不同，傳統(tǒng)TF-IDF算法不適用于網(wǎng)頁(yè)文本權(quán)重計(jì)算.HTML中存在很多不同的域，比如標(biāo)題Title、元數(shù)據(jù)Meta、正文Body，正文中又可分為段標(biāo)記數(shù)據(jù)、H標(biāo)記數(shù)據(jù)、錨文本數(shù)據(jù)等.如果詞條出現(xiàn)在頁(yè)面title中，其重要程度最大，因?yàn)橐黄W(wǎng)頁(yè)的標(biāo)題基本上反映其描述的內(nèi)容，可以為其賦予較高的權(quán)值[11].表1中顯示了不同標(biāo)記在文本中的重要程度.

表1 標(biāo)記在頁(yè)面中的重要性Tab.1 Importance of sign in page

根據(jù)網(wǎng)頁(yè)特點(diǎn)，本文將網(wǎng)頁(yè)文本分為body內(nèi)容文本和關(guān)鍵特征文本(kff)，關(guān)鍵特征詞包括標(biāo)題Title標(biāo)簽，Meta標(biāo)簽中名為keywords和description的元數(shù)據(jù)，鏈接文本，H1、H2標(biāo)記段落文本以及其他一些重要的Html標(biāo)簽域中的文本[12-13]，因此詞條改進(jìn)后的權(quán)重計(jì)算公式為

Wid=?Wbody+(1-?)Wkff

(3)

式中，?為協(xié)調(diào)因子，0

Wbody=UTFf

(4)

f=log2(Nm/n)

(5)

(6)

式中：m為某一類Ci中包含詞條的文檔數(shù)；fik為Wkff在文檔中特征域上出現(xiàn)的次數(shù)；Wik為Wkff在頁(yè)面中的重要程度.

1.2.2 選取關(guān)鍵詞

計(jì)算完詞語(yǔ)的權(quán)重后，通?？梢圆扇煞N方式確定網(wǎng)頁(yè)的關(guān)鍵詞，一種是通過(guò)設(shè)定關(guān)鍵詞權(quán)重閥值，權(quán)重超過(guò)該閥值的即可認(rèn)為是關(guān)鍵詞；另外一種是將詞語(yǔ)按照詞權(quán)重大小逆序排列，選取權(quán)重排名靠前的幾個(gè)詞語(yǔ)作為網(wǎng)頁(yè)關(guān)鍵詞[14]，本文選擇權(quán)值靠前的詞語(yǔ)作為網(wǎng)頁(yè)關(guān)鍵詞.

1.3 文本分類

網(wǎng)頁(yè)分類即是對(duì)網(wǎng)頁(yè)中的文本進(jìn)行分類，常用的分類方法有基于統(tǒng)計(jì)的Bayes分類、KNN、支持向量機(jī)、決策樹(shù)及回歸模型等.本文基于樸素貝葉斯分類算法，提出一種改進(jìn)的預(yù)分類算法以提高分類效率.文本分類首先要提取待分類文本的特征項(xiàng)，根據(jù)訓(xùn)練文本集構(gòu)建文本分類器，然后將特征項(xiàng)在分類器中進(jìn)行分類，輸出分類結(jié)果[15-16].網(wǎng)頁(yè)分類系統(tǒng)的一般模型如圖1所示.

圖1 網(wǎng)頁(yè)分類系統(tǒng)的一般模型Fig.1 General model for web page classification system

2 經(jīng)典網(wǎng)址分類算法

2.1 貝葉斯理論

貝葉斯理論是基于統(tǒng)計(jì)推斷的過(guò)程，需要計(jì)算一般信息和先驗(yàn)信息，得到后驗(yàn)信息.它的主要特點(diǎn)是利用概率來(lái)表示所有不確定的形式，并且利用概率規(guī)則來(lái)實(shí)現(xiàn)學(xué)習(xí)和推理，通過(guò)計(jì)算過(guò)去某段時(shí)間發(fā)生的概率來(lái)估計(jì)將來(lái)發(fā)生的概率.

貝葉斯分類器是一個(gè)簡(jiǎn)單的基于應(yīng)用貝葉斯獨(dú)立假設(shè)理論的概率分類器.貝葉斯定理中條件概率和反條件概率之間的關(guān)系可表示為

(7)

式中：P(Y)為Y的先驗(yàn)概率或是邊沿概率，即不將X的任何信息考慮在內(nèi)的概率；P(Y|X)為給定X后，Y的條件概率，它的值來(lái)自或是取決于X的值.構(gòu)建后驗(yàn)概率時(shí)，很多情況下需要給定一個(gè)數(shù)據(jù)D，并找到在數(shù)據(jù)集E中的條件概率P(E|D).假設(shè)最大值e包含于E，任何最大可能性的假設(shè)均稱作最大后驗(yàn)假設(shè)，標(biāo)記為EMAP，即

EMAP=argmaxe∈EP(E|D)=

(8)

2.2 樸素貝葉斯分類

樸素貝葉斯分類的實(shí)現(xiàn)過(guò)程主要包括以下步驟：

1) 計(jì)算類的先驗(yàn)概率.數(shù)據(jù)樣本用一個(gè)n維的特征向量X表示，用于描述屬性對(duì)樣本的度量，系統(tǒng)中的屬性值即為特征詞，接著計(jì)算每個(gè)分類Ci的先驗(yàn)概率P(Ci)，即

P(Ci)=Nci/N

(9)

式中，Nci為總樣本中屬于類Ci的樣本數(shù).

2) 計(jì)算每個(gè)類的條件概率.樸素貝葉斯算法使用獨(dú)立假設(shè)檢驗(yàn)，認(rèn)為屬性值相互條件獨(dú)立，Ci類條件概率為

(10)

式中：Nxc為Ci類中包含屬性x的樣本數(shù)，系統(tǒng)中Nxc即為在Ci類中包含詞條x的樣本數(shù)；V為樣本中總的類別數(shù)，即類別C的總數(shù).為了避免極端零值的情況出現(xiàn)，此處對(duì)Nxc的值進(jìn)行加1處理.

3) 計(jì)算類后驗(yàn)概率.根據(jù)貝葉斯分類理論，將數(shù)據(jù)樣本劃分給后驗(yàn)概率較大的類，因此在計(jì)算完后驗(yàn)概率后，即可知道網(wǎng)頁(yè)的分類情況.后驗(yàn)概率計(jì)算表達(dá)式為

(11)

對(duì)于每一個(gè)數(shù)據(jù)樣本，P(X)均一樣，因此式(11)可簡(jiǎn)化為

P(Ci|X)=aP(Ci)P(X|Ci)

(12)

在分析過(guò)程中，為了避免計(jì)算值較小情況的出現(xiàn)，可以對(duì)后驗(yàn)概率進(jìn)行放大處理，這樣方便分類的處理.在此只需要對(duì)后驗(yàn)概率值乘以一個(gè)整數(shù)M即可，最終的后驗(yàn)概率表達(dá)式為

P(Ci|X)=aP(Ci)P(X|Ci)M

(13)

完整的基于樸素貝葉斯網(wǎng)頁(yè)分類流程如圖2所示.

3 改進(jìn)網(wǎng)址分類算法

在數(shù)據(jù)計(jì)算過(guò)程中，為了在較短時(shí)間內(nèi)獲取足夠多的信息，需要提高計(jì)算效率.由于用戶瀏覽的網(wǎng)址較多，緩存文件也很大，如果通過(guò)傳統(tǒng)的分析方法很難在短時(shí)間內(nèi)獲取有效信息.為了提高分類速度，統(tǒng)計(jì)用戶對(duì)每種類別網(wǎng)頁(yè)的瀏覽情況，本文針對(duì)網(wǎng)頁(yè)獨(dú)有的特點(diǎn)，提出一種網(wǎng)頁(yè)預(yù)分類方法.

在網(wǎng)頁(yè)開(kāi)發(fā)的過(guò)程中，網(wǎng)頁(yè)開(kāi)發(fā)者首先設(shè)計(jì)的是其首頁(yè)，然后根據(jù)相關(guān)功能建立相應(yīng)的子類網(wǎng)址.一個(gè)典型的域名通常包括傳輸協(xié)議、主機(jī)類型、主機(jī)名、二級(jí)域名和頂級(jí)域名.其中頂級(jí)域名是一個(gè)國(guó)家獨(dú)有的，比如中國(guó)的頂級(jí)域名為cn.二級(jí)域名中使用最多的主要有5個(gè)，分別是com、org、net、mail、edu，其中com適用于商業(yè)公司，org用于非盈利機(jī)構(gòu)，net用于大型網(wǎng)絡(luò)中心，mail用于軍事機(jī)構(gòu)，edu用于教育網(wǎng)站.以學(xué)校網(wǎng)址http：//www.lpssy.edu.cn為例，其主機(jī)名為lpssy，二級(jí)域名為edu，頂級(jí)域名為cn.

假設(shè)網(wǎng)頁(yè)不受黑客入侵，其網(wǎng)址對(duì)應(yīng)的網(wǎng)頁(yè)類別是不變的，如上所述，可以先根據(jù)頂級(jí)域名進(jìn)行初次劃分，再對(duì)不同的類別進(jìn)行判斷.如果每次都進(jìn)行分類則要耗費(fèi)大量時(shí)間，故可以為已經(jīng)正確分類的網(wǎng)址建立一個(gè)哈希表.在對(duì)獲取的網(wǎng)址進(jìn)行分類時(shí)，首先將獲取的網(wǎng)址和已經(jīng)進(jìn)行正確分類的網(wǎng)址進(jìn)行對(duì)比，如果該網(wǎng)址與已經(jīng)存在的網(wǎng)址相同，則直接輸出分類結(jié)果.如果該網(wǎng)址的主機(jī)名存在于已經(jīng)正確分類的網(wǎng)址中，則直接輸出分類結(jié)果.如果該網(wǎng)址不存在已經(jīng)建立的哈希表中，根據(jù)頂級(jí)域名進(jìn)行分類，如果分類成功，則直接輸出分類結(jié)果；否則再根據(jù)樸素貝葉斯算法進(jìn)行具體分類，輸出分類結(jié)果，其流程圖如圖3所示.

圖3 預(yù)分類的網(wǎng)頁(yè)分類流程圖Fig.3 Flow chart of web page pre-classification

4 實(shí)驗(yàn)數(shù)據(jù)分析

4.1 評(píng)估標(biāo)準(zhǔn)

在文本分類中，常用于評(píng)估參數(shù)的指標(biāo)有3種，分別是分類查全率r、準(zhǔn)確率p和F1測(cè)試值.其中查全率和準(zhǔn)確率可以通過(guò)分類混合矩陣來(lái)描述，分類混合矩陣中包含了真實(shí)的情況和分類器的預(yù)測(cè)結(jié)果.

準(zhǔn)確率p和查全率r反映的是分類質(zhì)量的兩個(gè)方面，理論上是不相干的，然而實(shí)際情況中高準(zhǔn)確率通常是在犧牲查全率的情況下獲得的，因此，引入評(píng)估指標(biāo)F1測(cè)試值，其定義為

(14)

4.2 測(cè)試數(shù)據(jù)集

系統(tǒng)中采用的訓(xùn)練文本集數(shù)據(jù)為SouGou提供的網(wǎng)頁(yè)文本集，總類別為10個(gè)，分別是文化、郵箱、IT、體育、教育、軍事、色情、黑客、音樂(lè)及財(cái)經(jīng).測(cè)試數(shù)據(jù)集為用戶瀏覽網(wǎng)址下載的相關(guān)網(wǎng)頁(yè)文本.

4.3 分類結(jié)果

訓(xùn)練集中每一類別的數(shù)據(jù)采用2 000篇網(wǎng)頁(yè)文本作為訓(xùn)練集，總的訓(xùn)練集數(shù)據(jù)為20 000篇網(wǎng)頁(yè)文本.測(cè)試時(shí)，每個(gè)類別的網(wǎng)頁(yè)分別采用100篇網(wǎng)址進(jìn)行測(cè)試，總網(wǎng)址為1 000條URL網(wǎng)址.測(cè)試效果如表2所示.

由表2可知，本文采用的網(wǎng)頁(yè)預(yù)分類算法具有很高的準(zhǔn)確性，幾種類別的F1值均超過(guò)了0.85，郵箱、色情、體育、軍事、黑客及音樂(lè)類F1值都在0.9以上，可以滿足分類要求，算法準(zhǔn)確率較高，且分類時(shí)間較短.

從表2中還可以看出，文化、教育、IT及財(cái)經(jīng)類的分類效果不是很理想，分析其原因可以歸結(jié)為以下幾個(gè)方面：

1) 文化、教育類網(wǎng)頁(yè)題材內(nèi)容部分重疊，網(wǎng)頁(yè)關(guān)鍵詞代表性不夠，導(dǎo)致分類效果不佳；

2) IT類和黑客類區(qū)分度不大，黑客類網(wǎng)站中包含很多IT類知識(shí)介紹，內(nèi)容容易混淆，難以區(qū)分；

3) 財(cái)經(jīng)類網(wǎng)站特點(diǎn)不明顯，內(nèi)容涉及范圍較廣，因此分類容易出錯(cuò).

4.4 用戶行為分析

通過(guò)對(duì)用戶瀏覽的網(wǎng)址進(jìn)行分類，統(tǒng)計(jì)各類網(wǎng)站的瀏覽情況，可以分析出用戶的行為習(xí)慣，如圖4所示.從圖4中可以看出，目標(biāo)用戶網(wǎng)上活動(dòng)分布較廣，各種頁(yè)面內(nèi)容均有涉及，其中對(duì)IT和文化類網(wǎng)站瀏覽數(shù)量較多，黑客及色情網(wǎng)站也存在部分瀏覽量.

5 結(jié) 論

本文通過(guò)用戶的網(wǎng)頁(yè)瀏覽記錄獲取網(wǎng)址內(nèi)容，進(jìn)行網(wǎng)頁(yè)分類，挖掘用戶的行為特征.主要?jiǎng)?chuàng)新之處在于：根據(jù)網(wǎng)頁(yè)結(jié)構(gòu)特征提出改進(jìn)的單詞權(quán)值計(jì)算方法，根據(jù)URL特點(diǎn)提出網(wǎng)頁(yè)預(yù)分類算法，二者有機(jī)結(jié)合在一起，可以快速進(jìn)行網(wǎng)址分類.該分類算法可以幫助相關(guān)法證部門(mén)分析犯罪分子心理；也可作為商業(yè)服務(wù)為用戶提供喜歡的網(wǎng)站；還可以在高校中為學(xué)生提供個(gè)性化服務(wù)，具有很強(qiáng)的實(shí)用性.

圖4 用戶行為分析Fig.4 Behavior analysis of user

[1] 金一寧，王華兵，王德峰.基于KNN及相關(guān)鏈接的中文網(wǎng)頁(yè)分類研究 [J].哈爾濱商業(yè)大學(xué)學(xué)報(bào)，2011，27(2)：203-206.

(JIN Yi-ning，WANG Hua-bing，WANG De-feng.Research on chinese webpages classification based on k-nearest neighbour algorithm and relative hyperlinks [J].Journal of Harbin University of Commerce，2011，27(2)：203-206.)

[2] 許世明，武波，馬翠，等.一種基于預(yù)分類的高效SVM中文網(wǎng)頁(yè)分類器 [J].計(jì)算機(jī)工程與應(yīng)用，2010，46(1)：125-128.

(XU Shi-ming，WU Bo，MA Cui，et al.Efficient SVM chinese web page classifier based on pre-classification [J].Computer Engineering and Applications，2010，46(1)：125-128.)

[3] 江國(guó)薦，顧乃杰，張旭，等.基于SAE-LBP的網(wǎng)頁(yè)分類研究 [J].小型微型計(jì)算機(jī)系統(tǒng)，2016(4)：738-742.

(JIANG Guo-jian，GU Nai-jie，ZHANG Xu，et al.Research on webpage classification based on sparse auto-encoder and layer-wise back propagation [J].Journal of Chinese Computer Systems，2016(4)：738-742.)

[4] 代寬，趙輝，韓冬，等.基于向量空間模型的中文網(wǎng)頁(yè)主題特征項(xiàng)抽取 [J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版)，2014，32(1)：88-94.

(DAI Kuan，ZHAO Hui，HAN Dong，et al.Theme feature extraction of chinese webpage based on vector space model [J].Journal of Jilin University (Information Science Edition)，2014，32(1)：88-94.)

[5] Lee J H，Yeh W C，Chuang M C.Web page classification based on a simplified swarm optimization [J].Applied Mathematics & Computation，2015，270(3)：13-24.

[7] 袁津生，毛新武.基于組合特征的中文新聞網(wǎng)頁(yè)關(guān)鍵詞提取方法 [J].計(jì)算機(jī)工程與應(yīng)用，2014，50(19)：222-226.

(YUAN Jin-sheng，MAO Xin-wu.Keyword extraction from chinese news Web pages based on multi-features [J].Computer Engineering and Applications，2014，50(19)：222-226.)

[8] 孟海東，肖銀龍，宋宇辰.基于Hadoop的Dirichlet樸素貝葉斯文本分類算法[J].現(xiàn)代電子技術(shù)，2016，39(4)：29-33.

(MENG Hai-dong，XIAO Yin-long，SONG Yu-chen.Classification algorithm for Dirichlet Naive Bayes text based on Hadoop[J].Modern Electronics Technique，2016，39(4)：29-33.)

[9] 潘志文，柏灼，謝政.基于Lucene的Web信息檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [J].軟件導(dǎo)刊，2014(10)：88-90.

(PAN Zhi-wen，BAI Zhuo，XIE Zheng.Design and implementation of web information retrieval system based on lucene [J] Software Guide，2014(10)：88-90.)

[10]羅芳，李春花，周可，等.基于多屬性的海量Web數(shù)據(jù)關(guān)聯(lián)存儲(chǔ)及檢索系統(tǒng) [J].計(jì)算機(jī)工程與科學(xué)，2014，36(3)：404-410.

(LUO Fang，LI Chun-hua，ZHOU Ke，et al.An associated storage and retrieval system of massive web data based on multi-attributes [J].Computer Engineering & Science，2014，36(3)：404-410.)

[11]Zhu J，Xie Q，Wong W H，et al.Exploiting link structure for web page genre identification [J].Data Mining & Knowledge Discovery，2016，30(3)：550-575.

[12]周煒，牛連強(qiáng)，王斌.面向社交網(wǎng)絡(luò)的認(rèn)證模型 [J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào)，2016，38(5)：545-550.

(ZHOU Wei，NIU Lian-qiang，WANG Bin.Authentication models faced on social networks [J].Journal of Shenyang University of Technology，2016，38(5)：545-550.)

[13]俞浩亮，王秋森，馮旭鵬，等.基于特征加權(quán)的網(wǎng)絡(luò)不良內(nèi)容識(shí)別方法[J].現(xiàn)代電子技術(shù)，2016，39(3)：76-79.

(YU Hao-liang，WANG Qiu-sen，F(xiàn)ENG Xu-peng，et al.Feature weighting based identification method for network undesirable content[J].Modern Electronics Technique，2016，39(3)：76-79.)

[14]Jiang L，Li C，Wang S，et al.Deep feature weighting for naive Bayes and its application to text classification [J].Engineering Applications of Artificial Intelligence，2016，52(3)：26-39.

[15]夏莘媛，戴靜，潘用科，等.基于貝葉斯證據(jù)框架下SVM的油層識(shí)別模型研究 [J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版)，2016，28(2)：260-264.

(XIA Xin-yuan，DAI Jing，PAN Yong-ke，et al.Oil layer recognition model based on SVM within Bayesian evidence framework [J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition)，2016，28(2)：260-264.)

BehaviorderivationofusersbasedonNaiveBayeswebpageclassification

QIN Peng1, CAO Tian-jie2

(1.Department of Computer Science and Information Technology, Liupanshui Normal University, Liupanshui 553004, China; 2.School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)

Aiming at the situation that the accuracy and recall rate of traditional web page classification are not high and the classification efficiency is low, a web page pre-classification algorithm based on Naive Bayes classification was proposed.According to the online activity situation of users, the relevant websites were extracted, the contents and keywords of web pages were analyzed, and the classification was performed with the Naive Bayes algorithm.According to the browse situation of users on various web pages, the behavior characteristics of users were analyzed.The improved web text weight calculation method was adopted, the web site pre-classification mechanism was introduced, and the processing efficiency of data and classification accuracy were improved.The results show that the web site classification algorithm is accurate, can fully explore the interest and preference of users, and can be applied in both the commercial popularization and forensic evidence as the data algorithm for the behavior analysis of users.

web page keyword; Naive Bayes; web page classification; behavior characteristic; weight calculation method; website pre-classification; business promotion; forensic evidence

2017-03-29.

貴州省科學(xué)技術(shù)基金計(jì)劃資助項(xiàng)目(20157606)；貴州省教育廳青年科技人才成長(zhǎng)資助項(xiàng)目(2016267).

秦鵬(1986-)，男，貴州六枝人，講師，碩士，主要從事計(jì)算機(jī)人工智能及信息安全等方面的研究.

* 本文已于2017-12-21 14∶47在中國(guó)知網(wǎng)優(yōu)先數(shù)字出版.網(wǎng)絡(luò)出版地址：http：//kns.cnki.net/kcms/detail/21.1189.T.20171220.1758.010.html

10.7688/j.issn.1000-1646.2018.01.15

TP 181

1000-1646(2018)01-0082-06

景勇英文審校：尹淑英)

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于樸素貝葉斯網(wǎng)頁(yè)分類的用戶行為推衍*

1 分類一般過(guò)程

1.1 網(wǎng)頁(yè)文本提取

1.2 構(gòu)建文本特征項(xiàng)

1.3 文本分類

2 經(jīng)典網(wǎng)址分類算法

2.1 貝葉斯理論

2.2 樸素貝葉斯分類

3 改進(jìn)網(wǎng)址分類算法

4 實(shí)驗(yàn)數(shù)據(jù)分析

4.1 評(píng)估標(biāo)準(zhǔn)

4.2 測(cè)試數(shù)據(jù)集

4.3 分類結(jié)果

4.4 用戶行為分析

5 結(jié) 論