• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于RSS的層次結(jié)構(gòu)用戶興趣模型的分析與設(shè)計(jì)

      2011-11-23 07:48:34張文欣
      關(guān)鍵詞:子類向量節(jié)點(diǎn)

      劉 珺, 張文欣

      (1.河南工程學(xué)院 計(jì)算機(jī)科學(xué)與工程系,河南 鄭州 451191;2.鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001)

      隨著互聯(lián)網(wǎng)信息服務(wù)的快速推廣,個(gè)性化信息服務(wù)技術(shù)也得到了越來(lái)越多的關(guān)注,在很多領(lǐng)域都開(kāi)始了探索性的應(yīng)用.國(guó)外的很多網(wǎng)站都可以提供個(gè)性化搜索的定制服務(wù),如Google的網(wǎng)站用戶通過(guò)注冊(cè)后,可以將檢索歷史存儲(chǔ)在服務(wù)器上,實(shí)現(xiàn)個(gè)性化檢索.個(gè)性化數(shù)字圖書(shū)館也已經(jīng)成為廣大學(xué)生、教師和科研人員最方便、高效的信息查詢平臺(tái)[1].

      RSS是一種基于XML語(yǔ)言的數(shù)據(jù)交換規(guī)范,是站點(diǎn)與站點(diǎn)之間稱為“聚合內(nèi)容”的一種內(nèi)容共享的簡(jiǎn)易方式[2].通過(guò)RSS的聯(lián)合與聚合,用戶只需在客戶端安裝支持RSS的信息推送軟件,登錄網(wǎng)站后就可以根據(jù)站點(diǎn)提供的信息列表直接選擇自己需要的文章[3].無(wú)論是何種應(yīng)用,RSS聚合器實(shí)現(xiàn)的前提就是通過(guò)對(duì)客戶端的Web訪問(wèn)日志進(jìn)行數(shù)據(jù)挖掘,建立用戶興趣模型,才能聚合并生成關(guān)于用戶感興趣的信息的RSS Feed[4],并據(jù)此進(jìn)行信息的推送,所以用戶興趣模型的質(zhì)量直接決定了個(gè)性化信息服務(wù)系統(tǒng)的整體工作效果.

      本文通過(guò)研究用戶興趣模型的結(jié)構(gòu)與形式化表示法,結(jié)合興趣節(jié)點(diǎn)的向量表示法,提出了多層樹(shù)形結(jié)構(gòu)的用戶興趣模型以及用戶興趣模型的更新方案,設(shè)計(jì)了一套高效的、可動(dòng)態(tài)更新的用戶興趣集的建模方法.

      1 層次結(jié)構(gòu)用戶模型的設(shè)計(jì)

      1.1 功能設(shè)計(jì)

      對(duì)于大部分單機(jī)上網(wǎng)的用戶而言,經(jīng)過(guò)一段時(shí)間的累積,會(huì)逐步形成以個(gè)人興趣為核心的信息訪問(wèn)習(xí)慣,而且,用戶訪問(wèn)的頁(yè)面所涉及的信息內(nèi)容非常豐富,時(shí)效性也很強(qiáng),這就要求所設(shè)計(jì)的用戶興趣模型必須包括對(duì)用戶的興趣文本內(nèi)容以及相應(yīng)的用戶興趣度的反映[5].用戶興趣模型的核心功能包括2個(gè)方面:

      (1)設(shè)計(jì)多層次樹(shù)形結(jié)構(gòu)的用戶興趣結(jié)構(gòu)

      通過(guò)對(duì)大量用戶的興趣分析可知,人的興趣結(jié)構(gòu)非常適合用層次化的樹(shù)形結(jié)構(gòu)來(lái)描述.在這種結(jié)構(gòu)中,用戶的興趣被層層分解,逐級(jí)細(xì)化為一個(gè)興趣樹(shù).根節(jié)點(diǎn)代表大的用戶興趣類別,細(xì)化的分支代表在該類別中用戶更偏好其中的哪個(gè)領(lǐng)域.在為用戶提供個(gè)性化服務(wù)時(shí),可以通過(guò)從根節(jié)點(diǎn)開(kāi)始遍歷整個(gè)興趣樹(shù)的方式,給用戶提供逐級(jí)細(xì)化的興趣內(nèi)容描述.

      (2)用戶興趣集的遺忘

      最初,用戶興趣模型的初始化信息來(lái)源于用戶注冊(cè)賬號(hào)時(shí)填寫的RSS訂閱列表,隨著日后訪問(wèn)量的增加,可以根據(jù)用戶的Web訪問(wèn)日志對(duì)已有的用戶興趣模型進(jìn)行更新.但是,隨著時(shí)間的推移,用戶曾經(jīng)瀏覽過(guò)的歷史記錄中的文本內(nèi)容不斷增加,用戶的興趣模型數(shù)據(jù)集也會(huì)因此不斷膨脹,為了避免存儲(chǔ)空間的浪費(fèi)和訪問(wèn)效率的降低,有必要定期地對(duì)用戶興趣集進(jìn)行過(guò)濾和轉(zhuǎn)移.

      本設(shè)計(jì)在用戶興趣模型中特意添加了“遺忘因子”的使用,所謂的“遺忘因子”是一個(gè)隨時(shí)間遞增的標(biāo)識(shí)數(shù)值,它用來(lái)表示從第一次訪問(wèn)后,用戶已經(jīng)有多長(zhǎng)時(shí)間沒(méi)有再瀏覽這個(gè)關(guān)鍵詞,初始值為0,隨著系統(tǒng)的運(yùn)行和時(shí)間的推移自動(dòng)增值.當(dāng)某個(gè)興趣類別遺忘因子的值增加到設(shè)定的閾值時(shí),系統(tǒng)會(huì)自動(dòng)將其從用戶興趣模型數(shù)據(jù)集的二維鏈表中移出.

      1.2 模型的形式化設(shè)計(jì)

      如前所述,這里把用戶的興趣模型看作一個(gè)樹(shù)狀的層次結(jié)構(gòu),具體進(jìn)行形式化描述時(shí),各個(gè)細(xì)化的興趣節(jié)點(diǎn)都選擇使用向量空間的方式來(lái)描述,即根據(jù)已經(jīng)存在的關(guān)鍵字類別以及相應(yīng)的用戶興趣度的值來(lái)確定該興趣節(jié)點(diǎn)的向量.

      由網(wǎng)頁(yè)中提取文本的基礎(chǔ)是文本信息的表示法.文本的表示通常有基于向量、基于語(yǔ)義和基于概念3種方法.結(jié)合本文的設(shè)計(jì),這里選用目前應(yīng)用最為廣泛的向量空間模型(Vector Space Model,VSM)表示法.該方法首先將Web訪問(wèn)日志中的所有文本進(jìn)行分詞處理,然后提取特征詞、建立特征詞空間,最后將每個(gè)文本表示成該空間上的向量[6].頁(yè)面中所有的文本信息都可以分解為字、詞、詞組或短語(yǔ)中最基本的語(yǔ)言構(gòu)成單元,這些分解后的構(gòu)成單元的集合常常用來(lái)表示一段文本的內(nèi)容特征.這些標(biāo)識(shí)文本內(nèi)容特征的構(gòu)成單元被統(tǒng)稱為文本的項(xiàng),那么任何一段文本都可以用自己的特征項(xiàng)集(Term List)表示為D(t1,t2,…tk…,tn),其中tk是項(xiàng),1≤k≤n.

      使用RSS聚合器采集到用戶感興趣的信息之后,就可以對(duì)頁(yè)面中文本信息的內(nèi)容進(jìn)行分詞化處理,將文本解析為其特征項(xiàng)集合,然后據(jù)此將該文本用向量的形式表示出來(lái).分詞處理是指將文檔中的內(nèi)容進(jìn)行切分,依據(jù)其詞性進(jìn)行標(biāo)注,如使用詞法分析ICTCLAS系統(tǒng)[7]等方法,經(jīng)過(guò)詞性標(biāo)注,整個(gè)句子會(huì)被劃分為幾個(gè)獨(dú)立的部分,以便于從中找出關(guān)鍵字.該模型如圖1所示,頂層節(jié)點(diǎn)為模型標(biāo)識(shí),第2層為分支層,第3層為項(xiàng)目層,下面2層表示擴(kuò)展層.

      圖1 用戶興趣模型層次結(jié)構(gòu)示意圖Fig.1 User′s interest model with multi-level structure diagram

      以下列出了層次模型的各層次的節(jié)點(diǎn)的形式化表示.

      U=(USER-ID,USER-Name,…)

      頂節(jié)點(diǎn)

      Im=(IDm,IDfm,Dm,Wm,Tm)

      第2層節(jié)點(diǎn)

      Ix=(IDx,IDfx,Dx,Wx,Tx)

      第3層節(jié)點(diǎn)

      Iy=(IDy,IDfy,Dy,Wy,Ty)

      第4層節(jié)點(diǎn)

      Iz=(IDz,IDfz,DZ,WZ,Tz)

      第5層節(jié)點(diǎn)

      其中,m、x、y、z均為正整數(shù)變量,I為興趣類名,D為子興趣類的文本向量表示,W是興趣權(quán)重,T表示“遺忘因子”.

      一個(gè)興趣項(xiàng)的權(quán)重表示用戶對(duì)這個(gè)興趣項(xiàng)的認(rèn)可程度.它可以用1~9的正整數(shù)來(lái)表示.權(quán)重小于5表示相應(yīng)的項(xiàng)對(duì)這個(gè)興趣起否定作用,大于5表示對(duì)這個(gè)興趣起支持作用,這與著名專家系統(tǒng)MYCIN的證據(jù)可信度表示法類似,比較符合人們的思維習(xí)慣[8].

      將文本以向量形式表示并將其合理地分解成若干項(xiàng)集,從而轉(zhuǎn)換到實(shí)數(shù)域中,這種興趣模型的形式化表示方法有效地提高了自然語(yǔ)言文本的可計(jì)算性和可操作性,使模式識(shí)別等各種成熟的計(jì)算方法得以應(yīng)用.只有了解用戶對(duì)不同Web頁(yè)面的感興趣程度,才能建立準(zhǔn)確的用戶興趣模型.我們把用戶對(duì)瀏覽過(guò)的不同頁(yè)面的興趣關(guān)注度用“用戶興趣度”來(lái)表示.在文本的向量表示格式中再引入文本項(xiàng)權(quán)重W,使得文本的表示成為:

      D(t1,W1:t2,w2;…tk,wk;…tn,wn),

      簡(jiǎn)單表示為D(w1,w2,…wk……,wn),也就是可以將(t1,t2,…tk…,tn)看作一個(gè)n維向量,將w1,w2,…wk…,wn理解為n個(gè)值.

      圖2 文本的向量空間模型示意圖Fig.2 VSM of text diagram

      相似度指2個(gè)文本Dm和Dn之間的內(nèi)容相關(guān)程度,常常用Sim(Dm,Dn)來(lái)度量.當(dāng)文本被表示為向量空間模型時(shí),可以使用向量之間的內(nèi)積對(duì)文本間的相似度進(jìn)行計(jì)算,也可借助于向量空間中向量之間的某種距離來(lái)表示文本間的相似度,如圖2所示.

      Sim(Dm,Dn)=Dm1*Dn1+Dm2*Dn2+…+Dmx*Dny,

      其中,x和y分別代表2個(gè)文本向量的維數(shù).這里可以給Sim設(shè)定一個(gè)上限值,當(dāng)文本相似度大于這個(gè)值時(shí),表示2個(gè)文檔高度相似,或者可以說(shuō)2個(gè)文檔實(shí)為同一文檔.這說(shuō)明,用戶在反復(fù)訪問(wèn)內(nèi)容非常相似的文本,也就是說(shuō)該文本和用戶的興趣集很接近.相反,則認(rèn)為2個(gè)文本完全不同,或者說(shuō)用戶對(duì)此毫無(wú)興趣.

      1.3 用戶興趣模型建立的流程設(shè)計(jì)

      用戶興趣模型建立的流程如圖3所示.

      圖 3 用戶興趣模型構(gòu)建的流程示意圖Fig.3 Process flow diagram of building user′s interest model

      模型構(gòu)建的算法流程先從用戶興趣子類的劃分開(kāi)始.用戶興趣子類是文本分類的最終結(jié)果,因此,用戶興趣子類的結(jié)構(gòu)直接決定了進(jìn)行文本分類時(shí)應(yīng)該采用何種方式.

      進(jìn)行用戶興趣子類結(jié)構(gòu)劃分時(shí),首先將所有需要分類的文本進(jìn)行預(yù)處理以及分詞處理,然后刪去消極關(guān)鍵字,進(jìn)行詞頻統(tǒng)計(jì),最后將文檔向量化.關(guān)鍵詞的抽取就是從有待分類處理的信息中提取其特征項(xiàng)的過(guò)程.文本的向量化完成之后,文本向量就成為系統(tǒng)所使用的層次化分類體系的主體.

      對(duì)于RSS訂閱中用戶興趣模型的初始化,可直接進(jìn)行文本的向量化及其分類,省去了預(yù)處理及分詞處理等過(guò)程.當(dāng)用戶的訪問(wèn)量有了一定的累積,通過(guò)Web挖掘也獲得了一定量的用戶興趣信息時(shí),就可以對(duì)用戶的興趣模型進(jìn)行調(diào)整和豐富了,兩者相結(jié)合,完整的用戶興趣模型就可以建立起來(lái).在用戶興趣信息不斷擴(kuò)充的過(guò)程中,可以根據(jù)用戶興趣類的劃分及對(duì)應(yīng)的用戶興趣度,再結(jié)合用戶興趣集的遺忘因子,對(duì)已經(jīng)存在的用戶興趣模型不斷進(jìn)行優(yōu)化和更新,使該模型能夠盡可能全面地反映用戶的興趣及其變化.

      2 用戶興趣模型的更新

      要想讓用戶的興趣模型及時(shí)反映該用戶的最新?tīng)顟B(tài),用戶興趣模型就必須能夠及時(shí)更新.應(yīng)用系統(tǒng)必須定期捕捉新的用戶訪問(wèn)信息,更新對(duì)用戶訪問(wèn)記錄的分析,與用戶模型中已經(jīng)保存的數(shù)據(jù)比對(duì)整合,形成新的用戶模型.

      用戶興趣模型的更新分為2個(gè)部分,分別是用戶訪問(wèn)類別子集興趣度的更新和用戶訪問(wèn)類別子集本身的更新.其中,興趣度的更新主要是通過(guò)對(duì)點(diǎn)擊行為的跟蹤記錄來(lái)實(shí)現(xiàn)的.也就是說(shuō),用戶有點(diǎn)擊行為代表該用戶對(duì)當(dāng)前興趣子集的文本特征項(xiàng)的興趣度數(shù)值需要增加,而無(wú)點(diǎn)擊行為則表示該興趣度數(shù)值需要減少.而用戶興趣子集本身的更新則是對(duì)用戶的點(diǎn)擊行為所涉及的頁(yè)面進(jìn)行處理,再次進(jìn)行分詞處理并從中提取文本特征項(xiàng)集合,也將其表示為向量,并與原有的興趣子集向量空間進(jìn)行合并.這時(shí),可以將原先的用戶興趣子集的中心向量進(jìn)行更新,也可以直接添加建立新的興趣子集.

      2.1 用戶興趣度的更新

      某個(gè)用戶興趣的各個(gè)項(xiàng)的權(quán)重值可用于標(biāo)記用戶對(duì)該項(xiàng)的興趣程度,而各個(gè)項(xiàng)的權(quán)重值形成的數(shù)據(jù)集合很重要,根據(jù)這個(gè)數(shù)據(jù)集合可以來(lái)合并類似的興趣,以便區(qū)分不同的興趣分類.之后,系統(tǒng)會(huì)搜索用戶興趣庫(kù)中與之對(duì)應(yīng)的興趣集,并生成1個(gè)網(wǎng)頁(yè)鏈接序列在用戶界面顯示出來(lái).

      這里,采用比較成熟的比例——微分——積分模型來(lái)模擬并跟蹤用戶的興趣,該模型對(duì)用戶興趣指標(biāo)函數(shù)做了二階近似,即用戶在某一時(shí)刻對(duì)某一子類的興趣度指標(biāo)可以表示為其上一時(shí)刻的興趣指標(biāo)的函數(shù),即指標(biāo)變化和其指標(biāo)變化加速度的加權(quán)和.

      設(shè)用戶在某一時(shí)刻n對(duì)某一特定子類的興趣指標(biāo)為In,則其對(duì)該類下一時(shí)刻的興趣指標(biāo)為:

      In+1=In+△In,同時(shí)記:△2In=△In-△In-1,

      此時(shí),用戶在(n+1)時(shí)刻的興趣函數(shù)可以用n時(shí)刻之前的興趣度來(lái)描述:

      In+1=aIn+b△In+c△2In,

      其中,a,b,c分別是積分、比例和微分環(huán)節(jié)的系數(shù).對(duì)于不同的用戶,可以設(shè)置不同的參數(shù)以體現(xiàn)其特點(diǎn),并控制跟蹤曲線的變化來(lái)捕捉用戶的興趣.

      2.2 用戶子集本身的更新

      在最初建立擴(kuò)展的用戶興趣模型時(shí),主要參考用戶在進(jìn)行RSS訂閱時(shí)提供的信息.隨著系統(tǒng)的運(yùn)行,用戶會(huì)不斷訪問(wèn)新的頁(yè)面并產(chǎn)生各種用戶行為,這時(shí)就必須不斷地更新用戶的興趣模型,才能使用戶的興趣模型始終符合用戶的真實(shí)興趣,用戶興趣模型的更新流程如圖4所示.

      圖4 用戶興趣模型更新流程示意圖Fig.4 Process flow diagram of updating user’s interest model

      用戶興趣模型的更新除了包括用戶興趣類別常規(guī)的添加、修改和刪除,還包括用戶興趣度的改變以及對(duì)用戶興趣類的遺忘和回憶.目前,各種用戶興趣模型的更新機(jī)制普遍存在的一個(gè)問(wèn)題,就是如何解決用戶興趣模型的冗余和用戶興趣的丟失問(wèn)題.為此,這里引入了用戶興趣遺忘和回憶的概念.

      依前文所述,用戶興趣的遺忘是依靠遺忘因子的增值來(lái)控制的,判斷是否需要將用戶興趣子類移出,要考慮到遺忘因子是否達(dá)到閾值、興趣模型的冗余度是否過(guò)高以及可用存儲(chǔ)空間是否充裕等諸多因素.如果用戶興趣模型的冗余程度還沒(méi)有到達(dá)臨界值,即使是用戶興趣遺忘因子達(dá)到了一定的閾值,也完全沒(méi)有必要將用戶興趣類移出.而用戶興趣的回憶則要解決2個(gè)問(wèn)題,一個(gè)是將用戶興趣子類移出鏈表后如何處理,另一個(gè)是在什么情況下允許將用戶興趣模型的興趣子類重新復(fù)位.

      在將用戶興趣子類移出用戶興趣模型之前,首先要記錄其在模型中的位置,即該用戶興趣子類所屬的父類的ID.在以后的用戶興趣模型更新時(shí),需要追蹤原先興趣模型的父類關(guān)鍵詞的變化,以確定其新的鏈接位置.如發(fā)現(xiàn)其父類興趣類的關(guān)鍵詞已經(jīng)被合并,由新的類別取代,那么就用合并后的用戶興趣類別的ID取代原先的父類ID,確保需要的時(shí)候能夠?qū)⒈灰瞥龅呐d趣類從“遺忘集”鏈表中取回.其次,當(dāng)用戶再次訪問(wèn)到與已經(jīng)移出的興趣類別相同或者相似的興趣類別的時(shí)候,就在“遺忘集”鏈表中重新查找該興趣類別,由于該鏈表采用和興趣集完全相同的結(jié)構(gòu),所以只需修改結(jié)點(diǎn)的鏈接關(guān)系、重新插入就可以復(fù)位了,同時(shí)還要將其遺忘因子重新設(shè)為初始值0.用戶興趣模型回憶機(jī)制的建立很好地解決了用戶興趣容易丟失的問(wèn)題,使用戶興趣模型既能夠保持較少的冗余、節(jié)約大量空間,又能夠確保不會(huì)輕易丟失用戶的興趣集,從而使用戶興趣模型興趣子類的更新機(jī)制更加完善.

      3 結(jié)論

      本系統(tǒng)針對(duì)目前信息推送技術(shù)中建模方法的弊端進(jìn)行了改造,大大提高了信息獲取的效率和準(zhǔn)確度.在RSS信息推送模塊的設(shè)計(jì)中,將用戶的初始化訂閱與日后的興趣建模相結(jié)合,采用層次化的向量形式來(lái)描述用戶的興趣模型,對(duì)用戶興趣的表示和預(yù)測(cè)更加細(xì)致、真實(shí)、準(zhǔn)確.考慮到用戶訪問(wèn)量的增加雖然使Web挖掘和用戶興趣模型的建立有了更好的數(shù)據(jù)基礎(chǔ),但是也會(huì)造成生成的興趣模型數(shù)據(jù)集的不斷膨脹,這里提出了基于遺忘因子的興趣集移出和復(fù)位的解決方案,模擬了人的興趣遺忘和回憶的過(guò)程,既有效避免了數(shù)據(jù)的冗余,又不易造成用戶歷史興趣集的丟失.隨著技術(shù)的發(fā)展和手機(jī)網(wǎng)絡(luò)用戶的增加,日后可以將該系統(tǒng)與手機(jī)網(wǎng)絡(luò)平臺(tái)進(jìn)行連接,更方便地實(shí)現(xiàn)與用戶的互動(dòng).

      參考文獻(xiàn):

      [1] 郭海明,劉桂珍.面向用戶的數(shù)字信息服務(wù)方式探討[J].圖書(shū)館建設(shè),2005(2) :66-68.

      [2] 胡潛,汪會(huì)玲.基于RSS的個(gè)性化推送服務(wù)[J].情報(bào)雜志,2008(10):32-33.

      [3] 郭軍城,于金海.RSS的版本演變[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2007(33):191-192.

      [4] 薩支斌.RSS技術(shù)研究[J].情報(bào)探索,2006(9):71-72.

      [5] 張玉蓮,王權(quán).基于瀏覽行為和瀏覽內(nèi)容的用戶興趣建模[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007(6):52-55.

      [6] 費(fèi)洪曉,蔣翀,徐麗娟.基于樹(shù)狀向量空間模型的用戶興趣建模[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009(5):85-87.

      [7] 賴茂生,屈鵬.搜索引擎查詢?nèi)罩镜脑~性標(biāo)注和挖掘研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2009(4):55-61.

      [8] 張宗平.一種更新關(guān)聯(lián)規(guī)則的方法[J].計(jì)算機(jī)工程,2008(1):70-71.

      猜你喜歡
      子類向量節(jié)點(diǎn)
      CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
      向量的分解
      Analysis of the characteristics of electronic equipment usage distance for common users
      聚焦“向量與三角”創(chuàng)新題
      卷入Hohlov算子的某解析雙單葉函數(shù)子類的系數(shù)估計(jì)
      基于AutoCAD的門窗節(jié)點(diǎn)圖快速構(gòu)建
      關(guān)于對(duì)稱共軛點(diǎn)的倒星象函數(shù)某些子類的系數(shù)估計(jì)
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      抓住人才培養(yǎng)的關(guān)鍵節(jié)點(diǎn)
      台湾省| 新乡市| 合阳县| 望江县| 太保市| 贵州省| 乐东| 洪泽县| 凤凰县| 阿拉善左旗| 上思县| 襄汾县| 永吉县| 新乡市| 榆树市| 建湖县| 龙陵县| 五家渠市| 山西省| 涿鹿县| 高邮市| 桐城市| 九龙县| 桦甸市| 内江市| 砚山县| 古浪县| 兴和县| 安塞县| 东乌珠穆沁旗| 开封市| 内江市| 绿春县| 盐源县| 三门峡市| 衡水市| 平果县| 峨眉山市| 临海市| 泸西县| 武定县|