• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)的基于狄利克雷混合模型的推薦算法

      2018-03-01 05:25:07董堅(jiān)峰張玉峰戴志強(qiáng)
      關(guān)鍵詞:先驗(yàn)混合變量

      董堅(jiān)峰,張玉峰,戴志強(qiáng)

      (1.吉首大學(xué) 軟件學(xué)院,湖南 張家界427000;2.中山大學(xué) 管理學(xué)院,廣州510275;3武漢大學(xué) 信息資源研究中心,武漢430072)

      0 引 言

      選擇模型在機(jī)器學(xué)習(xí)過程中一直屬于研究熱點(diǎn)以及研究難點(diǎn)[1]。隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展以及在各個(gè)領(lǐng)域里應(yīng)用越來(lái)越廣泛的網(wǎng)絡(luò)應(yīng)用,網(wǎng)絡(luò)數(shù)據(jù)所具有的時(shí)間與空間上的動(dòng)態(tài)變化特征已不能被人所忽視,變得越來(lái)越重要。針對(duì)一些新聞、網(wǎng)頁(yè)等文本信息類構(gòu)造文本推薦模型時(shí),必須要充分考慮這些數(shù)據(jù)的時(shí)間與空間上的動(dòng)態(tài)變化特征。一些專家學(xué)者為了在某種程度上解決這一問題,創(chuàng)建了貝葉斯非參數(shù)模型[13]。通過非參數(shù)貝葉斯先驗(yàn),能夠?qū)δP偷囊?guī)模自動(dòng)改變,進(jìn)而與數(shù)據(jù)的復(fù)雜性相適應(yīng)。近幾年,貝葉斯非參數(shù)模型在相關(guān)領(lǐng)域如文本建模型領(lǐng)域[2]和推薦系統(tǒng)[3]等的作用越發(fā)重要。

      狄利克雷過程混合模型具有應(yīng)用靈活和推理算法高效的特點(diǎn),目前在貝葉斯非參數(shù)模型中極為重要。作為混合模型組件的先驗(yàn),DP狄利克雷過程混合模型與參數(shù)型話題模型比較接近:在狄利克雷分布中隱含狄利克雷分配作用[4]。全部基于可交換的基本假設(shè),包括狄利克雷分布混合模型和狄利克雷過程混合模型。可交換性假設(shè)在狄利克雷過程混合模型當(dāng)中,標(biāo)志著一個(gè)共享狄利克雷過程可產(chǎn)生全部數(shù)據(jù)單元,可交換性能夠通過混合模型的全部組件得到滿足,即組件的概率不隨著組件的順序變化而改變。不過,這個(gè)假設(shè)在大部分應(yīng)用中都不成立。

      文本建模在網(wǎng)絡(luò)應(yīng)用中是應(yīng)用廣泛的推薦技術(shù)。許多專家學(xué)者對(duì)文本的建模做了一些研究工作,文本存在的話題包括一個(gè)或者多個(gè),其中單詞概率分布問題即指話題。新的話題伴隨時(shí)間的延續(xù)而產(chǎn)生,已存在的話題有可能消失或者發(fā)生其他變化。這種現(xiàn)象與空間上比較相類似,可能在某區(qū)域范圍之內(nèi)只出現(xiàn)一個(gè)話題,在不同的地點(diǎn)同一個(gè)話題的分布也會(huì)變化?;旌夏P徒M件在相關(guān)情景之中,與可交換性假設(shè)并不相符,其動(dòng)態(tài)性在某種時(shí)間或者空間的協(xié)變量上持續(xù)存在。一些該領(lǐng)域的專家學(xué)者做了一些改進(jìn)傳統(tǒng)混合模型考慮組件動(dòng)態(tài)性的相關(guān)工作研究[5],大部分都考慮話題在時(shí)間上的動(dòng)態(tài)性,比如,由Lin等[6]提出的馬爾科夫模型,對(duì)話題在離散時(shí)間協(xié)變量上的相關(guān)性處理就主要基于馬爾科夫鏈的狄利克雷過程[7]。

      空間與時(shí)間相關(guān)性事實(shí)上也是有關(guān)聯(lián)性的[8]。一維歐幾里得空間通過時(shí)間被形式化,而二維歐幾里得空間被形式化成為地點(diǎn)。兩者從這個(gè)意義上講是一致的[9]。在給定協(xié)變量空間上我們可以考慮創(chuàng)建相關(guān)狄利克雷過程,混合模型的組件在生命周期內(nèi)以其為先驗(yàn),而組件參數(shù)在生命周期內(nèi)也會(huì)發(fā)生改變[10-12]。

      傳統(tǒng)文本建模模型大多以可交換性的基本假設(shè)為前提,對(duì)文本數(shù)據(jù)時(shí)間與空間上的動(dòng)態(tài)變化相關(guān)性考慮不周,無(wú)法對(duì)這些具有動(dòng)態(tài)性的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行有效建模。在動(dòng)態(tài)數(shù)據(jù)建模的研究中,前人的工作多分別考慮隨離散時(shí)間、連續(xù)時(shí)間或地點(diǎn)變化的貝葉斯先驗(yàn),忽視了協(xié)變量的統(tǒng)一性。本文提出的貝葉斯非參數(shù)先驗(yàn)函數(shù)式狄利克雷過程,可以發(fā)生任意協(xié)變量變化。在建模過程中,利用函數(shù)定義域中取值的變化改變混合模型組件參數(shù)。在函數(shù)空間上,通過投影和約束狄利克雷過程來(lái)獲取任意協(xié)變量空間相關(guān)參數(shù)空間上的狄利克雷過程。針對(duì)函數(shù)式狄利克雷過程,本文更進(jìn)一步設(shè)計(jì)出了基于吉布斯采樣的高效推演算法。仿真實(shí)驗(yàn)結(jié)果表明,本文提出的將函數(shù)式狄利克雷過程作為動(dòng)態(tài)非參數(shù)先驗(yàn)具有良好的有效性。

      1 相關(guān)定義

      定義1 假設(shè)α為正實(shí)數(shù),概率空間Θ上任意隨機(jī)分布G,假如對(duì)概率空間Θ中可測(cè)變量能夠有限劃分隨機(jī)向量(G(A1),G(A2),…,G(A n)),并且符合狄利克雷模型分布,則其可以形式化表示為:(G(A1),G(A2),…,G(A n))~Dir(G0(A1),G0(A2),…,G0(A n)),則稱G為一個(gè)狄利克雷過程,記為G~DP(αG0)。

      定義2 狄利克雷混合模型(DPM)指的是將貝葉斯層級(jí)模型的先驗(yàn)設(shè)置為狄利克雷過程的模型。狄利克雷混合模型主要應(yīng)用范圍為一些非參數(shù)聚類任務(wù),其優(yōu)點(diǎn)為不用額外預(yù)先調(diào)整任務(wù)聚類數(shù)目,該模型能夠依據(jù)任務(wù)中得到的數(shù)據(jù)自主進(jìn)行學(xué)習(xí)[13]。狄利克雷混合模型表示成產(chǎn)生式過程為:

      式中:{x1,x2,…,x n}代表觀測(cè)到的數(shù)據(jù)信息,F(·)代表著變量為(θ1,θ2,…,θn)的似然方程,θi的選取過程為從DP中隨機(jī)抽取,符合可交換性假設(shè)。但在實(shí)際應(yīng)用中這個(gè)假設(shè)并不是十分的科學(xué)合理,因此,本文提出協(xié)變量相關(guān)的狄利克雷過程來(lái)替換公式(1)中的G。

      2 函數(shù)式狄利克雷過程

      參數(shù)空間,即狄利克雷過程組件參數(shù)概率空間由(Ω,Σ)表示,其中協(xié)變量空間由Θ表示。構(gòu)建某個(gè)概率測(cè)度D?時(shí),可以在一個(gè)可數(shù)有限的連續(xù)函數(shù)空間上進(jìn)行,而該概率測(cè)度中的某個(gè)組件都是函數(shù),并且這些函數(shù)是連續(xù)有限的,把它叫做functionalatom,即函數(shù)單元,其中協(xié)變量空間Θ的子空間由函數(shù)的定義域表示。任意索引Φ∈Θ由協(xié)變量空間給定,并且給定概率測(cè)度D?,首先,采取重歸一化和限定操作方法,主要針對(duì)D?,選擇函數(shù)單元f,其中定義域包含Φ。隨后從函數(shù)空間至參數(shù)空間,把相關(guān)函數(shù)單元投影為相應(yīng)的單元f(Φ)。在這種情況下,可獲取概率測(cè)度DΦ,主要從概率空間Ω得到。

      通過對(duì)以上步驟的總結(jié),針對(duì)狄利克雷過程,給D?加上了一個(gè)先驗(yàn),進(jìn)而得到以下公式:

      通過上述公式可知,f上的概率分布由G?表示,一個(gè)連續(xù)函數(shù)空間由f表示,其中協(xié)變量空間上的子空間為其函數(shù)的定義域,而{f i}是G?獨(dú)立抽樣,為可數(shù)無(wú)限個(gè),再者,ZΦ=∑i:Φ∈domain(f i)p i代表歸一化參數(shù),確保歸一化概率測(cè)度在任意協(xié)變量空間上的任意一點(diǎn)Φ。如例如所示,給定無(wú)向圖的全部節(jié)點(diǎn)集合?與?2共同組成協(xié)變量空間,而?中某個(gè)子集與節(jié)點(diǎn)子集合,以及?2中某個(gè)子集合屬于其對(duì)應(yīng)函數(shù)單元的定義域,

      (1)邊際分布

      參考狄利克雷過程的性質(zhì)可知[14],通過投影和限定操作可知對(duì)某個(gè)狄利克雷過程依然屬于狄利克雷過程,所以,DΦ與在上述構(gòu)建過程中都屬于狄利克雷過程。具體得出以下引理:

      引理1 在(Ω,Σ)上表示狄利克雷過程,設(shè)D=∑p iδθi~DP(μ)。

      1)隨機(jī)概率測(cè)度的計(jì)算,通過重歸一化和限定D到X上得到的值同樣是DP,Ω上的可測(cè)量子集由X?Ω表示。

      2)對(duì)D進(jìn)行投影,通過可測(cè)量函數(shù)g:Ω→Ω′計(jì)算得到的概率測(cè)度同樣是DP。

      通過上述引理可知,得到Dφ邊際分布如下所示:

      通過上式可知,在(Ω,Σ)上定義的一個(gè)測(cè)度為μφ,得到?A∈Σ,如下式所示:

      (2)動(dòng)態(tài)混合模型

      可用于混合模型的非參數(shù)先驗(yàn)為協(xié)變量相關(guān)的狄利克雷分布{Dφ}φ∈Θ。有可能重復(fù)的索引為φ1,…,φn,通過協(xié)變量空間形式化的給定,觀察(x1,φ1),…,(x n,φn)數(shù)據(jù),發(fā)現(xiàn)其來(lái)自以下產(chǎn)生式過程。

      通過上式可知,參數(shù)θ的概率分布由Fθ(·)表示。對(duì)參數(shù)θi的混合模型的組件進(jìn)行抽樣計(jì)算,計(jì)算得到觀察的數(shù)據(jù)x i,該數(shù)據(jù)在協(xié)變量θi處,通過該函數(shù)決定θi的具體數(shù)值,而在表達(dá)式中已經(jīng)通過積分的形式去掉了函數(shù)f i。

      3 函數(shù)基分布計(jì)算

      一些專家與學(xué)者提出基于截線權(quán)值與協(xié)變量數(shù)值關(guān)系來(lái)構(gòu)造動(dòng)態(tài)非參數(shù)貝葉斯先驗(yàn)的方法[15]。但此類構(gòu)造算法中狄利克雷過程原子的坐標(biāo)信息是一定值,不能隨協(xié)變量的數(shù)值變化來(lái)進(jìn)行調(diào)整。也有一部分專家學(xué)者提出一類基于中國(guó)餐館過程的構(gòu)建動(dòng)態(tài)非參數(shù)貝葉斯先驗(yàn)方法[16],此種方法的缺點(diǎn)在于只考慮協(xié)變量空間是一維實(shí)數(shù)?,應(yīng)用范圍不廣。

      在上述內(nèi)容中,利用函數(shù)空間構(gòu)建協(xié)變量相關(guān)的狄利克雷過程,介紹了一些方式方法。在機(jī)器學(xué)習(xí)過程中,為有效應(yīng)用這種構(gòu)建方法,需要使用G?的基分布,即Base distribution。在構(gòu)建狄利克雷過程相關(guān)性時(shí),起到?jīng)Q定性作用的是基分布,如果應(yīng)用于不同的范圍,則相應(yīng)的選擇也不一致。

      為使相關(guān)內(nèi)容更為簡(jiǎn)捷,設(shè)g:domain(g)→Ω為隨機(jī)函數(shù),在協(xié)變量空間中的獨(dú)立隨機(jī)子集上限定整個(gè)協(xié)變量空間中的隨機(jī)過程。具體內(nèi)容如下:

      (1)通過domain(g)關(guān)于子集的分布抽樣決定函數(shù)的定義域。

      (2)基過程(Base process),即這個(gè)隨機(jī)過程主要指對(duì)定義在整個(gè)協(xié)變量空間上的隨機(jī)過程{go(φ)}φ∈Θ進(jìn)行抽樣go:Θ→Ω,得到相應(yīng)的函數(shù)值,通過{go(φ)}φ∈Θ的具體實(shí)現(xiàn)得到go:Θ→Ω。綜上所述,限定)可得到隨機(jī)函數(shù)。在此計(jì)算過程中,可假定函數(shù)取值與定義域之間具有一定的獨(dú)立性。

      3.1 函數(shù)取定義域的先驗(yàn)分布

      在具體混合模型中,在協(xié)變量空間上,對(duì)混合模型組件的生命期限進(jìn)行刻畫過程中,利用函數(shù)的定義域進(jìn)行相關(guān)計(jì)算,所選擇的協(xié)變量和具體應(yīng)用具有某種聯(lián)系[17]。比如,針對(duì)某些話題模型,因其隨時(shí)間變化而變化,很自然地把時(shí)間當(dāng)作協(xié)變量,進(jìn)而把一段時(shí)間的間隔當(dāng)作函數(shù)的定義域,與?上的線段相對(duì)應(yīng),其中線段的起始點(diǎn)證明這個(gè)混合模型開始產(chǎn)生,而其終點(diǎn)則證明此混合模型組件已經(jīng)消失。在應(yīng)用圖像分割過程中,可將?2上的某個(gè)連續(xù)區(qū)域當(dāng)作混合模型組件的生命期限。并且針對(duì)這個(gè)混合模型的生命期限構(gòu)建模型,在創(chuàng)建之前我們需要尋找一個(gè)合理的先驗(yàn)分布,應(yīng)用于函數(shù)的定義域中。

      參照Kolmogrov extension theorem基本原理,即柯爾莫哥洛夫擴(kuò)展定理可知,可對(duì)定義域的有限維邊際分布進(jìn)行間接利用,對(duì)函數(shù)定義域的分 布 進(jìn) 行 構(gòu) 建,得 到。選擇的φ不同,構(gòu)建的任意分布也各不相同。即可在度量為d:Ω×Ω→?的協(xié)變量空間上應(yīng)用與直徑相關(guān)的φ。

      通過上式可知,我們可將其當(dāng)作比較特殊的模型之一,即協(xié)變量空間Θ={1,2,…}的動(dòng)態(tài)非參數(shù)先驗(yàn)考慮離散的固定長(zhǎng)度的時(shí)間段為混合模型組件的生命期限。如果將{a i,a i+1,…,b i}設(shè)為協(xié)變量空間,當(dāng)滿足條件時(shí),馬爾科夫狄利克雷過程與我們的模型相互等價(jià),這個(gè)過程與時(shí)間具有相關(guān)性。此結(jié)論與公式(4)~(8)的表述相同。其中,僅需進(jìn)行簡(jiǎn)單的修改,就可在連續(xù)協(xié)變量空間?上進(jìn)行推廣。設(shè)[a i,b i)為定義域,并且,針對(duì)普通歐幾里得協(xié)變量空間Rd,上述公式可確保定義域的直徑較小,并且這種概率極高。

      3.2 函數(shù)組件的基過程

      動(dòng)態(tài)混合模型的非參數(shù)先驗(yàn)利用函數(shù)式狄利克雷過程實(shí)現(xiàn),基過程的作用和標(biāo)準(zhǔn)狄利克雷過程混合模型中的基分布作用相似,兩者都可應(yīng)用于混合模型組件的參數(shù)先驗(yàn),但是把基過程作為參數(shù)先驗(yàn)時(shí),如果給定的協(xié)變量發(fā)生變化,則也允許參數(shù)改變?;^程的選擇與標(biāo)準(zhǔn)狄利克雷過程混合模型相似,也和具體的應(yīng)用密切相關(guān)。在選擇基過程時(shí),可選取與數(shù)據(jù)似然分布共軛的基過程。在本章節(jié)隨后內(nèi)容中,重點(diǎn)分析應(yīng)用過程中的三種共軛基過程。

      3.2.1 基于常函數(shù)的基分布分析

      常函數(shù)的基過程比較簡(jiǎn)單,當(dāng)協(xié)變量發(fā)生變化時(shí),也允許混合模型的組件參數(shù)發(fā)生變化[18]。即 ?φ,go(φ)=c,c~H0,通過該式可知,Ω上的概率分布為H0。H0與數(shù)據(jù)似然概率在實(shí)際應(yīng)用過程中共軛時(shí),可設(shè)計(jì)較為簡(jiǎn)單的折疊式吉布斯采樣算法。

      3.2.2 基于高斯過程的基分布分析

      由實(shí)數(shù)向量代表概率分布的參數(shù),即由θ∈R M代表Fθ(x),很自然地將會(huì)應(yīng)用高斯分布描述θ的邊際分布,協(xié)變量間的相關(guān)性通過高斯過程進(jìn)行刻畫。具體而言,設(shè)定一個(gè)協(xié)方差函數(shù)K(φ,φ′),一 個(gè) 平 均 函 數(shù)m(φ),可 將g0~GP(m,K)定義為基過程。

      3.2.3 相關(guān)狄利克雷分布分析

      假設(shè)已知W數(shù)目,并且數(shù)據(jù)單元為離散性質(zhì),比如應(yīng)用有限話題模型時(shí),假設(shè)基過程為類別模型。以此為背景,有效應(yīng)用W-單形表面,實(shí)現(xiàn)對(duì)g0(φ)的取值。由于該過程在有限的空間中,屬于一種特殊例子,在構(gòu)建相關(guān)狄利克雷分布{g(φ)}φ∈Θ時(shí),可應(yīng)用函數(shù)式狄利克雷過程實(shí)現(xiàn),可將Ω=[W]設(shè)為參數(shù)空間。具體而言,假設(shè),在常數(shù)空間上,由代表有限測(cè)度??偠灾?應(yīng)用該過程計(jì)算得到相關(guān)概率測(cè)度。通過這種方法成功構(gòu)建了基過程,該基過程主要基于相關(guān)狄利克雷分布。得到預(yù)測(cè)分布,實(shí)現(xiàn)了更加便捷的計(jì)算方式,由此可知,所應(yīng)用的推理算法具有較高效率。

      4 基于吉布斯采樣的推理算法

      經(jīng)過觀察,假設(shè)n個(gè)數(shù)據(jù)X1:n的協(xié)變量分別為Φ1:n時(shí),獲取劃分?jǐn)?shù)據(jù)是此推理算法的主要目標(biāo),由于模型為非參數(shù)的,此算法實(shí)際之前并不明確所劃分的數(shù)目。而一個(gè)函數(shù)式狄利克雷過程實(shí)際就相當(dāng)于一個(gè)劃分。詳細(xì)來(lái)講,與中國(guó)傳統(tǒng)餐館過程表示的餐桌分配相類似,為要求數(shù)據(jù)的函數(shù)分配Z1:n。通過對(duì)上述問題的形式化,形成數(shù)據(jù)X1:n的產(chǎn)生式過程,具體下述公式所示:

      通過上述公式可知,在f1:n不重復(fù)的函數(shù)由表示,而函數(shù)則有c l次的發(fā)生。綜上所述,可將函數(shù)分配進(jìn)行如下表示,即z i∈[K]。

      4.1 預(yù)測(cè)分布

      在吉布斯采樣算法中,最關(guān)鍵的設(shè)計(jì)為預(yù)測(cè)分布[10]。其中x為給定的數(shù)據(jù)單元,而Φ屬于協(xié)變量索引,進(jìn)而得到z,的預(yù)測(cè)分布。其主要依據(jù)為{z1:z(n-1),θ1:(n-1)},而混合狄利克雷過程,即Mixture of Dirichlet process為D?的后驗(yàn)分布,應(yīng)當(dāng)重點(diǎn)關(guān)注狄利克雷過程混合模型與混合狄利克雷過程的區(qū)別,積分掉后驗(yàn)分布中的狄利克雷過程,可獲取預(yù)測(cè)分布。

      換而言之,對(duì)K個(gè)不同觀察值給定,并且等價(jià)于{z1:(n-1),θ1:(n-1)},而且在集合f中包含著第l個(gè)觀察,合計(jì)發(fā)生了c l次??蓪⑦M(jìn) 一 步形式化,值得關(guān)注的是,每一個(gè)觀察位置在傳統(tǒng)狄利克雷過程后驗(yàn)分布的分析過程中都是已知的,不過函數(shù)單元的明確位置在推導(dǎo)過程中并不明確,僅僅了解到每一個(gè)觀察有可能存在的區(qū)域部分。此類后驗(yàn)分布即稱為混合狄利克雷過程[2]。詳細(xì)來(lái)講,給定函數(shù)為,其條件分布為,該函數(shù)D?后驗(yàn)為DP(μ?+∑iciδfi?),最終獲取給定時(shí)D?的后驗(yàn)分布公式如下所示:

      雖然,很多狄利克雷過程的混合為DΦ,在給定θ的情況下,全部Φ∈domain(f)=θ的函數(shù),f對(duì)θ的影響是相同的。我們?cè)谶@種情況下可對(duì)公式(12)進(jìn)行簡(jiǎn)化,得到下述公式:

      根據(jù)上述條件,可積分掉公式(13)中的狄利克雷過程,進(jìn)而獲得如下所示的預(yù)測(cè)分布z,:

      在上述公式中,δK+1代表著對(duì)某個(gè)新的函數(shù)進(jìn)行分配,而如上述兩個(gè)公式中的所示。

      4.2 吉布斯采樣

      通過吉布斯采樣法可對(duì)全部函數(shù)的z1:n,z i∈[K]進(jìn)行分配,其中函數(shù)的數(shù)目由K代表,伴隨迭代過程的進(jìn)行,K的取值也將發(fā)生改變。另外,通過吉布斯采樣,還能夠?qū)Σ煌瘮?shù)出現(xiàn)的次數(shù)c0:K進(jìn)行維護(hù),而每次迭代為,利用此算法可重新采樣全部的z1:n,對(duì)每一個(gè)函數(shù)出現(xiàn)的次數(shù)進(jìn)行更新。以下為Z n采樣方法,包括賦值至協(xié)變量Φn及數(shù)據(jù)單元x n上。

      (1)輔助變量采樣:針對(duì) 每個(gè)k∈[K]中,對(duì)進(jìn)行采樣,進(jìn)一步明確的定義域是否存在Φn,針對(duì)的定義與公式(4)~(14)相同。

      (2)一般采樣賦值:針對(duì)每個(gè)k∈[K],對(duì)進(jìn)行采樣,其中為分配至已存在函數(shù)的概率,而p(z n=k+1)∞為分配至新函數(shù)的概率,而基過程在Φn處的邊際分布為和HΦn(·)。

      (3)折疊采樣賦值:對(duì)F與G?進(jìn)行適當(dāng)?shù)倪x擇,可積分掉參數(shù),對(duì)折疊采樣算法進(jìn)行設(shè)計(jì)。針對(duì)全部觀察數(shù)據(jù),其中數(shù)據(jù)x n由函數(shù)產(chǎn)生的概率表示如下式所示:

      5 仿真實(shí)驗(yàn)與結(jié)果分析

      5.1 通過模擬數(shù)據(jù)進(jìn)行實(shí)驗(yàn)

      針對(duì)已改進(jìn)的高斯混合模型進(jìn)行模擬實(shí)驗(yàn)。模擬產(chǎn)生了兩個(gè)高斯組件。再參照泊松分布原理,即新的高斯組件通過每一個(gè)時(shí)間片段產(chǎn)生數(shù)目平均可為0.4個(gè)。采用幾何分布形式,設(shè)定組件生命周期平均值為5,并且平均值呈布朗運(yùn)動(dòng)變化態(tài)勢(shì),方差為1。可對(duì)30個(gè)時(shí)間片段進(jìn)行模擬實(shí)驗(yàn),依據(jù)當(dāng)前組件,將每個(gè)時(shí)間片段進(jìn)行獨(dú)立抽樣,抽樣的數(shù)據(jù)點(diǎn)為200個(gè)。并可應(yīng)用函數(shù)式狄利克雷過程混合模型,聚類產(chǎn)生的相關(guān)數(shù)據(jù),將時(shí)間片段設(shè)為協(xié)變量。將平均值為零的高斯過程設(shè)為基過程,其中式(8)為函數(shù)定義域分布。應(yīng)用吉布斯采樣算法,進(jìn)行5000次的迭代運(yùn)算,得到聚類的結(jié)果數(shù)據(jù)。

      度量真實(shí)結(jié)果與聚類結(jié)果間的差異,可應(yīng)用信息差異Variation of information[19]實(shí)現(xiàn),再對(duì)所提模型進(jìn)行評(píng)測(cè),其中信息差異定義如下式所示:

      對(duì)比兩種基線方法,即對(duì)比DPM標(biāo)準(zhǔn)狄利克雷過程混合模型與馬爾科夫狄利克雷過程混合(Markov-DPM)模型可知。協(xié)變量空間在以上設(shè)置中的時(shí)間片段是離散的,兩個(gè)過程相互等價(jià)。兩者間的差異性在于推理算法的不同,其中函數(shù)式狄利克雷過程應(yīng)用的推理算法為批處理法,而馬爾科夫狄利克雷過程混合模型應(yīng)用的推理算法為序列采樣法。

      圖1 模擬數(shù)據(jù)的聚類實(shí)驗(yàn)結(jié)果比較Fig.1 Comparison of clustering results of simulated data

      由圖1所示實(shí)驗(yàn)結(jié)果可知,每一時(shí)間片段的信息差異值顯示在上半部分,每一時(shí)間片段真實(shí)聚類數(shù)目顯示在下半部分。對(duì)比結(jié)果表明,與Markov-DPM相比,M-DPM在所有時(shí)間點(diǎn)的表現(xiàn)更具優(yōu)勢(shì),主要原因在于批處理推理算法可應(yīng)用全局信息,比Markov-DPM序列采樣算法更具優(yōu)勢(shì)。與此同時(shí),由于應(yīng)用動(dòng)態(tài)數(shù)據(jù)構(gòu)建模型更加科學(xué),與標(biāo)準(zhǔn)狄利克雷過程混合模型DPM的表現(xiàn)相比,Markov-DPM與M-DPM的優(yōu)點(diǎn)更多。綜上所述,利用M-DPM得到的結(jié)果聚類數(shù)目與真實(shí)結(jié)果更貼近,與標(biāo)準(zhǔn)DPM聚類結(jié)果相比,具有明顯的優(yōu)勢(shì)。

      5.2 M-DPM和DPM發(fā)現(xiàn)話題的數(shù)目對(duì)比實(shí)驗(yàn)

      實(shí)驗(yàn)重點(diǎn)對(duì)1987年~2001年NIPS會(huì)議論文中的話題時(shí)間線進(jìn)行分析[11]。該論文集共包含的文章有2484篇,屬于公開的數(shù)據(jù)集。每一個(gè)話題在話題模型中都與單詞分布相關(guān),每篇文章也都與話題分布相關(guān)。我們的話題先驗(yàn)利用了函數(shù)式狄利克雷過程,在時(shí)間辦變量上,每一個(gè)話題都存在一個(gè)生命周期,至少包含一個(gè)起點(diǎn)和終點(diǎn),話題的分布在起點(diǎn)與終點(diǎn)間隨時(shí)間的變化而變化。對(duì)生命期限的先驗(yàn)分布進(jìn)行設(shè)置,設(shè)指數(shù)分布的參數(shù)為0.6,相關(guān)狄利克雷分布為基分布。圖2顯示了本實(shí)驗(yàn)針對(duì)1987年~2001年NIPS會(huì)議論文中的話題時(shí)間線的挖掘結(jié)果,由實(shí)驗(yàn)結(jié)果可知,發(fā)現(xiàn)產(chǎn)生了新的話題,而已存在的話題不見了,伴隨時(shí)間的變化,每一個(gè)話題權(quán)重最高的關(guān)鍵詞也在改變。

      圖2 話題時(shí)間線挖掘結(jié)果Fig.2 Result of mining time series

      表1 M-DPM和DPM發(fā)現(xiàn)話題的數(shù)目Table 1 M-DPM and DPM find the number of topics

      因標(biāo)準(zhǔn)狄利克雷混合模型不考慮地點(diǎn)信息,經(jīng)過比較,如表1所示,顯示出了DPM在3個(gè)數(shù)據(jù)集上發(fā)現(xiàn)話題的數(shù)目,以及M-DPM在3個(gè)數(shù)據(jù)集上發(fā)現(xiàn)話題的數(shù)目。經(jīng)過對(duì)比可知,與DPM話題數(shù)目相比,M-DPM發(fā)現(xiàn)話題的數(shù)目更多一些,這是比較合理的情況,由于M-DPM對(duì)地點(diǎn)信息進(jìn)行了認(rèn)真的考慮,進(jìn)一步約束了話題的范圍,M-DPM所發(fā)現(xiàn)的話題具有更清晰的意義。

      5.3 M-DPM和DPM似然性對(duì)比實(shí)驗(yàn)

      在實(shí)驗(yàn)中,對(duì)函數(shù)式狄利克雷過程挖掘隨空間變化的話題性能進(jìn)行評(píng)測(cè)。在相關(guān)網(wǎng)站中對(duì)與GPS信息相關(guān)的圖片標(biāo)簽數(shù)據(jù)進(jìn)行抓取,并且對(duì)3個(gè)數(shù)據(jù)集進(jìn)行抓取,具體包括National Park,Activities以及Landscape。為了分析過程更加方便,本文只把在美國(guó)領(lǐng)域范圍內(nèi)的GPS信息照片進(jìn)行保留,并且把某些低頻標(biāo)簽去除,這些低頻標(biāo)簽出現(xiàn)的次數(shù)少于15次。最終分別得到了1505個(gè)圖片,11 868個(gè)圖片,2109個(gè)圖片的3個(gè)數(shù)據(jù)集,以及3個(gè)標(biāo)簽,分別為2313個(gè)標(biāo)簽,2381個(gè)標(biāo)簽,2374個(gè)標(biāo)簽。

      另外,表2為M-DPM與DPM兩者比較的結(jié)果,我們采用似然性量化法,對(duì)M-DPM隨空間變化在話題模型上的表現(xiàn)進(jìn)行評(píng)測(cè)。從表中數(shù)據(jù)可知,與應(yīng)用狄利克雷過程做先驗(yàn)的話題模型相比,應(yīng)用函數(shù)式狄利克雷過程做先驗(yàn)的話題模型優(yōu)勢(shì)更多一些。

      表2 比較似然性Table 2 Comparative likelihood

      6 結(jié)束語(yǔ)

      本文提出了一種改進(jìn)的主要基于函數(shù)式DPM模型過程動(dòng)態(tài)推薦模型。該模型對(duì)傳統(tǒng)狄克雷混合模型在動(dòng)態(tài)數(shù)據(jù)建模方面的問題進(jìn)行改進(jìn),創(chuàng)建相關(guān)狄利克雷過程的參數(shù)與協(xié)變量空間聯(lián)系,同時(shí)狄利克雷過程仍然屬于邊際分布。應(yīng)用函數(shù)式狄利克雷過程,可針對(duì)產(chǎn)生、消失以及參數(shù)改變的混合模型組件進(jìn)行有效建模,并可作為動(dòng)態(tài)先驗(yàn)融入非參數(shù)混合模型。仿真實(shí)驗(yàn)結(jié)果表明,與應(yīng)用傳統(tǒng)狄利克雷過程做先驗(yàn)的話題推薦模型相比,本文提出的推薦算法優(yōu)勢(shì)更加明顯。

      [1]解男男,胡亮,努爾布力,等.基于Web日志挖掘的網(wǎng)頁(yè)推薦方法[J].吉林大學(xué)學(xué)報(bào):理學(xué)版,2013,51(2):267-272.Xie Nan-nan,Hu Liang,Nurbolz,et al.Web recommender system based on Web lob minim[J].Journal of Jilin University(Science Edition),2013,51(2):267-272.

      [2]董立巖,王越群,賀嘉楠,等.基于時(shí)間衰減的協(xié)同過濾推薦算法[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2017,47(4):1268-1272.Dong Li-yan,Wang Yue-qun,He Jia-nan,et al.Collaborative filtering recommendation algorithm based on time decay[J].Journal of Jilin University(Engineering and Technology Edition)2017,47(4):1268-1272.

      [3]Jiang J,Lu J,Zhang G,et al.Scaling-up item-based collaborative filtering recommendation algorithm based on hadoop[C]∥Services,IEEE,2011:490-497.

      [4]Chen W,Niu Z,Zhao X,et al.A hybrid recommendation algorithm adapted in e-learning environments[J].World Wide Web,2014,17(2):271-284.

      [5]Qiu T,Chen G,Zhang Z K,et al.An item-oriented recommendation algorithm on cold-start problem[J].EPL,2011,95(5):58003.

      [6]Lin K,Wang J,Wang M,et al.A hybrid recommendation algorithm based on Hadoop[D].Institute of Electrical and Electronics Engineers Inc.2014.

      [7]Zhang J,Peng Q,Sun S,et al.Collaborative filtering recommendation algorithm based on user preference derived from item domain features[J].Physica A Statistical Mechanics&Its Applications,2014,396(2):66-76.

      [8]Zhong Z,Sun Y,Wang Y,et al.An improved collaborative filtering recommendation algorithm not based on item rating[C]∥IEEE,International Conference on Cognitive Informatics&Cognitive Computing.IEEE,2015:230-233.

      [9]Lu Z,Shen H.A security-assured accuracy-maximised privacy preservingcollaborative filtering recommendation algorithm[C]∥Proceedings of the 19th International Database Engineering&Applications Symposium,Yokohama,Japan,2015:72-80.

      [10]Huang Y M,Kuo Y H,Chen J N,et al.NP-miner:a real-time recommendation algorithm by using web usage mining[J].Knowledge-Based Systems,2006,19(4):272-286.

      [11]鄧愛林,左子葉,朱揚(yáng)勇.基于項(xiàng)目聚類的協(xié)同過濾推薦算法[J].小型微型計(jì)算機(jī)系統(tǒng),2004,25(9):1665-1670.Deng Ai-lin,Zuo Zi-ye,Zhu Yang-yong.Collaborative filtering recommendation algorithm based on item clustering[J].Mimi-micro Systems,2004,25(9):1665-1670.

      [12]Huang Z,Zeng D,Chen H.A comparison of collaborative-filtering recommendation algorithms for E-commerce[J].Intelligent Systems of IEEE,2007,22(5):68-78.

      [13]嚴(yán)宇宇,陶煜波,林海.基于層次狄利克雷過程的交互式主題建模[J].軟件學(xué)報(bào),2016(5):1114-1126.Yan Yu-yu,Tao Yu-bo,Lin Hai.Interactive topic modeling based on hierarchical Dirichlet Process[J].Journal of Software,2016(5):1114-1126.

      [14]Caron F,Davy M,Doucet A.Generalized polya urn for time-varying Dirichlet process mixtures[C]∥Proceedings of Proc of UAI’07,Corvallis,Oregon,2007:33-40.

      [15]Caron F,Davy M,Doucet A.Generalized Polya Urn for time-varying Dirichlet process mixtures[J].2012.

      [16]Rabaoui A,Viandier N,Duflos E,et al.DPMs for the density estimation in a dynamic nonlinear modeling:application to GPS positioning in urban canyons[J].IEEE Transactions on Signal Processing,2012,60:1638-1655.

      [17]Blei D M,Frazier P.Distance dependent Chinese restaurant processes[C]∥Proceedings of Proc of ICML’10,Haifa,Israel,2010:87-94.

      [18]Zhang M,Hurley N.Avoiding monotony:improving the diversity of recommendation lists[C]∥Proceedings of Proceedings of the 2008 ACM Conference on Recommender Systems,ACM,2008:123-130.

      [19]Xu M,Zhu J,Zhang B.Fast max-margin matrix factorization with data augmentation[C]∥Proceedings of the 30th International Conference on Machine Learning(ICML-13),2013:978-986.

      [20]Li L,Chu W,Langford J,et al.Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms[J].Wsdm,2012:297-306.

      猜你喜歡
      先驗(yàn)混合變量
      混合宅
      抓住不變量解題
      也談分離變量
      一起來(lái)學(xué)習(xí)“混合運(yùn)算”
      基于無(wú)噪圖像塊先驗(yàn)的MRI低秩分解去噪算法研究
      油水混合
      基于自適應(yīng)塊組割先驗(yàn)的噪聲圖像超分辨率重建
      基于平滑先驗(yàn)法的被動(dòng)聲信號(hào)趨勢(shì)項(xiàng)消除
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      先驗(yàn)的廢話與功能的進(jìn)路
      浦东新区| 晋江市| 邹城市| 交城县| 马公市| 南雄市| 黄石市| 长岭县| 县级市| 潮州市| 息烽县| 巴林右旗| 永城市| 澳门| 开原市| 平远县| 荥阳市| 武鸣县| 疏勒县| 双鸭山市| 措勤县| 唐山市| 临安市| 于田县| 含山县| 印江| 剑阁县| 中阳县| 夏河县| 青冈县| 潢川县| 甘谷县| 临颍县| 镇江市| 奉新县| 桦川县| 阿坝| 泾阳县| 明溪县| 溆浦县| 六盘水市|