楊敬慧
新華通訊社 北京 100803
隨著互聯(lián)網(wǎng)的發(fā)展,人們的新聞閱讀習(xí)慣已逐漸從紙質(zhì)媒體轉(zhuǎn)變?yōu)樵诰€新聞網(wǎng)站。而網(wǎng)絡(luò)新聞平臺一個較為顯著缺點是新聞的數(shù)量之大讓用戶難以承受。為了減輕信息過載影響,幫助用戶針對自己的閱讀興趣,提出個性化的建議則顯得尤為重要。
考慮到在新聞推薦的特點和受到知識圖譜廣泛成功應(yīng)用的啟發(fā),本文提出了一種新的針對新聞內(nèi)容推薦的框架,即深層知識knowledge-aware網(wǎng)絡(luò)(DKN)。DKN是一個基于內(nèi)容的模型對于點擊率(CTR)的預(yù)測,這需要一個候選新聞和一個用戶的點擊歷史記錄作為輸入和輸出用戶點擊新聞的概率。DKN 模型主要分成三部分:知識抽?。↘nowledge Distillation)、知識感知卷積神經(jīng)網(wǎng)絡(luò)(KCNN:Knowledge-aware CNN)、用于抽取用戶興趣的注意力網(wǎng)絡(luò)(Attention Network:Attention-based User Interest Extraction)。下面對這三部分進(jìn)行詳細(xì)的介紹。
知識抽取模塊的輸入是一些用戶點擊的新聞標(biāo)題。首先將標(biāo)題拆成一組詞,然后將標(biāo)題中的詞與知識庫的實體進(jìn)行鏈接,那么再接著找出距離鏈接實體一跳之內(nèi)的所有鄰接實體,并將這些鄰接實體稱之為上下文實體。這樣,根據(jù)新聞標(biāo)題可以得到三部分的信息,分別是詞,鏈接實體,以及上下文實體。由此分別得到了詞、鏈接實體、上下文實體的向量表示[1]。
KCNN是傳統(tǒng)CNN的擴(kuò)展,它允許靈活地將知識圖譜中的符號知識整合到句子表示學(xué)習(xí)中,利用KCNN,我們得到了每一條新聞的知識感知表示向量。為了獲得用戶對當(dāng)前候選新聞的動態(tài)表示,我們使用關(guān)注模塊將候選新聞自動匹配到每一條點擊的新聞,并用不同的權(quán)重聚合用戶的歷史。最后利用深度神經(jīng)網(wǎng)絡(luò)(DNN)對用戶的嵌入和候選新聞的嵌入進(jìn)行預(yù)測[2]。
由于用戶對新聞主題的興趣可能多種多樣,并且在考慮用戶i是否會點擊候選新聞 時,用戶i的歷史點擊新聞可能會對候選新聞 產(chǎn)生不同的影響。為了表征用戶的不同興趣,文中使用注意力網(wǎng)絡(luò)來建模用戶點擊的新聞對候選新聞的不同影響,輸入:給定用戶i的點擊歷史新聞標(biāo)題分別為{t1i,t2i,…,tNi};該用戶的點擊新聞則可以假設(shè)為e(t1i),e(t2i),…,e(tNi)。step1:將輸入的嵌入進(jìn)行串聯(lián),然后將使用深度神經(jīng)網(wǎng)絡(luò) H 計算歸一化的影響權(quán)重:
step2:得到影響權(quán)重s之后,將用戶i點擊的歷史新聞標(biāo)題嵌入乘上影響權(quán)重,即可得到當(dāng)前用戶的嵌入e(i)。
輸出:在給定用戶i嵌入e(i)和候選新聞 嵌入e(tj),在經(jīng)過深度神經(jīng)網(wǎng)絡(luò)可以得到預(yù)測用戶i點擊新聞的概率[3]。
我們的數(shù)據(jù)集來自進(jìn)博會專題新聞庫的數(shù)據(jù)。每條數(shù)據(jù)主要包含時間戳、用戶id、新聞url、新聞標(biāo)題和點擊計數(shù)(0表示未點擊,1表示點擊)。我們收集了大量隨機(jī)抽樣數(shù)據(jù)集作為測試集。此外,我們在進(jìn)博會專題庫知識圖譜中搜索數(shù)據(jù)集中出現(xiàn)的所有實體以及它們一跳內(nèi)的實體,并提取其中所有置信度大于0.8的邊。
基本的統(tǒng)計和分布給出了新聞數(shù)據(jù)集的知識圖譜特點如下:
第一,我們將一條新聞的生命周期定義為期限從出版日期至最后一次收到日期點擊。我們觀察到90%的新聞都是在兩分鐘內(nèi)被點擊的,這證明了網(wǎng)絡(luò)新聞的時間敏感性極高并被頻率更高的新基因所取代。
第二,對于用戶而言,被點擊的新聞的分布數(shù)量規(guī)律為:80%的用戶點擊的新聞不超過5條。充分說明了新聞推薦中的數(shù)據(jù)稀疏性場景。
第三,數(shù)量的分布分別是新聞標(biāo)題中的詞(沒有終止詞)和實體。每個標(biāo)題的平均字?jǐn)?shù)是8,實體是3.9,表明在新聞中幾乎平均每兩個詞中都會出現(xiàn)一個實體。高密度出現(xiàn)的實體也經(jīng)驗性證明了KCNN的設(shè)計。
第四,發(fā)生時間分布一個實體在新聞數(shù)據(jù)集中的分布和編號提取出的知識圖中某個實體的上下文實體。充分說明了網(wǎng)絡(luò)新聞中實體的出現(xiàn)模式是稀疏的,且存在較長時間尾部(80%的實體出現(xiàn)次數(shù)不超過10次),但實體在知識圖中一般具有豐富的上下文:每個實體的上下文實體的平均數(shù)量為44。因此,上下文實體可以極大地豐富新聞推薦中單個實體的表示形式[4]。
本文提出了一種利用知識圖譜表示的深度知識網(wǎng)絡(luò)DKN。DKN在新聞推薦業(yè)務(wù)場景中面臨三大挑戰(zhàn):
第一,與基于ID的col-laborative過濾方法不同,DKN是一種基于內(nèi)容的深度點擊率預(yù)測模型,適合于高時間敏感的新聞。
第二,為了充分利用新聞內(nèi)容中的知識實體和常識,設(shè)計了DKN中的KCNN模塊,從新聞的語義層次和知識層次表示兩個方面進(jìn)行聯(lián)合學(xué)習(xí)。多通道、多個詞和實體的對齊使KCNN能夠結(jié)合來自異構(gòu)源的信息,并保持每個單詞的不同嵌入的對應(yīng)關(guān)系。
第三,為了模擬用戶不同歷史興趣對當(dāng)前候選新聞的不同影響,DKN使用注意模塊動態(tài)計算用戶的聚合歷史表現(xiàn)。
我們在專題庫數(shù)據(jù)集上進(jìn)行了廣泛的實驗。結(jié)果表明,DKN與強(qiáng)基線相比具有顯著的優(yōu)越性,以及知識實體嵌入和注意模塊的使用效果。筆者認(rèn)為,DKN 的特點是融合了知識圖譜與深度學(xué)習(xí),從語義層面和知識兩個層面對新聞進(jìn)行表示,而且實體和單詞的對齊機(jī)制融合了異構(gòu)的信息源,能更好地捕捉新聞之間的隱含關(guān)系。利用知識提升深度神經(jīng)網(wǎng)絡(luò)的效果將可能是一個值得研究的方向。