• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)環(huán)境下基于知識圖譜的用戶興趣擴展模型研究

      2021-08-06 10:09張彬徐建民吳姣
      現(xiàn)代情報 2021年8期
      關(guān)鍵詞:知識圖譜大數(shù)據(jù)用戶

      張彬 徐建民 吳姣

      摘?要:[目的/意義]針對大數(shù)據(jù)環(huán)境下用戶興趣數(shù)據(jù)稀疏、缺乏關(guān)聯(lián)和描繪不準確等問題,利用知識圖譜融合多源興趣知識,以提高用戶興趣的全面性和準確性。[方法/過程]從興趣之間的關(guān)聯(lián)視角出發(fā),進行興趣建模、知識獲取和知識融合,整合興趣間的語義關(guān)聯(lián)和社交網(wǎng)絡(luò)關(guān)聯(lián),構(gòu)建興趣知識圖譜;挖掘興趣標簽節(jié)點與上位詞節(jié)點、百科標簽節(jié)點、社交網(wǎng)絡(luò)用戶節(jié)點的關(guān)系,計算興趣標簽的語義關(guān)聯(lián)度和社交網(wǎng)絡(luò)關(guān)聯(lián)度,生成復(fù)合關(guān)聯(lián)權(quán)重,重構(gòu)興趣之間的衍生關(guān)系以實現(xiàn)用戶的興趣擴展。[結(jié)果/結(jié)論]該模型能夠有效融合擴展不同類型的興趣關(guān)聯(lián)知識,相對于單一來源數(shù)據(jù)在用戶興趣的覆蓋率和查準率方面均有所提升,提高了用戶興趣描繪的全面性和準確性。

      關(guān)鍵詞:大數(shù)據(jù);知識圖譜;用戶;興趣擴展;模型

      DOI:10.3969/j.issn.1008-0821.2021.08.004

      〔中圖分類號〕G254?〔文獻標識碼〕A?〔文章編號〕1008-0821(2021)08-0036-09

      Research?on?User?Interest?Expansion?Model?Based?on

      Knowledge?Graph?in?Big?Data?Environment

      Zhang?Bin1?Xu?Jianmin1*?Wu?Jiao2

      (1.School?of?Management,Hebei?University,Baoding?071002,China;

      2.Magazine?House,Hebei?University,Baoding?071002,China)

      Abstract:[Purpose/Significance]Interest?data?in?big?data?environment?is?sparse,and?there?is?no?effective?correlation?in?user?interests.In?response?to?these?problems,a?User?Interest?Expansion?Model?based?on?Knowledge?Graph?is?proposed.[Method/Process]Starting?from?the?perspective?of?the?association?relationship?between?interests,the?model?integrated?the?semantic?associations?and?social?network?associations?in?interests?through?the?process?of?interest?modeling,knowledge?acquisition?and?fusion?utilization,and?constructed?an?interest?knowledge?graph.The?relationship?among?Interest?Tag?Nodes,Hyper?Nodes,Encyclopedia?Tag?Nodes,and?Social?Network?User?Nodes?was?calculated,and?the?semantic?relevance?of?interest?tags?and?social?network?relevance?were?calculated?to?generate?composite?relevance?weights.And?the?derivative?relationships?between?interests?were?reconstructed?to?achieve?user?interest?expansion.[Result/Conclusion]Experiments?show?that?this?model?could?effectively?integrate?different?types?of?interest-related?knowledge,and?greatly?improve?the?coverage?and?accuracy?of?user?interest.It?could?improves?the?comprehensiveness?and?accuracy?of?user?interest?description.

      Key?words:big?data;knowledge?graph;user;interest?expansion;model

      用戶興趣挖掘是個性化推薦的關(guān)鍵,興趣特征描繪的全面性和準確性直接影響推薦系統(tǒng)的性能,興趣擴展是提高興趣描繪效果的有效方法之一。大數(shù)據(jù)時代的數(shù)據(jù)規(guī)模大、來源豐富、類型多樣,用戶興趣數(shù)據(jù)具有多噪聲、高維度、稀疏性和多源異構(gòu)等特點,傳統(tǒng)的興趣挖掘模型在處理大數(shù)據(jù)時存在的問題限制了其性能的發(fā)揮[1]。如何有效融合多源興趣數(shù)據(jù)知識并挖掘興趣之間的隱含關(guān)聯(lián),是用戶興趣擴展研究的難點問題。

      用戶興趣擴展研究借鑒信息檢索技術(shù)中查詢擴展方法的思想,通過增加用戶興趣的關(guān)聯(lián)詞來提高用戶興趣特征的描繪效果[2-3]。根據(jù)知識來源的不同,現(xiàn)有研究主要分為利用內(nèi)部興趣知識和利用社交網(wǎng)絡(luò)知識的興趣擴展。傳統(tǒng)的興趣擴展方法利用推薦系統(tǒng)的內(nèi)部知識來挖掘用戶興趣。Liu?Q等[4]認為,在傳統(tǒng)的興趣挖掘模型中,潛在的用戶興趣信息并未得到充分開發(fā),提出了一種基于協(xié)同過濾的iExpand興趣擴展模型,把用戶潛在興趣作為用戶層和項目層之間的中間層,用以提高興趣描繪和推薦效果。Bedi?P等[5]提出了一種結(jié)合上下文因素和領(lǐng)域本體的興趣擴展方法,利用內(nèi)容的上下文數(shù)據(jù)結(jié)合領(lǐng)域本體中的概念,通過擴展激活來擴展用戶的興趣。由于推薦系統(tǒng)內(nèi)部知識資源單一,效果較為有限,部分學者開始利用社交網(wǎng)絡(luò)知識擴展用戶興趣。Mezghani?M等[6]認為,豐富的社交媒體數(shù)據(jù)使社交網(wǎng)絡(luò)成為用戶興趣的重要數(shù)據(jù)源,提出了以用戶為中心的方法將用戶、標簽和資源進行了關(guān)聯(lián),以檢測用戶的擴展興趣。Zhang?Z等[7]認為,傳統(tǒng)推薦算法對推薦的準確性更為關(guān)注,提出了基于用戶興趣擴展的多樣化推薦框架,采用基于社會標簽信息的用戶興趣擴展策略來增強用戶偏好的多樣性。徐建民等[8]為解決微博用戶興趣提取不準確的問題,把用戶個體興趣和從社交網(wǎng)絡(luò)挖掘的關(guān)聯(lián)興趣相結(jié)合,作為用戶的擴展興趣,提高了推薦的有效性和準確性。隨著數(shù)據(jù)規(guī)模的增長,傳統(tǒng)的興趣擴展方法難以全面覆蓋用戶興趣,社交標簽存在的歧義性、多義性、攻擊性以及噪聲等問題也更加突出,對于興趣擴展影響較為關(guān)鍵的語義關(guān)聯(lián)、社交網(wǎng)絡(luò)關(guān)聯(lián)等問題尚缺乏深入的研究。

      近年來,知識圖譜技術(shù)的出現(xiàn)為大數(shù)據(jù)環(huán)境下的興趣擴展研究提供了新的思路。知識圖譜是一種有向異構(gòu)信息網(wǎng)絡(luò),提供了一種更好地組織、管理和理解大數(shù)據(jù)中興趣關(guān)聯(lián)信息的能力[9],具有知識結(jié)構(gòu)化、語義關(guān)聯(lián)化、推理智能化等優(yōu)勢[10],在興趣挖掘中引入知識圖譜能夠把推薦系統(tǒng)的用戶、用戶興趣、項目及其屬性之間的關(guān)系進行語義關(guān)聯(lián)和知識融合[11]?;谥R圖譜的興趣模型主要關(guān)注知識圖譜中項目之間的各種關(guān)聯(lián)路徑,通過節(jié)點路徑的特征來挖掘知識圖譜,捕獲項目之間的復(fù)雜且有意義的關(guān)系,較為直觀準確地為推薦提供輔助信息。Guo?Q等[12]提出了一個端到端的波紋網(wǎng)絡(luò)(RippleNet)知識圖譜推薦框架,通過知識圖譜中的鏈接自動迭代擴展用戶的潛在興趣,并證明了在各個場景下的顯著效果。Noia?T?D等[13]提出了SPrank混合推薦算法,利用DBpedia鏈接開放數(shù)據(jù)提取基于語義路徑的特征,通過Web數(shù)據(jù)中的開放知識計算前N個推薦。Gupta?M等[14]提出了一種基于元路徑的非聚類推薦模型HeteroPRS,該模型融合了異構(gòu)信息網(wǎng)絡(luò)中與項目相關(guān)的元信息,在不進行用戶聚類的情況下,通過考慮網(wǎng)絡(luò)中任意的元路徑來發(fā)現(xiàn)用戶的內(nèi)在興趣。具有異構(gòu)信息融合能力的知識圖譜,在解決推薦的稀疏性和冷啟動問題方面取得了較好的效果,為用戶興趣擴展的性能提升奠定了基礎(chǔ)?,F(xiàn)有基于知識圖譜的推薦研究尚不夠深入,大多利用開放知識圖譜建立用戶與項目間的路徑聯(lián)系,豐富的多源異構(gòu)數(shù)據(jù)對于興趣關(guān)聯(lián)的影響尚未得到足夠的關(guān)注和重視。

      本文利用知識圖譜在用戶興趣挖掘方面的優(yōu)勢,從興趣之間的關(guān)聯(lián)視角出發(fā),引入用戶、興趣標簽、語義關(guān)系以及社交網(wǎng)絡(luò)數(shù)據(jù)等多源興趣知識,構(gòu)建融合語義關(guān)系和社交網(wǎng)絡(luò)數(shù)據(jù)的興趣知識圖譜;通過計算興趣標簽節(jié)點間的上位詞關(guān)聯(lián)度和百科標簽關(guān)聯(lián)度挖掘興趣間的語義關(guān)聯(lián),利用社交網(wǎng)絡(luò)知識計算用戶自標簽共現(xiàn)度、用戶自標簽關(guān)聯(lián)度和用戶自標簽熱度,生成興趣標簽間的復(fù)合權(quán)重,重構(gòu)興趣之間的衍生關(guān)系,對用戶的原始興趣進行擴展。

      1?基于知識圖譜的用戶興趣擴展模型框架

      為了解決興趣擴展研究中興趣數(shù)據(jù)稀疏、缺乏語義關(guān)聯(lián)和準確度不高等問題,本文設(shè)計了基于知識圖譜的用戶興趣擴展模型(Knowledge?Graph-based?User?Interest?Expansion?Model,KG-UIEM),構(gòu)建融合多源知識的興趣知識圖譜,試圖通過挖掘用戶標簽之間的語義關(guān)聯(lián)和社交網(wǎng)絡(luò)關(guān)聯(lián)進行用戶興趣擴展。模型框架如圖1所示。

      圖1?基于知識圖譜的用戶興趣擴展模型框架

      根據(jù)用戶興趣擴展的知識結(jié)構(gòu)特征,模型分為興趣知識圖譜構(gòu)建和用戶興趣擴展兩個部分,興趣知識圖譜構(gòu)建主要包括興趣知識建模、興趣知識獲取和興趣知識融合3個環(huán)節(jié)[11],在此基礎(chǔ)上利用興趣間的語義關(guān)聯(lián)和社交網(wǎng)絡(luò)關(guān)聯(lián)建立衍生關(guān)系,對外輸出用戶的擴展興趣。

      2?興趣知識圖譜構(gòu)建

      2.1?興趣知識建模

      在用戶興趣挖掘的場景中,知識圖譜能夠把涵蓋豐富用戶興趣的知識進行融合與有效利用,發(fā)現(xiàn)和計算用戶與興趣、興趣與興趣的知識關(guān)聯(lián),進而挖掘用戶的潛在興趣和擴展興趣。

      標簽是用戶興趣的一種有效表示方式,在興趣知識圖譜中將興趣標簽作為用戶興趣表達與存儲的主要形式。基于標簽的推薦研究中,既有用戶—標簽—項目、用戶—項目—標簽等3部圖的推薦方法,也有用戶—興趣—標簽—項目的4部圖推薦方法[15]。由于標簽具有噪聲、歧義、冗余和不夠規(guī)范等問題,導(dǎo)致標簽在用戶興趣描繪中的應(yīng)用范圍和效果較為有限。把用戶興趣以標簽的形式引入知識圖譜,利用語義和社交網(wǎng)絡(luò)等信息對興趣進行優(yōu)化計算和擴展,可以彌補標簽的劣勢,取得更佳的興趣描繪效果。

      根據(jù)用戶興趣擴展的知識需求和數(shù)據(jù)類型,興趣知識圖譜中的實體主要分為3種類型:①用戶本體,用來存儲和描述用戶基本信息及屬性特征;②興趣詞本體,用來存儲和更新興趣詞概念和實體,興趣詞實體包括來源于上下位知識[16]和百科知識的靜態(tài)興趣詞數(shù)據(jù),以及用戶興趣計算過程中生成的動態(tài)更新興趣詞;③社交網(wǎng)絡(luò)用戶本體,用來存儲和關(guān)聯(lián)用戶相關(guān)的社交網(wǎng)絡(luò)信息,主要包括用戶信息、自定義興趣標簽、用戶間的關(guān)注關(guān)系等。

      根據(jù)興趣挖掘模型中實體關(guān)系的不同創(chuàng)建方式,實體關(guān)系分為原生關(guān)系和衍生關(guān)系兩類。原生關(guān)系,即利用原始數(shù)據(jù)直接產(chǎn)生的實體關(guān)系,這些關(guān)系作為用戶興趣挖掘的基礎(chǔ),包括興趣詞—概念之間的上位詞關(guān)系、興趣詞—百科標簽之間的百科標簽關(guān)系、社交網(wǎng)絡(luò)用戶—用戶標簽的自標簽關(guān)系、社交網(wǎng)絡(luò)用戶之間的關(guān)注關(guān)系等。衍生關(guān)系,即利用知識圖譜資源和原生關(guān)系等計算出的復(fù)合關(guān)聯(lián)關(guān)系。

      2.2?興趣知識獲取

      興趣詞的語義知識。對用戶的興趣進行標簽化

      處理和表示之后,利用興趣詞之間的上下位知識和百科標簽知識構(gòu)建語義知識網(wǎng)絡(luò),能夠建立興趣詞之間的語義關(guān)聯(lián)。上下位關(guān)系又稱等級關(guān)系或?qū)蛹夑P(guān)系,表示概念或術(shù)語之間的“is-a”關(guān)聯(lián)[17]。上下位知識對實體進行了結(jié)構(gòu)化的組織,具有較權(quán)威上下位關(guān)系的中文知識庫有大詞林(Bigcilin)、CN-Probase、HowNet、同義詞林等。在線百科是語義知識的另一重要來源,百科詞條通常對應(yīng)于一定的實體或概念,是由網(wǎng)絡(luò)用戶協(xié)同編輯形成的在線知識庫[18]。百科詞條知識相對于傳統(tǒng)的中文知識庫,在開放性、時效性和詞條的豐富程度上具有較大優(yōu)勢。在線百科的詞條標簽信息能夠作為興趣詞的分類依據(jù),建立興趣詞之間的語義連接。

      社交網(wǎng)絡(luò)知識。在線社交網(wǎng)絡(luò)提供了信息交流環(huán)境,依靠社交網(wǎng)絡(luò)用戶發(fā)布的內(nèi)容以及用戶間關(guān)系構(gòu)成的社交網(wǎng)絡(luò)知識庫,是涵蓋真實世界用戶興趣的重要數(shù)據(jù)源。目前關(guān)于社交網(wǎng)絡(luò)興趣的研究,較多關(guān)注以用戶為中心的興趣挖掘,而忽視了社交網(wǎng)絡(luò)本身也建立了興趣之間的關(guān)聯(lián);可以從興趣共現(xiàn)、用戶關(guān)注關(guān)系中挖掘出興趣詞之間的社交關(guān)聯(lián),為興趣挖掘提供真實、豐富的社交網(wǎng)絡(luò)興趣知識庫。

      2.3?興趣知識融合

      大數(shù)據(jù)環(huán)境下,用戶的興趣偏好具有多元化特征,興趣知識需要具有一定的廣度、深度和動態(tài)性,僅依靠單一類型的知識來源,難以達到理想效果。構(gòu)建融合多源數(shù)據(jù)的興趣知識圖譜,能夠把具有相對權(quán)威的興趣詞上下位知識、開放多元的百科標簽知識以及與用戶相關(guān)的社交網(wǎng)絡(luò)知識進行重新組織,利用原生圖數(shù)據(jù)庫進行數(shù)據(jù)存儲和對外查詢,為用戶擴展興趣的挖掘提供有力的平臺和數(shù)據(jù)支撐。

      本文對用戶的屬性特征和興趣特征等進行標簽化處理,在用戶興趣知識圖譜中采用〈實體,關(guān)系,實體〉和〈實體,屬性,屬性值〉的三元組形式進行描述和表示。將屬性特征進行標簽化處理,建立用戶與屬性標簽節(jié)點之間的關(guān)聯(lián)關(guān)系;將用戶的興趣特征轉(zhuǎn)化為興趣標簽詞實體,建立用戶實體與興趣特征之間的關(guān)聯(lián),從不同角度為用戶興趣分析提供數(shù)據(jù)支撐。

      3?基于知識圖譜的用戶興趣擴展

      興趣知識圖譜把用戶、興趣標簽、上位詞、百科標簽和社交網(wǎng)絡(luò)等多源數(shù)據(jù)進行了數(shù)據(jù)整合和知識關(guān)聯(lián),構(gòu)成了融合多源信息的興趣知識庫。興趣知識圖譜是一個有向圖KGInterest=(E,R),其中E={e1,e2,e3,…,en}表示圖中各類實體(節(jié)點)的集合,共包含E種不同的實體;R={r1,r2,r3,…,rn}表示圖中各類關(guān)系(有向邊)的集合,共包含R種不同的關(guān)系。

      3.1?語義關(guān)聯(lián)興趣擴展

      興趣標簽之間存在著語義關(guān)聯(lián),利用多標簽間的語義關(guān)系能夠更加精確地表征興趣特征,緩解原始用戶—標簽矩陣高維稀疏的問題[19]。在興趣知識圖譜中,興趣標簽節(jié)點與上位詞節(jié)點和百科標簽節(jié)點的關(guān)系體現(xiàn)了標簽之間的語義關(guān)系,本文用這些關(guān)聯(lián)生成興趣標簽的語義關(guān)聯(lián)度。

      定義1:上位詞關(guān)聯(lián)度。對于給定的興趣標簽節(jié)點Ewj和Ewk,上位詞關(guān)聯(lián)度Rdh指兩個節(jié)點與其上位詞節(jié)點關(guān)聯(lián)強度的一種度量。

      對于具有共同上位詞關(guān)聯(lián)的兩個興趣標簽節(jié)點Ewj和Ewk,存在經(jīng)過上位詞節(jié)點Eho的關(guān)聯(lián)路徑PH=EwjHyperEhoHyperEwk,上位詞關(guān)聯(lián)度Rdh的計算公式為:

      Rdh(Ewj,Ewk)=OH(Ewj)∩OH(Ewk)OH(Ewj)∪OH(Ewk)(1)

      其中OH(Ewj)表示與興趣標簽節(jié)點Ewj關(guān)聯(lián)的上位詞節(jié)點集合,OH(Ewk)表示與興趣標簽節(jié)點Ewk關(guān)聯(lián)的上位詞節(jié)點集合。OH(Ewj)∩OH(Ewk)表示與兩個節(jié)點共同關(guān)聯(lián)的上位詞節(jié)點數(shù)量,OH(Ewj)∪OH(Ewk)表示與兩個節(jié)點關(guān)聯(lián)的上位詞節(jié)點的總數(shù)。

      定義2:百科標簽關(guān)聯(lián)度。對于給定的興趣標簽節(jié)點Ewj和Ewk,百科標簽關(guān)聯(lián)度Rdw指兩個節(jié)點與百科標簽節(jié)點關(guān)聯(lián)強度的一種度量。

      對于具有百科標簽關(guān)聯(lián)的兩個興趣節(jié)點Ewj和Ewk,存在經(jīng)過百科標簽節(jié)點Ebw的關(guān)聯(lián)路徑PW=EwjWikiTagEbwWikiTagEwk,百科標簽關(guān)聯(lián)度Rdw的計算公式為:

      Rdw(Ewj,Ewk)=OW(Ewj)∩OW(Ewk)OW(Ewj)∪OW(Ewk)(2)

      其中OW(Ewj)表示與興趣標簽節(jié)點Ewj關(guān)聯(lián)的百科標簽節(jié)點集合,OW(Ewk)表示與興趣標簽節(jié)點Ewk關(guān)聯(lián)的百科標簽節(jié)點集合。OW(Ewj)∩OW(Ewk)表示與兩個節(jié)點共同關(guān)聯(lián)的百科標簽節(jié)點數(shù)量,OW(Ewj)∪OW(Ewk)表示與兩個節(jié)點關(guān)聯(lián)的百科標簽節(jié)點的總數(shù)。

      定義3:語義關(guān)聯(lián)度。對于給定的興趣標簽節(jié)點Ewj和Ewk,語義關(guān)聯(lián)度指兩個節(jié)點通過語義知識建立關(guān)聯(lián)強度的一種度量。

      興趣標簽節(jié)點Ewj和Ewk的語義關(guān)聯(lián)度Rds,由兩個節(jié)點的上位詞關(guān)聯(lián)度和百科標簽關(guān)聯(lián)度進行加權(quán)和計算得出,計算公式為:

      Rds(Ewj,Ewk)=ω·Rdh(Ewj,Ewk)+φ·Rdw(Ewj,Ewk)(3)

      在上位詞和百科標簽關(guān)系中,一個興趣標簽節(jié)點可能與多個上位詞節(jié)點或百科標簽節(jié)點具有關(guān)聯(lián),兩個節(jié)點具有的共同節(jié)點越多,它們的語義關(guān)聯(lián)度越大。由于不同的外部語義知識庫在覆蓋度、準確度、更新周期方面存在較大差異,節(jié)點間的語義關(guān)聯(lián)計算可以引入多個外部知識庫進行計算,根據(jù)知識庫的權(quán)威度、數(shù)據(jù)量等特點評估設(shè)定權(quán)重系數(shù),彌補單一知識庫存在的語義關(guān)系稀疏和不準確問題。

      3.2?社交網(wǎng)絡(luò)關(guān)聯(lián)興趣擴展

      通過語義關(guān)聯(lián)能夠得到興趣標簽的語義擴展詞,但擴展詞往往不能契合真實用戶的實際偏好。Web2.0時代,社交網(wǎng)絡(luò)提供了豐富的用戶興趣和社交關(guān)系數(shù)據(jù)資源,Mezghani?M等研究者已經(jīng)證明社交網(wǎng)絡(luò)用戶的標簽可以有效地檢測用戶的興趣,鄰居用戶的興趣或行為也提供了相關(guān)的興趣信息[6]。部分研究者嘗試利用社交網(wǎng)絡(luò)構(gòu)建興趣圖譜,建立用戶與興趣之間的聯(lián)系[21],但現(xiàn)有研究尚處于起步階段,應(yīng)用效果不夠理想且適用范圍較窄。本文嘗試利用社交網(wǎng)絡(luò)豐富的興趣數(shù)據(jù)和社交關(guān)系,挖掘興趣標簽之間的社交關(guān)聯(lián)。

      定義4:用戶自標簽共現(xiàn)度。對于來源于社交網(wǎng)絡(luò)用戶自標簽的興趣標簽節(jié)點Ewj和Ewk,用戶對兩個標簽的共同使用行為建立了節(jié)點間的共現(xiàn)關(guān)聯(lián),用戶自標簽共現(xiàn)度UCD是對其關(guān)聯(lián)強度的一種度量。

      對于具有自標簽關(guān)聯(lián)的兩個興趣節(jié)點Ewj和Ewk,存在經(jīng)過社交網(wǎng)絡(luò)用戶節(jié)點Ess的關(guān)聯(lián)路徑PW=EwjUserLabelEssUserLabelEwk,興趣標簽節(jié)點Ewj和Ewk的用戶自標簽共現(xiàn)度UCD計算公式為:

      UCD(Ewj,Ewk)=μ·OU(Ewj)∩OU(Ewk)OU(Ewj)∪OU(Ewk)(4)

      其中OU(Ewj)表示使用興趣詞Ewj作為個人興趣標簽的社交網(wǎng)絡(luò)賬號節(jié)點集合,OU(Ewk)表示使用興趣詞Ewk作為個人興趣標簽的社交網(wǎng)絡(luò)賬號節(jié)點集合。OU(Ewj)∩OU(Ewk)表示與兩個節(jié)點共同關(guān)聯(lián)的社交網(wǎng)絡(luò)賬號節(jié)點數(shù)量,OU(Ewj)∪OU(Ewk)表示兩個節(jié)點關(guān)聯(lián)的社交網(wǎng)絡(luò)賬號節(jié)點并集的數(shù)量,μ為調(diào)節(jié)系數(shù)。

      定義5:用戶關(guān)注關(guān)聯(lián)度。對于來源于社交網(wǎng)絡(luò)用戶標簽的興趣標簽節(jié)點Ewj和Ewk,兩個節(jié)點通過用戶的關(guān)注關(guān)系建立了關(guān)聯(lián),用戶關(guān)注關(guān)聯(lián)度UFD是對其關(guān)聯(lián)強度的一種度量。

      對于具有用戶自標簽關(guān)聯(lián)的兩個興趣節(jié)點Ewj和Ewk,經(jīng)過兩個(或以上)社交網(wǎng)絡(luò)用戶節(jié)點Ess、Est的關(guān)注關(guān)系構(gòu)成了組合路徑PW=EwjUserLabelEssFollowedEstUserLabelEwk,稱為用戶自標簽關(guān)注路徑。興趣標簽節(jié)點Ewj和Ewk的用戶關(guān)注關(guān)聯(lián)度UFD計算公式為:

      UFD(Ewj,Ewk)=·PWW(Ewj,Ewk)OU(Ewj)×OU(Ewk)(5)

      其中分子PWW(Ewj,Ewk)表示兩個興趣標簽節(jié)點間的關(guān)注路徑集合的路徑個數(shù),分母為分別與兩個節(jié)點關(guān)聯(lián)的社交網(wǎng)絡(luò)賬號數(shù)量的乘積,即組合路徑的理論最大值,為調(diào)節(jié)系數(shù)。

      用戶關(guān)注關(guān)聯(lián)度使用社交網(wǎng)絡(luò)用戶節(jié)點之間的雙向關(guān)注關(guān)系產(chǎn)生的組合路徑作為計算依據(jù),隨著關(guān)注關(guān)系跳數(shù)的增加,用戶興趣的傳遞會產(chǎn)生衰減[12],考慮到多跳關(guān)注的計算復(fù)雜度會大幅增加而對興趣擴展產(chǎn)生的效果有限,本文僅使用社交網(wǎng)絡(luò)用戶之間的直接關(guān)注關(guān)聯(lián),暫不考慮用戶節(jié)點間的多跳關(guān)注關(guān)系。

      由于輸入的用戶初始興趣可能存在空或與現(xiàn)有興趣不匹配的情況,在興趣知識圖譜中建立特殊的零興趣節(jié)點,并通過計算用戶自標簽熱度建立零興趣節(jié)點與熱興趣詞間的關(guān)聯(lián),用來解決零興趣輸入的需求。

      定義6:用戶自標簽熱度。對于興趣標簽節(jié)點Ewh,與社交網(wǎng)絡(luò)用戶節(jié)點的連接數(shù)越多,它的自標簽熱度越高,用戶自標簽熱度UHD是對其受歡迎程度的一種度量。

      興趣標簽節(jié)點Ewh的用戶自標簽熱度UHD計算公式為:

      UHD(Ewh)=λ·PUW(Ewh)∑h∈IPUW(Ewh)(6)

      其中分子PUW(Ewh)表示興趣標簽節(jié)點Ewh與社交網(wǎng)絡(luò)用戶的關(guān)聯(lián)路徑個數(shù),分母為興趣標簽節(jié)點與社交網(wǎng)絡(luò)用戶的關(guān)聯(lián)路徑之和,λ作為調(diào)節(jié)系數(shù)。

      3.3?興趣標簽的衍生關(guān)聯(lián)擴展

      相對于傳統(tǒng)的推薦場景,大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)具有輸入數(shù)據(jù)規(guī)模更大,稀疏性、冗余度和噪聲更大的特點[1],知識圖譜技術(shù)降低了利用多源異構(gòu)數(shù)據(jù)的門檻,如何對各類知識數(shù)據(jù)進行有效的整合利用變得尤為關(guān)鍵。

      興趣擴展模型分別從語義、興趣共現(xiàn)和社交關(guān)系多個角度分析,獲得了興趣標簽節(jié)點之間的語義關(guān)聯(lián)度、用戶自標簽共現(xiàn)度和用戶自標簽關(guān)聯(lián)度等關(guān)聯(lián)權(quán)重。通過對各個關(guān)聯(lián)權(quán)重進行權(quán)重歸一和加權(quán)處理,能夠生成興趣標簽節(jié)點間的復(fù)合關(guān)聯(lián)權(quán)重。

      興趣標簽節(jié)點Ewj和Ewk的復(fù)合關(guān)聯(lián)權(quán)重CRD計算公式為:

      CRD(Ewj,Ewk)=α·Rds(Ewj,Ewk)+β·UCD(Ewj,Ewk)+γ·UFD(Ewj,Ewk)(7)

      其中權(quán)重系數(shù)根據(jù)語義關(guān)聯(lián)度、用戶自標簽共現(xiàn)度和用戶自標簽關(guān)聯(lián)度的數(shù)據(jù)源質(zhì)量、數(shù)據(jù)豐富程度、權(quán)重分布等進行評估設(shè)定。

      為了保證興趣之間的復(fù)合關(guān)聯(lián)能夠得到高效利用,本文在興趣知識圖譜中重建了興趣標簽節(jié)點之間的衍生關(guān)系,將復(fù)合關(guān)聯(lián)權(quán)重分級轉(zhuǎn)化為3種新類型的關(guān)系——強關(guān)聯(lián)、中關(guān)聯(lián)、弱關(guān)聯(lián),并將復(fù)合關(guān)聯(lián)權(quán)重作為邊的權(quán)重屬性存儲于圖數(shù)據(jù)庫。衍生關(guān)系把興趣擴展的離線計算和在線查詢進行有效分離,為后續(xù)的二次興趣挖掘、興趣擴展查詢等提供了數(shù)據(jù)基礎(chǔ)。

      興趣知識圖譜構(gòu)建及擴展更新完成后,即可利用興趣標簽節(jié)點間的衍生關(guān)系提供興趣擴展查詢。對于原始興趣為單興趣詞的查詢,模型輸出與該興趣標簽節(jié)點具有衍生關(guān)系的興趣標簽節(jié)點集合;對于原始興趣為多興趣詞的查詢,模型輸出與多個輸入節(jié)點具有衍生關(guān)系的興趣標簽節(jié)點集合。對于原始興趣為空的查詢,模型輸出與零興趣節(jié)點關(guān)聯(lián)的熱興趣標簽節(jié)點集合。擴展興趣輸出的排序依據(jù)為輸入相關(guān)節(jié)點和輸出節(jié)點的邊權(quán)重倒序。

      4?實驗結(jié)果與分析

      4.1?實驗數(shù)據(jù)及預(yù)處理

      由于目前沒有統(tǒng)一、權(quán)威的數(shù)據(jù)集可供使用,實驗采用開放鏈接知識和爬蟲工具抽取采集的數(shù)據(jù),使用河北大學高性能計算平臺的胖節(jié)點集群進行分析計算。

      興趣知識圖譜基本構(gòu)建采用的數(shù)據(jù)集包括上下位關(guān)系數(shù)據(jù)集、百科標簽數(shù)據(jù)集和社交網(wǎng)絡(luò)數(shù)據(jù)集。其中上下位關(guān)系選用哈爾濱工業(yè)大學社會計算與信息檢索研究中心研制的大詞林作為實體基礎(chǔ)知識庫,包括75萬核心實體、1.8萬細粒度概念詞表以及上下位關(guān)系318萬個[16]。百科標簽數(shù)據(jù)選用復(fù)旦大學知識工場實驗室研發(fā)維護的CN-DBpedia中文通用百科知識圖譜數(shù)據(jù)包,該數(shù)據(jù)集系從中文百科類網(wǎng)站的純文本頁面中提取,經(jīng)過濾、融合、推斷等操作形成的結(jié)構(gòu)化數(shù)據(jù)[22]。本文從中篩選了百科標簽類型的三元組關(guān)系132萬條,涉及實體詞47萬個,百科標簽詞0.36萬個,作為興趣知識圖譜中百科標簽的知識來源。在社交網(wǎng)絡(luò)數(shù)據(jù)方面,本文以前期研究采集篩選的0.78萬個真實用戶關(guān)聯(lián)的微博賬號為種子節(jié)點,使用分布式網(wǎng)絡(luò)爬蟲抓取了2~3層關(guān)注關(guān)系以及相關(guān)的微博賬號信息,獲取到社交網(wǎng)絡(luò)用戶信息1?022萬條、關(guān)注關(guān)系6?600萬條;其中具有自定義興趣標簽的用戶334萬個,從中提取用戶興趣標簽詞45萬個,生成微博賬號和興趣標簽的三元組關(guān)聯(lián)767萬條,補全用戶節(jié)點3?159萬個,用作興趣知識圖譜的社交網(wǎng)絡(luò)知識庫。

      在知識圖譜構(gòu)建過程中,使用本體構(gòu)建工具Protégé規(guī)劃和構(gòu)建本體結(jié)構(gòu);利用關(guān)系數(shù)據(jù)庫對多個來源的數(shù)據(jù)進行清洗整理、關(guān)系抽取、實體補全和規(guī)范化處理,生成實體節(jié)點和原生關(guān)系;使用Neo4j-admin工具批量導(dǎo)入至Neo4j圖數(shù)據(jù)庫,共包括各類節(jié)點3?889萬個,三元組關(guān)系7?400萬個,用于興趣知識數(shù)據(jù)的持久化存儲和圖查詢分析。

      4.2?興趣標簽的關(guān)聯(lián)分析

      由原生關(guān)系組成的基礎(chǔ)知識圖譜和圖數(shù)據(jù)庫構(gòu)建完成后,通過多級視圖和Cypher查詢相結(jié)合的方法進行聯(lián)合查詢計算,獲取與指定興趣標簽相關(guān)的興趣節(jié)點列表,使用前述公式計算生成興趣節(jié)點之間的衍生關(guān)聯(lián)。

      圖2?興趣標簽節(jié)點的語義關(guān)系

      興趣標簽節(jié)點“輪滑”和“足球”之間的語義關(guān)系如圖2所示,兩個節(jié)點與4個共同上位詞節(jié)點存在路徑關(guān)系,分別是“物”“抽象事物”“體育項目”和“亞運會比賽項目”;與3個共同百科標簽節(jié)點存在路徑聯(lián)系,分別是“體育”“體育人物”和“體育項目”。根據(jù)式(1)、(2)分別求得這兩個興趣標簽之間的上位詞關(guān)聯(lián)度為0.235和0.500。由于實驗選取的上位詞知識和百科標簽知識數(shù)據(jù)規(guī)模相近,知識關(guān)聯(lián)質(zhì)量相對較高,且經(jīng)過一系列的篩選及數(shù)據(jù)處理,因此在式(3)中的權(quán)重系數(shù)均取0.5,計算兩個興趣標簽的語義關(guān)聯(lián)度結(jié)果為0.368。在興趣標簽的語義分析過程中發(fā)現(xiàn),開放知識庫的關(guān)聯(lián)數(shù)據(jù)可能存在不準確或部分缺失的現(xiàn)象,引入多個開放知識庫可以減少單一來源知識不準確造成的影響。

      興趣標簽節(jié)點“輪滑”和“足球”之間的用戶自標簽共現(xiàn)關(guān)系中,兩個節(jié)點與8個社交網(wǎng)絡(luò)用戶節(jié)點存在自標簽關(guān)系,與兩個節(jié)點存在自標簽聯(lián)系的節(jié)點總數(shù)為179,調(diào)節(jié)系數(shù)μ取值為50,使用式(4)計算可得,兩個節(jié)點的用戶自標簽關(guān)聯(lián)度為2.23。興趣共現(xiàn)相當于用戶興趣的協(xié)同過濾,具有較大的數(shù)據(jù)價值;而社交網(wǎng)絡(luò)中存在自標簽共現(xiàn)的用戶比例較小,在實驗數(shù)據(jù)集中占比約為22%,因此設(shè)定了系數(shù)進行調(diào)節(jié)放大。

      興趣標簽節(jié)點通過社交網(wǎng)絡(luò)用戶之間的關(guān)注關(guān)系,建立了節(jié)點距離為5跳的關(guān)聯(lián)路徑,如圖3所示。與圖中心興趣標簽節(jié)點“輪滑”具有多條關(guān)注路徑的節(jié)點包括“美食”(42條)、“旅游”(26條)、“名人明星”(20條)、“校園生活”(12條)等,這些多路徑節(jié)點體現(xiàn)了與興趣詞關(guān)聯(lián)的社交網(wǎng)絡(luò)群體興趣。如表1所示,通過自標簽熱度式(6)計算得出熱興趣詞排名,熱度較高的興趣詞包括“旅游”“美食”“名人明星”“搞笑幽默”“娛樂”等,用做零輸入節(jié)點的關(guān)聯(lián)興趣。豐富的社交網(wǎng)絡(luò)知識為興趣標簽節(jié)點之間的關(guān)聯(lián)有效地拓展了興趣知識資源。

      4.3?結(jié)果分析

      用戶興趣擴展模型的最主要目的是為興趣稀疏用戶擴充興趣,為了驗證模型中不同興趣知識來源對用戶興趣擴展的效果,本文參照跨域興趣融合的評價方法[23]計算不同來源的興趣知識疊加對輸入興趣的覆蓋度和對輸出興趣的受歡迎程度的影響。把各興趣知識來源設(shè)為4個數(shù)據(jù)域,其中D1域為上位詞知識,D2域為百科標簽知識,D3域為自標簽共現(xiàn)知識,D4域為衍生關(guān)聯(lián)知識。

      在實驗過程中,采用覆蓋率和查準率指標對用戶興趣擴展效果進行評價。覆蓋率指標用來衡量知識庫對輸入興趣的覆蓋程度,即輸入用戶中可被興趣標簽節(jié)點覆蓋的用戶占比;查準率指標用來衡量輸出擴展興趣的受歡迎程度,即輸出的擴展興趣屬于熱興趣詞庫的用戶占比。為了便于對比效果,隨機抽取興趣用戶5?000個,把用戶的首選興趣詞作為用戶的興趣輸入,興趣標簽按權(quán)重排名的前5個作為輸出興趣;把社交網(wǎng)絡(luò)的自標簽詞按熱度降序排列,從37萬自標簽詞中篩選出熱興趣詞庫。由于D3域和熱興趣詞庫關(guān)聯(lián)程度較高,為了規(guī)避由此帶來的驗證傾向,輸入用戶興趣源使用與社交網(wǎng)絡(luò)無關(guān)的圖書領(lǐng)域,熱興趣詞中只選取了使用頻次大于8次的前5%作為熱興趣詞庫,熱興趣詞數(shù)量為1.85萬。實驗結(jié)果如表2所示。

      對實驗結(jié)果進行分析,如圖4所示,外部語義知識庫的D1域和D2域?qū)斎肱d趣的覆蓋比例均超過了60%,但查準率較低。經(jīng)分析發(fā)現(xiàn),語義知識庫中單個上位詞或百科標簽關(guān)聯(lián)的實體詞數(shù)量極不均衡,數(shù)量范圍從1個到28萬個,這也是相關(guān)知識權(quán)威度較高而效果不佳的癥結(jié)所在。D3域自標簽共現(xiàn)知識在數(shù)據(jù)規(guī)模較大情況下,興趣詞庫數(shù)量適中且高頻詞較為集中,覆蓋率略高于語義知識庫,其輸出結(jié)果的查準率提升較為明顯。D4域的衍生關(guān)聯(lián)知識,將多源知識進行了疊加,并通過零興趣節(jié)點為匹配失敗節(jié)點輸出了高頻熱興趣詞,所以覆蓋率和查準率均有大幅提升,具有較高的興趣擴展性能。

      圖4?用戶興趣擴展實驗結(jié)果

      5?結(jié)?論

      本文針對大數(shù)據(jù)環(huán)境下用戶興趣知識的特點,建立了基于知識圖譜的用戶興趣擴展模型,通過挖掘用戶興趣之間的關(guān)系擴展用戶的關(guān)聯(lián)興趣。相對于關(guān)注用戶與項目、用戶與興趣關(guān)聯(lián)的興趣挖掘模型,該模型有機地融合了大數(shù)據(jù)環(huán)境下的各種興趣知識,為跨領(lǐng)域、跨平臺的推薦建立了興趣關(guān)聯(lián)知識庫。興趣知識圖譜通過引入開放的語義知識庫,增強了興趣標簽之間的語義關(guān)聯(lián),彌補了傳統(tǒng)興趣標簽的劣勢。社交網(wǎng)絡(luò)中的真實用戶興趣行為能夠提取出較為精準的熱興趣詞集,把用戶相關(guān)的群體興趣知識關(guān)聯(lián)轉(zhuǎn)化為個體興趣,結(jié)合語義知識為用戶提供了更加全面和準確的興趣擴展。研究的不足之處在于,由于數(shù)據(jù)規(guī)模相對較大,受平臺架構(gòu)、計算節(jié)點數(shù)量和系統(tǒng)開銷等因素影響,使用圖數(shù)據(jù)庫平臺進行的復(fù)雜關(guān)系分析和衍生關(guān)聯(lián)的計算效率不高,在圖挖掘、興趣推理及大數(shù)據(jù)分析方面的研究尚不夠深入,需要繼續(xù)完善和優(yōu)化。此外,用戶興趣在小世界與大世界、全面性與精準性、多樣性與新穎性等方面的指標尚需要進一步評估和權(quán)衡。

      參考文獻

      [1]孟祥武,紀威宇,張玉潔.大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)[J].北京郵電大學學報,2015,38(2):1-15.

      [2]余傳明,蔡林,胡莎莎,等.基于深度學習的查詢擴展研究[J].情報學報,2019,38(10):1066-1077.

      [3]王鑫,陸靜雅,王英.面向推薦的用戶興趣擴展方法[J].山東大學學報:工學版,2017,47(2):71-79,93.

      [4]Liu?Q,Chen?E,Xiong?H,et?al.Enhancing?Collaborative?Filtering?By?User?Interest?Expansion?Via?Personalized?Ranking[J].IEEE?Transactions?on?Systems?Man?&?Cybernetics?Part?B?Cybernetics?A?Publication?of?the?IEEE?Systems?Man?&?Cybernetics?Society,2012,42(1):218-233.

      [5]Bedi?P,Richa.User?Interest?Expansion?Using?Spreading?Activation?for?Generating?Recommendations[C]//International?Conference?on?Advances?in?Computing,Communications?and?Informatics.IEEE,2015:766-771.

      [6]Mezghani?M,Péninou?A,Zayani?C?A,et?al.Producing?Relevant?Interests?from?Social?Networks?By?Mining?Users?Tagging?Behaviour:A?First?Step?Towards?Adapting?Social?Information[J].Data?&?Knowledge?Engineering,2017,108:15-29.

      [7]Zhang?Z,Zheng?X,Zeng?D?D.A?Framework?for?Diversifying?Recommendation?Lists?By?User?Interest?Expansion[J].Knowledge-based?Systems,2016,105:83-95.

      [8]徐建民,劉明艷,王苗.基于用戶擴展興趣的微博推薦方法[J].計算機應(yīng)用研究,2019,36(6):1652-1655.

      [9]沈志宏,姚暢,侯艷飛,等.關(guān)聯(lián)大數(shù)據(jù)管理技術(shù):挑戰(zhàn)、對策與實踐[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(1):9-20.

      [10]孫雨生,祝博,朱禮軍.國內(nèi)基于知識圖譜的信息推薦研究進展[J].情報理論與實踐,2019,42(12):163-169,149.

      [11]陳濤,劉煒,單蓉蓉,等.知識圖譜在數(shù)字人文中的應(yīng)用研究[J].中國圖書館學報,2019,45(6):34-49.

      [12]Guo?Q,Zhuang?F,Qin?C,et?al.A?Survey?on?Knowledge?Graph-Based?Recommender?Systems[J].Scientia?Sinica?Informationis,2020,50(7):937.

      [13]Noia?T?D,Ostuni?V?C,Tomeo?P,et?al.SPrank:Semantic?Path-Based?Ranking?for?Top-N?Recommendations?Using?Linked?Open?Data[J].ACM?Transactions?on?Intelligent?Systems?and?Technology,2016,8(1):9.

      [14]Gupta?M,Kumar?P.Recommendation?Generation?Using?Personalized?Weight?of?Meta-paths?in?Heterogeneous?Information?Networks[J].European?Journal?of?Operational?Research,2020,284(2):660-674.

      [15]李興華,陳冬林,楊愛民,等.基于用戶興趣-標簽的混合推薦方法研究[J].情報學報,2015,34(5):466-470.

      [16]Feng?X,Guo?J,Qin?B,et?al.Effective?Deep?Memory?Networks?for?Distant?Supervised?Relation?Extraction[C]//Twenty-Sixth?International?Joint?Conference?on?Artificial?Intelligence,2017.

      [17]蔣婷,孫建軍.領(lǐng)域?qū)W術(shù)本體概念等級關(guān)系抽取研究[J].情報學報,2017,36(10):1080-1092.

      [18]何振宇,董祥祥,朱慶華.多維度視角下百度百科詞條評價指標構(gòu)建[J].圖書情報工作,2019,63(12):114-120.

      [19]王艷茹,馬慧芳,劉海姣,等.基于多標簽語義關(guān)聯(lián)關(guān)系的微博用戶興趣建模方法[J].計算機工程與科學,2018,40(11):165-171.

      [20]Kim?H?N,Alkhaldi?A,Saddik?A?E,et?al.Collaborative?User?Modeling?with?User-Generated?Tags?for?Social?Recommender?Systems[J].Expert?Systems?with?Applications,2011,38(7):8488-8496.

      [21]孫雨生,張恒,朱禮軍.國內(nèi)興趣圖譜研究進展[J].情報理論與實踐,2017,40(1):132-138.

      [22]Xu?B,Xu?Y,Liang?J,et?al.CN-DBpedia:A?Never-Ending?Chinese?Knowledge?Extraction?System[C]//International?Conference?on?Industrial,Engineering?and?Other?Applications?of?Applied?Intelligent?Systems,2017.

      [23]張彬,徐建民,吳樹芳.基于多源用戶標簽的跨域興趣融合模型研究[J].情報科學,2020,38(4):147-152,162.

      (責任編輯:孫國雷)

      猜你喜歡
      知識圖譜大數(shù)據(jù)用戶
      關(guān)注用戶
      基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
      基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
      從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      關(guān)注用戶
      關(guān)注用戶
      如何獲取一億海外用戶
      汨罗市| 长春市| 稷山县| 称多县| 内黄县| 措美县| 潞城市| 伽师县| 故城县| 江源县| 海盐县| 防城港市| 济南市| 齐齐哈尔市| 桂平市| 丘北县| 武山县| 金堂县| 隆尧县| 大城县| 吴忠市| 桃园市| 陈巴尔虎旗| 临潭县| 石嘴山市| 威宁| 湘阴县| 乐清市| 惠来县| 株洲县| 仲巴县| 临湘市| 偏关县| 商洛市| 团风县| 巩义市| 建始县| 江陵县| 阳江市| 锦州市| 汝阳县|