• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      知識圖譜在互聯(lián)網(wǎng)電商平臺商品個(gè)性化推薦中的應(yīng)用探索

      2023-07-17 09:30:30楊少秋
      計(jì)算機(jī)應(yīng)用文摘 2023年13期
      關(guān)鍵詞:質(zhì)量評估個(gè)性化推薦知識圖譜

      摘要:為更好地提升商品、用戶及購物場景之間的匹配效率,挖掘用戶的潛在需求,利用電商平臺的商品數(shù)據(jù)及外網(wǎng)數(shù)據(jù),基于專家知識輔助,構(gòu)建了以《商品屬性屬性值)為主的電商域商品知識圖譜,并提出了構(gòu)建電商常識屬性知識三元組(頭實(shí)體屬性尾實(shí)體)的新思路,開發(fā)了圖譜質(zhì)量眾包評估系統(tǒng)。將商品知識圖譜創(chuàng)新性地應(yīng)用于個(gè)性化商品新品推薦改善及興趣知識導(dǎo)購卡片等場景中,通過50%流量對照的AB實(shí)驗(yàn)表明,應(yīng)用場景的點(diǎn)擊率分別有11.5%和8.6%的提升,點(diǎn)擊轉(zhuǎn)化率分別有23.2%和15.4%的提升.表明電商知識圖譜可以有效應(yīng)用于電商平臺個(gè)性化及智能化的場景中。

      關(guān)鍵詞:電商域;知識圖譜;常識屬性;質(zhì)量評估;個(gè)性化推薦

      中圖法分類號:TP391 文獻(xiàn)標(biāo)識碼:A

      1 概述

      在互聯(lián)網(wǎng)時(shí)代,人們的購物習(xí)慣逐漸從傳統(tǒng)的搜索式購物向個(gè)性化推薦式購物方式轉(zhuǎn)變,這也是互聯(lián)網(wǎng)電商平臺爭相發(fā)力的突破口,即通過挖掘用戶潛在的喜好或隱性需求,推動(dòng)業(yè)績進(jìn)一步提升。通常的個(gè)性化推薦系統(tǒng)是采用機(jī)器學(xué)習(xí)的方式,利用用戶的正負(fù)行為樣本(如瀏覽或購買行為)來訓(xùn)練推薦算法模型,最終得到某一用戶推薦商品的序列。這種方式對用戶潛在喜好或隱性需求的挖掘效果不佳。而知識圖譜中蘊(yùn)含商品屬性與屬性之間,實(shí)體與實(shí)體之間豐富的關(guān)系,因而可以更好地挖掘用戶的潛在偏好,并且具有更好的可解釋性。

      2012 年,人們開始廣泛研究知識圖譜并將其應(yīng)用于產(chǎn)業(yè)領(lǐng)域[1] 。知識圖譜用于描述和分析真實(shí)環(huán)境中各種類型的實(shí)體、概念以及它們之間的聯(lián)系,通常由三元組來表示:〈實(shí)體?關(guān)系?實(shí)體〉,〈實(shí)體?屬性?屬性值〉[2] 。而在電商知識圖譜中專家知識很多,核心是品類和概念。目前,市面上只有通用的公共百科類圖譜,沒有公開的電商領(lǐng)域的商品知識圖譜,所以電商平臺需要立足于自身能力和知識數(shù)據(jù)沉淀,構(gòu)建屬于自己的電商知識圖譜。

      本文闡述了項(xiàng)目是如何利用商品底層數(shù)據(jù)及外網(wǎng)數(shù)據(jù),并在構(gòu)建常規(guī)商品圖譜的基礎(chǔ)上,提出并構(gòu)建常識屬性知識三元組〈頭實(shí)體?屬性?尾實(shí)體〉。然后,將其創(chuàng)新性地應(yīng)用于商品個(gè)性化新品推薦改善及興趣知識導(dǎo)購卡片等場景中,并為后期其他的智能應(yīng)用提供經(jīng)驗(yàn)和基礎(chǔ)。

      2 構(gòu)建和完善商品知識圖譜

      互聯(lián)網(wǎng)電商平臺的核心要素是商品,項(xiàng)目通過頂層定義和底層抽取的綜合方式,采用自頂而下和自底而上的混合模式來構(gòu)建商品圖譜[3] ,如圖1 所示。

      2.1 知識建模

      該模塊核心任務(wù)主要是在多源數(shù)據(jù)中構(gòu)建商品領(lǐng)域知識體系。商品領(lǐng)域知識體系的構(gòu)建是對領(lǐng)域分類(如品類分類)、屬性以及分類之間關(guān)系的定義,具有較強(qiáng)的抽象性和概括性[4] 。在公司商品類目屬性體系的基礎(chǔ)上,項(xiàng)目邀請了商品及運(yùn)營專家共同參與構(gòu)建。

      同時(shí),項(xiàng)目又通過爬蟲及第三方獲取的方式補(bǔ)充了大量外網(wǎng)數(shù)據(jù),以豐富領(lǐng)域知識信息。以美妝商品為例,通過領(lǐng)域建模,明確了美妝分類、屬性和分類之間關(guān)系(如大類和小類關(guān)系等)的定義。

      2.2 知識圖譜構(gòu)建

      在2.1 節(jié)的基礎(chǔ)上,圖譜構(gòu)建的流程是:知識獲取→知識抽取→知識融合→圖譜評估[5] ,中間還穿插著常識屬性知識三元組的抽取過程。項(xiàng)目應(yīng)用多項(xiàng)技術(shù)棧,包括命名實(shí)體識別、關(guān)系抽取、槽填充、事件抽取等,以獲取知識和抽取關(guān)系[6] ,構(gòu)建圖譜。

      2.2.1 知識獲取

      圖譜知識由2 部分組成,一部分是平臺沉淀的商品數(shù)據(jù)(主要基于結(jié)構(gòu)化數(shù)據(jù)的類目屬性體系),另一部分是外網(wǎng)數(shù)據(jù)(“爬蟲+第三方”方式獲?。?,而這部分?jǐn)?shù)據(jù)在初始階段需要對商品ID 進(jìn)行去重處理。

      2.2.2 知識抽取

      在2.2.1 節(jié)的基礎(chǔ)上,針對商品標(biāo)題等非結(jié)構(gòu)性文本數(shù)據(jù)(如法國原裝進(jìn)口嬌韻詩V 臉精華纖妍/ 纖顏緊致蘭花面部護(hù)理精油30 ml)等,需要通過命名實(shí)體識別(如“bert+CRF 算法”[7] )等技術(shù)手段,識別出命名實(shí)體,并將其歸類為商品名稱、場景名稱、人物姓名等事先定義好的類別。

      NER 過程后,再通過關(guān)系抽取、槽填充等方式進(jìn)行關(guān)系抽取,利用TextRunner 等算法,獲得實(shí)體與實(shí)體間的語義關(guān)系并填充明確定義的屬性值。形成〈美妝,屬性,屬性值〉為主的圖譜結(jié)構(gòu)。

      2.2.3 知識融合

      知識融合的方法主要有實(shí)體對齊、實(shí)體解析、實(shí)體消歧、實(shí)體鏈接等[8] ,其主要目的是獲得更完整的知識描述和知識之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)知識的互聯(lián)、互補(bǔ)和融合。以領(lǐng)域知識體系為基礎(chǔ),通過本體對齊的基礎(chǔ)步驟,對類、屬性項(xiàng)和屬性值進(jìn)行對齊,以解決異構(gòu)問題。以美妝為例,防曬乳、防曬霜、防曬露等都屬于“防曬霜”,提亮、增亮、亮膚、透亮等都屬于“美白”。因此,需要將這些實(shí)體進(jìn)行融合。

      此類融合方式在個(gè)性化推薦過程中還可以提升圖譜召回的豐富性和合理性。比如,當(dāng)用戶要購買美白的護(hù)膚品時(shí),其他提亮功能的護(hù)膚品也可以被推薦給用戶,以提升推薦結(jié)果的命中率。其具體如圖2所示。

      2.2.4 構(gòu)建電商常識知識三元組

      上文構(gòu)建的知識圖譜里的商品屬性是多年沉淀下來的客觀屬性值。但在實(shí)際使用過程中發(fā)現(xiàn),常識屬性標(biāo)簽在電商業(yè)態(tài)下的各個(gè)場景都有著廣泛的需求,如“老人出行需要防滑的鞋子”等。因?yàn)樗从沉速徫镄袨榈膬?nèi)在原因,這些常識知識能夠明確地指出行為背后可能的動(dòng)機(jī),對用戶體驗(yàn)和購物效率有著重要的意義。而現(xiàn)有的知識圖譜對常識知識合理性及顯著性的表示有所欠缺。

      為解決此類問題,項(xiàng)目組決定提出沉淀電商常識屬性知識三元組的創(chuàng)新性思路,建立電商常識知識三元組(即頭實(shí)體、頭屬性、尾實(shí)體)。其中,頭實(shí)體為商品,如防曬霜;頭屬性為商品屬性,如SPF50;尾實(shí)體為常識屬性,如防曬。對常識屬性進(jìn)行掛載,從而補(bǔ)全商品的常識屬性。

      為提升模型的準(zhǔn)確性,項(xiàng)目未采用生成式關(guān)系抽取,而是通過識別頭尾實(shí)體及屬性詞,利用bert 技術(shù),將關(guān)系抽取轉(zhuǎn)化為二分問題。同時(shí),為了提升模型的泛化性以及準(zhǔn)確性,采用pairwise 方式,對實(shí)體及context 分別建模,最終關(guān)系抽取模型架構(gòu)圖如圖3 所示。

      相關(guān)實(shí)驗(yàn)結(jié)果如表1 所列(bert+[entity]_fc 表示采用robert 方式,bert+[CLS]_fc 表示bert 文本分類,double?tower pairwise 進(jìn)行分類結(jié)果)。

      關(guān)系抽取實(shí)例如下。

      (1)頭實(shí)體:凍干粉。頭屬性:玻尿酸。尾實(shí)體:婦女。關(guān)系:品類_適合_人群。

      (2)頭實(shí)體:上衣。頭屬性:羊毛。尾實(shí)體:秋冬季。關(guān)系:品類_適合_時(shí)令。

      (3)頭實(shí)體:馬丁鞋。頭屬性:牛皮。尾實(shí)體:戶外。關(guān)系:品類_適合_場景。

      目前,項(xiàng)目還處于初期嘗試階段,后續(xù)方向是通過技術(shù)及算法手段來解決人工審核的問題,并開展知識顯著性校驗(yàn)/ 打分等工作。

      2.3 圖譜質(zhì)量評估

      商品圖譜建立好后,為維持和提升圖譜質(zhì)量,項(xiàng)目組依托公司的大數(shù)據(jù)平臺,開發(fā)了供公司內(nèi)部使用的圖譜質(zhì)量眾包評估系統(tǒng)。整體評估系統(tǒng)的流程設(shè)計(jì)如下。

      (1)圖譜數(shù)據(jù)上傳至評估系統(tǒng)。

      (2)自定義抽樣比例,默認(rèn)20%。

      (3)系統(tǒng)自動(dòng)拆分子包任務(wù)。

      (4)人員進(jìn)行在線評估工作。

      (5)系統(tǒng)自動(dòng)輸出本次任務(wù)的圖譜質(zhì)量數(shù)據(jù)。

      (6)項(xiàng)目技術(shù)人員進(jìn)行相關(guān)問題的修復(fù)及算法迭代工作。

      項(xiàng)目組對美妝、家居、食品、服飾等圖譜進(jìn)行了多次質(zhì)量評估,有效提升了整體圖譜數(shù)據(jù)質(zhì)量水平,使得圖譜掛載準(zhǔn)確率從85%左右提升到了95%以上,而召回率也有了18%左右的提升。

      至此,圖譜構(gòu)建的基礎(chǔ)工作及流程結(jié)束,1 年多的時(shí)間里,項(xiàng)目的整體圖譜數(shù)據(jù)累積有節(jié)點(diǎn)十?dāng)?shù)億級別。

      3 知識圖譜在商品個(gè)性化推薦中的應(yīng)用及效果

      在構(gòu)建完商品圖譜后,圖譜在商品的個(gè)性化推薦中有著多種應(yīng)用。

      項(xiàng)目利用知識表示學(xué)習(xí)(KRL)模型,通過TransE等模型將圖譜中的語義關(guān)系embedding 向量化,并根據(jù)歐幾里得公式和KNN 算法等計(jì)算商品之間的相似度[9] 。參照公式如下:假設(shè)目標(biāo)商品和已購商品的語義向量分別為Ci = {E1i ,E2i ,…,Edi } 和Cj = {E1j ,E2j ,…,Edj },其中Edi ,Edj 為語義向量第d 維上的值,則二者之間的距離為:

      再通過TOPN 排序便可得到評分最高的推薦商品列表。項(xiàng)目已采用該方式增加I2I 的商品召回?cái)?shù)量,以提升商品推薦的可解釋性。同時(shí),項(xiàng)目嘗試了如下2 個(gè)創(chuàng)新場景。

      3.1 個(gè)性化新品推薦改善

      在電商平臺中,新品上架數(shù)量多、頻次高,基于這些有偏差的數(shù)據(jù)訓(xùn)練的模型容易進(jìn)一步歧視“長尾”商品。此問題已成為平臺業(yè)務(wù)痛點(diǎn)之一。平臺希望能夠提升新上架商品/ 新品流量分發(fā)效率,以促進(jìn)平臺整體收入的提升。

      因此,項(xiàng)目基于商品知識圖譜嘗試提升item/ 用戶表征能力,以更好地解決新品冷啟動(dòng)的問題。主要方法是通過graph 建模的方式擴(kuò)充用戶商品行為序列間商品的關(guān)聯(lián),并通過圖譜來增進(jìn)熱門商品和冷門/新上架商品的表征相似度。

      在用戶側(cè):項(xiàng)目基于用戶點(diǎn)擊、購物等行為歷史構(gòu)建user?〉item?entity 圖。

      在商品側(cè):項(xiàng)目基于item?entity?〉item?entity 構(gòu)建I?I 圖,從而通過在item 的子圖中引入與其相關(guān)的其

      他item/ entity 的方式增強(qiáng)item 的圖表征。

      最后,通過GNN 網(wǎng)絡(luò)學(xué)習(xí)用戶和新品/ 冷門之間的潛在關(guān)系,將新品/ 冷門更有效率地推薦給用戶,以解決新品的推薦問題。

      經(jīng)過50%流量分流的AB 實(shí)驗(yàn)后,平臺大盤新品的點(diǎn)擊率有11.5%的提升,點(diǎn)擊轉(zhuǎn)化率有23.2%的提升,數(shù)據(jù)效果較明顯。

      3.2 興趣知識導(dǎo)購卡片

      項(xiàng)目基于構(gòu)建好的電商知識圖譜,尤其是依托電商常識屬性知識三元組,通過清單聚合相同興趣知識點(diǎn)下商品,基于用戶的個(gè)性化興趣及知識偏好,提升推薦的場景氛圍感及命中率。卡片舉例如下:(1)“輕熟齡女神大牌抗皺面霜”;(2)“小仙女熬夜專屬修復(fù)神器”;(3)“增高愛好者福音! 必備松糕鞋”。

      知識導(dǎo)購卡片的位置穿插于購物APP 中的訂單列表頁推薦、購物車推薦、種草好貨推薦等多個(gè)平臺推薦feed 流場景中。經(jīng)過一段時(shí)間的50%流量AB測試,項(xiàng)目累計(jì)上線興趣卡片1.1 K,整體推薦場景點(diǎn)擊率提升8.6%,點(diǎn)擊轉(zhuǎn)化率提升15.4%,數(shù)據(jù)效果較明顯。

      4 結(jié)束語

      項(xiàng)目組利用公司數(shù)據(jù)及外網(wǎng)數(shù)據(jù),構(gòu)建了以商品屬性項(xiàng)屬性值為基礎(chǔ)的知識圖譜,并創(chuàng)新性地提出了以常識屬性為基礎(chǔ)的知識三元組圖譜構(gòu)建,在此基礎(chǔ)上,將其應(yīng)用于2 個(gè)創(chuàng)新場景———個(gè)性化新品推薦改善及興趣知識導(dǎo)購卡片,均取得了較好的數(shù)據(jù)提升效果。事實(shí)證明,電商知識圖譜構(gòu)建可以有效應(yīng)用于電商平臺的個(gè)性化及智能化場景中。項(xiàng)目組希望后續(xù)可以沉淀更多準(zhǔn)確的知識性三元組,并希望通過提升模型的準(zhǔn)確度及增加顯著性校驗(yàn)等流程,以減少知識性三元組的審核人力成本。同時(shí),項(xiàng)目組也會(huì)進(jìn)一步研究其他智能化應(yīng)用場景,如搜索、智能導(dǎo)購問答等。

      參考文獻(xiàn):

      [1] 劉嶠,李楊,段宏,等.知識圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582?600.

      [2] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào),2016,45(4):589?606.

      [3] 李鑫柏,吳鑫然,岳昆.基于貝葉斯網(wǎng)的開放世界知識圖譜補(bǔ)全[J].計(jì)算機(jī)工程,2021,47(6):104?114.

      [4] 郭劍毅,李真,余正濤,等.領(lǐng)域本體概念實(shí)例、屬性和屬性值的抽取及關(guān)系預(yù)測[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,48(4):383?389.

      [5] 俞偉,徐德華.推薦算法概述與展望[J].科技與創(chuàng)新,2019(4):50?52.

      [6] 常亮,張偉濤,古天龍,等. 知識圖譜的推薦系統(tǒng)綜述[J].智能系統(tǒng)學(xué)報(bào),2019,14(2):207?216.

      [7] 王義,馬尚才.基于用戶行為的個(gè)性化推薦系統(tǒng)的設(shè)計(jì)與應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010,19(8):29?33.

      [8] 王光,張杰民,董帥含,等.基于內(nèi)容的加權(quán)粒度序列推薦算法[J].計(jì)算機(jī)工程與科學(xué),2018,40(3):564?570.

      [9] 王根生,潘方正.融合語義相似度的協(xié)同過濾推薦算法[J].中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),2019,49(10):835?841.

      作者簡介:楊少秋(1989—),碩士,工程師,研究方向:智能搜索/ 推薦、知識圖譜、智能座艙等AI 類應(yīng)用。

      猜你喜歡
      質(zhì)量評估個(gè)性化推薦知識圖譜
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      基于鏈?zhǔn)酱鎯Y(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
      個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
      基于協(xié)同過濾算法的個(gè)性化圖書推薦系統(tǒng)研究
      近十五年我國小學(xué)英語教學(xué)研究的熱點(diǎn)、問題及對策
      基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
      基于知識圖譜的智慧教育研究熱點(diǎn)與趨勢分析
      無線定位個(gè)性化導(dǎo)覽關(guān)鍵技術(shù)在博物館中的運(yùn)用
      從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
      中國上市公司會(huì)計(jì)信息質(zhì)量研究
      中國市場(2016年5期)2016-03-07 10:04:34
      那坡县| 五指山市| 合山市| 唐山市| 周宁县| 文昌市| 聂拉木县| 当阳市| 东安县| 裕民县| 芦山县| 海兴县| 宝清县| 叙永县| 罗平县| 庆阳市| 泰顺县| 新化县| 东光县| 三原县| 梁河县| 微山县| 三原县| 连江县| 衢州市| 额敏县| 会宁县| 富源县| 永仁县| 通化市| 大庆市| 赫章县| 靖江市| 中宁县| 灵石县| 枣阳市| 延庆县| 望奎县| 桑植县| 藁城市| 喀什市|