牛成磊
(北京比圖科技有限公司,北京 100102)
目前在建模中,可以充分地采用輸入文本信息。數(shù)字信息目前越來越強(qiáng)大,所以在互聯(lián)網(wǎng)中也會出現(xiàn)一些信息攔截的情況。用戶在使用互聯(lián)網(wǎng)時,希望可以快速準(zhǔn)確的得到想要的信息,然而目前信息出現(xiàn)了過度膨脹,所以用戶需要消耗大量的時間來進(jìn)行搜索查詢?;ヂ?lián)網(wǎng)商家提供的服務(wù),其實是希望能夠精準(zhǔn)掌握客戶的需求,然而為客戶推送的相關(guān)內(nèi)容,有的時候并不符合客戶的需求。根據(jù)以上的內(nèi)容推薦系統(tǒng)現(xiàn)在已經(jīng)產(chǎn)生了新的推薦系統(tǒng),就是把用戶的相關(guān)信息進(jìn)行分析,然后再進(jìn)行歷史交互,歷史交互包含用戶的購買記錄以及查閱記錄等。通過這些特點,能夠了解到用戶目前的上網(wǎng)習(xí)慣。所以項目特征也隨著歷史交互被了解。
文本信息處理簡單的講就是對文本進(jìn)行處理,在里面找到所需要的信息,這一過程對于文本處理來講非常重要。以NLP領(lǐng)域為中心展開研究,但是推薦系統(tǒng)領(lǐng)域中,可以直接采用研究成果對此領(lǐng)域中的數(shù)據(jù)展開處理,根據(jù)提取的信息,將文本引入到推薦過程,能夠獲得最佳的推薦效果。在自然語言處理領(lǐng)域中文本信息有很多的種類,并且可根據(jù)不同形式展開處理,由于受到篇幅的限制,所以本節(jié)對于設(shè)計中的推薦模型展開了討論,以及對文本信息處理技術(shù)展開討論。
深度神經(jīng)網(wǎng)絡(luò)概述。深度神經(jīng)網(wǎng)絡(luò)在進(jìn)行深度學(xué)習(xí)技術(shù)的時候,是比較基礎(chǔ)的一個部分,然而感知機(jī)模型想要得到更好的拓展,需要添加隱藏層,這樣才能夠促使非線性激活函數(shù)能夠更加充分的體現(xiàn)自身能力。深度神經(jīng)網(wǎng)絡(luò)在各領(lǐng)域中應(yīng)用的非常廣泛,能夠表現(xiàn)出較強(qiáng)的特征。同時也可以根據(jù)模型進(jìn)行設(shè)計,并充分融合深度網(wǎng)絡(luò),最終達(dá)到模型中的強(qiáng)大功能。最近系統(tǒng)研究領(lǐng)域會出現(xiàn)各種推薦模型,同時根據(jù)文中所提出的,采用卷積神經(jīng)網(wǎng)絡(luò),可以將文本特點進(jìn)行提取,從而促進(jìn)推薦任務(wù)在深度網(wǎng)絡(luò)中所推薦的領(lǐng)域得到具體應(yīng)用,另外,想要捕捉更多用戶的喜好,首先應(yīng)該在推薦模型中使用注意力機(jī)制。在很多工作中,可以使用圖神經(jīng)網(wǎng)絡(luò)充分的與推薦系統(tǒng)相融合,從中能夠得到更好地推薦效果,最終會形成DNN,并廣泛應(yīng)用到推薦領(lǐng)域。
根據(jù)上文的內(nèi)容,協(xié)同過濾推算法一般可以用于訓(xùn)練時使用,主要針對數(shù)據(jù)種類比較單一,并且還會出現(xiàn)信息不完善等情況,所以應(yīng)使用要推薦的模型為用戶建立更好的固定特征向量,但是從而也會導(dǎo)致忽視用戶的愛好。如果想要找到更好的解決方法,首先應(yīng)該評論文本信息,并適當(dāng)?shù)奶砑拥酵扑]過程之中,然而模型建筑會獲得更多的信息輸入,最重要的是在文本中,一般會囊括用戶所選擇的項目以及看法等。另外,在使用時也會體現(xiàn)出用戶的感受,能夠幫助模型挖掘用戶更多的喜好,同時也可體現(xiàn)出模型挖掘的特征。
在用戶使用某一項目的時候,會產(chǎn)生不同的想法,例如手機(jī)項目用戶在對手機(jī)項目進(jìn)行評價的時候,會根據(jù)手機(jī)的外觀以及通話質(zhì)量等來發(fā)表自己的意見以及感受。挖掘評論文本所體現(xiàn)出的信息會支持模型的構(gòu)建,同時也可以根據(jù)用戶以及項目的不同等級為用戶來推薦更多的模型輸入,從而能夠獲得更多的補(bǔ)充信息,并且也會獲得更多的功能。ANAR模型主要分為4個內(nèi)容,共內(nèi)容主要是用戶嵌入向量、文本特征、項目嵌入向量、項目的文本特征。與傳統(tǒng)的隱語義模型相比,現(xiàn)在用戶所使用的項目能夠體現(xiàn)出隱向量思想,根據(jù)用戶的id,能夠反映出用戶正在使用的嵌入向量Embi∈Rk。
文本特征θu∈RK和項目文本特征Embi∈Rk都是使用特殊設(shè)計,最終獲得卷積神經(jīng)網(wǎng)(CNN),根據(jù)數(shù)據(jù)集評論去獲得文本。要注意的是,在本文中所采用的實驗大多來自于美國亞馬遜電商網(wǎng)站,因為這些數(shù)據(jù)都屬于公開的,所以在選擇數(shù)據(jù)的時候,會對文本進(jìn)行評論,同時所有的文本均為英文,根據(jù)ANAR模型所提取到的相關(guān)流程可參考如下內(nèi)容,文本數(shù)據(jù)再進(jìn)行清洗時,首先要考慮真實語言環(huán)境,因為很多詞語,不具備實際的意義,所以要考慮限定詞以及語氣詞等。在進(jìn)行數(shù)據(jù)清理時,首先應(yīng)該將這些詞語刪除,另外,如果在數(shù)據(jù)集中,將所有的評論文檔進(jìn)行整合,匯總成為一個總評論文檔,這與推薦任務(wù)不會有任何的關(guān)聯(lián),并且對推薦任務(wù)還會有所影響,主要是因為高頻詞無法正常的體現(xiàn)出用戶的喜好。低頻詞容易出現(xiàn)錯誤,導(dǎo)致數(shù)據(jù)中會產(chǎn)生噪聲,所以應(yīng)該適當(dāng)?shù)谋粍h除,根據(jù)所選擇的數(shù)據(jù)展開評論,并且進(jìn)行統(tǒng)計分析,最終設(shè)定數(shù)據(jù)總評論文檔應(yīng)該使用低頻詞,如果文檔中低頻詞的數(shù)量已經(jīng)超過3萬,那么此時應(yīng)該被設(shè)定為高頻詞。
根據(jù)以上的內(nèi)容分析數(shù)據(jù),在進(jìn)行清洗的時候,首先總評論文檔不應(yīng)該使用高頻詞或者是低頻詞,因為這些詞語應(yīng)該被刪除,另外在生成用戶或者是評論文檔的時候,首先要完善。在文本清洗時,首先應(yīng)該把CNN文本進(jìn)行提取,尤其是其特征,所以在很多環(huán)節(jié)會產(chǎn)生評論文檔。根據(jù)數(shù)據(jù)分析用戶發(fā)表的評論,會按照首尾相接的形式進(jìn)行整合。如果集合大于265個單詞,那么應(yīng)該在此處展開階段,并且保留前面的詞語進(jìn)行評論集合。如果長度小于256個單詞,那么在這個集合中的單詞都應(yīng)該被復(fù)制,并且整合到末尾單詞的后邊,要將這個過程進(jìn)行重復(fù),直到長度大于256個單詞。之后,這種方式應(yīng)該及時中斷,并且應(yīng)該為用戶建立單獨的256個單詞的評論集合,針對所獲得的評論集合展開向量化操作,根據(jù)上文所述,目前選擇使用谷歌公司建立的預(yù)訓(xùn)練模型,完成此項任務(wù),針對評論集合中的每一個單詞都要掌握維度正常應(yīng)該在300個單詞向量。從而也應(yīng)該為用戶創(chuàng)建維度在(256,300)的評論文檔,文檔中應(yīng)該具備256個單詞,并且每300個單詞為向量維度。
以上是根據(jù)數(shù)據(jù)集中一個用戶所產(chǎn)生的文檔評論,全部的過程根據(jù)數(shù)據(jù)集中對用戶在使用時闡述相關(guān)步驟,最終得到數(shù)據(jù)集中對應(yīng)用戶建立的評論文檔,整合數(shù)據(jù)集中的項目評論文檔,最終會形成相應(yīng)的思路,并且不會被重復(fù)使用。特殊設(shè)計的卷積網(wǎng)絡(luò),并且從中能夠汲取到文檔的特征,另外還要設(shè)計比較特殊的卷積網(wǎng)絡(luò),但此時單層在連接網(wǎng)絡(luò)的時候,不會出現(xiàn)向量維度的改變。
注意力交互部分本身屬于核心設(shè)計,同時也屬于an AR模型,所以根據(jù)本文的引言能夠分析出用戶在使用各種項目的時候,也應(yīng)該關(guān)注不同點,所以模型在進(jìn)行推薦時,應(yīng)該捕捉到更好的多樣性喜好,從而能夠使推薦準(zhǔn)確度獲得提升。
近幾年,圖卷積網(wǎng)絡(luò)已經(jīng)被廣泛地使用,并且在每一個領(lǐng)域中都能夠見到這種網(wǎng)絡(luò),現(xiàn)在這種網(wǎng)絡(luò)的構(gòu)建已經(jīng)存在很大的優(yōu)勢,能夠使信息達(dá)到目標(biāo)節(jié)點,能夠幫助模型去學(xué)習(xí)目標(biāo)節(jié)點。并且形成相應(yīng)的特征,根據(jù)以上的內(nèi)容分析,評論文本信息通過節(jié)點信息再進(jìn)行傳遞,根據(jù)這一過程,文本信息會得到更好地利用。
本章節(jié)主要是簡單分析RAGCN模型,首先對此模型的概論進(jìn)行介紹,然后具體分析怎么進(jìn)行,在進(jìn)行訓(xùn)練時能夠找到關(guān)鍵點以及使用關(guān)鍵的步驟,這樣才可以進(jìn)行設(shè)計,最后將此模型的訓(xùn)練方法以及如何優(yōu)化進(jìn)行介紹。
在對RAGCN模型展開闡述之前,首先在本文中應(yīng)該注意公式符號,要盡量設(shè)置正確的符號,所以在推薦系統(tǒng)中,相關(guān)數(shù)據(jù)以及相關(guān)數(shù)據(jù)包會對用戶產(chǎn)生一定的影響,同時也會建立相應(yīng)的集合,根據(jù)所選項目,所構(gòu)成的集合數(shù)據(jù)集中,用戶一般會使用量Embi∈Rk。項目量Embi∈Rk,所表示的是自身相對應(yīng)的評論文檔,在文檔中首先應(yīng)該采用bert去提取文本向量,然后根據(jù)這個向量逐層地將其轉(zhuǎn)化成為項目評論,并與向量Embi∈Rk融合。
圖卷積網(wǎng)絡(luò)表示方式,會通過信息的傳遞以及策略學(xué)習(xí),用戶選擇項目等。根據(jù)數(shù)據(jù)集中能夠體現(xiàn)出每一個用戶量Embi∈Rk,并且將其特征與用戶相結(jié)合,能夠得到的嵌入向量會與用戶節(jié)點的特征相符合,并且能夠查找到評論本文節(jié)點中所有的特點,根據(jù)以上的步驟在圖網(wǎng)絡(luò)結(jié)構(gòu)中會包含所有節(jié)點,同時也都包含特征向量,根據(jù)此項任務(wù)能夠知道圖卷積網(wǎng)絡(luò)可以支持用戶節(jié)點以及用戶特征等,能夠使特征不斷地進(jìn)行更新,學(xué)習(xí)優(yōu)化,同時還可以及時被利用。要注意一點,再進(jìn)行學(xué)習(xí)時,首先要評論本文節(jié)點中產(chǎn)生的特點,信息中一般不會出現(xiàn)更新的狀態(tài)。然而在通過項目節(jié)點進(jìn)行傳輸時,往往會以學(xué)習(xí)的方式進(jìn)行參與,很多時候圖卷積網(wǎng)絡(luò)在系統(tǒng)中會起到很大的作用。
如前文所述,在一個推薦情境中,不同的相鄰項目節(jié)點對于目標(biāo)用戶節(jié)點的重要程度是不一樣的。例如:假設(shè)某用戶近期購買過《新華字典》和嬰兒紙尿褲兩種商品,那么對于刻畫該用戶特征畫像的作用而言,《新華字典》這個商品幾乎起不到任何作用,因為無論是什么身份、什么年齡、什么性別的用戶,都有購買《新華字典》的理由;而對于嬰兒紙尿褲則完全不同,因為購買此商品的用戶,其身份概率大多是剛剛為人父母的人。因此,對于這個用戶所對應(yīng)的用戶節(jié)點而言,在圖網(wǎng)絡(luò)消息傳遞的過程中,其兩個相鄰的項目節(jié)點對其傳遞過來的信息重要程度應(yīng)當(dāng)是截然不同的,嬰兒紙尿褲這個項目對應(yīng)的節(jié)點應(yīng)該被賦予更大的消息傳遞權(quán)重。
本文主要針對文本信息處理展開了深入研究,尤其是應(yīng)用于深度網(wǎng)絡(luò)技術(shù)中,根據(jù)文本信息以及用戶在使用數(shù)據(jù)進(jìn)行交互時,對其融合并且深度學(xué)習(xí)相關(guān)技術(shù)以及模型的構(gòu)建,同時也為用戶推薦模型。根據(jù)現(xiàn)有的文本推薦方法有的時候會忽視用戶在使用時的多樣性以及喜好,由于沒有建立較完善的模型,所以在輸入文本信息時,首先應(yīng)該給用戶提供更多的推薦任務(wù),以此滿足用戶的多樣性以及喜好。對于項目特征應(yīng)該更加細(xì)致并且建立模型,首先針對文本,要提高神經(jīng)網(wǎng)絡(luò)模型的推薦。另外,在感知方面也要融合到端神經(jīng)網(wǎng)絡(luò),同時也要注意對其預(yù)測進(jìn)行評分,并根據(jù)抽取用戶以及項目評論等推薦模型適當(dāng)?shù)膶μ卣餍畔⑦M(jìn)行提取,同時要設(shè)計一個交互網(wǎng)絡(luò),通過動態(tài)捕獲相關(guān)項目,在進(jìn)行交互的時候也會產(chǎn)生多樣性。針對圖卷積網(wǎng)絡(luò),要適當(dāng)?shù)亓私馄涔?jié)點信息,對圖卷積網(wǎng)絡(luò)傳遞能力要不斷地進(jìn)行提升,不斷學(xué)習(xí)更新以及優(yōu)化用戶節(jié)點。同時根據(jù)公開的數(shù)據(jù)對其進(jìn)行實驗,入門信息大多都作為輔助,而此時輔助信息可以構(gòu)建更好的模型,并且完善訓(xùn)練,能夠提升推薦的表現(xiàn)。圖卷積網(wǎng)絡(luò)比較適合處理在推薦系統(tǒng)中所產(chǎn)生的交互關(guān)系,同時也可以讓文本信息在輸入的過程中能夠得到充分的利用。對于圖卷積網(wǎng)絡(luò)構(gòu)建在進(jìn)行學(xué)習(xí)時,可以適當(dāng)?shù)耐扑]模型,這樣能夠支持用戶在選擇各種項目的時候所使用。
如果在文本信息中能夠適當(dāng)?shù)囊幂o助信息則可以構(gòu)建更好的模型,并且能夠更加完善訓(xùn)練,還可以促使推薦表現(xiàn)獲得不斷的提高。在如今的大數(shù)據(jù)時代,不僅僅要注意文本信息,同時還要注意其他相關(guān)的數(shù)據(jù)能夠充分的被使用,在推薦系統(tǒng)中,最主要的來源就是信息,其中包含圖片、項目、屬性等。在未來的科技研究中,輔助信息將會被應(yīng)用的非常廣泛,同時也會伴隨著推薦技術(shù)不斷的升級,不斷的研究,根據(jù)多種輔助信息與模型相融合的狀態(tài),對多元化信息再進(jìn)行輸入時,應(yīng)適當(dāng)?shù)牟捎猛扑]系統(tǒng),相對比較傳統(tǒng)系統(tǒng)已不具備太多優(yōu)越性,所以建議使用推薦系統(tǒng)。