李天玉,車?yán)?丁峰,譚悅
(1.北京信息科技大學(xué) 信息管理學(xué)院,北京 100192;2.北京尚云環(huán)境有限公司,北京 102208)
環(huán)境影響評(píng)價(jià)(以下簡(jiǎn)稱“環(huán)評(píng)”)可定義為:對(duì)規(guī)劃和建設(shè)項(xiàng)目實(shí)施后可能造成的環(huán)境影響進(jìn)行分析、預(yù)測(cè)和評(píng)估,提出預(yù)防或者減輕不良環(huán)境影響的對(duì)策和措施.環(huán)評(píng)行業(yè)用戶畫像是畫像技術(shù)在環(huán)境評(píng)估領(lǐng)域的具體應(yīng)用,它在用戶畫像的基本理念上添加了新的約束條件和應(yīng)用場(chǎng)景.在大數(shù)據(jù)時(shí)代背景下,用戶信息分散,面對(duì)如此豐富的海量數(shù)據(jù),將用戶信息抽象成標(biāo)簽,加以組合利用,挖掘出隱藏在大數(shù)據(jù)中的信息可以為用戶提供更加精準(zhǔn)的、有效的個(gè)性化服務(wù).近年來(lái),用戶畫像在推薦算法領(lǐng)域取得了系統(tǒng)性的突破,但基于環(huán)評(píng)行業(yè)特征來(lái)解決該行業(yè)用戶間資源推薦的研究還有待深入,存在的一些問題還有待去解決.
“環(huán)評(píng)云助手”是一款服務(wù)于環(huán)境影響評(píng)價(jià)行業(yè)用戶的APP,其主要功能包括標(biāo)準(zhǔn)政策查詢?yōu)g覽、分類管理名錄查詢等,包含國(guó)家和地方發(fā)布的法律法規(guī)、政策文件、標(biāo)準(zhǔn)規(guī)范等22 000余條,100 000余名環(huán)評(píng)從業(yè)者或行業(yè)業(yè)余人員注冊(cè)使用,月活躍度高達(dá)40 000余人.
本文充分利用“環(huán)評(píng)云助手”的行業(yè)文本資源和行業(yè)用戶行為特征,構(gòu)建體現(xiàn)行業(yè)特征的用戶畫像模型;同時(shí)結(jié)合深度因子分解機(jī)模型,以提高“環(huán)評(píng)云助手”資源推薦性能,滿足平臺(tái)用戶精準(zhǔn)獲取有用資源的需求.模型在泛化能力和適用能力等方面都有相應(yīng)提升.本文主要貢獻(xiàn)度如下:
(1)更有效地利用平臺(tái)行業(yè)文本資源和用戶行為特征.模型同時(shí)考慮行業(yè)文本資源中長(zhǎng)短文本對(duì)用戶畫像、標(biāo)簽的貢獻(xiàn)性,并通過(guò)自定義規(guī)則對(duì)用戶行為進(jìn)行評(píng)分,多維挖掘行業(yè)特征.
(2)將用戶畫像與DeepFM模型結(jié)合,更準(zhǔn)確地預(yù)測(cè)資源點(diǎn)擊率(CTR),以提高算法的推薦效率和綜合評(píng)價(jià)指標(biāo).
(3)模型在“環(huán)評(píng)云助手”數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并取得了很好的效果.開展與其他模型的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,模型在各評(píng)價(jià)指標(biāo)方面均優(yōu)于其他模型.
本文接下來(lái)首先闡述相關(guān)研究工作,第2節(jié)深入探討行業(yè)用戶畫像模型的構(gòu)建,第3節(jié)探討將用戶畫像應(yīng)用于DeepFM模型,第4節(jié)展示并分析實(shí)驗(yàn)工作及結(jié)果,最后對(duì)全文進(jìn)行總結(jié)并對(duì)該研究方向進(jìn)行展望.
用戶畫像是從海量信息中抽取出用戶信息的集合,用于描述用戶需求、偏好與興趣的模型[1].最早提出用戶畫像概念的是交互設(shè)計(jì)之父A.Cooper,他將用戶畫像定義為“基于用戶真實(shí)數(shù)據(jù)的虛擬代表”.QUINTANA等[2]也將用戶畫像描述為“一個(gè)從海量數(shù)據(jù)中獲取并由用戶信息構(gòu)成的標(biāo)簽集合”,通過(guò)這些標(biāo)簽信息,可以反映用戶的需求、個(gè)性化偏好等.用戶畫像方法雖然起源于公安情報(bào),在電子商務(wù)領(lǐng)域得到壯大發(fā)展,但如今在圖書情報(bào)[3]、科技情報(bào)[4]、社交論壇等領(lǐng)域都發(fā)揮著重要作用.當(dāng)前,面向基于實(shí)證研究平臺(tái)的環(huán)評(píng)行業(yè)畫像研究仍是一個(gè)較為全新的領(lǐng)域,通過(guò)梳理畫像技術(shù)在用戶畫像領(lǐng)域的發(fā)展,可以為環(huán)評(píng)行業(yè)畫像的研究和應(yīng)用提供借鑒.
20世紀(jì)90年代,協(xié)同過(guò)濾技術(shù)的首次提出[5],標(biāo)志著推薦系統(tǒng)成為一門獨(dú)立的學(xué)科而受到廣泛關(guān)注.如今,許多學(xué)者都在傳統(tǒng)推薦模型的基礎(chǔ)上結(jié)合用戶標(biāo)簽特性和用戶畫像技術(shù)提出了新的個(gè)性化推薦方法.張亮[6]融合用戶、標(biāo)簽、資源,利用LDA構(gòu)建主題模型,通過(guò)融合對(duì)象間關(guān)系與資源內(nèi)容特征進(jìn)行標(biāo)簽推薦.熊回香等[7-9]在此研究基礎(chǔ)上,不僅提出了從資源-標(biāo)簽-用戶3個(gè)維度分別建立推薦組件,還構(gòu)建了基于社會(huì)化標(biāo)簽的單用戶和群用戶興趣模型,通過(guò)協(xié)同過(guò)濾算法的思想,架構(gòu)了個(gè)性化信息服務(wù)流程.李興華等[10]提出了基于興趣-標(biāo)簽的ITRA推薦算法,將用戶候選興趣集、推薦興趣-標(biāo)簽集、項(xiàng)目推薦集作為最終的推薦結(jié)果.
CTR預(yù)估用來(lái)估計(jì)用戶點(diǎn)擊推薦資源的概率,在推薦系統(tǒng)中極為重要.對(duì)于一個(gè)基于CTR預(yù)估的推薦系統(tǒng),重要的是學(xué)習(xí)到用戶行為潛在的特征組合.在不同的推薦場(chǎng)景中,低階組合特征或高階組合特征都可能會(huì)對(duì)最終的CTR預(yù)測(cè)結(jié)果產(chǎn)生影響.因子分解機(jī)(Factorization Machines,FM)是經(jīng)典的CTR預(yù)估模型,通過(guò)對(duì)每一維特征的隱變量?jī)?nèi)積來(lái)提取特征組合,從而進(jìn)行點(diǎn)擊率預(yù)測(cè),但是FM因?yàn)橛?jì)算復(fù)雜度等原因只用到了二階特征組合,不能獲得高階特征交互.為了解決上述問題,JUAN 等[11]在FM的基礎(chǔ)上引入field的概念,提出了領(lǐng)域知識(shí)因子分解機(jī)模型(Field-aware Factorization Machine,FFM),將每個(gè)field的embedding值傳入MLP,從而獲取了高階特征交互.2017年,GUO等[12]為了減少Wide&Deep模型中的特征工程,提出了 DeepFM,將embedding后的特征表示同時(shí)傳入淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò),通過(guò)端到端的方式同時(shí)獲得了淺層特征交互表示與深層特征交互表示.
由于上述文獻(xiàn)方法缺少行業(yè)特征的滲透,若直接應(yīng)用在“環(huán)評(píng)云助手”APP中,將很難精準(zhǔn)構(gòu)建用戶畫像并準(zhǔn)確預(yù)測(cè)CTR點(diǎn)擊率,以滿足環(huán)評(píng)行業(yè)用戶的資源推薦需求.因此,本文結(jié)合行業(yè)特征,提出了一種融合文本資源特征和用戶行為特征的畫像模型并結(jié)合DeepFM模型實(shí)現(xiàn)用戶個(gè)性化推薦.
基于APP數(shù)據(jù)集特征,先后提取“環(huán)評(píng)云助手”文本資源特征標(biāo)簽和用戶行為特征進(jìn)行自定義評(píng)分,并通過(guò)這兩個(gè)維度構(gòu)建環(huán)評(píng)行業(yè)用戶畫像要素關(guān)聯(lián)路徑,進(jìn)而構(gòu)建“環(huán)評(píng)云助手”多維用戶畫像模型.
本文基于環(huán)評(píng)行業(yè)文本資源特征,從標(biāo)題短文本和摘要長(zhǎng)文本兩方面進(jìn)行考慮,多維度構(gòu)建用戶畫像.從邏輯結(jié)構(gòu)來(lái)看,文本標(biāo)題屬于短文本,具有揭示環(huán)評(píng)資源內(nèi)容主旨的作用;文本摘要屬于長(zhǎng)文本,闡明了該資源的適用范圍及主要內(nèi)容.這兩種文本在挖掘行業(yè)特征方面都起到重要作用,不僅能從行業(yè)文本資源特征中發(fā)掘用戶興趣,也充分考慮了文本邏輯結(jié)構(gòu)對(duì)畫像模型構(gòu)建的影響.
2.1.1基于標(biāo)題短文本的標(biāo)簽構(gòu)建
基于標(biāo)題短文本的畫像標(biāo)簽融合了行業(yè)詞、關(guān)鍵詞和主題詞三方面.將行業(yè)詞記作Lindustry,關(guān)鍵詞記作Lkey,主題詞記作Ltopic,共計(jì)m個(gè)用戶,則第i個(gè)用戶ui基于標(biāo)題短文本的畫像標(biāo)簽為:
Li=[Lindustryi,Lkeyi,Ltopici].
(1)基于標(biāo)題短文本的行業(yè)詞.《建設(shè)項(xiàng)目環(huán)境影響評(píng)價(jià)分類管理名錄》(以下簡(jiǎn)稱《分類管理名錄》)是環(huán)境影響評(píng)價(jià)領(lǐng)域重要的參考指標(biāo).該名錄劃分了55個(gè)一級(jí)分類,如農(nóng)業(yè)、林業(yè)、畜牧業(yè)、漁業(yè)等;一級(jí)分類中又下分了173個(gè)小類,例如畜牧業(yè)類中包括了牲畜飼養(yǎng)、家禽飼養(yǎng)和其他畜牧業(yè).本文統(tǒng)計(jì)了資源的分類名錄信息作為該資源的行業(yè)詞,一定程度上體現(xiàn)了用戶較為關(guān)注和感興趣的行業(yè)領(lǐng)域.
(2)基于標(biāo)題短文本的關(guān)鍵詞.使用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法進(jìn)行詞頻統(tǒng)計(jì),計(jì)算每個(gè)候選關(guān)鍵詞的綜合權(quán)重,從而依據(jù)該權(quán)重值對(duì)候選關(guān)鍵詞進(jìn)行排序,得到高權(quán)重的關(guān)鍵詞[13].對(duì)資源標(biāo)題文本使用此方法不僅可以生成作為標(biāo)簽的詞匯,還反映該用戶在環(huán)評(píng)行業(yè)中最關(guān)注的領(lǐng)域關(guān)鍵詞.例如,某用戶的關(guān)鍵詞中,出現(xiàn)“水質(zhì)”的比例遠(yuǎn)遠(yuǎn)高于其他詞匯,則考慮該用戶在環(huán)評(píng)行業(yè)中對(duì)水質(zhì)領(lǐng)域的關(guān)注程度較高、從事水質(zhì)方面工作的可能性較大.
(3)基于標(biāo)題短文本的主題詞.隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型將文檔的主題以概率分布的形式給出,從而通過(guò)分析文檔、抽取主題分布后進(jìn)行主題聚類.環(huán)評(píng)行業(yè)資源的標(biāo)題文本具有一定的專業(yè)性和結(jié)構(gòu)性,可使用LDA主題模型對(duì)資源標(biāo)題文本進(jìn)行主題聚類,得到每個(gè)主題下的行業(yè)主題詞.例如,一些標(biāo)題文本中會(huì)出現(xiàn)“水質(zhì)、光譜法、污染物、排放……”等圍繞環(huán)評(píng)方面的專業(yè)詞,且該領(lǐng)域的專業(yè)劃分明確,由此可以通過(guò)LDA主題模型生成圍繞環(huán)評(píng)行業(yè)主題展開的主題詞.
2.1.2基于摘要長(zhǎng)文本的特征提取
基于摘要長(zhǎng)文本的特征提取,其目的要抽取資源摘要中的文本特征,該方法使用TextRank文本摘要抽取算法,衡量每個(gè)句子與其他句子之間的聯(lián)系,求出該句子的候選權(quán)重,從而抽取主要內(nèi)容作為候選句[14].將用戶記作ui,候選句權(quán)重記作wi,候選句記作ci,則摘要生成結(jié)果根據(jù)候選權(quán)重wi排序,結(jié)果記為L(zhǎng)abstracti=[ci,1,ci,2,ci,3].其主要5個(gè)步驟如下所示:
(1)對(duì)文本T進(jìn)行句子分割,即T=[S1,S2,…,Sn];
(2)對(duì)每個(gè)句子Si∈T,進(jìn)行分詞,停用詞、無(wú)意義的詞過(guò)濾等操作,即Si=[ti,1,ti,2,…,ti,n];
(3)識(shí)別文本單元之間的關(guān)系,分別添加到圖模型中形成節(jié)點(diǎn)和邊;
(4)對(duì)各節(jié)點(diǎn)的權(quán)重進(jìn)行迭代計(jì)算,直到計(jì)算結(jié)果收斂,其公式如下所示:
(1)
其中,In(Vi)表示指向節(jié)點(diǎn)Vi的節(jié)點(diǎn)集,Out(Vj)表示指向節(jié)點(diǎn)Vj的節(jié)點(diǎn)集,wji表示節(jié)點(diǎn)Vj指向節(jié)點(diǎn)Vi的邊權(quán)重,d表示阻尼系數(shù),通常取0.85;
(5)對(duì)候選句權(quán)重倒序排序,將權(quán)重排序中前3個(gè)句子作為目標(biāo)文本的摘要句,若目標(biāo)文本中的候選句數(shù)量小于3,則選取當(dāng)前全部候選句作為摘要結(jié)果Labstracti=[ci,1,ci,2,ci,3].
用戶行為評(píng)分,可以將用戶與資源的交互行為數(shù)值化,體現(xiàn)了用戶對(duì)資源的興趣程度.所以通過(guò)統(tǒng)計(jì)用戶與資源之間的交互行為,分析其行為軌跡,建立行為軌跡與資源評(píng)價(jià)的關(guān)系,把用戶對(duì)資源的交互行為轉(zhuǎn)換成對(duì)應(yīng)的興趣評(píng)分,不僅挖掘了用戶感興趣的資源,也在一定程度上改善了算法的矩陣稀疏問題[15].
本文從用戶對(duì)環(huán)評(píng)行業(yè)文本資源的瀏覽、收藏、分享和評(píng)價(jià)行為入手,分別統(tǒng)計(jì)用戶對(duì)資源的瀏覽次數(shù)、評(píng)論次數(shù)、分享次數(shù)與收藏情況.本文采用自定義評(píng)分規(guī)則,參考付芬等[16]和顧寰等[17]對(duì)用戶行為評(píng)分的定義規(guī)則,定義評(píng)分取值范圍為Rjk∈[0,5].具體分值定義規(guī)則依據(jù)“環(huán)評(píng)云助手”用戶等級(jí)加分規(guī)則和APP虛擬貨幣“云貝”累計(jì)加分規(guī)則,各項(xiàng)評(píng)分由這兩方面加權(quán)平均得到.具體評(píng)分規(guī)則如表1所示.
表1 用戶行為評(píng)分標(biāo)準(zhǔn)表
(1)定義Rbrowser為用戶瀏覽行為評(píng)分,RFbrowser為瀏覽行為的獎(jiǎng)勵(lì)因子,具體公式如下:
Rbrowser=λ×rbrowser×RFbrowser.
(2)
(2)定義Rcollect為用戶收藏行為評(píng)分,RFcollect為收藏行為的獎(jiǎng)勵(lì)因子,具體公式如下:
Rcollect=λ×rcollect×RFcollect.
(3)
(3)定義Rshare為用戶分享行為評(píng)分,RFshare為分享行為的獎(jiǎng)勵(lì)因子,具體公式如下:
Rshare=λ×rshare×RFshare.
(4)
(4)定義Rcomment為用戶評(píng)論行為評(píng)分,RFcomment為評(píng)論行為的獎(jiǎng)勵(lì)因子,具體公式如下:
Rcomment=λ×rcomment×RFcomment,
(5)
其中,λ=1時(shí)表示用戶發(fā)生該行為,λ=0則表示該行為未發(fā)生.獎(jiǎng)勵(lì)因子和用戶行為評(píng)分Rjk公式如下所示:
RFbrowser+RFcollect+RFshare+RFcomment=1,Rjk=Rbrowser+Rcollect+Rshare+Rcomment.
(6)
記uj為第j個(gè)用戶,ik為第k個(gè)資源,rj,k為用戶j對(duì)資源k的評(píng)分,取值范圍rj,k∈[0,5].用戶行為評(píng)分矩陣如表2所示.
表2 用戶行為評(píng)分矩陣
綜上所述,通過(guò)融合行業(yè)資源特征和用戶行為特征兩個(gè)維度的特征,構(gòu)建體現(xiàn)行業(yè)特征的多維度用戶畫像模型.基于此脈絡(luò),畫像構(gòu)建模型分為3部分:特征標(biāo)簽提取、多維畫像構(gòu)建、畫像用戶分類與識(shí)別,構(gòu)建“環(huán)評(píng)云助手”多維用戶畫像模型,如圖1所示.
在特征標(biāo)簽提取部分,將文本資源分為基于標(biāo)題的短文本和基于摘要的長(zhǎng)文本,進(jìn)一步從標(biāo)題短文本中提取行業(yè)詞、關(guān)鍵詞和主題詞標(biāo)簽,從摘要長(zhǎng)文本中提取綜合摘要標(biāo)簽;又將用戶行為分為瀏覽、收藏、分享和評(píng)論4項(xiàng),根據(jù)自定義規(guī)則進(jìn)行用戶行為評(píng)分,最終將文本資源標(biāo)簽和用戶行為評(píng)分合并設(shè)定為資源特征標(biāo)簽.根據(jù)提取的特征標(biāo)簽作為“環(huán)評(píng)云助手”多維用戶畫像標(biāo)簽,從而構(gòu)建用戶畫像.并根據(jù)畫像分析和總結(jié)對(duì)用戶進(jìn)行分類和識(shí)別,主要從“用戶感興趣的方面”“用戶行為表現(xiàn)”兩方面識(shí)別和描述用戶.例如“一個(gè)愛分享對(duì)污水處理方面感興趣的用戶”、“一個(gè)愛評(píng)論收藏的金屬礦開采行業(yè)的用戶”等.
本文的主要任務(wù)是給用戶推薦其可能感興趣的行業(yè)文本資源,因此需要將用戶興趣與資源信息相關(guān)聯(lián),從而進(jìn)行建模.在第2節(jié)中,已經(jīng)將用戶感興趣的資源信息和用戶對(duì)此資源產(chǎn)生的行為數(shù)據(jù)進(jìn)行語(yǔ)義提取以及構(gòu)建評(píng)分矩陣,生成標(biāo)簽和用戶畫像模型.因此,將用戶畫像標(biāo)簽作為DeepFM的輸入數(shù)據(jù).
由于用戶畫像標(biāo)簽的數(shù)據(jù)量大且屬性種類繁多,使用one-hot編碼后,數(shù)據(jù)維度高且稀疏.單個(gè)特征表達(dá)能力弱、特征組合數(shù)據(jù)量爆炸、分布不均勻會(huì)導(dǎo)致受訓(xùn)程度不均勻,所以需要通過(guò)embedding層將高維稀疏特征轉(zhuǎn)化為低維稠密特征.但數(shù)據(jù)維度過(guò)高時(shí),傳入embedding層依舊會(huì)導(dǎo)致數(shù)據(jù)量爆炸,出現(xiàn)參數(shù)過(guò)多的情況.于是先引入field概念,可以將同一個(gè)特征經(jīng)過(guò)one-hot編碼生成的數(shù)值特征放到同一個(gè)field,再將不同filed傳入embedding層.盡管不同field的輸入維度不同,但是embedding之后向量的維度均相同[12],為模型后續(xù)FM layer和DNN layer的輸入打下基礎(chǔ).本文與畫像結(jié)合的特征表示結(jié)構(gòu)如圖2所示.
DeepFM是一種基于因子分解機(jī)的神經(jīng)網(wǎng)絡(luò),其目的是學(xué)習(xí)低階特征和高階特征的交互.因此DeepFM由兩部分組成,分別是因子分解機(jī)FM和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),這兩個(gè)部分共享相同的輸入.本文將用戶畫像與DeepFM模型結(jié)合,其結(jié)構(gòu)如圖3所示.
DeepFM模型公式為:
y′=sigmoid(yFM,yDNN),
(7)
其中,y′∈(0,1),yFM是FM部分的輸出,yDNN是深度神經(jīng)網(wǎng)絡(luò)部分的輸出.
FM部分能用于學(xué)習(xí)特征之間的交互,每一個(gè)特征可以通過(guò)與其潛在的特征向量進(jìn)行內(nèi)積運(yùn)算,來(lái)衡量其相關(guān)性.因此,FM可以更好地學(xué)習(xí)數(shù)據(jù)中從未出現(xiàn)或很少出現(xiàn)的特征交互,有效地解決了本文行業(yè)資源特征和用戶行為特征因數(shù)據(jù)稀疏而導(dǎo)致的特征交互難以表示的問題.FM模型可以表示為:
(8)
其中,wi是特征xi的權(quán)重,Vi和Vj分別為特征xi和xj的潛在特征向量.
Deep Layer部分是一個(gè)前饋神經(jīng)網(wǎng)絡(luò),用于學(xué)習(xí)高階特征交互.由于用戶畫像標(biāo)簽中特征輸入向量為分類連續(xù)混合,具有高度稀疏、數(shù)據(jù)維度高等特點(diǎn),經(jīng)過(guò)one-hot編碼后,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)困難,學(xué)習(xí)效果不佳.因此需要在第一個(gè)隱藏層之前加一層embedding層,將長(zhǎng)度不同的輸入向量壓縮為長(zhǎng)度固定、低維、稠密的向量,再輸入全連接網(wǎng)絡(luò)層.同時(shí)使用embedding層可以使FM Layer部分和Deep Layer部分共享embedding輸入層,使模型從原始特征中學(xué)習(xí)低階和高階特征交互.DNN部分最終的輸出結(jié)果為:
yDNN=sigmoid(W|H|+1a|H|+1+b|H|+1),
(9)
其中,a0=[e1,e2,…,em](m為filed數(shù)量)作為DNN的輸入,sigmoid是激活函數(shù),al、Wl、bl分別是第l層的輸出、模型權(quán)重和偏差,|H|為隱藏層數(shù).
本文篩選出“環(huán)評(píng)云助手”2019年11月到2021年1月期間,2 119名用戶對(duì)中華人民共和國(guó)生態(tài)環(huán)境部發(fā)表的有關(guān)環(huán)境影響評(píng)價(jià)的1 702篇文章產(chǎn)生的21 102條數(shù)據(jù),其中文章類型包括技術(shù)導(dǎo)則、技術(shù)規(guī)范、監(jiān)測(cè)規(guī)范及相關(guān)行業(yè)標(biāo)準(zhǔn)等,行為數(shù)據(jù)包括瀏覽、收藏、評(píng)論及分享等.“環(huán)評(píng)云助手”APP文本資源和用戶行為數(shù)據(jù)均為未公開數(shù)據(jù)集,使用權(quán)限已由北京尚云環(huán)境有限公司授權(quán),可作為論文數(shù)據(jù)集發(fā)表在期刊上.
數(shù)據(jù)預(yù)處理主要包括:過(guò)濾數(shù)據(jù)集中的空數(shù)據(jù),根據(jù)哈爾濱工業(yè)大學(xué)實(shí)驗(yàn)室提出的停用詞表,使用jieba分詞庫(kù)對(duì)數(shù)據(jù)集進(jìn)行分詞,并去除停用詞、特殊符號(hào)和無(wú)意義的詞等.
在上述數(shù)據(jù)集的基礎(chǔ)上,進(jìn)一步劃分為資源信息數(shù)據(jù)集(Resource Information)和環(huán)評(píng)多維畫像數(shù)據(jù)集(EIA-UserPortrait),數(shù)據(jù)集具體屬性如下所示:
EIA-UserPortrait=(industry,key,topic,abstract,R),
Resource Information=(fileName,abstract,classification,flglml,gmjjdm),
其中,fileName為資源名稱,abstract為資源摘要,classification為資源類型,flglml為分類管理名錄,gmjjdm為國(guó)民經(jīng)濟(jì)代碼.
本文實(shí)驗(yàn)以AUC和 LogLoss為評(píng)價(jià)指標(biāo)0.
AUC(Area Under Curve)為受試者操作曲線(Receiver operating characteristic,ROC)下與坐標(biāo)軸圍成的面積,是衡量二分類模型優(yōu)劣的一種評(píng)價(jià)指標(biāo).CTR資源點(diǎn)擊率預(yù)測(cè)任務(wù)作為二分類模型任務(wù),研究表明AUC作為一個(gè)評(píng)價(jià)二分類問題廣泛使用的指標(biāo),可作為評(píng)價(jià)其CTR預(yù)測(cè)性能的良好評(píng)價(jià)標(biāo)準(zhǔn).LogLoss是二分類模型的評(píng)價(jià)標(biāo)準(zhǔn),其基于概率度量,用來(lái)表示預(yù)測(cè)值與真實(shí)值之間的差距.蔣興渝等[15],GUO 等[12]和LIAN等[18]表示,對(duì)于CTR預(yù)測(cè)算法, AUC提高 1‰也具有意義,因?yàn)橥扑]算法一般用于公司用戶群體之間的推薦,如果用戶數(shù)量非常大,它為公司收入增幅也自然會(huì)很大.
最后將整個(gè)數(shù)據(jù)集按4∶1的比例分割成訓(xùn)練集和測(cè)試集,并保證正負(fù)樣本比例接近1∶1.表3列出了數(shù)據(jù)集的詳細(xì)劃分情況.
表3 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)表
實(shí)驗(yàn)分析主要包括如下內(nèi)容:
(1)通過(guò)多次實(shí)驗(yàn)結(jié)果的比對(duì),確定LDA主題模型的最優(yōu)主題數(shù)目;
(2)基于相同參數(shù),使用DeepFM模型分別對(duì)Resource Information數(shù)據(jù)集和EIA-UserPortrait數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),測(cè)試多維用戶畫像對(duì)CTR預(yù)測(cè)模型的性能改進(jìn)情況.與其他CTR預(yù)測(cè)模型作實(shí)驗(yàn)對(duì)比,通過(guò)比對(duì)實(shí)驗(yàn)結(jié)果,證明本文模型的有效性和優(yōu)勢(shì).
4.3.1LDA最優(yōu)主題數(shù)對(duì)比實(shí)驗(yàn)
為確定使LDA算法達(dá)到最優(yōu)性能評(píng)價(jià)指標(biāo)所對(duì)應(yīng)的主題數(shù),遍歷了1至51之間LDA主題數(shù)目,每次增加的步長(zhǎng)為5,共9組實(shí)驗(yàn).分別統(tǒng)計(jì)每組實(shí)驗(yàn)的困惑度值P(D),困惑度公式如下:
(10)
其中,D表示語(yǔ)料庫(kù)中的數(shù)據(jù)集,共M篇文檔,Nd表示每篇文檔D中的單詞數(shù),wd表示文檔d中的詞,p(wd)即文檔中詞wd產(chǎn)生的概率.實(shí)驗(yàn)結(jié)果如圖4所示.
從結(jié)果可以看出,LDA主題數(shù)目為41時(shí), 困惑度值最小,性能綜合評(píng)價(jià)最好.
4.3.2與其他CTR預(yù)測(cè)模型對(duì)比實(shí)驗(yàn)與分析
為了驗(yàn)證所提模型的有效性,本文從以下2個(gè)類別中選擇基線:(1)基于Resource Information數(shù)據(jù)集的DeepFM模型(R-DeepFM),(2)基于EIA-UserPortrait數(shù)據(jù)集的DeepFM模型(EUP-DeepFM).
實(shí)驗(yàn)還將基線對(duì)比模型分為兩個(gè)部分:淺基線模型和深基線模型.淺基線模型實(shí)驗(yàn)使用Resource Information數(shù)據(jù)集作為各CTR模型的輸入,深基線模型實(shí)驗(yàn)使用EIA-UserPortrait數(shù)據(jù)集,測(cè)試各CTR模型與用戶畫像結(jié)合的模型性能.
本文的淺基線模型為R-(GBDT+LR)、R-FM、R-FNN、R-PNN和R-DeepFM,深基線模型是各CTR模型和用戶畫像的結(jié)合,即EUP-(GBDT+LR)、EUP-FM、EUP-FNN、EUP-PNN和EUP-DeepFM.
表4展示了淺基線模型在資源信息數(shù)據(jù)集上的AUC和LogLoss結(jié)果,DeepFM為本文CTR預(yù)測(cè)任務(wù)中使用的淺基線模型,觀察實(shí)驗(yàn)結(jié)果可以看出R-DeepFM的性能均優(yōu)于其他淺基線模型,因此本文CTR預(yù)測(cè)部分使用DeepFM模型.
表4 淺基線模型實(shí)驗(yàn)性能對(duì)比
為了進(jìn)一步提升模型性能,將用戶畫像與各CTR預(yù)測(cè)模型結(jié)合,組成深基線模型,實(shí)驗(yàn)性能對(duì)比結(jié)果如表5所示.通過(guò)觀察淺基線組與深基線組的模型性能比較可以看出,與用戶畫像模型結(jié)合在一定程度上提升了挖掘用戶潛在興趣的能力,使得CTR預(yù)測(cè)任務(wù)更加準(zhǔn)確.在與其他CTR預(yù)測(cè)模型比較中,EUP-DeepFM在AUC和LogLoss兩方面的綜合表現(xiàn)優(yōu)于其他CTR預(yù)測(cè)模型,這說(shuō)明本文提出的模型相比其他模型具有優(yōu)勢(shì),也體現(xiàn)了用戶畫像和DeepFM模型的結(jié)合可以挖掘出更多有潛在價(jià)值的信息.
表5 深基線模型實(shí)驗(yàn)性能對(duì)比
而且,基于“環(huán)評(píng)云助手”數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)時(shí),EUP-DeepFM模型比R-DeepFM模型在AUC值上提升了0.47%,LogLoss值降低了1.63%.EUP-DeepFM模型的AUC值越接近1并且LogLoss損失值更低,說(shuō)明該模型真實(shí)性更高,模型的預(yù)測(cè)性能更好,意味著更好的CTR預(yù)測(cè)和模型性能.其原因在于用戶畫像標(biāo)簽?zāi)芡诰虺鲭[藏在用戶和資源數(shù)據(jù)中潛在的信息,可以使二分類模型任務(wù)具有更高的預(yù)測(cè)準(zhǔn)確率,為用戶提供更加精準(zhǔn)的、有效的個(gè)性化服務(wù).
本文為“環(huán)評(píng)云助手”APP構(gòu)建行業(yè)用戶畫像和個(gè)性化推薦的研究工作提供了新的思路,部分解決了大數(shù)據(jù)時(shí)代APP中“信息過(guò)載”問題,為分析海量文本信息和精準(zhǔn)找到信息提供了新的方法.針對(duì)“環(huán)評(píng)云助手”APP中行業(yè)資源文本特征利用不充分、資源推薦精準(zhǔn)較低的問題,提出了結(jié)合用戶畫像與DeepFM模型結(jié)合的推薦算法,更充分利用了環(huán)評(píng)行業(yè)文本資源特征和行業(yè)用戶的行為特征,提升了推薦算法中CTR點(diǎn)擊率預(yù)測(cè)率問題.實(shí)驗(yàn)結(jié)果表明,本文提出的模型有效提高了APP資源推薦的性能,具有一定的應(yīng)用價(jià)值.
本文雖對(duì)“環(huán)評(píng)云助手”資源推薦存在的問題進(jìn)行了研究,但本文提出的模型也存在一定的不足.本文使用的數(shù)據(jù)為用戶歷史數(shù)據(jù),模型暫時(shí)沒有考慮用戶興趣等特征隨時(shí)間推移產(chǎn)生的變化.因此,在后續(xù)的研究工作中將進(jìn)一步考慮用戶的興趣變化對(duì)模型的影響.
河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2023年4期