• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于TextCNN與多頭注意力機(jī)制增強(qiáng)xDeepFM的互聯(lián)網(wǎng)營銷活動參與預(yù)測研究

      2024-10-10 00:00:00邱家杰何利力鄭軍紅
      軟件工程 2024年10期
      關(guān)鍵詞:深度學(xué)習(xí)

      關(guān)鍵詞:深度學(xué)習(xí);多頭注意力機(jī)制;TextCNN;xDeepFM;用戶行為預(yù)測

      中圖分類號:TP183 文獻(xiàn)標(biāo)志碼:A

      0 引言(Introduction)

      在互聯(lián)網(wǎng)營銷領(lǐng)域[1],活動參與行為預(yù)測是衡量營銷策略成效的重要工具[2]。許多學(xué)者將深度學(xué)習(xí)技術(shù)成功地應(yīng)用于預(yù)測領(lǐng)域。2016年,谷歌推出了Wide amp; Deep,隨后出現(xiàn)了DeepFM(深度因子分解機(jī))[3]、xDeepFM、DCN(深度交叉網(wǎng)絡(luò))、DCN-M(深度矩陣交叉網(wǎng)絡(luò))[4]等改進(jìn)模型。一些學(xué)者也提出了其他具有創(chuàng)新性的深度學(xué)習(xí)模型。YANG等[5]提出操作感知神經(jīng)網(wǎng)絡(luò)(ONN),該模型旨在學(xué)習(xí)對不同操作具有區(qū)分性的特征表示;THAIPISUTIKUL等[6]提出一種基于深度順序?qū)W習(xí)方法(CReS)的新穎的上下文感知推薦系統(tǒng);LI等[7]提出GraphFM(圖因子分解機(jī)),使用圖神經(jīng)網(wǎng)絡(luò)代替交互層進(jìn)行特征交互。

      同時,注意力機(jī)制在預(yù)測領(lǐng)域取得了巨大的成功;TAO等[8]提出HoAFM(高階注意力因子分解機(jī)),在交叉網(wǎng)絡(luò)引入注意力機(jī)制層;ZHANG等[9]提出FAT-DeepFFM(字段注意力-深度字段感知因子分解機(jī)),將深度場感知分解機(jī)(DeepFFM)與復(fù)合激勵網(wǎng)絡(luò)(CENet)結(jié)合,突出了特征的重要性;YANG等[10]設(shè)計了一種興趣提取模塊,通過多頭注意力機(jī)制學(xué)習(xí)用戶行為序列關(guān)系;ZHENG等[11]提出融合深度丟失預(yù)測模型,使用自注意力機(jī)制學(xué)習(xí)不同特征之間的相關(guān)性;DOGANI等[12]將CNN提取的空間特征輸入利用注意力機(jī)制優(yōu)化的GRU網(wǎng)絡(luò)中。

      1 本文研究模型(The proposed model)

      本研究提出基于文本卷積神經(jīng)網(wǎng)絡(luò)與多頭注意力機(jī)制增強(qiáng)的xDeepFM模型,即xDTCMAFM(圖1)。首先,將輸入信息劃分為用戶特征、活動特征、用戶行為的非文本特征及用戶行為的文本特征四大類。對于前三類特征,通過獨(dú)熱編碼和多值特征編碼進(jìn)行處理后,輸入帶權(quán)重矩陣的嵌入層中,以獲得密集特征向量。文本特征則采用Word2vec進(jìn)行詞嵌入,隨后通過TextCNN提取用戶文本行為中的關(guān)鍵特征和意圖,確保捕獲到的文本信息既具代表性又兼顧多樣性。其次,模型將這些多維度特征輸入多頭注意力機(jī)制中,實(shí)現(xiàn)了從多角度對用戶興趣點(diǎn)和偏好變化的深度捕捉,以及對用戶行為的精細(xì)化理解。最后,通過xDeepFM模型的深度學(xué)習(xí)能力,自動學(xué)習(xí)不同特征之間的交叉,有效地整合顯式與隱式特征交互。這一模型架構(gòu)的設(shè)計,旨在為企業(yè)在開展互聯(lián)網(wǎng)營銷活動時,提供更高準(zhǔn)確性的用戶參與行為預(yù)測,從而優(yōu)化營銷策略,提高活動的參與度和效果。

      1.1 數(shù)據(jù)預(yù)處理

      本文提出的xDTCMAFM模型的數(shù)據(jù)可分為4組:用戶特征、活動特征、用戶行為非文本特征及用戶行為文本特征。用戶特征包括個人信息,如年齡、性別和所在城市等;活動特征包括活動類型、持續(xù)時間和地點(diǎn)等;用戶行為非文本特征指的是用戶在營銷活動上的行動和習(xí)慣,這些特征通常是結(jié)構(gòu)化數(shù)據(jù),包括瀏覽行為、參與行為等;用戶行為文本特征指的是用戶生成或與之交互的文本內(nèi)容,這些特征可以通過文本挖掘和自然語言處理技術(shù)提取,包括評論和評價行為等。

      非文本特征主要進(jìn)行特征編碼處理,對于單類型特征,通常采用獨(dú)熱編碼處理。獨(dú)熱編碼即One-Hot編碼,又稱一位有效編碼,其方法是使用多位狀態(tài)寄存器對多個狀態(tài)進(jìn)行編碼,每個狀態(tài)都有它獨(dú)立的寄存器位,并且在任何時候,其中只有一位有效。

      文本特征除了去停用詞、分詞等操作,還需要進(jìn)行文本向量化處理。因?yàn)槲谋咎卣魇遣豢捎嬎愕姆墙Y(jié)構(gòu)化的數(shù)據(jù),所以在進(jìn)行分類之前,需要將文本數(shù)據(jù)轉(zhuǎn)化為計算機(jī)可以識別和計算的向量。詞嵌入模型是目前實(shí)現(xiàn)詞語到其特征向量映射的一種最有效的方法。Word2vec是一種流行的詞嵌入方法,它包括兩個主要的模型:連續(xù)詞袋(CBOW)模型和跳字(Skipgram)模型。在CBOW 模型中,目標(biāo)是利用周圍的上下文詞預(yù)測中心詞;而在Skip-gram模型中,策略則相反,通過給定的中心詞預(yù)測其周圍的上下文詞。這兩種模型的共同目的是通過迭代訓(xùn)練生成一個包含詞向量的詞典。本文主要采用Skipgram模型,Skip-gram模型結(jié)構(gòu)圖如圖2所示。

      在Skip-gram模型中,初始輸入的每個單詞都通過獨(dú)熱編碼形式表示。向量隨后傳遞至嵌入層,該層包含一個權(quán)重矩陣,它能將高維的獨(dú)熱編碼轉(zhuǎn)換為一個低維、稠密的詞嵌入向量。這個詞向量接下來會被送入輸出層,輸出層通過輸出權(quán)重矩陣計算目標(biāo)單詞的詞嵌入與詞匯表中每個可能的上下文單詞的詞嵌入之間的相似度,從而得到一個概率分布,表示各個上下文單詞出現(xiàn)的可能性。跳字模型的基本公式可以表示為最大化對數(shù)似然函數(shù),目標(biāo)是最大化給定中心詞時上下文詞出現(xiàn)的概率,具體公式如下:

      1.2 特征向量嵌入層

      獨(dú)熱編碼和多值特征編碼通常會出現(xiàn)稀疏性問題和維度災(zāi)難,比如對用戶所在城市這一特征進(jìn)行獨(dú)熱編碼,就會生成高維度的向量,這種高維度的向量不利于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。對于非文本特征,通常使用帶有權(quán)重矩陣的嵌入層解決數(shù)據(jù)稀疏和維度爆炸的問題,它的核心原理是將原始輸入轉(zhuǎn)化為包含豐富語義信息的低維密集向量,這樣語義上相似的特征會被映射為相似的向量表示,進(jìn)而減少模型的特征維度。對于文本特征,本文采用文本卷積神經(jīng)網(wǎng)絡(luò)TextCNN模型進(jìn)行特征提取,該模型通過定義不同的卷積核大小,實(shí)現(xiàn)對不同的局部特征的提取,從而可以得到用戶文本行為中比較具有代表性和多樣性的特征。TextCNN模型結(jié)構(gòu)如圖3所示。

      使用Word2vec訓(xùn)練得到相應(yīng)的文本詞向量作為模型的嵌入層,將其輸入TextCNN。卷積層通過不同大小的卷積核捕捉文本數(shù)據(jù)中的局部特征,對于用戶行為文本來說,這意味著能夠從單詞和短語級別提取有用的信息。本文設(shè)定了3種尺寸的卷積核,這些卷積核的運(yùn)算可以通過公式(3)表達(dá):

      1.3 多頭注意力機(jī)制

      在本文中,由于涉及多種類型的特征,因此如果單純地采用平均池化融合這些特征,并且僅僅通過拼接的方式將它們結(jié)合起來,可能會使得模型對用戶興趣的理解過于泛化,缺乏多樣性和個性化的洞察。針對這一問題,通過引入多頭注意力機(jī)制,能夠使模型在多個獨(dú)立的維度上處理信息,使得不同“頭”可以專注于捕捉數(shù)據(jù)的不同特點(diǎn)。這樣不僅豐富了特征的表示能力,也使得模型能夠更精細(xì)地理解和表達(dá)用戶的興趣特征。

      在多頭注意力機(jī)制中,Query代表當(dāng)前關(guān)注的目標(biāo),Key表示輸入數(shù)據(jù)元素,用于與Query比較后確定相關(guān)性,Value也表示輸入數(shù)據(jù)元素,根據(jù)由Query和Key計算得到的注意力權(quán)重來生成加權(quán)和輸出。多頭注意力機(jī)制的核心思想是將傳統(tǒng)的單一自注意力機(jī)制分割成多個“頭”,每個頭獨(dú)立地進(jìn)行注意力計算,然后將這些“頭”的結(jié)果合并起來。多頭自注意力機(jī)制結(jié)構(gòu)如圖4所示。

      將每一個特征向量進(jìn)行相同的操作,然后拼接,完成多頭注意力機(jī)制對特征的處理。

      1.4xDeepFM模型

      xDeepFM 模型是一種用于預(yù)測領(lǐng)域的深度學(xué)習(xí)模型,它是在DeepFM的基礎(chǔ)上發(fā)展而來的。該模型旨在自動學(xué)習(xí)特征交叉,即不需要手動設(shè)計特征交叉,能夠有效地在低維和高維特征空間中學(xué)習(xí)特征的組合,從而提升了預(yù)測模型的性能。xDeepFM主要包含邏輯回歸(LR)、深度神經(jīng)網(wǎng)絡(luò)(DNN)和壓縮交互網(wǎng)絡(luò)(CIN)3個部分。其中,LR用于捕捉特征的線性組合,DNN用于捕捉隱式的特征交互,CIN用于捕捉顯式的特征交互。xDeepFM結(jié)構(gòu)如圖5所示。

      其中,CIN是一種用于深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu),主要用于捕捉和表達(dá)數(shù)據(jù)特征間的復(fù)雜交互關(guān)系。在壓縮交互網(wǎng)絡(luò)中,有多個隱藏層,每一層的輸出都是根據(jù)前一隱藏層的輸出和原始基本特征推算得出的,壓縮交互網(wǎng)絡(luò)特征交互步驟如圖6所示。

      2 實(shí)驗(yàn)(Experiment)

      2.1 數(shù)據(jù)集

      本文使用的原始數(shù)據(jù)來源于某大型互聯(lián)網(wǎng)營銷平臺2023年的營銷活動數(shù)據(jù)。該數(shù)據(jù)集來源于真實(shí)的互聯(lián)網(wǎng)營銷活動場景,具有大規(guī)模且完整的特征體系,涵蓋了各種數(shù)據(jù),可以被用于行為預(yù)測的研究。本文從該數(shù)據(jù)集中整理了兩條營銷活動信息:生活光影(營銷活動A:通過鏡頭捕捉生活中的光與影,發(fā)現(xiàn)日常的非凡之美,記錄每個獨(dú)特瞬間,分享視覺故事,留住時間的足跡)和心靈之旅(營銷活動B:舉辦心靈音樂會等文藝活動,通過藝術(shù)表演傳遞情感,產(chǎn)生內(nèi)心共鳴和思考)。據(jù)統(tǒng)計,本次實(shí)驗(yàn)采集用戶特征63 020組,活動特征29 560組,用戶行為的非文本特征185 591組,用戶行為的文本特征160 100組,具體的數(shù)據(jù)特征和分布見表1至表3。

      2.2 評價指標(biāo)

      使用兩種指標(biāo)對模型進(jìn)行評估:AUC(ROC曲線下的面積)和Logloss(交叉熵)。這兩個指標(biāo)從不同的角度展現(xiàn)了模型的性能:AUC是衡量陽性樣本排名高于隨機(jī)選擇陰性樣本的概率,綜合性能好且對類不平衡問題不敏感;Logloss是衡量每個樣本的預(yù)測分?jǐn)?shù)與真實(shí)標(biāo)簽之間的距離,體現(xiàn)了模型的準(zhǔn)確性。

      2.3 對比實(shí)驗(yàn)

      在實(shí)驗(yàn)環(huán)節(jié)中,將提出的xDTCMAFM模型與以下常用的模型進(jìn)行比較。(1)NFM(神經(jīng)網(wǎng)絡(luò)因子分解機(jī)):結(jié)合了FM的特征交叉能力和DNN的非線性學(xué)習(xí)能力。(2)AFM(注意力因子分解機(jī)):在FM后引入注意力機(jī)制,能區(qū)分不同特征的重要程度。(3)PNN(產(chǎn)品型神經(jīng)網(wǎng)絡(luò)):構(gòu)建特征之間的乘積關(guān)系,能捕捉特征間的復(fù)雜相互作用。(4)DeepFM(深度因子分解機(jī)):同時提取到低階組合特征與高階組合特征。(5)xDeepFM:CIN+DNN顯隱式的高階特征交叉組合。

      同時,為了全面提升模型的性能和適用性,嘗試各種基于xDeepFM模型的改進(jìn)方案。(1)AFM+xDeepFM:注意力機(jī)制FM與xDeepFM三個子模型并列。(2)AT+xDeepFM:使用單一注意力機(jī)制整合多層次的特征數(shù)據(jù)。(3)MAT+xDeepFM:使用多頭注意力機(jī)制融合不同層次的特征信息。(4)CNN+MAT+xDeepFM:將CNN 作為嵌入層提取文本中的局部特征。

      2.4 實(shí)驗(yàn)設(shè)置

      本研究中實(shí)驗(yàn)所涉及的硬件環(huán)境和軟件環(huán)境配置見表4。

      為了保證對比實(shí)驗(yàn)的公平性,一方面要控制各模型超參數(shù)的一致性,以減少變量的干擾;另一方面,需優(yōu)化各模型的超參數(shù),避免因參數(shù)設(shè)置不當(dāng)而影響模型的性能。通過大量的實(shí)驗(yàn)和探索,本文選擇了一組適用于大部分模型的公共參數(shù),其中包括學(xué)習(xí)率為1E-3、Embbeding層維數(shù)為32、訓(xùn)練輪數(shù)為5、激活函數(shù)為ReLU、多頭注意力機(jī)制頭數(shù)為8等。

      2.5 實(shí)驗(yàn)結(jié)果分析

      實(shí)驗(yàn)結(jié)果見表5至表8。

      通過觀察表5和表6中的數(shù)據(jù)發(fā)現(xiàn),NFM、AFM 及PNN這3個模型在單獨(dú)應(yīng)用時的表現(xiàn)都不好,相比之下,xDeepFM的表現(xiàn)略優(yōu)于DeepFM,而xDTCMAFM 模型的表現(xiàn)較好。造成這種差異的具體原因如下所述。

      (1)NFM、AFM 及PNN通常采用串聯(lián)的模型結(jié)構(gòu),導(dǎo)致計算必須按順序執(zhí)行,從而影響了整體的計算效率;雖然它們能夠捕捉到高階特征交互,但在低階及高階特征交互方面,不如采用并聯(lián)結(jié)構(gòu)的模型(如DeepFM 和xDeepFM)那樣直接和有效。

      (2)xDeepFM之所以性能優(yōu)于DeepFM,主要是因?yàn)樗肓薈IN,可以顯式地學(xué)習(xí)高階特征交互。這一設(shè)計優(yōu)化了DeepFM模型,增強(qiáng)了模型捕捉復(fù)雜特征交互的能力,實(shí)現(xiàn)了顯隱式有效的特征組合。

      (3)本文提出的xDTCMAFM 在嵌入層方面進(jìn)行了優(yōu)化,使用TextCNN代替原來的嵌入層,捕捉文本深層次的局部特征信息,此外引入的多頭注意力機(jī)制能夠從不同角度捕捉特征之間的交互,增加了模型對特征的理解深度和廣度。

      實(shí)驗(yàn)結(jié)果顯示,在營銷活動A數(shù)據(jù)集下,本文模型的AUC值比表現(xiàn)較好的xDeepFM模型的AUC值高1.61百分點(diǎn)。在營銷活動B數(shù)據(jù)集下,本文模型的AUC 值比表現(xiàn)較好的xDeepFM模型的AUC值高1.15百分點(diǎn)。

      通過觀察表7和表8中的數(shù)據(jù)發(fā)現(xiàn),在處理復(fù)雜數(shù)據(jù)時,AFM+xDeepFM的效果相對一般,而將多頭注意力機(jī)制融入xDeepFM后,其性能優(yōu)于傳統(tǒng)的注意力機(jī)制。相比之下,xDTCMAFM的表現(xiàn)超過了CNN+MAT+xDeepFM。造成這種差異的具體原因如下所述。

      (1)AFM的二階交叉后賦權(quán)的思路并不能很好地提升模型性能,說明數(shù)據(jù)的復(fù)雜性較高。如果模型不具備高階交叉能力,那么模型的預(yù)測性能將難以得到有效提升。

      (2)在模型中引入多頭注意力機(jī)制相較于單頭注意力機(jī)制,能帶來更好的性能,這是因?yàn)槎囝^注意力機(jī)制可以從不同的子空間學(xué)習(xí)信息,其在用戶表示生成時可以更好地考慮用戶行為背后的序列性質(zhì),在進(jìn)行預(yù)測時能夠生成不同的用戶表示,表現(xiàn)出用戶興趣的多樣性。

      (3)與傳統(tǒng)的CNN相比,TextCNN采用了多種尺寸的卷積核,這設(shè)計能夠使其在不同的尺度上有效地捕獲用戶文本數(shù)據(jù)中的局部上下文信息。

      實(shí)驗(yàn)結(jié)果顯示,在營銷活動A數(shù)據(jù)集下本文提出的模型的AUC值比表現(xiàn)較好的CNN+MAT+xDeepFM 的AUC值高0.66百分點(diǎn)。在營銷活動B數(shù)據(jù)集下本文提出的模型的AUC值比表現(xiàn)較好的CNN+MAT+xDeepFM的AUC值高0.72百分點(diǎn)。

      超參數(shù)例如學(xué)習(xí)率、批大小、網(wǎng)絡(luò)層數(shù)、神經(jīng)元數(shù)量等,會直接影響模型的結(jié)構(gòu)和學(xué)習(xí)過程。合適的超參數(shù)設(shè)置可以顯著提高模型的準(zhǔn)確性和泛化能力,當(dāng)學(xué)習(xí)率不同時,模型所表現(xiàn)出的性能也不一樣。

      如圖7和圖8所示,學(xué)習(xí)率較高時,模型在訓(xùn)練初期的表現(xiàn)更佳,但最終性能并不總是隨學(xué)習(xí)率提升而增加的。當(dāng)學(xué)習(xí)率設(shè)置為1E-3時,模型達(dá)到了最高的最終收斂AUC值。

      3 結(jié)論(Conclusion)

      為了增強(qiáng)互聯(lián)網(wǎng)營銷活動中參與預(yù)測的準(zhǔn)確性,本研究提出了一種創(chuàng)新的融合模型xDTCMAFM。該模型主要從兩個主要方向著手改進(jìn):一是增強(qiáng)文本特征提取效率。采用TextCNN代替?zhèn)鹘y(tǒng)的嵌入層,利用不同大小的卷積核,精確提取文本的局部特征。二是強(qiáng)化特征之間的互動。通過多頭注意力機(jī)制處理多維特征交互,以獲得更加豐富的用戶特征表示。實(shí)驗(yàn)結(jié)果證實(shí),這一融合模型在性能上較傳統(tǒng)的深度學(xué)習(xí)模型及其改進(jìn)版本都有所提高,它能夠在元素層和向量層上明確和隱式地進(jìn)行特征交互,同時捕獲局部文本特征和多維用戶特征,從而顯著提升了模型的預(yù)測效果。雖然本模型在特定的營銷活動中表現(xiàn)出較其他模型更優(yōu)的性能,但是其訓(xùn)練參數(shù)的影響及適用性范圍仍需進(jìn)一步探究,模型的潛在改進(jìn)方向也是未來研究的一個重要議題。

      作者簡介:

      邱家杰(1998-),男,碩士生。研究領(lǐng)域:智能計算與智能系統(tǒng)。

      何利力(1966-),男,博士,教授。研究領(lǐng)域:數(shù)據(jù)分析,企業(yè)智能。

      鄭軍紅(1978-),男,博士,講師。研究領(lǐng)域:商務(wù)智能,人工智能。

      猜你喜歡
      深度學(xué)習(xí)
      從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
      面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺構(gòu)建研究
      基于自動智能分類器的圖書館亂架圖書檢測
      搭建深度學(xué)習(xí)的三級階梯
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
      利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
      考試周刊(2016年94期)2016-12-12 12:15:04
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      綦江县| 福建省| 巴南区| 常熟市| 孝感市| 铜陵市| 祁连县| 南木林县| 岚皋县| 临潭县| 襄汾县| 浮山县| 浙江省| 星子县| 乐都县| 泾阳县| 南漳县| 民县| 张北县| 泰宁县| 尉犁县| 平度市| 武川县| 咸阳市| 徐州市| 渭南市| 彰化县| 富宁县| 鄂伦春自治旗| 大悟县| 新巴尔虎右旗| 犍为县| 辽宁省| 沙坪坝区| 崇阳县| 浦江县| 黔江区| 渭源县| 科尔| 星子县| 贵南县|