• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)技術(shù)的詞語相關(guān)性計(jì)算在電商廣告關(guān)鍵詞選詞中的應(yīng)用

      2021-05-25 10:24:36張函
      科學(xué)技術(shù)創(chuàng)新 2021年11期
      關(guān)鍵詞:選詞分詞詞語

      張函

      (金華職業(yè)技術(shù)學(xué)院,浙江 金華321000)

      在電商網(wǎng)店的運(yùn)營過程中,搜索營銷幾乎是電商企業(yè)所必須投入的營銷方式,特別是在當(dāng)今競(jìng)爭(zhēng)日益激烈的主流電子商務(wù)平臺(tái)上開設(shè)店鋪,商家為搜索營銷投入的成本約占到企業(yè)總體營銷成本的30%以上。我們以淘寶直通車為例,簡(jiǎn)要介紹一下電商搜索營銷的業(yè)務(wù)模式和流程。淘寶的直通車功能本質(zhì)上是對(duì)競(jìng)價(jià)搜索模式的一種創(chuàng)新。效果示以圖文結(jié)合的方式為主,本質(zhì)上是嚴(yán)格基于點(diǎn)擊收費(fèi)(CPC)模式。用戶利用某關(guān)鍵詞進(jìn)行檢索時(shí),搜索結(jié)果頁面出現(xiàn)該關(guān)鍵詞相關(guān)的廣告內(nèi)容。

      關(guān)鍵詞選擇作為競(jìng)價(jià)排名廣告的核心要素,被認(rèn)為是廣告投放者(電商賣家)提高績(jī)效需要考慮的重中之重。關(guān)鍵詞的選擇會(huì)極大地影響競(jìng)價(jià)排名廣告的效果,不僅是因?yàn)殛P(guān)鍵詞與用戶的搜索詞之間的相關(guān)性決定了位置的高低,更是因?yàn)殛P(guān)鍵詞本身就是對(duì)用戶群的一個(gè)劃分。

      近年來,隨著大數(shù)據(jù)、人工智能的發(fā)展,通過智能化的算法策略代替或輔助人工進(jìn)行關(guān)鍵詞選取,成為一種非常常見的選詞方式。

      1 智能化選詞流程概述

      智能化選詞是整個(gè)廣告推廣平臺(tái)中的一部分。在廣告推廣平臺(tái)的運(yùn)行流程中,商家選擇商品,然后后提交給平臺(tái),并設(shè)置好推廣需求。平臺(tái)替自動(dòng)分析商品詳情,并根據(jù)商家設(shè)置的需求為商品智能化地選定推廣關(guān)鍵詞。然后,平臺(tái)可根據(jù)已制定的競(jìng)價(jià)模型,為推廣關(guān)鍵詞設(shè)置價(jià)格,并提交給電商平臺(tái)后臺(tái)(如淘寶后臺(tái)接口),以進(jìn)行正式的投放推 廣。以上過程可以用圖1 概括:

      圖1

      在這個(gè)過程中,智能化選詞是相當(dāng)關(guān)鍵的一個(gè)環(huán)節(jié),選詞質(zhì)量的好壞直接決定了推廣的效果。因此,我們需要關(guān)注智能化選詞的具體過程。

      基于對(duì)某知名電商企業(yè)服務(wù)平臺(tái)中智能化選詞平臺(tái)中選詞流程的抽象和概括,智能化選詞的基本流程如圖2 所示。

      圖2

      從圖中可以看出,在詞庫中關(guān)鍵詞的質(zhì)量保持一定的情況下,關(guān)鍵詞和店鋪信息(包括標(biāo)題、詳情)的相關(guān)性對(duì)選詞的質(zhì)量至關(guān)重要。而如何智能化地計(jì)算關(guān)鍵詞調(diào)整和店鋪信息之間的相關(guān)性,進(jìn)而取得更好的選詞效果,是本文重點(diǎn)討論的課題。

      2 詞語相關(guān)性計(jì)算的基本方法概述

      2.1 詞語相關(guān)性概述

      在電商廣告推廣平臺(tái)智能選詞的業(yè)務(wù)場(chǎng)景里,詞語的相關(guān)性是指一個(gè)商品所使用的關(guān)鍵詞與商品的實(shí)際信息和屬性的相關(guān)程度。換言之,詞語相關(guān)性的高低,就表征了關(guān)鍵詞的含義是否是商品所具有的屬性,或者關(guān)鍵詞是否能夠體現(xiàn)出商品某些方面的特征。

      在多數(shù)電商平臺(tái)中,關(guān)鍵詞的相關(guān)性采用類目相關(guān)性和語義相關(guān)性二者的加權(quán)。其中,語義相關(guān)性比較容易理解,指的是這個(gè)關(guān)鍵詞與商品描述信息的相符程度。之所以需要加入類目相關(guān)性,是因?yàn)楝F(xiàn)在很多詞語的意義發(fā)生了很大的變化,同一個(gè)詞代表了完全不同類目的事物。例如,在“水果”類目中的“蘋果”和在“數(shù)碼產(chǎn)品”類目中的“蘋果”顯然是指不同的商品。本文重點(diǎn)討論的是語義相關(guān)性的計(jì)算。

      在很多智能選詞平臺(tái)的實(shí)現(xiàn)中,采用分詞后計(jì)算重合詞數(shù)量的方式來計(jì)算詞語相關(guān)性是一種普遍的方法。而采取這種方案的前提是需要對(duì)商品的信息(例如標(biāo)題,詳情等)的文本,以及對(duì)候選詞庫中的關(guān)鍵詞進(jìn)行高質(zhì)量的中文分詞。

      2.2 中文分詞方法簡(jiǎn)介

      分詞就是將連續(xù)的字序列按照一定的規(guī)范重新切分并組合成詞序列的過程。在英文的行文中,單詞之間是以空格作為自然分界符的。而中文只是字、句和段能通過明顯的分界符來簡(jiǎn)單劃界,唯獨(dú)詞沒有一個(gè)形式上的分界符。

      不同的中文分詞方法根據(jù)其實(shí)現(xiàn)原理和特點(diǎn),主要分為基于詞典的分詞算法和統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法兩大類。常見的分詞器都是使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法和詞典相結(jié)合,一方面能夠提高分詞準(zhǔn)確率,另一方面能夠改善領(lǐng)域適應(yīng)性。

      2.3 基于重合詞數(shù)量的相關(guān)性計(jì)算

      在中文分詞的基礎(chǔ)上,我們可以通過包含相同的詞的個(gè)數(shù)來計(jì)算商品信息和候選關(guān)鍵詞的語義相關(guān)度。雖然這種方法有明顯的局限性,但在很多場(chǎng)合,仍然不失為一種簡(jiǎn)單和快捷的方法。具體的算法如圖3 所示。

      圖3

      上述流程有兩個(gè)輸入,其一是商品信息,即電商平臺(tái)上某個(gè)店鋪中的某個(gè)商品的標(biāo)題、詳情信息以及其它商品屬性。一般情況下,由于商品標(biāo)題本身已經(jīng)能夠代表商品最關(guān)鍵的信息,我們?cè)谶M(jìn)行相關(guān)性計(jì)算時(shí),可以只將商品標(biāo)題作為輸入。例如:“派度瑜伽磚練功舞蹈瑜珈磚器材”、“日本叮叮蚊蟲子叮咬止癢藥膏驅(qū)蚊膏”。另外一個(gè)輸入是待匹配的候選關(guān)鍵詞列表。智能化選詞平臺(tái)往往會(huì)事先獲取和收集海量的商品關(guān)鍵詞作為詞庫。而這里的待匹配關(guān)鍵詞往往就來自于詞庫。當(dāng)然,對(duì)于每一個(gè)具體的商品,不太可能用全量的詞庫作為待匹配的關(guān)鍵詞列表,而是用商品對(duì)應(yīng)的類目下的關(guān)鍵詞作為待匹配列表。一方面,在全量關(guān)鍵詞庫中逐一計(jì)算和匹配比較耗時(shí);另一方面,不是一個(gè)類目的關(guān)鍵詞的含義和商品也往往不相關(guān),即便是兩者有著相同的詞語構(gòu)成。

      通過上述流程,系統(tǒng)能夠迅速找到包含相同詞語的候選關(guān)鍵詞,在此基礎(chǔ)上,如果可以根據(jù)按上述方法計(jì)算出的相關(guān)性進(jìn)行排序,則排名靠前的候選關(guān)鍵詞,可以作為智能化選詞的結(jié)果來輸出。

      然而,由于自然語言的復(fù)雜和多義性,僅僅根據(jù)包含相同詞語多數(shù)來計(jì)算相似度的方法存在著局限。詞語的先后順序沒有反映到計(jì)算中來,習(xí)慣用語和同義詞也無法作為完全相同的詞進(jìn)行匹配,這就給計(jì)算帶來一定的偏差。

      3 基于深度學(xué)習(xí)的詞語相關(guān)性計(jì)算方法概述

      近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的文本相關(guān)性計(jì)算方法也不斷涌現(xiàn)。談到這類方法,就不得不提到文本向量化(word embedding)這個(gè)概念。文本向量化是指將文本表示成一系列能夠表達(dá)文本語義的向量,進(jìn)而可以通過這些向量化之后的表示來進(jìn)行分類、聚類等機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)任務(wù),當(dāng)然也包括通過計(jì)算向量相似度的方式來計(jì)算文本的相關(guān)度。目前對(duì)文本向量化大部分的研究都是通過詞向量化實(shí)現(xiàn)的,比如有word2vec 算法,也有一部分研究者將句子作為文本處理的基本單元,這就衍生出doc2vec 算法等。

      3.1 Word2vec 概述

      詞袋(bag of word)模型是最早的以詞語為基本單元的文本向量化算法。在詞袋模型中產(chǎn)生的向量,與文本中單詞的出現(xiàn)順序無關(guān),而是與詞典中每個(gè)單詞在文本中出現(xiàn)的頻率相關(guān)。這個(gè)方法雖然簡(jiǎn)單易行,但是存在著維度災(zāi)難(以語言中的總詞語量為維度數(shù)量,也造成了向量表示十分稀疏的問題);同時(shí),該模型無法保留詞語順序的信息,也無法表示因上下文順序而帶來的語義信息。

      隨著自然語言理解技術(shù)和深度學(xué)習(xí)技術(shù)的發(fā)展,大量研究轉(zhuǎn)移到利用無標(biāo)注數(shù)據(jù)挖掘有價(jià)值的信息的方向上來。Word2vec 技術(shù)就利用了深度神經(jīng)網(wǎng)絡(luò)技術(shù),從大量無標(biāo)注的文本語料中提取出有用的信息,從而更好地完成了文本向量化的過程。Word2vec 依賴skip-grams 或連續(xù)詞袋(CBOW)來進(jìn)行文本向量化,前者是在通過某個(gè)詞預(yù)測(cè)這個(gè)詞的上下文詞語來訓(xùn)練模型,后者則是通過上下文來預(yù)測(cè)某個(gè)詞來訓(xùn)練模型。進(jìn)過word2vec 處理之后的詞向量,已經(jīng)可以通過作用于向量的加減運(yùn)算,達(dá)到對(duì)于詞語含義“理解”的效果。比如,可以達(dá)到“巴黎”-“法國”+“英國”=“倫敦”這樣的效果。這里“巴黎”指通過word2vec 訓(xùn)練得到的“巴黎”對(duì)應(yīng)的詞向量。顯然,這樣的詞向量表示,非常方便對(duì)詞語相關(guān)度的計(jì)算,并且這里的相關(guān)度包含了一定程度的語義信息。

      3.2 從word2vec 到doc2vec

      然而,在通過word2vec 將文本中的詞向量化之后,我們可能需要利用所有詞向量的平均值作為分類算法的輸入值,從而對(duì)整個(gè)文本文檔進(jìn)行分類處理,以應(yīng)對(duì)文本類的分類任務(wù)。即上述的word2vec 只是基于詞的維度進(jìn)行“語義分析”的,而并不具有上下文的“語義分析”能力。作為一個(gè)處理可變長(zhǎng)度文本的總結(jié)性方法,Quoc Le 和Tomas Mikolov 提出了Doc2Vec 方法。除了增加一個(gè)段落向量以外,這個(gè)方法幾乎等同于Word2Vec。Doc2vec 方法也被廣泛應(yīng)用于文本分類、相似度計(jì)算等場(chǎng)景中。

      本文嘗試通過doc2vec 方法,對(duì)于電商廣告智能選詞的方法進(jìn)行優(yōu)化,以提升選詞的質(zhì)量和相關(guān)度。

      4 基于doc2vec 的電商廣告關(guān)鍵詞選詞實(shí)驗(yàn)

      為了驗(yàn)證doc2vec 方法在智能選詞中相關(guān)度計(jì)算環(huán)節(jié)的效果,并在此基礎(chǔ)上優(yōu)化傳統(tǒng)的基于共同詞語數(shù)量的相關(guān)度計(jì)算方法,設(shè)計(jì)和進(jìn)行實(shí)驗(yàn)如下文所示。

      4.1 實(shí)驗(yàn)流程及架構(gòu)設(shè)計(jì)如圖4。

      圖4

      4.2 實(shí)驗(yàn)數(shù)據(jù)及模型準(zhǔn)備

      上述實(shí)驗(yàn)中,所涉及到的數(shù)據(jù)來源如下:

      4.2.1 商品標(biāo)題列表

      通過抓取某網(wǎng)站上維護(hù)的某電商平臺(tái)上10 多個(gè)類目的數(shù)千個(gè)促銷商品列表,將其URL 及商品標(biāo)題進(jìn)行保存,用于構(gòu)成本次實(shí)驗(yàn)的商品信息庫。

      4.2.2 候選關(guān)鍵詞列表

      我們通過定期抓取淘寶公開的PC/無線熱詞和候選熱詞,構(gòu)成候選關(guān)鍵詞列表。

      4.2.3 Doc2vec 模型訓(xùn)練

      為了訓(xùn)練doc2vec 模型,我們需要實(shí)現(xiàn)準(zhǔn)備和電商關(guān)鍵詞相對(duì)接近的海量預(yù)料來進(jìn)行模型訓(xùn)練。通過和上述商品類目相關(guān)的關(guān)鍵詞作為搜索詞,在某中文分類語料網(wǎng)站上進(jìn)行檢索,并將每個(gè)類目關(guān)鍵詞相關(guān)的前10000 條語料抓取和收錄。將這些語料整合成語料庫,作為doc2vec 的訓(xùn)練語料進(jìn)行分詞并進(jìn)行模型訓(xùn)練。在本實(shí)驗(yàn)中,我們使用了jieba 中文分詞庫進(jìn)行分詞,使用了gensim 自然語言處理庫來進(jìn)行doc2vec 模型訓(xùn)練。關(guān)鍵代碼如下:

      4.3 實(shí)驗(yàn)關(guān)鍵策略及步驟

      4.3.1 在上面的實(shí)驗(yàn)流程中,為了區(qū)別兩種文本相關(guān)度計(jì)算的方法,將上述基于相同詞語個(gè)數(shù)量計(jì)算的相關(guān)度稱為“相關(guān)度A”,將基于深度學(xué)習(xí)doc2vec 所計(jì)算的相關(guān)度稱之為“相關(guān)度B”。

      4.3.2 我們將實(shí)現(xiàn)抓取到的電商網(wǎng)站上的商品網(wǎng)頁上的商品標(biāo)題作為輸入,對(duì)這些標(biāo)題的商品進(jìn)行智能選詞。我們也實(shí)現(xiàn)準(zhǔn)備好了候選詞庫。為了簡(jiǎn)化起見,我們并沒有根據(jù)類目信息來匹配篩選候選關(guān)鍵詞,而是直接在全量關(guān)鍵詞庫中進(jìn)行匹配,在實(shí)驗(yàn)中的數(shù)據(jù)規(guī)模下相對(duì)也不影響實(shí)驗(yàn)效果。

      4.3.3 對(duì)于每一個(gè)候選關(guān)鍵詞,我們都先嘗試通過計(jì)算相同詞語數(shù)量的方法來計(jì)算相關(guān)度,我們稱之為相關(guān)度A。我們對(duì)于所有候選關(guān)鍵詞都計(jì)算相關(guān)度A,然后將相關(guān)度排名在前N 位(在實(shí)驗(yàn)中,N 可以取5 或10 等數(shù)值)。的關(guān)鍵詞作為候選關(guān)鍵詞。這樣可以篩選掉其它完全不相關(guān)的候選詞。同時(shí),在候選關(guān)鍵詞中,我們可以通過doc2vec 算法,對(duì)于這些候選關(guān)鍵詞本身,以及候選關(guān)鍵詞分詞重組之后生成的新關(guān)鍵詞,計(jì)算相關(guān)度B。最后,我們將相關(guān)度A 排名前N 位的候選關(guān)鍵詞A,以及對(duì)于候選關(guān)鍵詞本身及分詞重組候選關(guān)鍵詞所分別計(jì)算的相關(guān)度B(仍然是只有前N 位),都作為結(jié)果進(jìn)行保存和輸出,用于進(jìn)行相關(guān)試的比較。

      4.4 實(shí)驗(yàn)結(jié)果展示

      實(shí)驗(yàn)結(jié)果中的數(shù)據(jù)節(jié)選展示如表1-3。

      表1

      表2

      表3

      5 結(jié)論

      5.1 實(shí)驗(yàn)結(jié)論

      5.1.1 從實(shí)驗(yàn)結(jié)果可以看出,基于相關(guān)度A,即根據(jù)包含相同詞語多少來計(jì)算的相似度,可作為候選集的初步篩選方案,過濾掉明顯不相關(guān)的諸多關(guān)鍵詞。

      5.1.2 同為基于doc2vec 的相關(guān)度計(jì)算方案,基于候選關(guān)鍵詞重組的計(jì)算方案明顯由于基于原始候選關(guān)鍵詞的候選方案。分析其原因,因?yàn)榛赿oc2vec 的模型考慮到了同義詞、上下文等高級(jí)特征,而重組之后的關(guān)鍵詞在doc2vec 模型中體現(xiàn)出了符合語義的相關(guān)性。

      5.1.3 綜上,可以看出,基于doc2vec 的相關(guān)度計(jì)算方案,適合作為基于相同詞語的相關(guān)度計(jì)算方案的優(yōu)化方案,以提升關(guān)鍵詞選詞的相關(guān)度。

      5.2 后續(xù)工作

      5.2.1 本文設(shè)計(jì)和進(jìn)行了基于深度學(xué)習(xí)中的doc2vec 方法的候選詞相關(guān)度計(jì)算實(shí)驗(yàn),驗(yàn)證了基于doc2vec 方法對(duì)于提升關(guān)鍵詞選詞相關(guān)試的效果。但從實(shí)驗(yàn)結(jié)果可以看出,在整個(gè)的智能選詞流程中,仍然有很多可改善及優(yōu)化的空間。

      5.2.2 首先,在進(jìn)行商品信息輸入時(shí),僅僅引入了商品標(biāo)題信息,雖然可以表征商品最關(guān)鍵的信息,但如果將商品詳情、靜態(tài)屬性、商品銷售信息,可以獲得更好的實(shí)驗(yàn)效果。

      5.2.3 其次,在進(jìn)行候選關(guān)鍵字匹配時(shí),也可以引入類目信息,這樣可以提升全局匹配的效率,過濾掉更多不在同一類目的關(guān)鍵詞。

      5.2.4 最后,在線抓取的語料來自互聯(lián)網(wǎng)新聞和社交媒體。但從實(shí)際情況來看,這些語料的文本特征和電商平臺(tái)上的網(wǎng)店標(biāo)題以及商品信息的文本特征還是有不小的差異,這也造成了訓(xùn)練出的模型在計(jì)算商品信息相關(guān)度時(shí)存在些許的不適應(yīng)。特別是由于電商平臺(tái)(如淘寶)檢索系統(tǒng)發(fā)展歷程中的歷史原因,網(wǎng)店中的商品標(biāo)題往往多用單字和非自然語言的語序來描述商品,如“閃亮洗眼液清潔眼部護(hù)理液清洗眼睛”、“兒童拖鞋夏季可愛卡通防滑軟底”等,這些標(biāo)題的文本語言特征確實(shí)與自然語言句子不盡相同。后續(xù)可以考慮抓取海量網(wǎng)店的文本信息進(jìn)行模型訓(xùn)練,以期取得更好的商品信息相關(guān)度計(jì)算效果。

      猜你喜歡
      選詞分詞詞語
      容易混淆的詞語
      選詞寫故事
      找詞語
      結(jié)巴分詞在詞云中的應(yīng)用
      選詞填空好方法
      讀一讀,選詞填空
      詞語欣賞
      值得重視的分詞的特殊用法
      選詞填空
      一枚詞語一門靜
      阿图什市| 大港区| 洛隆县| 阿克苏市| 长沙市| 襄樊市| 乐亭县| 孟州市| 华阴市| 建湖县| 泗洪县| 文山县| 阜宁县| 静海县| 鱼台县| 白河县| 蛟河市| 汤阴县| 南澳县| 贵港市| 崇左市| 庄浪县| 工布江达县| 视频| 静乐县| 龙山县| 隆昌县| 达州市| 秦安县| 两当县| 白银市| 南皮县| 连山| 绿春县| 永顺县| 石屏县| 东丽区| 广平县| 米泉市| 北流市| 上林县|