• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種融合LDA主題模型與LSTM網(wǎng)絡(luò)的個(gè)性化推薦算法

      2019-12-04 01:47:08堯婉辰孫懷遠(yuǎn)謝潤(rùn)忠
      軟件導(dǎo)刊 2019年10期

      堯婉辰 孫懷遠(yuǎn) 謝潤(rùn)忠

      摘要:為改善傳統(tǒng)個(gè)性化推薦算法精準(zhǔn)度不高的問(wèn)題,使用評(píng)論數(shù)據(jù)作為數(shù)據(jù)集,先對(duì)評(píng)論數(shù)據(jù)作文本預(yù)處理和特征提取,然后使用LDA主題模型對(duì)文本特征數(shù)據(jù)建模,得到主題詞分布,將其作為標(biāo)簽,同時(shí)使用LSTM網(wǎng)絡(luò)作文本分類(lèi),通過(guò)計(jì)算得到好評(píng)率。最后把用戶(hù)需求和標(biāo)簽利用潛在語(yǔ)義標(biāo)引計(jì)算相似度,根據(jù)相似度和好評(píng)率大小向用戶(hù)推薦結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法能夠向用戶(hù)推薦符合其興趣的個(gè)性化需求信息,且準(zhǔn)確率高于96%,證明了該推薦算法的有效性。

      關(guān)鍵詞:LDA主題模型;LSTM神經(jīng)網(wǎng)絡(luò);個(gè)性化推薦算法;潛在語(yǔ)義標(biāo)引

      DOI:10.11907/rjdk.182905開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      中圖分類(lèi)號(hào):TP312文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)010-0050-05

      0引言

      隨著電子商務(wù)和Web在線(xiàn)服務(wù)的迅速發(fā)展,信息變得越來(lái)越廣泛,用戶(hù)難以在海量信息中獲取所需信息,推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)在電子商務(wù)(如淘寶網(wǎng)、京東商城、唯品會(huì)、蘇寧易購(gòu)、walmart等)、信息檢索(如360搜索、火狐瀏覽器、IE瀏覽器、百度網(wǎng)、Google等)、新聞推送(如澎湃新聞、騰訊新聞、新浪新聞、今日頭條、BuzzFeed等)等很多領(lǐng)域得到了成功應(yīng)用。傳統(tǒng)的個(gè)性化推薦方法主要包括基于協(xié)同過(guò)濾的推薦(Collaborative Filtering,CF)算法、基于內(nèi)容的推薦(Content-based Recommendation)算法和混合型推薦(Hybrid Recommendation)算法。其中,基于協(xié)同過(guò)濾的推薦因?qū)?zhuān)家知識(shí)依賴(lài)度低以及可以利用群體智慧等特點(diǎn),得到了廣泛深入的研究,但同時(shí)也遭遇到嚴(yán)重的數(shù)據(jù)稀疏(一個(gè)用戶(hù)評(píng)分過(guò)的項(xiàng)目?jī)H僅占總項(xiàng)目數(shù)量的極少部分)和冷啟動(dòng)(新的用戶(hù)和新的項(xiàng)目往往沒(méi)有評(píng)分?jǐn)?shù)據(jù))問(wèn)題。

      近年來(lái),采用LDA主題模型和評(píng)論文本進(jìn)行推薦的研究逐漸增多,但很少將兩者結(jié)合起來(lái)研究。本文提出一種基于LDA主題模型和LSTM網(wǎng)絡(luò)的個(gè)性化推薦算法,該算法使用評(píng)論數(shù)據(jù)作為數(shù)據(jù)集,先對(duì)評(píng)論數(shù)據(jù)做文本預(yù)處理和特征提取,然后使用LDA主題模型對(duì)文本特征數(shù)據(jù)建模,得到主題詞分布,把其作為標(biāo)簽,同時(shí)使用LSTM神經(jīng)網(wǎng)絡(luò)做文本分類(lèi),進(jìn)而計(jì)算得到好評(píng)率。最后把用戶(hù)需求和標(biāo)簽利用潛在語(yǔ)義標(biāo)引(Latent Semantic Indexing,LSI)計(jì)算相似度,根據(jù)相似度和好評(píng)率大小向用戶(hù)推薦結(jié)果。

      1相關(guān)技術(shù)

      1.1LDA模型

      LDA(LatentDirichletallocation)模型即隱含狄利克雷分布,是Blei等提出的一種生成主題概率模型,通常用來(lái)對(duì)大規(guī)模文檔數(shù)據(jù)進(jìn)行建模。它屬于一種非監(jiān)督機(jī)器學(xué)習(xí)方法,能夠識(shí)別大規(guī)模文檔集和語(yǔ)料庫(kù)中潛在隱藏的主題信息。由于不同的單詞可能隱含相同的主題,因此比較兩篇文檔的相似性不能只是單純比較共現(xiàn)單詞的數(shù)目,而要比較兩篇文檔中所隱含的主題之間的相似性。LDA主題模型是一個(gè)三層貝葉斯模型,包含文檔層、單詞層、主題層,如圖1所示。LDA主題模型使用概率分布表示層與層之間的關(guān)系,將文本表示成多個(gè)主題的概率分布,將主題表示為多個(gè)單詞的概率分布。可以這樣認(rèn)為,一篇文章中每個(gè)詞都是通過(guò)“以一定的概率選擇了某個(gè)主題,并從這個(gè)主題中以一定的概率選擇了某個(gè)詞語(yǔ)”這樣一個(gè)過(guò)程得到的。通過(guò)隱含的特征聯(lián)系用戶(hù)感興趣的物品,也可以這樣理解用戶(hù)的評(píng)分矩陣:將用戶(hù)感興趣的物品看成是詞匯,用戶(hù)的評(píng)分看成是詞頻,用戶(hù)對(duì)物品的所有評(píng)分就可轉(zhuǎn)變成一篇偽文檔,這樣就可使用LDA對(duì)物品間接地進(jìn)行模糊聚類(lèi),從用戶(hù)的評(píng)分矩陣中發(fā)現(xiàn)潛在的主題,通過(guò)潛在的主題對(duì)用戶(hù)和用戶(hù)感興趣的物品進(jìn)行連接。

      1.2Gibbs抽樣

      LDA模型中隱含變量聯(lián)合分布很復(fù)雜,直接對(duì)隱含變量概率分布進(jìn)行計(jì)算是不可能的。常用估計(jì)方法有變分貝葉斯推理、期望傳播算法、Gibbs抽樣。Gibbs抽樣是MCMC算法的一種簡(jiǎn)單實(shí)現(xiàn)形式,由于其在困惑度和運(yùn)行速度等方面均優(yōu)于變分貝葉斯推理和期望傳播算法,且易于理解和實(shí)現(xiàn),因此本文采用Gibbs抽樣算法對(duì)LDA模型進(jìn)行主題抽取,其采樣步驟如下:

      (1)在[1,T]中隨機(jī)取一個(gè)整值給主題z,i=1,2,…,N,N是文檔集所有出現(xiàn)在文本中的特定詞個(gè)數(shù),即馬爾可夫鏈初始狀態(tài)。

      (2)循環(huán)采樣,迭代到足夠多的次數(shù)直至馬爾可夫鏈接近目標(biāo)分布,并記錄當(dāng)前Zi值,對(duì)每個(gè)zi按下式估算φ和θ值。

      1.3循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)結(jié)構(gòu)

      循環(huán)神經(jīng)網(wǎng)絡(luò)最早由Goller等提出,是一種時(shí)間遞歸網(wǎng)絡(luò),可以看作是同一個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在時(shí)間軸上循環(huán)多次得到的結(jié)果。與其它深層神經(jīng)網(wǎng)絡(luò)相比,RNN的結(jié)構(gòu)特點(diǎn)決定了它更擅長(zhǎng)處理序列數(shù)據(jù)。

      RNN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中,A為RNN隱藏層處理單元,xt為當(dāng)前時(shí)刻的輸入值,ht為當(dāng)前時(shí)刻隱藏層的輸出值。從圖中可以看出,ht是由當(dāng)前輸入值xt和上一時(shí)刻輸出值ht-1、共同決定的,而ht又會(huì)影響下一時(shí)刻的輸出,即每個(gè)輸出值不僅與當(dāng)前的輸入值有關(guān),還與之前時(shí)刻的輸出值有關(guān)。

      理論上RNN可以處理任意長(zhǎng)度的時(shí)間序列數(shù)據(jù),但發(fā)現(xiàn)RNN在訓(xùn)練過(guò)程中會(huì)產(chǎn)生梯度消失和梯度爆炸問(wèn)題。Pascanu等通過(guò)詳細(xì)的數(shù)學(xué)推導(dǎo)解釋了這一現(xiàn)象產(chǎn)生的原因,即傳統(tǒng)的RNN模型在訓(xùn)練時(shí)傾向于按照序列結(jié)尾處的正確權(quán)值方向進(jìn)行更新。由于隔得越遠(yuǎn)的輸入序列對(duì)權(quán)值正確變化的影響越小,所以網(wǎng)絡(luò)輸入偏向于新信息的輸入而不具備長(zhǎng)期記憶功能。

      1.4LSTM網(wǎng)絡(luò)結(jié)構(gòu)

      LS7ME解決了RNN訓(xùn)練神經(jīng)網(wǎng)絡(luò)過(guò)程中梯度消失和梯度爆炸問(wèn)題,能夠保留更久以前的信息。LSTM的網(wǎng)絡(luò)結(jié)構(gòu)與RNN大體接近,但是隱藏層的結(jié)構(gòu)更為復(fù)雜,如圖3所示。

      圖3中,t時(shí)刻的輸入信息包括當(dāng)前的輸入值xt以及上一時(shí)刻的輸出值ht-1。LSTM處理單元主要由輸入門(mén)(用it表示)、遺忘門(mén)(用ft表示)、輸出門(mén)(用ot表示)組成。

      以上公式詳細(xì)地推導(dǎo)了輸入信息在LSTM隱藏層的處理過(guò)程。LSTM通過(guò)輸入門(mén)、遺忘門(mén)和輸出門(mén)調(diào)控信息流向以及篩選信息,從而解決了信息的長(zhǎng)時(shí)記憶問(wèn)題。LSTM的輸入是句子的單詞序列,模型對(duì)單詞序列進(jìn)行掃描,詞向量序列由嵌入層到達(dá)lstm網(wǎng)絡(luò)層,再經(jīng)過(guò)全連接層映射到標(biāo)簽,得到整個(gè)句子的表達(dá),進(jìn)而實(shí)現(xiàn)文本分類(lèi),最終得到好評(píng)率。

      2推薦算法模型

      以藥品推薦為例說(shuō)明新模型。

      2.1藥品評(píng)價(jià)文本預(yù)處理

      預(yù)處理步驟如下:①初步處理數(shù)據(jù)。將藥品評(píng)價(jià)數(shù)據(jù)集中的非評(píng)論數(shù)據(jù)去掉,減少這些數(shù)據(jù)對(duì)最后結(jié)果的影響;②自定義專(zhuān)用詞典,對(duì)評(píng)論數(shù)據(jù)文檔進(jìn)行精準(zhǔn)分詞;③刪除停用詞表(包括連詞、副詞等與主題關(guān)系不大的高頻詞)中的詞,進(jìn)行降維;④進(jìn)行詞性標(biāo)注;⑤得到文本特征結(jié)果。

      2.2藥品好評(píng)率計(jì)算

      在數(shù)據(jù)預(yù)處理已提取文本特征的基礎(chǔ)上進(jìn)行文本分類(lèi)器構(gòu)建。先把評(píng)價(jià)文檔按照評(píng)價(jià)正負(fù)面感情色彩分成好和差兩類(lèi),然后按照80%與20%的比例隨機(jī)分成訓(xùn)練集和測(cè)試集,使用訓(xùn)練集訓(xùn)練LSTM分類(lèi)器,最后使用測(cè)試集計(jì)算每種藥品的好評(píng)率。

      好評(píng)率按照“好評(píng)率:測(cè)試集好評(píng)文檔數(shù)量/測(cè)試集文檔總數(shù)量”進(jìn)行計(jì)算。

      文本分類(lèi)使用LSTM網(wǎng)絡(luò),大量實(shí)驗(yàn)證明通過(guò)構(gòu)造LSTM網(wǎng)絡(luò)結(jié)構(gòu)分析文本獲得了相當(dāng)高的準(zhǔn)確率,遠(yuǎn)遠(yuǎn)優(yōu)于邏輯回歸、樸素貝葉斯、SVM等機(jī)器學(xué)習(xí)算法在文本分類(lèi)中的應(yīng)用。

      2.3相似度計(jì)算

      對(duì)用戶(hù)需求描述語(yǔ)言作分詞、去停用詞標(biāo)準(zhǔn)預(yù)處理,然后和LDA模型得到的藥品評(píng)價(jià)標(biāo)簽作相似度計(jì)算,按照相似度大小給出藥品排序。若相似度相同,按照好評(píng)率大小排序,把排在第一位的藥品推薦給用戶(hù)。

      相似度計(jì)算采用余弦相似度公式,在計(jì)算之前先使用潛在語(yǔ)義標(biāo)引模型對(duì)標(biāo)簽數(shù)據(jù)和用戶(hù)需求描述文字作奇異值分解(SVD),得到潛在語(yǔ)義空間向量,然后使用余弦相似度公式計(jì)算,以此提高相似度計(jì)算的精確度。

      2.4推薦算法

      推薦算法步驟如下:①構(gòu)建藥品數(shù)據(jù)集。收集藥品評(píng)價(jià)數(shù)據(jù)作簡(jiǎn)單處理,剔除表情符號(hào)等無(wú)用信息,構(gòu)造藥品集合;②評(píng)論數(shù)據(jù)處理,提取文本特征。對(duì)評(píng)論數(shù)據(jù)作精確分詞、去停用詞、詞性標(biāo)注、詞性過(guò)濾等處理,獲取評(píng)論數(shù)據(jù)的關(guān)鍵信息,提取文本特征;③LDA建模,生成藥品標(biāo)簽:使用LDA模型對(duì)處理好的藥品評(píng)論數(shù)據(jù)建模,得到權(quán)重較高的前N個(gè)詞,生成藥品標(biāo)簽;④LSTM網(wǎng)絡(luò)評(píng)論文本分類(lèi),計(jì)算得到好評(píng)率;⑤相似度計(jì)算,結(jié)果推薦:根據(jù)用戶(hù)需求標(biāo)簽計(jì)算其與藥品標(biāo)簽的相似度,依照相似度大小排序,如果相似度值大小相等則依照好評(píng)率大小排序,把前N種藥品作為結(jié)果推薦給用戶(hù)。

      推薦算法結(jié)構(gòu)如圖4所示。

      3實(shí)驗(yàn)結(jié)果與分析

      3.1實(shí)驗(yàn)平臺(tái)與工具

      中文分詞工具是開(kāi)源分詞工具NLTK,自定義詞典內(nèi)容指搜集的疾病癥狀和藥品名稱(chēng)。本實(shí)驗(yàn)總共收集了4種藥品共計(jì)10010條數(shù)據(jù)。實(shí)驗(yàn)平臺(tái)與工具如表2所示。

      3.2LDA模型實(shí)驗(yàn)結(jié)果

      按照推薦算法步驟①和步驟②完成對(duì)藥品評(píng)論文檔數(shù)據(jù)的預(yù)處理和特征提取,然后使用BOW詞袋模型得到文檔的稀疏向量,應(yīng)用LDA建模。模型迭代次數(shù)設(shè)置為1000次,以包含“六味地黃丸”、“川貝枇杷膏”評(píng)論數(shù)據(jù)為例,使用LDA模型挖掘出來(lái)的主題詞及頻率分布數(shù)據(jù)如表3所示。

      如果每種藥品都得到表3形式的數(shù)據(jù),則把這個(gè)數(shù)據(jù)作為每種藥品的特征標(biāo)簽,用藥品的特征標(biāo)簽和用戶(hù)需求做比較,就可找到符合要求的藥品。從實(shí)驗(yàn)結(jié)果看,挖掘出的主題詞充分反映了藥品內(nèi)容的各個(gè)方面。

      3.3推薦實(shí)驗(yàn)

      使用推薦算法步驟②得到文本特征數(shù)據(jù),對(duì)其進(jìn)行LSTM網(wǎng)絡(luò)分類(lèi),分類(lèi)結(jié)果如表4所示。按照步驟⑤得到推薦結(jié)果。現(xiàn)有的公開(kāi)藥品評(píng)論數(shù)據(jù)集都是針對(duì)情感分析計(jì)算建立的,為了驗(yàn)證本文算法推薦結(jié)果的準(zhǔn)確性,采取兩種方式模擬用戶(hù)需求:①?gòu)挠脩?hù)的角度設(shè)置用戶(hù)需求,驗(yàn)證推薦結(jié)果是否符合要求;②從藥品評(píng)論網(wǎng)站隨機(jī)抓取用戶(hù)評(píng)論將其設(shè)為用戶(hù)需求作為正確的推薦結(jié)果,根據(jù)推薦結(jié)果判斷準(zhǔn)確性。

      采取第①種方式進(jìn)行用戶(hù)需求和藥品標(biāo)簽相似度實(shí)驗(yàn)時(shí),設(shè)置4條用戶(hù)需求,分別是:①“昨晚吃燒烤,口腔潰瘍了”;②“今天打籃球,手指頂?shù)角蛄?,腫起來(lái)了,得涂一些跌打損傷的藥”;③“這段時(shí)間正好準(zhǔn)備戒酒,腎虛吃點(diǎn)補(bǔ)補(bǔ)身體”;④“應(yīng)該是受涼感冒了,總是咳嗽”。

      實(shí)驗(yàn)結(jié)果如表5所示。從表5的實(shí)驗(yàn)數(shù)據(jù)可以看到,對(duì)于需求1,客戶(hù)需要有關(guān)治療口腔潰瘍的藥品,而藥品1是滋陰補(bǔ)腎藥,藥品2是治療咳嗽藥,藥品3是治療跌打損傷藥,藥品4才是治療口腔潰瘍藥,所以相似度最大的是藥品4;同理,對(duì)于需求2、需求3、需求4的相似度得到如表5中的結(jié)果。若向用戶(hù)推薦1種藥品,則根據(jù)實(shí)驗(yàn)結(jié)果和算法步驟5的推薦規(guī)則,4條需求的推薦結(jié)果分別是藥品4,藥品3,藥品1和藥品2。

      第2種方式實(shí)驗(yàn):從中國(guó)藥品評(píng)價(jià)網(wǎng)站對(duì)每種藥品各抓取500條數(shù)據(jù)進(jìn)行推薦,結(jié)果如表6所示。

      從上述兩種方式的實(shí)驗(yàn)結(jié)果可知,本文推薦算法不僅能推薦符合用戶(hù)個(gè)性化需求的結(jié)果,而且推薦結(jié)果準(zhǔn)確率都高于96%,平均準(zhǔn)確率達(dá)到了97.15%。

      4結(jié)語(yǔ)

      基于LDA主題模型和LSTM網(wǎng)絡(luò)的個(gè)性化推薦算法,使客戶(hù)情感傾向性得以最大化體現(xiàn),滿(mǎn)足客戶(hù)個(gè)性化需求,充分驗(yàn)證了該算法的有效性。盡管本文算法在藥品推薦中取得了良好效果,但如何提高其泛化性能還需深入研究。

      怀柔区| 珲春市| 苏尼特左旗| 义乌市| 碌曲县| 宁化县| 贺兰县| 涡阳县| 镇巴县| 石门县| 京山县| 新津县| 咸丰县| 宝应县| 抚远县| 吴川市| 永州市| 莆田市| 桃源县| 洛宁县| 庆云县| 北碚区| 会泽县| 五指山市| 府谷县| 通州区| 蓝田县| 葵青区| 四子王旗| 乌拉特后旗| 吉木萨尔县| 武陟县| 通河县| 花垣县| 宜兴市| 鸡泽县| 安多县| 鲁山县| 襄垣县| 双柏县| 灯塔市|