• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx

      面向數(shù)字資源的自動標(biāo)簽?zāi)P?/h1>
      2020-08-26 14:56:25雷智文黃玲

      雷智文 黃玲

      摘?要:針對數(shù)字資源標(biāo)簽數(shù)量不足,獲取困難的問題,提出了一種新的自動標(biāo)簽方法,對于收集的公共文化資源數(shù)據(jù)集和其它公開數(shù)據(jù)集,能夠有效的進(jìn)行標(biāo)簽擴(kuò)展。提出過程依據(jù)神經(jīng)網(wǎng)絡(luò)理論和生成學(xué)習(xí)理論,采用隱含狄利克雷分布(latent?dirichlet?allocation,?LDA)和Word2Vec方法分別對資源和初始標(biāo)簽進(jìn)行處理,生成資源和初始標(biāo)簽的表示向量,然后以此兩種向量作為深度結(jié)構(gòu)語義模型的輸入,建立面向數(shù)字資源的自動標(biāo)簽?zāi)P?。從結(jié)果來看,該方法的標(biāo)簽擴(kuò)展效果在精確度、平均排序倒數(shù)、平均準(zhǔn)確率等指標(biāo)上表現(xiàn)上總體優(yōu)于文中提到的其它對比方法,能夠解決某些情況下資源標(biāo)簽不足的問題,提高資源的利用率。

      關(guān)鍵詞:標(biāo)簽擴(kuò)展;隱含狄利克雷分布;Word2Vec

      DOI:10.15938/j.jhust.2020.03.022

      中圖分類號:?TP181

      文獻(xiàn)標(biāo)志碼:?A

      文章編號:?1007-2683(2020)03-0144-07

      Abstract:In?this?paper,?we?proposed?a?novel?automatic?tagging?system?which?aimed?at?the?lack?of?tags?about?digital?resources?and?the?difficulty?of?extending?tags.?This?tagging?system?can?effectively?extend?tags?for?public?cultural?resources?we?collected?and?other?public?data?sets.?The?algorithm?of?tagging?system?based?on?neural?network?and?generative?learning.?We?use?Latent?Dirichlet?Allocation?(LDA)?and?Word2Vec?to?process?resources?and?initial?tags,?generating?the?representation?vectors?of?resources?and?initial?tags,?then?use?these?two?kinds?of?vector?to?build?this?automatic?tagging?system?focused?on?digital?resources.?From?the?results,?the?Precision,?MRR,?MAP?and?other?indexes?of?this?method?is?better?than?other?comparison?tagging?methods?mentioned?in?this?paper,?and?it?can?solve?the?lack?of?tags?in?some?cases.?Increasing?utilization?of?resources.

      Keywords:automatic?tagging;?latent?dirichlet?allocation;?Word2Vec

      0?引言

      在互聯(lián)網(wǎng)應(yīng)用中,對象和標(biāo)簽的結(jié)合方法是一種非常有用的技術(shù),標(biāo)簽?zāi)軌虼蠓忍岣咝畔z索的效率,高質(zhì)量的標(biāo)簽還能夠幫助對資源進(jìn)行分類和整合,使得資源的利用變得更加有效。對圖像、視頻及文本等資源進(jìn)行自動標(biāo)注的方法通常有兩類,一類是關(guān)鍵詞提取方法,另一類是近年來逐漸興起的關(guān)鍵詞生成方法,關(guān)鍵詞提取只依賴于文本本身的信息,不能生成新的信息,標(biāo)簽提取的效果已經(jīng)到了瓶頸。因此,能夠生成新信息的標(biāo)簽提取方法近年來越來越受到人們的重視,這種新的標(biāo)簽提取方法和傳統(tǒng)基于關(guān)鍵詞提取的方法最主要的不同點(diǎn)就是它往往擁有更加優(yōu)化的詞庫和非線性結(jié)構(gòu),從而能夠取得更好的標(biāo)簽提取效果。

      1?介紹

      在信息檢索領(lǐng)域,快速增長的信息量和日益困難的數(shù)據(jù)收集不斷帶來新的挑戰(zhàn),亟需新的方法應(yīng)對這些挑戰(zhàn)。為了解決資源可用標(biāo)簽過少的問題,我們使用了一種新的自動標(biāo)注方法,通過計(jì)算標(biāo)簽之間的語義關(guān)系,對公共文化資源的已有標(biāo)簽進(jìn)行擴(kuò)展,此方法已經(jīng)在以前的工作[1]中進(jìn)行了發(fā)表。在本文中,我們在前文研究工作的基礎(chǔ)上,改進(jìn)了模型,同時(shí)對數(shù)據(jù)集進(jìn)行了擴(kuò)展,使用了新的評估指標(biāo)和對比算法。在實(shí)驗(yàn)中,我們使用了如下過程對標(biāo)簽和資源進(jìn)行處理。

      對于文本資源,使用LDA模型,根據(jù)主題的分布生成頻率共現(xiàn)矩陣,矩陣的每一行即是一項(xiàng)資源的向量,表示該資源在該矩陣空間中的位置。

      對于標(biāo)簽,使用Word2Vec模型進(jìn)行處理,將初始標(biāo)簽映射到同一個(gè)向量空間中,同時(shí)生成初始標(biāo)簽的表示向量。

      通過使用如上的方法,我們完成對資源的標(biāo)簽的向量化,然后我們根據(jù)資源和標(biāo)簽的對應(yīng)關(guān)系構(gòu)建資源-標(biāo)簽向量對,再構(gòu)建深度結(jié)構(gòu)語義模型(deep?structured?semantic?model,?DSSM)并使用向量化后的資源和標(biāo)簽對模型進(jìn)行訓(xùn)練,訓(xùn)練完成后再次利用訓(xùn)練好的模型計(jì)算出資源和初始標(biāo)簽集中每個(gè)標(biāo)簽的相似度,利用相似度的大小對初始標(biāo)簽進(jìn)行排序,并取和該資源相似度最高的一批初始標(biāo)簽作為該資源的擴(kuò)展標(biāo)簽。

      2?相關(guān)研究

      許多研究者都對自動標(biāo)簽技術(shù)進(jìn)行過討論,文[2]設(shè)計(jì)了一種名為TagAssist的系統(tǒng),能夠利用現(xiàn)有的標(biāo)簽內(nèi)容為新的博客自動分配標(biāo)簽。Belem等人[3]提出了一種為目標(biāo)對象分配標(biāo)簽的新方法,使用了啟發(fā)式的方法,能夠?qū)⑿碌亩攘糠绞郊尤氍F(xiàn)有的方法中,并使用一些生成備選詞語描述目標(biāo)對象的內(nèi)容。Huang等人[4]設(shè)計(jì)了一種新的深度結(jié)構(gòu)語義模型,能夠?qū)⑿畔z索中的詢問詞和檢索結(jié)果分別映射到相同的低維向量空間中,并使用詢問詞和檢索結(jié)果在對應(yīng)向量空間中的距離表示它們的相似程度。文[5]提出了一種名為TagHats的分級自動標(biāo)注系統(tǒng),能夠根據(jù)目錄、主題以及關(guān)鍵詞生成出三種類型的標(biāo)簽,根據(jù)目錄生成的標(biāo)簽?zāi)軌蛟诓煌木S度上對文檔進(jìn)行分類。Chirita等[6]提出了一種叫做P-TAG的技術(shù),能夠?yàn)榫W(wǎng)頁生成個(gè)性化標(biāo)簽。

      在自動標(biāo)簽的效率提升方面,文[7]提出了一種針對稀疏短文本的自動標(biāo)簽方法。Si等人[8]提出了一種可擴(kuò)展的實(shí)時(shí)標(biāo)簽推薦方法。通過建立LDA模型,可以實(shí)時(shí)的計(jì)算出將某個(gè)標(biāo)簽分配給一個(gè)文檔的概率,然后選擇概率最高的進(jìn)行分配。

      在自動標(biāo)注使用的算法和數(shù)據(jù)及上,也有人進(jìn)行了大量的前期研究,文[4]使用了詞散列(word?hashing)的處理方法,能夠擴(kuò)大模型的規(guī)模,并能夠?qū)ψ值溥M(jìn)行擴(kuò)展,使得模型能夠用于大型網(wǎng)頁搜索引擎。文[3]采用了RankSVM和遺傳算法,用于生成排序函數(shù),精確分析給定標(biāo)簽和對象之間的相似度。文[9]測試了不同的標(biāo)簽排序方法,構(gòu)建標(biāo)簽云表示目標(biāo)資源數(shù)據(jù)集。文[5]使用了層次分類法和關(guān)鍵詞提取算法,分別負(fù)責(zé)分配目錄標(biāo)簽和主題標(biāo)簽,和負(fù)責(zé)構(gòu)建文檔模型。文[7]中使用了BibSonomy數(shù)據(jù)集對其提出的方法進(jìn)行了驗(yàn)證,結(jié)果表明了所采用方法的有效性。文[10]對其提出的方法在Flickr上的一組經(jīng)過標(biāo)簽的數(shù)據(jù)上進(jìn)行了驗(yàn)證。文[11]采用了分布式訓(xùn)練過程,使用了真實(shí)博客文章數(shù)據(jù)。

      3?自動標(biāo)簽擴(kuò)展模型

      在以前的工作[1]中,已經(jīng)詳細(xì)介紹了基于DSSM的自動標(biāo)簽系統(tǒng)的原理,對之前所做工作進(jìn)行簡單回顧。首先介紹數(shù)據(jù)的預(yù)處理過程。數(shù)據(jù)的預(yù)處理分為兩步,對于資源數(shù)據(jù),使用LDA[12]模型去生成資源的主題分布,以此分布在每個(gè)主題上的概率組成的向量代替資源,對于資源的初始標(biāo)簽,使用百度百科的幾乎所有詞條對Word2Vec模型進(jìn)行訓(xùn)練,并生成這些詞條的向量表示,在結(jié)果中找出初始標(biāo)簽和其對應(yīng)的向量表示,完成數(shù)據(jù)的處理后,我們使用此數(shù)據(jù)對DSSM模型進(jìn)行訓(xùn)練,然后使用訓(xùn)練好的模型計(jì)算資源和所有初始標(biāo)簽之間的相似度并對結(jié)果進(jìn)行排序,取相似度最高的一批標(biāo)簽作為自動標(biāo)注的結(jié)果。

      對于數(shù)據(jù)集中的文本資源,使用了LDA算法[13-15]去生成每個(gè)資源所對應(yīng)的向量,LDA是一種文本主題模型,通過在文本資源上進(jìn)行訓(xùn)練,能夠生成文本資源的主題分布,使用此分布能夠計(jì)算出文本資源在確定主題數(shù)量下的向量表示。

      對于各數(shù)據(jù)集的初始標(biāo)簽,使用了Word2Vec去生成其表示向量,Word2Vec是一種用于提取詞向量的工具,包括CBOW模型和Skip-gram模型[16-17]中,使用的是CBOW模型,它能夠?qū)⒉煌脑~語簽映射到同一個(gè)向量空間中,同時(shí)獲得每個(gè)詞語的向量表示。

      使用LDA和Word2Vec完成資源和標(biāo)簽的向量化以后,根據(jù)資源和向量的初始關(guān)系將其組成資源-向量對,利用此資源-向量對訓(xùn)練DSSM,最終得到DSSM模型的參數(shù),訓(xùn)練完成后,重新將資源和所有標(biāo)簽作為輸入,計(jì)算資源和所有標(biāo)簽的相似度,根據(jù)相似度進(jìn)行排序,取相似度最高的作為資源的擴(kuò)展標(biāo)簽。DSSM能夠構(gòu)建網(wǎng)絡(luò)計(jì)算文本之間的語義相似度,本文中使用的DSSM結(jié)構(gòu)如圖?1所示,在圖中,IR表示資源輸入向量,OR表示資源輸出向量,IT表示標(biāo)簽輸入向量,OT表示標(biāo)簽輸出向量,在中間層l1,?l2,?…?ln中,W1,?W2,?…,?Wn表示相應(yīng)權(quán)重矩陣,b1,?b2,?…,?bn表示偏差。

      在訓(xùn)練過程中,使用了梯度下降法進(jìn)行迭代,訓(xùn)練過程如下:

      步驟1):輸入:N=迭代次數(shù)

      RA=資源網(wǎng)絡(luò)初始結(jié)構(gòu)參數(shù),?TA=標(biāo)簽網(wǎng)絡(luò)初始結(jié)構(gòu)參數(shù)

      RD=資源輸入向量,?TD=標(biāo)簽輸入向量

      WR=資源初始權(quán)重矩陣,?WT=標(biāo)簽初始權(quán)重矩陣

      步驟3):對RA,TA,WR,WT進(jìn)行初始化

      步驟4):For?n=1:N

      步驟5):NR←RD

      步驟6):NT←TD

      步驟7):使用NR和NT對WR和WT進(jìn)行更新

      步驟8):End

      步驟9):輸出:?WR=資源權(quán)重矩陣,?WT=標(biāo)簽權(quán)重矩陣

      4?實(shí)驗(yàn)

      在此部分中,闡述了實(shí)驗(yàn)過程。包括實(shí)驗(yàn)環(huán)境、實(shí)驗(yàn)數(shù)據(jù)、評估指標(biāo)、對比算法、實(shí)驗(yàn)步驟、實(shí)驗(yàn)結(jié)果和分析。

      4.1?實(shí)驗(yàn)環(huán)境

      在實(shí)驗(yàn)中,硬件環(huán)境為Intel?Core?i7?6700+NVIDIA?GeForce?GTX?1080。軟件環(huán)境為PyCharm+TensorFlow?1.4.0。PyCharm是一款Python?IDE,帶有一整套可以幫助用戶在使用Python語言開發(fā)時(shí)提高其效率的工具。TensorFlow是一個(gè)以數(shù)據(jù)流圖計(jì)算單元的開源軟件庫,圖的節(jié)點(diǎn)代表數(shù)學(xué)運(yùn)算,圖的邊代表多維數(shù)組(張量),這種結(jié)構(gòu)使得用戶能夠不用重復(fù)代碼就將計(jì)算任務(wù)部署在計(jì)算機(jī)或服務(wù)器的多個(gè)CPU或者GPU上,在本文中我們使用了TensorFlow中現(xiàn)成的模塊和工具。

      4.2?實(shí)驗(yàn)數(shù)據(jù)

      使用的數(shù)據(jù)除了公共文化數(shù)據(jù)之外,還包括Last.fm數(shù)據(jù)集、MovieLens數(shù)據(jù)集和delicious數(shù)據(jù)集,公共文化數(shù)據(jù)來自于相關(guān)項(xiàng)目的大數(shù)據(jù)平臺,數(shù)據(jù)包括公共數(shù)字文化相關(guān)資源數(shù)據(jù)和其所對應(yīng)的初始標(biāo)簽,公共文化資源包括文化視頻的文本描述,博物館藏品介紹,文化相關(guān)書籍介紹等。Last.fm數(shù)據(jù)集包括音樂作者信息和用戶對作者的手動標(biāo)注的標(biāo)簽,MovieLens數(shù)據(jù)集包括電影信息和其對應(yīng)的初始標(biāo)簽,delicious數(shù)據(jù)集包括書簽信息和對應(yīng)的初始標(biāo)簽,各數(shù)據(jù)集的資源和標(biāo)簽數(shù)量如表1所示。

      對于數(shù)據(jù)中的資源,使用收集到的公共數(shù)字文化資源和另外三種公開數(shù)據(jù)集分別對LDA模型進(jìn)行訓(xùn)練,分別獲取在每種數(shù)據(jù)集下每個(gè)資源文檔的概率分布和模型的參數(shù)。訓(xùn)練完成后,可以根據(jù)模型的參數(shù)計(jì)算出每個(gè)主題相對于資源文檔的條件概率p(topic|doc),資源向量每一維的數(shù)值即為此條件概率的值。對于新的資源,根據(jù)訓(xùn)練好的參數(shù)直接為其生成資源向量。

      對于初始標(biāo)簽,為了能夠生成初始標(biāo)簽的向量表示,提取了百度百科中的幾乎所有(864,705)詞條構(gòu)建語料庫,然后將初始標(biāo)簽中不存在于此語料庫中的詞添加進(jìn)去,語料庫中詞語最終數(shù)量達(dá)到872,705,使用此語料庫對CBOW模型進(jìn)行訓(xùn)練,訓(xùn)練完成后,這些詞語被映射到同一個(gè)向量空間中,同時(shí)得到這些詞語的向量表示,我們在此結(jié)果中對公共文化數(shù)據(jù)和其它公開數(shù)據(jù)集中的初始標(biāo)簽進(jìn)行搜索,找到初始標(biāo)簽和其對應(yīng)的向量表示。

      4.3?評估指標(biāo)

      為了對算法的性能進(jìn)行度量,使用以下幾種評估指標(biāo)。

      平均排序倒數(shù)(mean?reciprocal?rank,?MRR),計(jì)算排序后的標(biāo)簽中被正確排序的標(biāo)簽的序列倒數(shù)在整個(gè)測試數(shù)據(jù)中的平均值。MRR的計(jì)算方法如下:

      其中R(tag)表示擴(kuò)展后的標(biāo)簽在初始標(biāo)簽集中的位置。

      精度(Precision),計(jì)算初始標(biāo)簽在擴(kuò)展后標(biāo)簽中所占的比重。精度的計(jì)算方法如下:

      其中σ(R(tag)≤N)為指示函數(shù),表示當(dāng)R(tag)≤N是返回1,否則返回0。在實(shí)驗(yàn)中使用了P@1和P@5兩種指標(biāo)。

      平均準(zhǔn)確率(mean?average?precision,?MAP),計(jì)算資源的標(biāo)簽擴(kuò)展準(zhǔn)確率的平均值。平均準(zhǔn)確率的計(jì)算方法為:

      歸一化折損累計(jì)增益(normalized?discounted?cumulative?gain,?NDCG),計(jì)算公式為:

      4.4?對比算法

      將實(shí)驗(yàn)的結(jié)果和常用標(biāo)簽擴(kuò)展算法進(jìn)行了對比,參與對比的標(biāo)簽擴(kuò)展算法有TF-IDF[18],TextRank[19-20],N-gram[9,13],基于LDA的關(guān)鍵詞提取[15],TPR?[13-15]。

      TF-IDF是一種用于提取文本關(guān)鍵詞的常用技術(shù),通過統(tǒng)計(jì)單詞的詞頻(term?frequency)和逆文檔頻率(inverse?document?frequency),并將結(jié)果相乘的方式計(jì)算單詞的重要程度,詞頻表示單詞在文檔中出現(xiàn)的頻率,逆文檔頻率和包含單詞的文檔數(shù)有關(guān),包含單詞的文檔數(shù)越多,逆文檔頻率越高,說明單詞有很好的類別區(qū)分能力。TextRank是一種基于圖的排序算法,通過把文本分割成不同的單元單詞并建立圖模型,利用投票機(jī)制對文本中的單詞進(jìn)行排序,取票數(shù)最多的單詞為文本的標(biāo)簽,TextRank的優(yōu)點(diǎn)是不需要實(shí)現(xiàn)對文檔進(jìn)行學(xué)習(xí)訓(xùn)練,并且計(jì)算較為簡便,因而使用較為廣泛。N-gram的基本思想是將文本里面的內(nèi)容按照字節(jié)進(jìn)行大小為N的滑動窗口操作,形成長度為N的字節(jié)片段序列。每一個(gè)字節(jié)片段稱為gram,對所有的gram的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并且按照事先設(shè)定好的閾值進(jìn)行過濾,形成關(guān)鍵gram列表,也就是這個(gè)文本的向量特征空間,最終以頻率最高的gram作為提取出的標(biāo)簽。基于LDA的關(guān)鍵詞提取首先使用文本集對LDA模型進(jìn)行訓(xùn)練,完成訓(xùn)練后得到一篇文章的主題分布和文章中詞的主題分布,然后通過KL散度來計(jì)算這兩個(gè)分布的相似性。如果文章的某一主題z的概率很大,而該文章中某個(gè)詞對于該主題z也擁有更大的概率,那么該詞就會有非常大的概率成為擴(kuò)展的標(biāo)簽。TPR是LDA與TextRank相結(jié)合的方法,其思想是文本的每個(gè)主題單獨(dú)運(yùn)行各自的帶偏好的TextRank,每個(gè)主題的TextRank都會偏好與該主題有相關(guān)度較大的詞,對于每個(gè)主題z,根據(jù)LDA的訓(xùn)練都可以得到每個(gè)主題下的詞的分布,可以把每個(gè)詞的概率值單做該主題下Textrank的跳轉(zhuǎn)概率來計(jì)算,從而優(yōu)化每個(gè)詞的得分。

      4.5?實(shí)驗(yàn)步驟

      在實(shí)驗(yàn)中,我們首先使用了LDA和Word2Vec生成資源和標(biāo)簽的表示向量,然后使用初始的資源-標(biāo)簽對訓(xùn)練DSSM模型,資源向量和標(biāo)簽向量的維度分別為200和150。訓(xùn)練完成后,我們計(jì)算每個(gè)資源和所有標(biāo)簽的相似度,然后根據(jù)相似度由高到低對標(biāo)簽進(jìn)行排序,取前N個(gè)相似度最高的標(biāo)簽作為資源的擴(kuò)展標(biāo)簽,圖2表示這一過程。

      從圖中可以看出,實(shí)驗(yàn)包括3個(gè)步驟,第一步是分別使用LDA和Word2Vec對資源和初始向量進(jìn)行處理,向量化后的資源和標(biāo)簽維度分別為200和150。第二步是使用資源和初始標(biāo)簽的表示向量對DSSM模型進(jìn)行訓(xùn)練,實(shí)驗(yàn)中采用的DSSM網(wǎng)絡(luò)層數(shù)和每一層的節(jié)點(diǎn)數(shù)如表2所示。

      模型訓(xùn)練完成后,可以計(jì)算給定標(biāo)簽的資源概率,給定標(biāo)簽的資源的先驗(yàn)概率通過softmax函數(shù)進(jìn)行計(jì)算。

      其中γ為平滑因子,通常由經(jīng)驗(yàn)給出。資源和標(biāo)簽之間的cos相似度,可以用以下公式進(jìn)行計(jì)算。

      最終收斂后,WR和WT都為近似的最優(yōu)解,同時(shí)得到模型的參數(shù)結(jié)構(gòu)。

      對于每個(gè)資源-標(biāo)簽對,使用(R,T+)去代替(R,T),其中T+為初始標(biāo)簽,獲取模型參數(shù)的目標(biāo)函數(shù)為最大化給定標(biāo)簽的資源的似然:

      第三步是使用訓(xùn)練好的網(wǎng)絡(luò)對資源進(jìn)行標(biāo)簽擴(kuò)展,在這一步中,網(wǎng)絡(luò)的參數(shù)固定,對數(shù)據(jù)集中的每一個(gè)資源,將其向量分別和所有初始標(biāo)簽向量作為輸入,計(jì)算它們之間的相似度,然后根據(jù)資源和所有初始標(biāo)簽的相似度的大小對初始標(biāo)簽進(jìn)行排序,取前N個(gè)標(biāo)簽作為資源的擴(kuò)展標(biāo)簽,分別取N為10、20、30、40、50進(jìn)行了實(shí)驗(yàn)。

      4.6?實(shí)驗(yàn)結(jié)果和分析

      在各個(gè)數(shù)據(jù)集上都用本文所提出的方法和對比算法進(jìn)行了實(shí)驗(yàn),當(dāng)擴(kuò)展標(biāo)簽數(shù)量N=20時(shí),在不同數(shù)據(jù)集上各指標(biāo)的實(shí)驗(yàn)結(jié)果如表3所示。

      分析實(shí)驗(yàn)結(jié)果,可以看出在公共文化數(shù)據(jù)集和其它公開數(shù)據(jù)集上,DSSM標(biāo)簽擴(kuò)展的結(jié)果在P@1,P@5,MAP上明顯優(yōu)于TF-IDF、TextRank、N-gram、LDA,這是因?yàn)镈SSM是通過提取資源和標(biāo)簽的特征,計(jì)算它們之間的相似度的方式進(jìn)行標(biāo)簽擴(kuò)展,能夠挖掘出資源與標(biāo)簽之間的深層信息,并且能夠以整個(gè)初始標(biāo)簽作為備選庫進(jìn)行標(biāo)簽擴(kuò)展。而TF-IDF、TextRank、N-gram是通過計(jì)算資源中詞語的重要程度,然后排序的方式提取標(biāo)簽,詞語和資源之間沒有聯(lián)系,同時(shí)備選庫較少,所以擴(kuò)展的精度不如DSSM。LDA雖然采用提取主題的方式進(jìn)行標(biāo)簽擴(kuò)展,但是也沒有考慮資源和初始標(biāo)簽之間的關(guān)系,所以結(jié)果也低于DSSM。而融合了TextRank和LDA的TPR在精度的表現(xiàn)上則與DSSM相當(dāng),說明在既考慮到單詞重要性又進(jìn)行主題提取的情況下,標(biāo)簽擴(kuò)展的準(zhǔn)確率能夠得到顯著改善。在MRR的表現(xiàn)上,可以看出在公共文化數(shù)據(jù)集上DSSM的MRR值略優(yōu)于其它算法,而其它公開數(shù)據(jù)集上DSSM的MRR值并不突出,這表明DSSM在中文數(shù)據(jù)集中有一定的優(yōu)勢,比較適合于中文資源的標(biāo)簽擴(kuò)展,其原因可能是因?yàn)樵趯Τ跏紭?biāo)簽進(jìn)行向量化時(shí),Word2Vec的訓(xùn)練集中的中文詞匯較多所致。在NDCG@3的表現(xiàn)上,DSSM和其它算法并無顯著差異。

      同時(shí),分別取標(biāo)簽擴(kuò)展數(shù)量N為10、20、30、40、50進(jìn)行了實(shí)驗(yàn),不同N在各數(shù)據(jù)集上的MAP結(jié)果如表4所示。

      從結(jié)果來看,總體上標(biāo)簽擴(kuò)展精度隨N的增加而增加,但當(dāng)N達(dá)到一定數(shù)量時(shí),精度不再增加,這是因?yàn)橘Y源的初始標(biāo)簽數(shù)量有限,當(dāng)擴(kuò)展標(biāo)簽數(shù)量持續(xù)增加時(shí),不能提供更加完善的對比。

      在各個(gè)數(shù)據(jù)集上,本文所使用方法在總體上優(yōu)于其它標(biāo)簽擴(kuò)展方法。

      5?結(jié)?論

      討論了使用深度結(jié)構(gòu)語義模型進(jìn)行標(biāo)簽擴(kuò)展的可能性,通過實(shí)驗(yàn)和比較,對于所使用的各數(shù)據(jù)集,MRR值和精度能夠優(yōu)于實(shí)驗(yàn)中采用的其它對比算法,證明本文所提出方法在標(biāo)簽擴(kuò)展方向的優(yōu)勢,在實(shí)際應(yīng)用中,通過本文擴(kuò)展的標(biāo)簽在后續(xù)的使用中被認(rèn)為是非常有效的。

      我們未來的工作中,在以下方面將進(jìn)行擴(kuò)展研究,首先是數(shù)據(jù)的數(shù)量不是特別充分,未來還會在更大的數(shù)據(jù)集上對所提出方法進(jìn)行驗(yàn)證。其次,擴(kuò)展標(biāo)簽優(yōu)劣程度還需要更加系統(tǒng)的進(jìn)行衡量。

      參?考?文?獻(xiàn):

      [1]?LEI?Zhiwen,?YANG?Yi,?HUANG?Weixing,?et?al.?Tag?Recommendation?for?Cultural?Resources[C]//?2018?IEEE?International?Conference?on?Software?Quality,?Reliability?and?Security?Companion?(QRS-C),?Lisbon,?2018:?566.

      [2]?SOODS?C,?HAMMOND?K?J,?OWSLEY?S?H,?et?al.?TagAssist:?Automatic?Tag?Suggestion?for?Blog?Posts[C]//?ICWSM,?Colorado,?USA,?Mar?26-28,?2007.

      [3]?BELEM,?FABIANO,?EDER?MARTINS,?et?al.?Associative?Tag?Recommendation?Exploiting?Multiple?Textual?Features[C]//?Proceedings?of?the?34th?International?ACM?SIGIR?Conference?on?Research?and?Development?in?Information?Retrieval,?ACM,?2011.?1033.

      [4]?HUANG?Posen,?HE?Xiaodong,?GAO?Jianfeng,?et?al.?Learning?Deep?Structured?Semantic?Models?for?Web?Search?Using?Clickthrough?Data[C]//?Proceedings?of?the?22nd?ACM?International?Conference?on?Conference?on?Information?&?Knowledge?Management,?ACM,?2013:?2333.

      [5]?NISHIDA?KYOSUKE,?FUJIMURA?KO.?Hierarchical?Auto-tagging:?Organizing?Q&A?Knowledge?for?Everyone[C]//?Proceedings?of?the?19th?ACM?International?Conference?on?Information?and?Knowledge?Management,?ACM,?2010:?1657.

      [6]?CHIRITA,?PAUL-ALEXANDRU,?STEFANIA?COSTACHE,?et?al.?P-tag:?Large?Scale?Automatic?Generation?of?Personalized?Annotation?Tags?for?the?Web[C]//?Proceedings?of?the?16th?International?Conference?on?World?Wide?Web,?ACM,?2007:?845.

      [7]?DIAZ-AVILES,?ERNESTO,?MIHAI?GEORGESCU,?et?al.?Lda?for?On-the-fly?Auto?Tagging[C]//?Proceedings?of?the?Fourth?ACM?Conference?on?Recommender?Systems,?ACM,?2010:?309.

      [8]?SI?Xiance,?SUN?Maosong.?Tag-LDA?for?Scalable?Real-time?Tag?Recommendation[J].Journal?of?Information&Computational?Science,?2009,?6(2):?1009.

      [9]?HARA?SUNAO,?KITAOKA?NORIHIDE,?TAKEDA?KAZUYA.?On-line?Detection?of?Task?Incompletion?for?Spoken?Dialog?Systems?Using?Utterance?and?Behavior?Tag?N-gram?Vectors[C]//?Proceedings?of?the?Paralinguistic?Information?and?its?Integration?in?Spoken?Dialogue?Systems?Workshop.?Springer,?New?York,?2011:?215.

      [10]SKOUTAS,?DIMITRIOS,?MOHAMMAD?ALRIFAI.?Ranking?Tags?in?Resource?Collections[C]//?Proceedings?of?the?34th?International?ACM?SIGIR?Conference?on?Research?and?Development?in?Information?Retrieval.?ACM,?2011:?1207.

      [11]ZHANG?Hongbin,?JI?Donghong,?YIN?Lan,?et?al.?Product?Image?Sentence?Annotation?Based?on?Kernel?Descriptors?and?Tag-rank[J].?Journal?of?Southeast?University,?2016,?32(2):?170.

      [12]FRIGYIK?B,?KAPILA?A,?GUPTA?R.?Introduction?to?the?Dirichlet?Distribution?and?Related?Processes[R].?Department?of?Electrical?Engineering,?University?of?Washignton,?Uweetr-2010-0006,?2010.

      [13]CHEN?LINCHIH.?An?Effective?LDA-based?Time?Topic?Model?to?Improve?Blog?Search?Performance[J].Information?Processing?&?Management,?2017,?53(6):?1299.

      [14]PAVLINEK?MIHA,?PODGORELEC?VILI.?Text?Classification?Method?Based?on?Self-training?and?LDA?Topic?Models[J].Expert?Systems?with?Applications,?2017,?80:?83.

      [15]LU?Yue,?MEI?Qiaozhu,?ZHAI?Chengxiang.?Investigating?Task?Performance?of?Probabilistic?Topic?Models:?An?Empirical?Study?of?PLSA?and?LDA[J].Information?Retrieval,?2011,?14(2):?178.

      [16]LE?QUOC,?MIKOLOV?TOMAS.?Distributed?Representations?of?Sentences?and?Documents[C]//?International?Conference?on?Machine?Learning,?2014:?1188.

      [17]MIKOLOV?TOMAS,?TOMAS,?CHEN?Kai,?GREG?CORRADO,?et?al.?Efficient?Estimation?of?Word?Representations?in?Vector?Space[C]//?arXiv?Preprint?arXiv:1301.3781,?2013.

      [18]HUANG?Chenghui,?YIN?Jian,?HOU?Fang.?A?Text?Similarity?Measurement?Combining?Word?Semantic?Information?with?TF-IDF?Method[J].Jisuanji?Xuebao(Chinese?Journal?of?Computers),?2011,?34(5):?856.

      [19]李鵬,王斌,石志偉,等.?Tag-TextRank:一種基于Tag的網(wǎng)頁關(guān)鍵詞抽取方法[C]//?全國信息檢索學(xué)術(shù)會議,2010:456.

      LI?Peng,?WANG?Bin,?SHI?Zhiwei,?et?al.?Tag-TextRank:?A?Tag-Based?Keyword?Extraction?Method[C].?National?Conference?on?Information?Retrieval,?2010:456.

      [20]LI?Peng,?WANG?Bin,?SHI?Zhiwei,?et?al.?Tag-TextRank:?A?Webpage?Keyword?Extraction?Method?Based?on?Tags[J].Journal?of?Computer?Research?and?Development,?2012,?49(11):?2344.

      (編輯:溫澤宇)

      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      白玉县| 隆德县| 江山市| 紫阳县| 武冈市| 深泽县| 札达县| 北辰区| 定结县| 延边| 苍南县| 武安市| 山东省| 额敏县| 扬州市| 巴青县| 黄龙县| 叶城县| 兴和县| 南昌市| 儋州市| 牟定县| 古蔺县| 项城市| 荥经县| 长武县| 大足县| 沾化县| 上高县| 许昌县| 曲阜市| 泸水县| 登封市| 鄱阳县| 伊春市| 太仆寺旗| 赤城县| 客服| 财经| 仁布县| 陵水|