• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)頁搜索排序模型研究

      2020-04-29 11:02:08李明琦
      關(guān)鍵詞:網(wǎng)頁文檔排序

      李明琦

      (哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001)

      0 引 言

      隨著互聯(lián)網(wǎng)的發(fā)展以及相關(guān)技術(shù)的不斷提升與完善,人們獲取信息的主要途徑從查閱書籍、報(bào)紙等紙質(zhì)材料轉(zhuǎn)向了搜索引擎。然而,用戶往往需要耗費(fèi)大量時(shí)間從紛繁復(fù)雜的網(wǎng)頁中去甄別有用信息。因此,高效地進(jìn)行信息檢索的主要挑戰(zhàn)是優(yōu)化網(wǎng)頁搜索的排序以檢索出與用戶查詢相關(guān)的文檔。時(shí)下,許多搜索引擎仍在進(jìn)一步研究新的排序算法,來提升用戶的滿意度。

      目前,第二代搜索引擎還有一些不足之處。其一是相關(guān)性問題,即用戶使用的檢索詞與文檔的相關(guān)程度。通常使用的語言是復(fù)雜的,難以通過表面的文檔特征來判斷該文檔是否與檢索詞相關(guān)。一方面,這種判斷會(huì)使搜索引擎返回大量網(wǎng)頁,且容易發(fā)生排序作弊現(xiàn)象,另一方面,這種判斷無法返回不包含檢索詞、但相關(guān)性高的文檔。其二,大多搜索引擎是根據(jù)關(guān)鍵詞匹配,經(jīng)常給出許多混合結(jié)果,不能有效解決問題。雖然搜索引擎展示的結(jié)果與用戶檢索的關(guān)鍵詞相關(guān),但是這并不能滿足用戶對(duì)信息的需求與期待。

      改善這些問題的一種方法是更好地理解用戶行為,在不斷地檢索過程中,搜索引擎收集到了大量的用戶行為數(shù)據(jù),通過分析和利用這些數(shù)據(jù),可以有效提升排序效果。同時(shí),如果能在文檔特征中加深語義理解,就能使檢索詞與文檔的相關(guān)程度分析得更為精準(zhǔn),從而能夠提高用戶的滿意度。

      近期的研究者已經(jīng)轉(zhuǎn)而關(guān)注起新的研究任務(wù),并不是因?yàn)榫W(wǎng)頁搜索排序問題已經(jīng)完全解決了,而是因?yàn)檫@個(gè)任務(wù)到達(dá)了一個(gè)平臺(tái)期。網(wǎng)頁搜索排序問題仍然有著實(shí)際重要性,因此還需展開深入系統(tǒng)研究,推動(dòng)該領(lǐng)域的發(fā)展與進(jìn)步。

      1 相關(guān)工作

      網(wǎng)頁搜索排序,即給定一個(gè)查詢Q和一個(gè)網(wǎng)頁文檔集合D,基于文檔和查詢的相關(guān)性得分,給出最相關(guān)k個(gè)文檔的順序。迄今為止,許多學(xué)者嘗試了各種方法來解決這個(gè)問題,而且取得了較為可觀的成果。

      搜索引擎在早期時(shí),主要用到的網(wǎng)頁排序思想是根據(jù)關(guān)鍵詞在文檔中出現(xiàn)的位置和頻率進(jìn)行排序?;驹硎?,關(guān)鍵詞在文檔中的詞頻越高,出現(xiàn)的位置越重要,則被認(rèn)為和檢索詞的相關(guān)性越好。OkapiBM25[1]是一個(gè)流行的基于tf/idf的排序函數(shù)。

      然后,出現(xiàn)了鏈接分析排序技術(shù),其思想源于文獻(xiàn)引文索引機(jī)制,若網(wǎng)頁被其他網(wǎng)頁引用的次數(shù)越多,或者被越有價(jià)值的網(wǎng)頁所引用,該網(wǎng)頁的價(jià)值就越大。

      斯坦福大學(xué)Page等人[2]提出了PageRank算法,基本思想是,以PageRank值來判斷網(wǎng)頁的重要程度,PageRank值取決于2個(gè)特征,其一是引用該網(wǎng)頁的網(wǎng)頁個(gè)數(shù),其二是引用該網(wǎng)頁的網(wǎng)頁重要程度。但PageRank算法會(huì)嚴(yán)重排斥新加入的網(wǎng)頁,并且沒有將網(wǎng)頁的主題相關(guān)性考慮到排序中。

      斯坦福大學(xué)的HaveliWala[3]提出了主題敏感的PageRank算法,解決了主題漂流問題,然而這個(gè)算法沒有用主題的相關(guān)性來提高鏈接得分的準(zhǔn)確性。

      Google的工程師Bharat等人[4]獲得了HillTop算法的專利,解決了PageRank算法的查詢無關(guān)性的問題,文檔鏈接如果與查詢主題相同會(huì)認(rèn)定為更具可靠性,并只考慮專家頁面,由專家頁面對(duì)用戶查詢進(jìn)行鏈接。這就有效處理了一些想通過增加循環(huán)鏈接數(shù)量提升PageRank值來作弊排序的網(wǎng)頁。然而,專家頁面在查詢過程中權(quán)重非常大,這忽略了許多非專家頁面的影響。

      Kleinberg[5]提出的HITS算法是另一個(gè)基于超鏈接分析的著名排序算法,但仍然無法解決主題漂流的問題,并且可能產(chǎn)生主題泛化等問題。

      在網(wǎng)絡(luò)搜索領(lǐng)域,機(jī)器學(xué)習(xí)算法自動(dòng)訓(xùn)練排序模型越來越流行,因?yàn)榫W(wǎng)頁搜索中,有很多信息可以用來確定query-doc對(duì)相關(guān)性,并且可以利用大量的搜索日志。

      Cao等人[6]將Ranking SVM應(yīng)用于文檔檢索,并對(duì)高排名的文檔加強(qiáng)訓(xùn)練提出了用新的損失函數(shù)解決排序問題,應(yīng)用了梯度下降和二次規(guī)劃來優(yōu)化損失函數(shù)。

      Burges等人[7]提出一種基于PairWise的RankNet方法,使用神經(jīng)網(wǎng)絡(luò)來訓(xùn)練模型,訓(xùn)練的損失函數(shù)為交叉熵,使用梯度下降來優(yōu)化損失函數(shù),時(shí)間復(fù)雜度優(yōu)于Ranking SVM。RankNet優(yōu)化的是pairwise錯(cuò)誤的數(shù)量,但這與檢索特征并不匹配。而其后提出的LambdaRank模型[8],其設(shè)計(jì)思想是直接求梯度,而不是利用代價(jià)。LambdaMART模型[9]則是結(jié)合了MART和LambdaRank,也是基于RankNet的算法。

      對(duì)于網(wǎng)頁搜索的點(diǎn)擊模型最初是考慮點(diǎn)擊偏置來估計(jì)相關(guān)性。Richardson等人[10]提出了位置模型,用戶點(diǎn)擊取決于文檔位置和query-doc對(duì)相關(guān)性。Craswell等人[11]提出了瀑布模型,研究中假設(shè)一個(gè)用戶從頭開始逐個(gè)地瀏覽文檔,并且在遇到不相關(guān)文檔后繼續(xù)瀏覽,但在遇到相關(guān)文檔后停止。許多復(fù)雜的點(diǎn)擊模型都是基于這兩個(gè)模型,如UBM[12]、DBN[13]、CCM[14]。Chapelle等人提出了DBN,該模型假設(shè)了一次點(diǎn)擊當(dāng)且只當(dāng)用戶檢測(cè)并且認(rèn)為網(wǎng)頁是可能相關(guān)的。

      本文采用基于統(tǒng)計(jì)的排序?qū)W習(xí)方法,用不同的方法對(duì)文檔進(jìn)行表示,輸入到排序模型中,進(jìn)行對(duì)比實(shí)驗(yàn),期望在小數(shù)據(jù)集上得到較好的排序效果。

      2 文檔表示方法和排序模型

      本節(jié)擬探討實(shí)驗(yàn)中采取的文檔表示方法和排序模型。這里,排序任務(wù)是機(jī)器學(xué)習(xí)問題,需要抽取不同的特征來代表query-doc對(duì),以輸入到排序模型中進(jìn)行訓(xùn)練。對(duì)此可做分析論述如下。

      2.1 query-doc對(duì)表示方法

      首先,采用手工抽取特征的方式對(duì)query-doc對(duì)進(jìn)行表示,每個(gè)query-doc對(duì)都由多維向量表示,每個(gè)維度都是一個(gè)特征。本任務(wù)抽取了文本特征、相似度特征、匹配特征、點(diǎn)擊特征等14個(gè)特征,見表1。

      表1 特征類型

      文本特征考慮到了查詢和文檔,是非常傳統(tǒng)的用于排序?qū)W習(xí)任務(wù)的特征,長度是基于中文分詞后的結(jié)果進(jìn)行統(tǒng)計(jì)。相似度特征是基于查詢和文檔關(guān)系的特征,由3種模型得到不同的文檔向量表示,然后計(jì)算得到查詢和文檔的余弦相似度。匹配特征是指關(guān)鍵詞在文檔標(biāo)題或內(nèi)容的出現(xiàn)情況,完美匹配即關(guān)鍵詞以連續(xù)順序出現(xiàn)于文檔標(biāo)題或內(nèi)容,非完美匹配即關(guān)鍵詞以不連續(xù)順序出現(xiàn)于文檔標(biāo)題或內(nèi)容。點(diǎn)擊特征是由4種流行的點(diǎn)擊模型(DBN, TCM[15], PSCM[16], UBM)訓(xùn)練得到的點(diǎn)擊概率值,搜索引擎收集的各種用戶行為信息揭示了查詢和點(diǎn)擊文檔的相關(guān)信息,因此這些點(diǎn)擊模型可以根據(jù)用戶行為建立起來并且可以預(yù)測(cè)下次用戶點(diǎn)擊的位置,這些點(diǎn)擊概率給研究者提供了極具價(jià)值的查詢和文檔相關(guān)程度信息。

      這種用特征表示文檔的方法是人們憑經(jīng)驗(yàn)提取組合的,可能并沒有足夠好的表達(dá)query-doc對(duì),并且人工抽取特征也較為耗費(fèi)時(shí)間和人力。所以,研究嘗試使用不同的深度學(xué)習(xí)方法對(duì)query-doc對(duì)進(jìn)行表示,以期能夠表示query-doc對(duì)的深度語義信息,再將這些特征向量作為排序模型的輸入,可能提高整體模型的表現(xiàn)效果。

      Word2Vec方法可以將單詞映射到向量空間,不僅考慮到了詞與詞之間的語義信息,而且還能將詞語映射到低維度的向量,解決了one-hot向量稀疏的問題,常見的用詞向量表示文檔的方式有:對(duì)詞向量的每一個(gè)維度取平均值,最大、最小值等。通常,直接拼接組合詞向量是簡(jiǎn)單有效的方法,通過實(shí)驗(yàn)證明該方法能夠在不同的NLP任務(wù)中取得較好的效果。

      基于Word2Vec的文檔表示方法,考慮到了詞與詞之間的語義信息,并且能夠降低向量的維度,然而,研究時(shí)將文檔中的所有詞取平均值或最大、最小值會(huì)忽略詞與詞之間的順序,同時(shí)對(duì)文本表示信息有一定影響?;贒oc2Vec的文檔表示方法是對(duì)Word2Vec的擴(kuò)展和改進(jìn),其段落向量保留了段落的主題信息,對(duì)段落進(jìn)行記憶。Doc2Vec模型可以將文檔映射到固定維度的向量,既可以學(xué)習(xí)到詞與詞之間的語義信息,又可以保存詞與詞之間的順序信息,用Doc2Vec對(duì)文檔進(jìn)行表示,可以很容易得進(jìn)行文檔相似度等計(jì)算,對(duì)于許多含有長文本的任務(wù)都有所幫助。

      2.2 排序模型

      排序?qū)W習(xí)是一個(gè)有監(jiān)督的機(jī)器學(xué)習(xí)過程,通過對(duì)每一對(duì)給定的query-doc對(duì),抽取查詢文檔的特征表示,然后通過訓(xùn)練排序模型,使得輸出與實(shí)際數(shù)據(jù)相似。常用的排序?qū)W習(xí)分為3種類型:PointWise, PairWise和ListWise。其中,PointWise方法只處理單獨(dú)的文檔,將文檔轉(zhuǎn)換為特征向量,根據(jù)訓(xùn)練數(shù)據(jù)得到的模型對(duì)其進(jìn)行打分,再將所有文檔按照得分結(jié)果進(jìn)行排序。PairWise方法將相關(guān)性得分轉(zhuǎn)換為文檔對(duì)關(guān)系,例如A的相關(guān)性得分為3,B為2,C為1,則可得到A>B,B>C,A>C等關(guān)系。這樣就把排序問題轉(zhuǎn)化成了二分類問題,利用訓(xùn)練模型,對(duì)所有文檔進(jìn)行分類得到偏序關(guān)系,從而構(gòu)造全集的排序關(guān)系。ListWise方法的輸入為一個(gè)文檔序列,通過構(gòu)造合適的度量函數(shù)來優(yōu)化排序,得到排序模型。

      本課題通過調(diào)研選取3種穩(wěn)定的排序模型進(jìn)行實(shí)驗(yàn),分別為:Ranking SVM、 RankNet和LambdaMART。其中,Ranking SVM和RankNet是基于PairWise方法的,LambdaMART是基于ListWise方法的。

      過程中,分別用前文所述方法對(duì)query-doc對(duì)進(jìn)行表示,再與不同的排序模型進(jìn)行組合,這里以使用Word2Vec取平均表示query-doc對(duì),排序模型采取RankNet為例,設(shè)計(jì)模型如圖1所示。

      圖1 基于Word2Vec取平均的文檔表示輸入RankNet模型

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      本課題用到的數(shù)據(jù)集來自NTCIR-14的WWW2任務(wù),包含2萬個(gè)query-doc對(duì),含有相關(guān)性標(biāo)簽,其中15 000對(duì)作為訓(xùn)練集,5 000對(duì)作為測(cè)試集。對(duì)于每對(duì)query-doc對(duì),提供4種弱相關(guān)標(biāo)簽,由4種流行的點(diǎn)擊模型得到,分別為:UBM, DBN, TCM, PSCM。這些點(diǎn)擊標(biāo)簽利用了大量用戶行為,如點(diǎn)擊、跳過、停留時(shí)間。

      3.2 數(shù)據(jù)預(yù)處理

      原始數(shù)據(jù)為xml格式,包含查詢內(nèi)容、查詢頻率、查詢id、文檔url、文檔id、文檔標(biāo)題、文檔內(nèi)容、html、文檔頻率、文檔點(diǎn)擊標(biāo)簽等內(nèi)容。

      首先,需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理。本課題只提取了查詢內(nèi)容、文檔標(biāo)題、文檔內(nèi)容、點(diǎn)擊標(biāo)簽等信息。然后過濾掉內(nèi)容、標(biāo)題等數(shù)據(jù)中的非中文、空格、停用詞、空數(shù)據(jù)等信息。最后,將數(shù)據(jù)進(jìn)行繁簡(jiǎn)轉(zhuǎn)換、分詞等操作。

      3.3 評(píng)價(jià)指標(biāo)

      針對(duì)回歸、分類、排序等不同類型的問題,研究時(shí)用到的評(píng)價(jià)指標(biāo)也不相同。網(wǎng)頁搜索排序返回的結(jié)果通常是有序的,所以需要考慮其位置信息,本課題采用信息檢索的常用評(píng)價(jià)指標(biāo)如NDCG、nERR、Q-measure,來度量排序結(jié)果的優(yōu)劣。

      3.4 實(shí)驗(yàn)結(jié)果

      本節(jié)將BM25算法作為本課題研究的基線,該算法是文檔檢索的常用算法,思路非常簡(jiǎn)單。這里對(duì)比了加入點(diǎn)擊特征對(duì)query-doc對(duì)進(jìn)行表示的情況下,Ranking SVM、 RankNet 和LambdaMART模型的表現(xiàn),具體實(shí)驗(yàn)結(jié)果見表2。

      表2 排序模型在不同特征組合下的實(shí)驗(yàn)結(jié)果

      Tab. 2 The results of ranking model under different combination of features

      排序模型特征NDCG@10Q@10ERR@10LambdaMART加入點(diǎn)擊特征0.546 10.540 70.686 7LambdaMART未加點(diǎn)擊特征0.467 90.473 50.602 6RankNet加入點(diǎn)擊特征0.502 80.514 20.654 3RankNet未加點(diǎn)擊特征0.433 70.434 40.571 7Ranking SVM加入點(diǎn)擊特征0.445 80.453 50.569 5Ranking SVM未加點(diǎn)擊特征0.400 60.409 40.535 3BM250.326 70.332 20.464 1

      由此可以看出,LambdaMart模型表現(xiàn)效果最好,并且點(diǎn)擊特征對(duì)排序結(jié)果非常有幫助。

      采用Word2Vec,Doc2Vec等模型對(duì)文檔進(jìn)行表示,在排序模型上選擇穩(wěn)定性較好的Ranking SVM、 RankNet和LambdaMART進(jìn)行實(shí)驗(yàn),繼而比較3種評(píng)價(jià)指標(biāo)的好壞,實(shí)驗(yàn)結(jié)果見表3。

      由此可以看出,基于深度學(xué)習(xí)的表示方法整體優(yōu)于不加入點(diǎn)擊特征時(shí)的手工提取特征的方法,Doc2Vec模型表現(xiàn)最優(yōu)。

      4 結(jié)束語

      如今,人們?cè)谌粘I钪袕V泛使用互聯(lián)網(wǎng),對(duì)信息的獲取主要求助于搜索引擎,因此對(duì)網(wǎng)頁搜索排序結(jié)果進(jìn)行優(yōu)化是有著重要研究價(jià)值的,好的排序結(jié)果可以節(jié)省用戶瀏覽大量低相關(guān)度網(wǎng)頁的時(shí)間,并且返回用戶滿意的結(jié)果,從而解決人們生活中的實(shí)際問題。

      表3 基于不同文檔表示方法的實(shí)驗(yàn)結(jié)果

      本文在少量標(biāo)注樣本數(shù)據(jù)集上,采用不同的query-doc對(duì)表示方法,對(duì)不同的排序模型如Ranking SVM、RankNet、LambdaMART進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,點(diǎn)擊特征對(duì)于提升排序效果非常重要,并且LambdaMART模型在本實(shí)驗(yàn)中的排序效果最好,穩(wěn)定性較高。本文探索了多種基于深度學(xué)習(xí)的文檔表示方法,如Word2Vec分別取平均值、最大值、最小值,Doc2Vec模型,將以上模型生成的文檔表示向量輸入到排序模型中進(jìn)行了對(duì)比試驗(yàn)。實(shí)驗(yàn)結(jié)果表明,用Doc2Vec模型來表示query-doc對(duì),最終得到的排序結(jié)果是最好的,可以很好地捕捉到文檔的語義信息。本文在網(wǎng)頁搜索排序問題上取得了一定的研究成果,但是仍然存在一些不足。一方面,排序模型的實(shí)驗(yàn)以及基于深度學(xué)習(xí)方法表示文檔的實(shí)驗(yàn)對(duì)比并不充足,未能嘗試基于pointwise方法的排序模型,而且也沒有用更多的深度學(xué)習(xí)方法(如GRU模型)對(duì)文檔進(jìn)行表示,這樣會(huì)使實(shí)驗(yàn)結(jié)果不全面,不足以進(jìn)行有效的論證。另一方面,數(shù)據(jù)樣本較小,且數(shù)據(jù)存在不平衡性,這對(duì)提升排序效果的表現(xiàn)產(chǎn)生一定影響。

      后續(xù)的研究工作可以從半監(jiān)督學(xué)習(xí)方面開展,排序模型效果的表現(xiàn)與訓(xùn)練數(shù)據(jù)的多少相關(guān),由前文可看出,即使研究嘗試了多種文檔表示方法、排序方法,排序結(jié)果的評(píng)價(jià)指標(biāo)仍然沒達(dá)到最理想的狀態(tài)。因?yàn)檠芯恐泻苋菀椎孬@取到大量的無標(biāo)注網(wǎng)頁,其中蘊(yùn)含的信息對(duì)于訓(xùn)練排序模型也是很有價(jià)值的,因此可以利用半監(jiān)督學(xué)習(xí)方法,自動(dòng)標(biāo)注一部分?jǐn)?shù)據(jù),這樣就可以擴(kuò)充訓(xùn)練集,同時(shí)也能盡量保證標(biāo)簽的準(zhǔn)確性。

      猜你喜歡
      網(wǎng)頁文檔排序
      排序不等式
      有人一聲不吭向你扔了個(gè)文檔
      恐怖排序
      節(jié)日排序
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      刻舟求劍
      兒童繪本(2018年5期)2018-04-12 16:45:32
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      江口县| 泾阳县| 寻乌县| 拉萨市| 招远市| 司法| 阿克苏市| 苗栗县| 冕宁县| 文水县| 武穴市| 通州市| 辰溪县| 晴隆县| 香河县| 德安县| 慈利县| 新化县| 灵川县| 华蓥市| 兴仁县| 大埔县| 衡南县| 大渡口区| 武宣县| 慈利县| 木兰县| 新巴尔虎右旗| 青田县| 锡林郭勒盟| 肃北| 久治县| 铜梁县| 南阳市| 镇巴县| 宜都市| 辽中县| 大化| 雷波县| 克山县| 汉中市|